PianoKontext: Expressive Performance Rendering from Deadpan Context

📄 PianoKontext: Expressive Performance Rendering from Deadpan Context #音乐生成 #流匹配 #扩散模型 9.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.1/10 | 前50% | #音乐生成 | #流匹配 | #扩散模型 | arxiv 👥 作者与机构 Dmitrii Gavrilev (机构未在提供的原文中明确提及) 💡 毒舌点评 这篇论文的出发点很巧,把“如何让钢琴弹得有感情”这个玄学问题,转化成了“如何把死气沉沉的MIDI合成音频变得好听”这个工程问题。思路清晰,像用DTW在潜在空间对齐数据这招,算是个实用的小trick。但是,作者你这实验做得也太“精打细算”了吧?就一个MAESTRO子集、一张RTX 4090卡,就想定义“表现力演奏”的未来?连个人类主观听感测试都舍不得做,就敢在结论里谈“音乐性”?这跟用泡面调料包评测米其林餐厅有啥区别。最后那个“缺乏理想 articulation”的自我批评倒是挺诚实,但光承认问题不解决,顶会审稿人可不会买账。 📌 核心摘要 本文提出了PianoKontext,一个用于表现力钢琴演奏渲染(EPR)的潜在流匹配模型。其核心思想是将问题建模为以合成的死板音频为条件,在潜在空间中生成变长、富有表现力的钢琴音频。关键方法包括:1)利用动态时间规整(DTW)在预训练的Music2Latent模型的潜在空间中,对齐MIDI分数合成的死板音频与真实表现力音频,构建训练数据对;2)采用借鉴自FLUX Kontext的DiT架构,通过拼接条件序列和噪声化的目标序列,并使用2D旋转位置编码(RoPE)进行联合自注意力建模,以学习两者间的依赖关系。实验表明,与无监督基线CFG Bridge相比,PianoKontext在音频质量(FAD/KAD)和内容保真度(Pitch DTW、对齐精确率/召回率)上均有提升。 🔗 开源详情 代码仓库:github.com/realfolkcode/pianokontext 提供代码,有助于复现方法。未提供模型权重或完整数据集。 🏗️ 方法概述和架构 PianoKontext的方法可分为数据准备和模型架构两大部分,整体流程如图1所示。 ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 252 words

Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation

📄 Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation #语音识别 #语音翻译 #扩散模型 #流匹配 8.3/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.3/10 | 前25% | #语音识别 | #语音翻译 | #扩散模型 #流匹配 | arxiv 👥 作者与机构 论文作者包括 Xuanchen Li(共同第一作者), Tianrui Wang(共同第一作者), Yuheng Lu, Zikang Huang, Yu Jiang, Chenghan Lin, Chenrui Cui, Ziyang Ma, Xingyu Ma, Chunyu Qiang, Guochen Yu, Xie Chen, Longbiao Wang, Jianwu Dang(通讯作者)。机构在作者列表中未明确标注,但根据通讯作者信息及论文常见模式,推测主要来自小米和相关合作机构。 ...

2026-06-10 · 更新于 2026-06-12 · 3 min · 430 words

End-to-End Training for Discrete Token LLM based TTS System

📄 End-to-End Training for Discrete Token LLM based TTS System #语音合成 #多任务学习 #强化学习 #流匹配 7.6/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 7.6/10 | 前50% | #语音合成 | #多任务学习 | #强化学习 #流匹配 | arxiv 👥 作者与机构 论文作者:Changfeng Gao, Yong Ren, Jun Yuan, Ye Bai, Zhao You, ShiDong Shang。单位未在摘要或作者列表中明确列出,但论文标题和内容表明与小米AI实验室相关。根据作者信息,机构为小米AI实验室与南京大学。 💡 毒舌点评 SOTA声明的谨慎性:论文声称达到“new SOTA result”,但在主实验表格(Table 1)中,与JoyVoice(WER 0.97% zh, 1.69% en)和CosyVoice3-1.5B(WER 1.12% zh, 2.21% en)等模型相比,提升幅度有限(如中文WER从0.97%降至0.78%)。考虑到其使用了0.6B参数的LLM,性能增益是合理的,但“SOTA”的表述可能需要更谨慎地限定在特定模型规模下。 实验设计的局限:论文的核心实验主要基于内部大规模数据集训练的模型进行自比较(Table 1中的Stage1/2/3和w/o E2E),以及与外部模型的有限对比。然而,论文未提供在相同数据、相同基础模型(如Qwen3-0.6B)上与非E2E训练基线(w/o E2E-training)的直接、公平对比的具体实现细节(如是否使用了完全相同的训练数据子集和超参数),这削弱了“E2E训练关键”这一结论的绝对说服力。 组件贡献的归因模糊:虽然消融研究(Table 2, 3)移除了\(L_{LM}\)或\(L_{FM}\),证明了它们的重要性,但论文未深入分析三阶段训练中每个阶段(特别是Stage 2的独立微调)对最终性能的具体贡献比例。Stage 2允许为不同模块使用不同数据,这引入了额外变量,其效果与E2E优化本身的效果未被完全解耦。 理论分析的实用性存疑:Section 2.4的信息论分析将Tokenizer训练形式化为源编码问题,概念上有趣,但公式推导(如公式14)较为初步,且与实验结果的直接关联较弱(如Table 4中H和I的微小差异如何对应显著的性能提升?)。这部分更像理论点缀,而非深入的机理分析。 开源与可复现性短板:尽管论文在训练细节上描述详尽,但完全未提供代码、模型权重或内部数据集的获取途径。对于一个声称方法更简单、性能更优的框架,缺乏开源极大地限制了社区验证和直接应用其价值。 📌 核心摘要 本文提出了一种用于基于离散令牌的LLM的TTS系统的端到端(E2E)训练框架。该框架统一优化了语音分词器、自回归LLM、基于流匹配(FM)的声码器和一个辅助奖励模型(RM)。核心方法包括:1)通过一阶损失(\(L_1\))联合训练分词器,使其直接适应下游LLM预测、FM重构和RM识别任务;2)通过二阶损失(\(L_2\))在LLM生成的令牌分布上优化系统,缓解训练-测试不匹配;3)设计了三阶段训练流程以稳定优化。实验表明,该框架在Seed-TTS-Eval基准上,使用0.6B LLM和0.5B FM模型,取得了0.78%(中文)和1.56%(英文)的WER,达到了SOTA水平。消融研究验证了各损失项和端到端优化的重要性。理论分析从信息论角度探讨了高质量语音令牌应具备高熵和强时序依赖性。 ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 526 words

OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages

📄 OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages #语音合成 #低资源 #数据集 #模型评估 #流匹配 #语音生成 #基准测试 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前25% | #语音合成 | #低资源 | #数据集 #模型评估 | arxiv 👥 作者与机构 David Guzmán1,2, Luel Hagos Beyene3,4, Jesujoba Oluwadara Alabi5, Yejin Jeon1,2, Dietrich Klakow5, David Ifeoluwa Adelani1,2,6 1 McGill University 2 Mila - Quebec AI Institute 3 AIMS Research and Innovation Centre 4 NM-AIST 5 Saarland University 6 Canada CIFAR AI Chair ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 360 words

SMC-ITA: Sequential Monte Carlo Inference-Time Alignment for Video-to-Audio Generation

📄 SMC-ITA: Sequential Monte Carlo Inference-Time Alignment for Video-to-Audio Generation #音频生成 #多模态模型 #流匹配 7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7/10 | 前50% | #音频生成 | #多模态模型 | #流匹配 | arxiv 👥 作者与机构 作者:Haoyu Zhang, Yuta Oshima, Xingjian Du, Chunfeng Wang, Irene Li, Yusuke Iwasawa, Yutaka Matsuo 单位:The University of Tokyo, University of Rochester, Independent ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 438 words

dots.tts Technical Report

📄 dots.tts Technical Report #语音合成 #流匹配 #自回归模型 #多语言 #低资源 #数据增强 #模型压缩 9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9/10 | 前25% | #语音合成 | #数据增强 | #流匹配 #自回归模型 | arxiv 👥 作者与机构 作者:Shi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu。 机构:dots团队,小红书公司(Xiaohongshu Inc.),上海交通大学X-LANCE实验室。 ...

2026-06-08 · 更新于 2026-06-12 · 1 min · 188 words

WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

📄 WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling #语音合成 #端到端 #扩散模型 #流匹配 #语音生成 #多模态模型 9.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 9.2/10 | 前25% | #语音合成 | #端到端 | #扩散模型 #流匹配 | arxiv 👥 作者与机构 作者: Wenxi Chen, Dongya Jia, Yushen Chen, Zhikang Niu, Yuzhe Liang, Xiquan Li, Ruiqi Yan, Ziyang Ma, Guanrou Yang, Sanyuan Chen, Yue Wang, Zhuo Chen, Kai Yu, Xie Chen. 机构: 1) 上海交通大学, 2) 上海创新研究院, 3) 字节跳动 Seed. ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 598 words

DUET: Unified Dual-Space Emotion Control for Diffusion and Flow-Matching Driven Text-to-Speech

📄 DUET: Unified Dual-Space Emotion Control for Diffusion and Flow-Matching Driven Text-to-Speech #语音合成 #扩散模型 #流匹配 7.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.1/10 | 前25% | #语音合成 | #扩散模型 | #流匹配 | arxiv 👥 作者与机构 Xu Zhang, Longbing Cao, Zhangkai Wu。三人均来自麦考瑞大学前沿人工智能研究中心(Frontier AI Research Centre, Macquarie University)。 💡 毒舌点评 这篇工作想法巧妙,将表示工程(representation engineering)的概念移植到了语音合成领域,且实验范围很广。但几个问题不容忽视:1)梅尔空间引导部分的核心公式(Eq.5)中梯度计算细节模糊,例如如何通过可微分声码器计算\(\nabla_{\widehat{\mathbf{x}}_{0}}\,\mathcal{L}_{\mathrm{emo}}\),是端到端微分还是代理梯度?这严重影响方法的可复现性和严谨性。2)主观评估的样本量(36样本×20人)对于支撑“最高情感适度性”的结论略显单薄。3)尽管实验了五个骨干,但StableTTS上的性能(平均48.8%)与其它骨干差距明显,且该骨干架构相对简单,是否暗示DUET对模型容量或架构复杂度有隐含依赖?论文对此讨论不足。4)开源仅提供了引用项目的链接,DUET本身无任何开源材料,这在声称“plug-and-play”和“复现性”的今天是重大减分项。 📌 核心摘要 本文发现,在未经情感监督预训练的扩散与流匹配TTS模型中,情感信息在隐藏状态里表现为一个可线性解码的方向,且该方向与编码说话人身份的方向近似正交。基于此发现,本文提出了DUET框架,这是一个即插即用的方法,通过在去噪的每一步统一执行双空间控制来实现情感生成:1) 在隐藏空间,沿探测得到的情感方向对特定层的隐藏状态进行范数自适应的引导;2) 在梅尔空间,通过将外部情感识别器的损失梯度经由可微分声码器反向传播,对清洁梅尔频谱估计进行引导。实验表明,在五个不同的预训练TTS骨干上,DUET在三个数据集上的平均情感识别准确率超过了10个监督学习基线模型,并在主观评价中获得了最高的情感适度性评分。此外,DUET在Ameca人形机器人上的部署展示了其在具身情感交互中的应用潜力。 ...

2026-06-02 · 更新于 2026-06-12 · 2 min · 376 words

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

📄 Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text #音频生成 #语音合成 #音乐生成 #多模态模型 #扩散模型 #流匹配 #模型评估 #数据增强 🔥 8.6/10 | 前25% | #音频生成 | #数据增强 | #语音合成 #音乐生成 | arxiv 学术质量 6.6/7 | 影响力 1.6/2 | 可复现性 0.4/2 👥 作者与机构 作者: Jiahao Mei (1, 2), Heinrich Dinkel (2), Yadong Niu (2), Xingwei Sun (2), Gang Li (2), Yifan Liao (2), Jiahao Zhou (2), Junbo Zhang (2), Jian Luan (2), Mengyue Wu (1) 机构: 1: X-LANCE Lab, Shanghai Jiao Tong University, Shanghai, China 2: MiLM Plus, Xiaomi Inc., Beijing, China ...

2026-05-28 · 更新于 2026-06-12 · 3 min · 581 words

CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noise-Prior-aware Conditional Flow Matching for MDCT-Spectral Enhancement

📄 CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noise-Prior-aware Conditional Flow Matching for MDCT-Spectral Enhancement #语音编码 #流匹配 🔥 8.4/10 | 前25% | #语音编码 | #流匹配 | arxiv 学术质量 5.8/7 | 影响力 1.8/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 作者:Xiao-Hang Jiang, Yang Ai, Hui-Peng Du, Zhen-Hua Ling, Ji Wu 机构:Xiao-Hang Jiang, Yang Ai, Hui-Peng Du 和 Zhen-Hua Ling 隶属于中国科学技术大学语音及语言信息处理国家工程研究中心;Ji Wu 隶属于清华大学电子工程系。 💡 毒舌点评 论文聚焦于一个非常具体且具有实用价值的细分问题(极低比特率语音编码),并提出了一个技术上合理、设计上自洽的方案。然而,其核心贡献——将单码本压缩与MDCT域CFM增强相结合——在概念上并非革命性突破,更偏向于工程优化和巧妙的组合。最大的问题在于其通用性存疑:性能优势高度集中在0.65 kbps这一极窄的设定下,比特率稍有提高(1.3 kbps),优势便大幅缩水,与MDCTCodec持平。这让人怀疑该方案是否真的解决了根本问题,还是仅仅在极端场景下榨取了一点边际收益。此外,论文声称避免对抗训练以简化学习,但引入的CFM增强器及其诸多稳定化设计(范围归一化、自适应噪声先验)本身也增加了系统的复杂度和调优难度,这与“更简单高效”的宣称需打个问号。作者明确承认的高算法延迟是一个致命弱点,严重限制了其实际部署潜力。 📌 核心摘要 本文提出了CFMDCTCodec,一个完全在MDCT域操作的低比特率神经语音编解码器。该系统由一个轻量级的单码本MDCT谱编解码器和一个噪声先验感知的基于条件流匹配(CFM)的MDCT谱增强器串联组成。编解码器将输入语音的MDCT谱深度压缩为低比特率离散令牌,并解码出粗糙谱。增强器以该粗糙谱为条件,利用由其幅度导出的自适应噪声先验作为CFM的初始状态,通过ODE求解器逐步细化频谱细节。整个系统采用非对抗性的端到端联合优化策略训练。实验表明,在0.65 kbps的极低比特率下,CFMDCTCodec在主观感知质量(MUSHRA)和计算效率(参数量、FLOPs)之间取得了良好平衡,优于或接近多个强基线。消融研究验证了MDCT范围归一化、幅度自适应噪声先验和端到端联合训练的有效性。 🔗 开源详情 代码:论文中未提及CFMDCTCodec的代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中使用了两个公开数据集: LibriTTS (16kHz实验):使用了标准划分,包括train-clean-100、train-clean-360用于训练,dev-clean用于验证,test-clean用于评估。 VCTK (48kHz实验):使用了40,936条语句用于训练,2,937条语句用于测试。 Demo:https://xhjiang1.github.io/CFMDCTCodec 复现材料:论文中详细描述了实验设置、模型架构细节和所有训练超参数,但未提供模型检查点或训练脚本等具体复现材料。 论文中引用的开源项目: DAC: https://github.com/descriptinc/descript-audio-codec BigCodec: https://github.com/Aria-K-Alethia/BigCodec WavTokenizer: https://github.com/jishengpeng/WavTokenizer FlowDec: https://github.com/facebookresearch/FlowDec 🏗️ 方法概述和架构 CFMDCTCodec是一个完全在修改离散余弦变换(MDCT)域工作的两阶段神经语音编解码框架,旨在极低比特率下实现高质量重建。其核心架构如图1所示,包含两个紧密耦合的模块:单码本MDCT谱编解码器和噪声先验感知的CFM-based MDCT谱增强器。 ...

2026-05-27 · 更新于 2026-06-12 · 3 min · 480 words