语音合成 | 语音/音乐/音频论文速递

Which Speech Representation Better Matches Text-Native Reasoning? A Study of Speech-Text Alignment on Frame Rate and Representation

📄 Which Speech Representation Better Matches Text-Native Reasoning? A Study of Speech-Text Alignment on Frame Rate and Representation #语音识别 #语音合成 7.5/10 | 创新 7/2 | 严谨 8/1.5 | 实验 7/1.5 | 清晰 8/1 | 影响 7/1.5 | 开源 0/1.5 | 复现 3/0.5 | 工程 7/1.5 ✅ 7.5/10 | 前50% | #语音识别 | #语音合成 | arxiv 👥 作者与机构 Ye, Tan, Li, Zhang, Chan, Liu, Liu, Lin, Dai, Zhang, Sun, Kong, Xue（香港科技大学，腾讯，萨里大学，香港中文大学，香港浸会大学，香港理工大学，独立研究者）；Zhen, Xu, Yiming, Guangyan, Chimin, Haohe, Zhengxi, Hongzhan, Zheqi, Xinshen, Peiwen, Qiuqiang, Wei（香港科技大学，腾讯，萨里大学，香港中文大学，香港浸会大学，香港理工大学，独立研究者）。 ...

Deploying Speech-Driven 3D Facial Animation in Unreal Engine for Production-Ready Digital Humans

📄 Deploying Speech-Driven 3D Facial Animation in Unreal Engine for Production-Ready Digital Humans #语音合成 6.6/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.6/10 | 前50% | #语音合成 | #语音合成 | arxiv 👥 作者与机构作者：Alessandro Busacchi, Kazi Injamamul Haque, Zerrin Yumak 机构：Utrecht University, The Netherlands 💡 毒舌点评这篇论文定位清晰，直击学术研究与工业生产脱节的痛点，其“桥梁”作用值得肯定。然而，这篇论文在“技术贡献”的成色上有些不足。核心工作是“复现+封装”：基于现有模型（FaceDiffuser， ProbTalk3D-X’。）和现有数据集（MEAD），通过MediaPipe转换构建新数据集并重训模型，然后打包成一个UE插件。这其中的算法创新几乎为零。最硬核的部分——与商业工具的对比——恰恰揭示了学术模型当前（经过其处理后）全面落败的尴尬现实。这本身是一个有价值的发现，但论文在分析“为何败”以及“如何改进模型以缩小差距”上深度不足，更多地停留在描述现象和归因于“数据集质量和模型优化”。补充材料中的定量评估表格（Table 1）显示了重训模型的客观指标，但这些指标与后续的感知研究结果（主观评分）之间的联系未被充分讨论。总的来说，这是一篇工程集成导向的、偏应用的工作，对于推动该领域从“论文demo”走向“可用工具”有参考意义，但作为一篇追求技术突破的顶会论文，其技术深度和贡献度显得薄弱。 📌 核心摘要本文聚焦于将语音驱动的3D面部动画技术从学术研究环境部署到生产级数字人流程中的挑战。作者通过构建3DMEAD-ARKit数据集（将MEAD语料库用MediaPipe处理为ARKit blendshape序列）并重新训练FaceDiffuser和ProbTalk3D-X’。两个模型，开发了一个模块化的虚幻引擎插件，实现了在支持ARKit的数字人上直接进行语音驱动动画生成与控制。论文的核心贡献在于提供了首个将学术模型集成到生产引擎并与行业标杆（NVIDIA Audio2Face， Epic MetaHuman Animator）进行系统性感知对比评估的框架。感知用户研究结果明确表明，商业工具在动画质量上目前显著领先，凸显了当前学术模型在应对真实生产需求时的差距。 ...

LLM can Read Spectrogram: Encoder-free Speech-Language Modeling

📄 LLM can Read Spectrogram: Encoder-free Speech-Language Modeling #语音识别 #语音合成 #参数高效微调 #大语言模型 #模型压缩 8.6/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.6/10 | 前25% | #语音识别 | #参数高效微调 | #语音合成 #大语言模型 | arxiv 👥 作者与机构论文标题为 “LLM can Read Spectrogram: Encoder-free Speech-Language Modeling”。arXiv ID为 2606.10231。论文中未明确列出所有作者及隶属机构。基于作者列表格式和内容，可确认论文有多个作者及贡献者，但具体所属机构（如高校、公司或研究所）未在提供的论文节选中明确说明。 💡 毒舌点评这篇论文的“去编码器”想法确实像在语音领域做了一次“iPhone时刻”的宣言，勇气可嘉。然而，这种“直接吃生频谱图”的豪赌，在ASR上虽勉强过关，但在TTS上却更像是一个概念验证的“玩具”——输出质量远未达标，却试图用“可行性”一词来掩盖工程上的粗糙。论文的论证强在消融实验的洞察力（比如发现了LLM低层更像语音编码器），但弱在对“为什么需要去编码器”这个根本问题的辩护上。作者声称去掉了巨大的编码器，却忘了提自己引入的线性投影层和LLM本身庞大的参数量才是计算瓶颈的新主角。更令人皱眉的是，论文与同期Google Gemma 4 12B的“撞车”，虽然脚注了，但削弱了其作为“首篇学术论文”的时效性和独特性。总而言之，这是一项有启发性但未完成的工作，像一篇精彩的博士开题报告，而非一篇令人信服的NeurIPS论文。 📌 核心摘要本文提出Mel-LLM，一种无编码器的语音大语言模型（Speech-LLM）架构。该模型直接将预处理的梅尔频谱图块通过线性投影层输入到LLM（基于Phi-4-MM）中，省去了传统的预训练语音编码器（如Whisper）。论文在自动语音识别（ASR）和文本转语音（TTS）任务上进行了探索。 ASR结果表明，无编码器方案在OpenASR公开数据集上与编码器基线相比性能下降有限，尤其在数据规模扩大（10倍内部数据）时差距显著缩小（相对下降仅3.8%）。消融实验显示，来自多模态检查点（Phi-4-MM）的初始化在有限数据下至关重要，且LLM的低层（0-23层）更关键于隐式语音编码。 TTS部分采用基于MELLE框架的下一个词元VAE方法进行初步探索，结果表明无编码器架构在TTS上具有可行性，但性能尚未达到最优，且严重依赖Phi-4-MM初始化和合适的训练技巧（如Dropout）。 ...

Optimality of FSQ Tokens for Continuous Diffusion for Categorical Data with Application to Text-to-Speech

📄 Optimality of FSQ Tokens for Continuous Diffusion for Categorical Data with Application to Text-to-Speech #扩散模型 #语音合成 7.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.3/10 | 前50% | #语音合成 | #扩散模型 | arxiv 👥 作者与机构论文作者为Vadim Popov, Wenju Gu, Tasnima Sadekova, Georgii Aparin, Assel Yermekova。作者所属机构未在论文中明确说明。 💡 毒舌点评这篇论文试图为“连续扩散分类数据”这个略显尴尬的混血儿（CDCD）寻找最佳的“灵魂容器”（潜在空间）。理论部分像在为一场精心设计的约会（扩散路径的KL散度）量体裁衣，结论是“FSQ这套西装最合身”。实验部分则直接把这身行头拉到语音合成这个高级秀场（TTS）走秀，结果发现，不仅比原来的自回归西装（CosyVoice2的LLM）更合身，跑得还更快，身材（模型）更苗条。理论部分的“最佳性”证明在高维时有点“理论不够，实验来凑”的意思，而TTS实验的胜利，很大程度上是“非自回归”对“自回归”的结构性胜利，FSQ本身有多大功劳，论文自己都给了“扰动对比”留了后门。总的来说，一篇不错的工程理论结合论文，但离“最佳”的封号还有距离，更适合被看作一个有启发性的工作。 📌 核心摘要本文研究了用于生成分类数据的连续扩散模型（CDCD）的潜在空间结构。作者通过理论分析发现，潜在空间中token嵌入的几何结构可以通过逆向扩散路径度量之间的Kullback-Leibler散度来表征。他们证明了有限标量量化（FSQ）编码本在该度量下具有最优或近优性质，并提出了“最佳精度假设”，即在最优训练的扩散模型中，FSQ潜在空间能最大化token预测准确率。为验证理论，作者训练了基于CDCD的文本到语音（TTS）模型，发现使用FSQ token的模型在性能和效率上均优于其自回归（LLM）基线模型（CosyVoice2），其DiT骨干网络小10倍，推理速度快5倍以上。 ...

BareWave: Waveform-Native Flow-Matching Text-to-Speech

📄 BareWave: Waveform-Native Flow-Matching Text-to-Speech #语音合成 #音频生成 #自监督学习 7.0/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1.4/1 | 影响 1.2/1.5 | 开源 0.8/1.5 | 复现 1.0/0.5 | 工程 1.2/1.5 ✅ 7.0/10 | 前50% | #语音合成 | #Transformer | #音频生成 #自监督学习 | arxiv 👥 作者与机构 Wei Fan1*, Chao-Hong Tan2†, Qian Chen2†, Wen Wang2, Xiangang Li2, Kejiang Chen1†, Weiming Zhang1, Nenghai Yu1. 1安徽大学，数字安全安徽省重点实验室；2阿里巴巴通义实验室 (Tongyi Fun Team, Alibaba Group)。(*工作在Wei Fan于阿里巴巴通义实验室实习期间完成；†通讯作者)。 ...

Cross-Modal Masking for Robust Silent Speech Synthesis Using sEMG and Lipreading

📄 Cross-Modal Masking for Robust Silent Speech Synthesis Using sEMG and Lipreading #语音合成 #多模态模型 #语音识别 #数据增强 #正则化微调 7.5/10 | 创新 2.5/2 | 严谨 2.8/1.5 | 实验 2.5/1.5 | 清晰 2.3/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 2.0/0.5 | 工程 2.5/1.5 ✅ 7.5/10 | 前50% | #语音合成 | #数据增强 | #多模态模型 #语音识别 | arxiv 👥 作者与机构 Eder del Blanco (†, 博士生), David Gimeno-Gómez (†, 博士), Eva Navas, Carlos-D. Martínez-Hinarejos, Inma Hernáez。机构： ...

End-to-End Training for Discrete Token LLM based TTS System

📄 End-to-End Training for Discrete Token LLM based TTS System #语音合成 #多任务学习 #强化学习 #流匹配 7.6/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 7.6/10 | 前50% | #语音合成 | #多任务学习 | #强化学习 #流匹配 | arxiv 👥 作者与机构论文作者：Changfeng Gao, Yong Ren, Jun Yuan, Ye Bai, Zhao You, ShiDong Shang。单位未在摘要或作者列表中明确列出，但论文标题和内容表明与小米AI实验室相关。根据作者信息，机构为小米AI实验室与南京大学。 💡 毒舌点评 SOTA声明的谨慎性：论文声称达到“new SOTA result”，但在主实验表格（Table 1）中，与JoyVoice（WER 0.97% zh, 1.69% en）和CosyVoice3-1.5B（WER 1.12% zh, 2.21% en）等模型相比，提升幅度有限（如中文WER从0.97%降至0.78%）。考虑到其使用了0.6B参数的LLM，性能增益是合理的，但“SOTA”的表述可能需要更谨慎地限定在特定模型规模下。实验设计的局限：论文的核心实验主要基于内部大规模数据集训练的模型进行自比较（Table 1中的Stage1/2/3和w/o E2E），以及与外部模型的有限对比。然而，论文未提供在相同数据、相同基础模型（如Qwen3-0.6B）上与非E2E训练基线（w/o E2E-training）的直接、公平对比的具体实现细节（如是否使用了完全相同的训练数据子集和超参数），这削弱了“E2E训练关键”这一结论的绝对说服力。组件贡献的归因模糊：虽然消融研究（Table 2, 3）移除了\(L_{LM}\)或\(L_{FM}\)，证明了它们的重要性，但论文未深入分析三阶段训练中每个阶段（特别是Stage 2的独立微调）对最终性能的具体贡献比例。Stage 2允许为不同模块使用不同数据，这引入了额外变量，其效果与E2E优化本身的效果未被完全解耦。理论分析的实用性存疑：Section 2.4的信息论分析将Tokenizer训练形式化为源编码问题，概念上有趣，但公式推导（如公式14）较为初步，且与实验结果的直接关联较弱（如Table 4中H和I的微小差异如何对应显著的性能提升？）。这部分更像理论点缀，而非深入的机理分析。开源与可复现性短板：尽管论文在训练细节上描述详尽，但完全未提供代码、模型权重或内部数据集的获取途径。对于一个声称方法更简单、性能更优的框架，缺乏开源极大地限制了社区验证和直接应用其价值。 📌 核心摘要本文提出了一种用于基于离散令牌的LLM的TTS系统的端到端（E2E）训练框架。该框架统一优化了语音分词器、自回归LLM、基于流匹配（FM）的声码器和一个辅助奖励模型（RM）。核心方法包括：1）通过一阶损失（\(L_1\)）联合训练分词器，使其直接适应下游LLM预测、FM重构和RM识别任务；2）通过二阶损失（\(L_2\)）在LLM生成的令牌分布上优化系统，缓解训练-测试不匹配；3）设计了三阶段训练流程以稳定优化。实验表明，该框架在Seed-TTS-Eval基准上，使用0.6B LLM和0.5B FM模型，取得了0.78%（中文）和1.56%（英文）的WER，达到了SOTA水平。消融研究验证了各损失项和端到端优化的重要性。理论分析从信息论角度探讨了高质量语音令牌应具备高熵和强时序依赖性。 ...

FlashTTS: Fast Streaming TTS with MTP Acceleration and X-pred Mean Flow Distillation

📄 FlashTTS: Fast Streaming TTS with MTP Acceleration and X-pred Mean Flow Distillation #语音合成 #流式处理 7.9/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #流式处理 | arxiv 👥 作者与机构 Hanke Xie, Xiaming Ren, Dake Guo, Ruonan You, Wenhao Li, Jingbin Hu, Guobin Ma, Huakang Chen, Kejie Xu, Rui Huang, Weiguo Tan, Xianrong Wang, Lei Xi Audio, Speech and Language Processing Group (ASLP@NPU), School of Software, Northwestern Polytechnical University; Huawei Technologies Co., Ltd ...

HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis

📄 HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis #语音合成 #音频生成 #多模态模型 #扩散模型 #自监督学习 9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前10% | #语音合成 | #自监督学习 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 Wenhao Guan (厦门大学, 上海创新研究院), Yifan Duan (上海交通大学), Junxi Liu (上海交通大学), Yu Gu (未来工场), Feng Dang (未来工场), Kaidi Wang (厦门大学), Qingyang Hong (厦门大学), Lin Li (厦门大学), Xie Chen (上海交通大学, 上海创新研究院) ...

MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice Conversion

📄 MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice Conversion #语音合成 #生成模型 #流式处理 #鲁棒性 #数据增强 #正则化微调 6.9/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.9/10 | 前50% | #语音转换 | #生成对抗网络 | #语音合成 #生成模型 | arxiv 👥 作者与机构马国彬1，谢旭1，赵品枫3，马佳琪1，江翰科1，贾景bin1，郭延波1，谢磊1,2，朱鹏程3 1 西北工业大学软件学院，音频、语音与语言处理组 (ASLP@NPU)，中国 2 新南威尔士大学，澳大利亚 3 WeNet开源社区，中国 💡 毒舌点评这篇工作在解决流式VC的实际痛点上做得扎实，将训练效率和推理延迟的提升量化得很清楚。FRC和UTTE的设计动机明确，且都有消融实验支持。但创新性略显不足，FRC本质上是对注意力掩码的层间调度，UTTE的结构也较为常见。实验对比基线较弱，缺乏与近期（如SeedVC等）强力SOTA的直接比较。作者声称的“鲁棒性”提升，其评估规模（30个说话人）和退化模型的多样性值得商榷。此外，代码未开源使得其声称的可复现性目前仍为空头支票。总体是一篇扎实的工程优化论文，但理论新意和实验全面性有提升空间。 📌 核心摘要本文针对流式零样本语音转换中存在的训练效率低、小分块设置下质量下降以及参考音频质量敏感等局限性，提出了MeanVC 2系统。其核心创新在于：1) 引入未来感知分块策略（FRC），通过为扩散Transformer（DiT）的每一层分配不同的注意力掩码，分层调度过去和未来的感受野，并移除了原有的干净分块教师强迫机制。这使模型能够利用有限的未来上下文，在仅40毫秒的小分块设置下稳定生成，并将首包延迟从211毫秒降至110毫秒，同时将训练峰值内存消耗降低约60%。2) 提出通用音色标记编码器（UTTE），它不直接从参考梅尔谱图中提取细粒度特征，而是将全局说话人嵌入映射为一组“通用音色标记”（包含可学习的先验和针对目标说话人的调制），并利用源语音的瓶颈特征作为查询，通过交叉注意力检索发音相关的音色细节，从而解耦音色表示与参考音频质量，提升了鲁棒性。实验表明，MeanVC 2在说话人相似度（SSIM）和语音质量（DNSMOS）上优于MeanVC基线和StreamVoice+，且在低质量参考音频条件下表现更优。 ...