语音合成 | 语音/音频论文速递

MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech

📄 MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech #音频安全 #语音合成 #信号处理 #扩散模型 #生成模型 ✅ 7.0/10 | 前25% | #音频安全 | #信号处理 | #语音合成 #扩散模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Yutong Jin（Queen’s University, Department of Electrical and Computer Engineering）通讯作者：Qi Li（Queen’s University, Department of Electrical and Computer Engineering）作者列表：Yutong Jin（Queen’s University）、Qi Li（Queen’s University）、Lingshuang Liu（University of Waterloo）、Jianbing Ni（Queen’s University） 💡 毒舌点评亮点在于巧妙利用了Mel频谱图作为TTS流程的“公共接口”，在不改动扩散或GAN声码器的情况下实现了即插即用的水印嵌入，工程实用性强。短板是验证机制依赖于存储参考Mel谱，这在大规模、分布式部署场景下可能带来存储和管理挑战，且论文对实际部署环境下的攻击模型讨论略显不足。 ...

Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with Large Model Adaptation

📄 Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with Large Model Adaptation #语音合成 #语音大模型 #预训练 #领域适应 #低资源 ✅ 7.0/10 | 前50% | #语音合成 | #领域适应 | #语音大模型 #预训练 | arxiv 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Jiaxu He（未说明具体机构，根据作者列表顺序和通常惯例推断为第一作者）通讯作者：Jie Li（星尘AGI实验室，中国电信人工智能科技有限公司）作者列表： Jiaxu He（未说明） Chao Wang（青海师范大学） Jie Lian（未说明） Yuqing Cai（电子科技大学） Yongxiang Li（未说明） Renzeg Duojie（西藏大学） Jie Li（星尘AGI实验室，中国电信人工智能科技有限公司） 💡 毒舌点评这篇论文好比为一座急需保护的少数民族语言“孤岛”搭建了一座通往现代AI技术的“桥梁”，其系统工程思维和社会价值值得肯定，但这座桥的建材（模型、数据）全是“非开源”的黑箱，严重限制了后续研究者的通行能力。它证明了“大模型+小数据”的路线在低资源语言上行得通，却未能深入揭示“为什么行得通”以及“不同部分各贡献了多少”，更像一份出色的工业产品报告而非一篇具有深度算法剖析的学术论文。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文中未提及。 Demo：论文中未提及。复现材料：论文中未提及。论文中引用的开源项目：未提及。补充信息 [模型架构] 补充：论文在阐述所采用的“自回归语言模型+流匹配”两阶段架构时，明确指出了该架构的设计动机：相比纯自回归模型，它能更好地平衡语义一致性、生成效率、语音质量和训练稳定性。这是对选择此特定大模型作为骨干的技术路线分析的重要补充，体现了作者在技术选型上的考量。 📌 核心摘要要解决的问题：藏语语音合成面临三大核心挑战：语音资源极度稀缺、方言差异显著（卫藏、安多、康方言）、保守的书面语与多变的口语之间存在复杂的映射关系，导致开发高质量TTS系统困难重重。方法核心：基于一个自研的、经过大规模中英及多方言预训练的语音大模型（采用自回归语言模型+流匹配架构），通过三个关键技术进行适配：a) 设计统一的数据质量增强管道处理低质量多源数据；b) 提出藏语导向的文本表示与分词器适配策略（音节级建模和基于藏语语料的BPE）；c) 采用跨语言自适应训练策略，通过轻量化微调将预训练模型的能力迁移到藏语。与已有方法相比新在哪里：这是首个工业级的、基于大模型的藏语TTS系统。其创新点不在于提出全新的模型架构，而在于构建了一套从数据处理、文本表示到模型迁移的完整、实用的低资源适配技术路线，并验证了不同文本分词策略对系统性能的影响。主要实验结果：在主观评估中，音节级建模系统的MOS得分为4.28，发音准确率为97.6%；BPE建模系统的MOS得分为4.35，发音准确率为96.6%。两者均显著优于作为基线的商业API（X-API：MOS 3.74，发音准确率93.8%）。结果表明，BPE在自然度上略优，而音节建模在准确性上更佳。系统 MOS 发音准确率(%) X-API（商业基线） 3.74 93.8 音节级建模系统 4.28 97.6 BPE建模系统 4.35 96.6 实际意义：该工作为资源稀缺的少数民族语言语音合成提供了一套可行的、基于大模型的技术解决方案，有望应用于教育、广播、公共服务等领域，促进信息无障碍和民族文化数字化传播，并为其他低资源语言的语音技术发展提供参考。主要局限性：a) 论文未公开模型、代码和数据集，可复现性极差；b) 实验评估较为初步，主要依赖MOS和发音准确率，缺乏对韵律、情感、长段稳定性等的深入分析；c) 技术创新更多体现在工程整合与应用，算法层面的深度和新颖性有限；d) 目前主要针对卫藏方言，对其他方言的覆盖是未来工作。 🏗️ 模型架构该系统是一个基于大模型的模块化语音合成框架，整体架构如图2所示。其核心流程如下： ...

Continuous Audio Language Models

📄 Continuous Audio Language Models #语音合成 #音乐生成 #自回归模型 #一致性模型 #流匹配 ✅ 7.0/10 | 前25% | #语音合成 | #自回归模型 | #音乐生成 #一致性模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Simon Rouard（Kyutai; UMR STMS, IRCAM-CNRS, Sorbonne Univ.）通讯作者：未明确说明（Alexandre Défossez 提供了邮箱，且为资深作者，通常为通讯作者）作者列表： Simon Rouard（Kyutai; UMR STMS, IRCAM-CNRS, Sorbonne Univ.） Manu Orsini（Kyutai） Axel Roebel（UMR STMS, IRCAM-CNRS, Sorbonne Univ.） Neil Zeghidour（Kyutai） Alexandre Défossez（Kyutai） 💡 毒舌点评论文核心亮点在于其精巧的“双头”架构设计——用带噪声的长上下文Transformer保证生成稳定性，用干净的短上下文Transformer保留细节，并用高效的一致性模型头取代传统的RQ-Transformer，在多个任务上实现了质量与速度的双赢。然而，其宣称的“超越SOTA”在音乐生成等任务上部分依赖于使用自家训练的数据集重新训练的基线模型，且最关键的音乐数据集未开源，这使得最令人兴奋的实验结果难以被独立社区完全验证和比较，削弱了其作为通用方法的说服力。 🔗 开源详情代码：论文提及了Pocket TTS的代码仓库：github.com/kyutai-labs/pocket-tts。对于CALM主框架的开源情况未在主文明确说明。模型权重：Pocket TTS模型权重计划通过上述GitHub仓库开源。数据集：论文使用的主要音乐数据集（LAION-Disco-12M子集）未公开。语音和TTS数据集部分来源公开，但完整混合数据集的获取方式未详细说明。 Demo：提供了示例页面：iclr-continuous-audio-language-models.github.io。复现材料：提供了详细的超参数设置（表14, 15）、损失函数公式、架构描述和技术报告（kyutai.org/pocket-tts-technical-report）。论文中引用的开源项目：依赖的开源项目包括：Mimi (Défossez et al., 2024b), Helium-1 (Kyutai, 2025), SentencePiece, Whisper, WavLM, Mistral 7B, CLAP, fairseq等。 📌 核心摘要问题：当前主流的音频语言模型（ALM）依赖离散化的音频token（如RVQ），这造成了音频质量与计算成本之间的权衡。提高质量需要增加token数量（更高码率），从而导致模型计算负担加重，难以在边缘设备上实现实时高质量生成。方法：提出连续音频语言模型（CALM），在VAE的连续隐空间中直接建模，避免了量化损失。其架构由三部分组成：1）一个因果Transformer骨干网络，处理长程依赖，并在训练时对输入施加噪声以抑制推理时的误差累积；2）一个轻量级短上下文Transformer，提供局部、干净的细节信息；3）一个基于一致性模型的小型MLP头部，用于快速生成下一个连续帧。创新：相比先前基于扩散的MAR方法，CALM引入了噪声注入的长上下文与干净短上下文结合的双Transformer设计，并用一致性模型（Consistency Model）取代了扩散头，实现了1步快速采样。此外，还提出了高斯温度采样、潜在分类器自由引导（Latent CFG）和潜在蒸馏等技巧，进一步提升质量和效率。结果：在语音续写、文本转语音（TTS）和音乐续写三个任务上进行了评估。实验表明，CALM在多个指标上优于强基线。例如，在语音续写中，1步一致性模型在声学质量MOS（3.45）和意义性Elo（2023）上优于8-RVQ的RQ-Transformer基线（2.75，1870），且采样头速度快12.3倍。在音乐续写中，1步一致性模型FAD（0.83）优于32-RVQ基线（1.06），整体速度快2.2倍。最终，通过蒸馏得到的100M参数Pocket TTS模型可在笔记本CPU上实时运行。意义：为高质量、高效率的音频生成提供了新的范式，摆脱了对离散token的依赖。特别是Pocket TTS证明了在资源受限设备上实现高性能TTS的可行性，具有广泛的应用前景。局限：论文中的部分最先进对比（如TTS任务中的F5-TTS, DiTAR）并非在同一数据集上复现的结果；音乐生成所用的核心数据集未公开；论文主要关注生成质量与效率，对于模型的可控性、编辑能力等探讨较少。 🏗️ 模型架构 CALM的整体架构如图1所示，主要包含三个核心组件，数据流如下：输入音频序列被预训练的VAE编码器转换为连续隐向量序列。在训练阶段，骨干Transformer处理的是被噪声污染的隐向量历史序列，以增强鲁棒性。短上下文Transformer则处理最近的几个干净隐向量。两者的输出相加，形成条件信号。这个条件信号被送入一致性模型头部，该头部是一个小型MLP网络，负责在给定当前噪声样本和条件信号的情况下，预测下一个干净的隐向量。在推理时，头部仅需一步即可从随机噪声生成下一个隐向量，最后由VAE解码器重建音频。 ...

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

📄 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations #语音对话系统 #自回归模型 #多模态模型 #语音合成 #语音识别 🔥 9.5/10 | 前10% | #语音对话系统 | #自回归模型 | #多模态模型 #语音合成学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Chao-Hong Tan (Tongyi Fun Team, Alibaba Group) 通讯作者：未明确说明，根据邮箱推测为团队负责人（如tanchaohong.ch@alibaba-inc.com）作者列表：Chao-Hong Tan, Qian Chen, Wen Wang, Chong Deng, Qinglin Zhang, Luyao Cheng, Hai Yu, Xin Zhang, Xiang Lv, Tianyu Zhao, Chong Zhang, Yukun Ma, Yafeng Chen, Hui Wang, Jiaqing Liu, Xiangang Li, Jieping Ye (所属机构均为 Tongyi Fun Team, Alibaba Group) 💡 毒舌点评亮点：DrVoice的“双分辨率”设计堪称点睛之笔，通过一个简洁的分组/解分组机制，巧妙平衡了语音处理的计算效率（输入降至5Hz）与生成保真度（SRH在25Hz下精细化生成），在降低近半训练开销的同时性能不降反升，工程落地潜力巨大。短板：论文专注于单向语音生成的对话模式，但真实的人机语音交互需要全双工能力（即能边听边说），作者在局限性中也承认了这一点。目前模型更像一个强大的“单口相声”演员，而非能自然打断和回应的真正对话伙伴。 ...

FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates

📄 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates #语音合成 #自监督学习 #流匹配 #多语言 #低资源 🔥 9.0/10 | 前10% | #语音合成 | #自监督学习 | #流匹配 #多语言学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Jiaqi Li（香港中文大学（深圳）、微软）通讯作者：未明确说明作者列表：Jiaqi Li（香港中文大学（深圳）、微软）、Yao Qian（微软）、Yuxuan Hu（微软）、Leying Zhang（上海交通大学）、Xiaofei Wang（微软）、Heng Lu（微软）、Manthan Thakker（微软）、Jinyu Li（微软）、Sheng Zhao（微软）、Zhizheng Wu（香港中文大学（深圳）、深圳湾实验室、澳门城市大学、Amphion Technology Co., Ltd.） 💡 毒舌点评 FlexiCodec在极低帧率（3-12.5Hz）下实现了高质量的语音重建和强大的语义保持，其动态帧率分配策略被实验数据强力支持，显著优于将现有固定帧率模型强行降低帧率的做法。然而，论文在评估模型对真实世界复杂场景（如强背景噪声、多人重叠说话）的鲁棒性方面着墨较少，且多语言泛化能力的验证仅限于微调，这可能是未来需要深入探索的方向。 🔗 开源详情代码：提供代码仓库链接：https://github.com/amphionteam/flexicodec 模型权重：论文中提及“Code is available at”，结合项目主页链接（https://flexicodec.github.io），通常意味着会开源模型权重。论文中已提供中文微调模型“FlexiCodec-ZH tune”。数据集：训练使用公开的Librilight-Large数据集。评估使用公开的LibriSpeech、TIMIT和Emilia数据集。 Demo：提供在线演示页面：https://flexicodec.github.io 复现材料：提供了极其详细的训练配置（优化器、学习率、批大小、步数、硬件）、模型超参数（层数、维度、码本大小、Transformer配置）、损失函数、评估指标、基线模型重训练细节以及消融实验设置。附录部分包含大量补充信息。引用的开源项目：SenseVoice-Small（ASR特征提取）、DAC（编解码器基础架构）、Vocos（TTS声码器）、Amphion工具包。 📌 核心摘要要解决什么问题：传统高帧率神经音频编解码器会导致语音语言模型序列过长，计算成本高。现有低帧率（如12.5Hz）编解码器在进一步降低帧率时会严重丢失语义信息，限制了下游任务性能。方法核心是什么：本文提出FlexiCodec，一种采用动态帧率的低比特率神经音频编解码器。其核心是利用预训练ASR模型提取的语义特征来指导帧合并，自适应地在语音信息稀疏区域（如静音、长元音）减少帧数，在信息密集区域保留更多细节。模型采用双流编码（ASR特征流+波形特征流）、Transformer瓶颈模块进行帧合并/解合并，并使用有限标量量化（FSQ）进行语义token化。与已有方法相比新在哪里：FlexiCodec是首个在低于10Hz平均帧率下实现高质量、可重构语音的编解码器之一。其创新在于：(1) 动态帧率分配：打破了固定帧率的限制，允许在推理时通过阈值连续控制帧率（3-12.5Hz）；(2) ASR特征引导语义编码与合并：使用更具语义集中性的ASR特征（而非SSL特征）同时用于语义量化和指导合并过程，提升了语义保持；(3) 创新的帧合并/解合并模块：引入Transformer对合并前后的序列进行精细化处理，减少伪影。主要实验结果如何：在核心语义测试中（RVQ-1 WER），FlexiCodec��6.25Hz平均帧率下WER为4.15%，远优于重训练的基线DualCodec（31.5%）和DAC（88.2%）。对比表5显示，其在语义保持上也优于许多更高帧率的编解码器。在音频质量上（PESQ, UTMOS等），FlexiCodec在不同比特率类别下均取得最优或接近最优的成绩。下游TTS实验表明，FlexiCodec-TTS（6.25Hz AR）在WER（3.2%）和主观评分（NMOS 3.32, QMOS 3.40）上与CosyVoice等强基线相当，但自回归阶段加速高达7.3倍。消融研究证实，动态帧率策略在6.25Hz下能将RVQ-1 WER相对提升26%，ASR特征相比SSL特征在低帧率下具有决定性优势（WER从27.3%降至4.15%）。模型帧率 (Hz) WER(RVQ1) ↓ WER(RVQ1:8) ↓ PESQ ↑ UTMOS ↑ DualCodec (重训练) 6.25 31.5 3.42 2.74 4.08 FlexiCodec 6.25 4.15 2.53 2.76 4.18 FlexiCodec (无动态帧率) 6.25 5.22 2.73 2.76 4.18 5. 实际意义是什么：FlexiCodec通过显著降低音频token帧率，为构建更高效、低延迟的语音语言模型和语音合成系统提供了关键基础技术。其动态、可控的帧率设计为适应不同计算资源和应用场景提供了灵活性。 6. 主要局限性是什么：论文未充分探讨在极端噪声或高度重叠语音等复杂声学场景下的性能；多语言支持依赖于在特定语言上微调，零样本跨语言语义保持能力有限；动态帧率合并过程的可解释性虽有可视化，但合并决策的边界条件与语音语言学单位的精确对应关系仍需深入研究。 🏗️ 模型架构 FlexiCodec的整体架构如图1所示，其核心是双流特征提取与动态帧率处理。 ...

FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions

📄 FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions #语音合成 #强化学习 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #零样本 #多语言学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dekun Chen (The Chinese University of Hong Kong, Shenzhen; Shenzhen Loop Area Institute) 通讯作者：未明确说明（论文中未明确指出通讯作者）作者列表：Dekun Chen (香港中文大学（深圳）/深圳湾实验室), Xueyao Zhang (香港中文大学（深圳）), Yuancheng Wang (香港中文大学（深圳）), Kenan Dai (Huawei Technologies Co., Ltd.), Li Ma (Huawei Technologies Co., Ltd.), Zhizheng Wu (香港中文大学（深圳）/澳门城市大学/Amphion Technology Co., Ltd.) 💡 毒舌点评这篇论文的核心亮点在于其系统性地将“风格、音色、内容”的解耦问题，转化为一个可分阶段优化的强化学习课程（PPT），技术路径设计精巧且实验证据扎实。不过，其最终效果高度依赖奖励模型的质量，而论文中使用的7B开源奖励模型与闭源前沿模型仍存在代差，这在一定程度上限制了其在最复杂指令上的表现上限，也为未来工作留下了明确的改进方向。 ...

From Natural Alignment to Conditional Controllability in Multimodal Dialogue

📄 From Natural Alignment to Conditional Controllability in Multimodal Dialogue #语音合成 #多模态模型 #预训练 #多任务学习 #基准测试 🔥 8.0/10 | 前25% | #语音合成 | #多任务学习 | #多模态模型 #预训练学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zeyu Jin（清华大学计算机科学与技术系）（论文标注共同贡献）通讯作者：Xiaoyu Qin（清华大学计算机科学与技术系）、Jia Jia（清华大学计算机科学与技术系/BNRist）作者列表： Zeyu Jin（清华大学计算机科学与技术系） Songtao Zhou（清华大学计算机科学与技术系）（共同贡献） Haoyu Wang（清华大学计算机科学与技术系） Minghao Tian（Rice University） Kaifeng Yun（清华大学深圳国际研究生院） Zhuo Chen（字节跳动） Xiaoyu Qin（清华大学计算机科学与技术系） Jia Jia（清华大学计算机科学与技术系/BNRist） 💡 毒舌点评论文在数据集构建和任务定义上表现出色，其提出的数据整理管道和“情感三元组”标注范式为可控多模态对话研究提供了坚实基础，但核心模型创新有限，且部分实验局限于验证数据集有效性，未能充分探索更先进的生成架构。 🔗 开源详情代码：论文在摘要和结论中明确提到将公开代码和数据整理管道，GitHub仓库链接已在论文中给出（https://github.com/jessyjinzy/MM-Dia）。模型权重：论文未提及将公开其微调后的模型（如Higgs-Audio-V2-SFT）权重。数据集：MM-DIA和MM-DIA-BENCH已承诺开源，但具体获取方式需联系作者或等待发布。 Demo：论文提到了一个演示页面（https://mmdiaiclr26.github.io/mmdiaiclr26/），展示了不同控制变量下的语音合成样本。复现材料：论文在“Reproducibility Statement”中承诺提供数据集、代码、模型配置、训练过程和评估协议的细节。附录包含了管道实现的部分算法和消融实验，但完整的训练超参数和硬件信息缺失。引用的开源项目：论文中提到了多个依赖的开源工具和模型，包括：Higgs-Audio-V2 (Boson AI)、Dia-1.6B (Nari Labs)、Gemini-2.5系列、Qwen2.5-VL、InsightFace工具包、多个基线模型（HarmoniVox, FLOAT, MultiTalk, Sonic, Wan-2.2, HunyuanVideo）以及UTMOS、WER等评估工具。 📌 核心摘要这篇论文旨在解决可控多模态对话生成中面临的三个核心挑战：高质量原生多模态对话数据稀缺、交互级语义的可扩展标注方法缺失，以及系统性评估基准不足。其核心方法是构建了一个从电影和电视剧中自动提取、标注对话的“数据整理管道”，并据此创建了大规模多模态对话数据集 MM-DIA（360+小时，54,700段对话）。该数据集首次专注于跨模态的对话表达力，提供了句子级和对话级的细粒度交互标注，包括说话人身份、非语言声音和两种表达力标注范式：“情感三元组”（关系、互动模式、情感基调）和“自由描述”。同时，论文提出了 MM-DIA-BENCH 作为评估跨模态风格一致性的基准。论文正式定义了多模态对话生成（MDG）任务，并将其应用于三个具体任务：1）风格可控对话语音合成（显式控制），2）视觉条件对话语音合成（隐式控制），3）语音驱动对话视频生成（隐式控制）。主要实验结果显示：在MM-DIA上微调预训练模型（如Higgs-Audio-V2）后，风格可控对话语音合成任务在可懂度（WER从31.25降至4.45）和指令遵循度上显著提升。然而，在MM-DIA-BENCH上的测试表明，现有模型在维持隐式跨模态风格一致性方面存在明显不足，特别是在音视频对齐和对话级表达力方面。这项工作的实际意义在于为可控、富有表现力的多模态对话生成研究建立了首个大规模数据集、统一任务框架和评估基准，指明了未来需要加强跨模态语义对齐和长程推理的研究方向。主要局限性是MDG任务仍处于初步定义阶段，且现有基线模型在隐式控制任务上表现不佳，表明这是一个开放且具挑战性的领域。 ...

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #语音编解码 #流匹配 #自回归模型 #语音大模型 ✅ 7.5/10 | 前25% | #语音合成 | #语音编解码 | #流匹配 #自回归模型学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Weidong Chen (The Chinese University of Hong Kong) 通讯作者：Xixin Wu (The Chinese University of Hong Kong) 作者列表：Weidong Chen（The Chinese University of Hong Kong）、Helen M. Meng（The Chinese University of Hong Kong）、Xixin Wu（The Chinese University of Hong Kong） 💡 毒舌点评这篇工作最大的亮点在于将“组”作为语音量化的基本单元，并系统性地设计了粗细有序的token序列，这确实比传统逐帧量化更适合后续的语言模型建模，逻辑自洽且实验支撑有力。然而，其核心的token分配器虽然有效，但训练方法（GRPO）的引入略显“重”，对于一个动态分配离散资源的简单策略问题，是否有更轻量优雅的解法值得商榷，且论文最终未能开源代码，让这套精心设计的系统停留在了“可望”的层面。 ...

Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #流匹配 #预训练 #端到端 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #流匹配 #预训练学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yixuan Zhou（清华大学深圳国际研究生院）通讯作者：Zhiyong Wu（清华大学深圳国际研究生院）作者列表：Yixuan Zhou（清华大学深圳国际研究生院），Guoyang Zeng（ModelBest Inc），Xin Liu（ModelBest Inc），Xiang Li（清华大学深圳国际研究生院），Renjie Yu（清华大学深圳国际研究生院），Ziyang Wang（ModelBest Inc），Runchuan Ye（清华大学深圳国际研究生院），Weiyue Sun（ModelBest Inc），Jiancheng Gui（ModelBest Inc），Kehan Li（清华大学深圳国际研究生院），Zhiyong Wu（清华大学深圳国际研究生院），Zhiyuan Liu（清华大学计算机科学与技术系） 💡 毒舌点评亮点：论文提出的“半离散残差表示”框架设计精巧，通过一个可微的量化瓶颈在单一端到端模型中优雅地实现了语义和声学的隐式解耦，有效规避了传统连续模型的误差累积和离散模型的信息损失，堪称“鱼与熊掌兼得”的架构设计典范。短板：模型的高性能（VoxCPM）严重依赖海量内部数据（1百万小时），而公开验证（VoxCPM-Emilia）的性能与SOTA仍有差距，这使得其宣称的“架构优越性”在多大程度上可迁移到受限数据场景存疑，也削弱了其作为普适解决方案的说服力。 📌 核心摘要解决的问题：现有端到端语音合成模型面临一个根本权衡：离散token方法稳定但会丢失声学细节（量化天花板），而连续表示方法保留了丰富声学信息但容易在长序列上因语义和声学任务纠缠而产生误差累积，影响稳定性。方法核心：提出VoxCPM，一个端到端的层次化语义-声学建模框架。其核心是一个可微的有限标量量化（FSQ）瓶颈，它自然诱导出两个专门化模块：文本-语义语言模型（TSLM）负责生成稳定的语义韵律骨架，残差声学语言模型（RALM）负责恢复FSQ量化后丢失的精细声学细节。最终，由层次化表示共同引导一个局部扩散Transformer解码器（LocDiT）生成高保真语音隐变量。新意：与依赖外部离散语音token化器的多阶段管道不同，该框架将量化作为正则化机制内置于连续数据流中，实现了在单一端到端训练框架内的功能分离，消除了对外部预训练token化器的依赖，并缓解了连续模型中的任务纠缠。主要结果：在超过1百万小时的双语数据上训练的0.5B参数VoxCPM，在SEED-TTS-EVAL基准上取得了开源系统中的最优性能，英语WER为1.85%，中文CER为0.93%，说话人相似度SIM分别为72.9%和77.2%。关键消融实验证明，去除FSQ瓶颈（w/o FSQ）会导致在困难测试集上性能急剧恶化（中文CER从18.19%升至24.92%），验证了其核心作用。实际意义：该工作为构建表达力强、稳定性高的端到端语音合成系统提供了新的架构范式，有望推动更自然、更具情感的语音交互技术发展。主要局限性：SOTA性能严重依赖大规模内部训练数据，在较小公开数据集上的验证（VoxCPM-Emilia）表现虽具竞争力但非顶尖，表明其对数据规模可能较为敏感。此外，框架的整体复杂度（包含LM、RALM、扩散解码器）对部署资源有一定要求。详细分析 VoxCPM是一个层次化、端到端的自回归语音生成模型，其核心设计是通过内部半离散瓶颈实现语义和声学建模的解耦。 ...

ICLR 2026 - 语音合成论文列表

ICLR 2026 - 语音合成共 10 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates 9.0分前10% 🥈 VibeVoice: Expressive Podcast Generation with Next-Token Dif 8.5分前10% 🥉 SpeechJudge: Towards Human-Level Judgment for Speech Natural 8.5分前10% 4. FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS 8.0分前25% 5. Toward Complex-Valued Neural Networks for Waveform Generatio 8.0分前25% 6. From Natural Alignment to Conditional Controllability in Mul 8.0分前25% 7. Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Re 8.0分前25% 8. Gogo: Group-wise granularity-ordered codec for stable and ef 7.5分前25% 9. Continuous Audio Language Models 7.0分前25% 10. MambaVoiceCloning: Efficient and Expressive Text-to-Speech v 6.5分前50% 📋 论文详情 🥇 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates 🔥 9.0/10 | 前10% | #语音合成 | #自监督学习 | #流匹配 #多语言 ...