语音合成 | 语音/音乐/音频论文速递

From Natural Alignment to Conditional Controllability in Multimodal Dialogue

📄 From Natural Alignment to Conditional Controllability in Multimodal Dialogue #语音合成 #多模态模型 #基准测试 #数据集 ✅ 6.5/10 | 前25% | #语音合成 | #数据集 | #多模态模型 #基准测试学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Zeyu Jin（清华大学计算机科学与技术系）通讯作者：Xiaoyu Qin（清华大学计算机科学与技术系）、Jia Jia（清华大学计算机科学与技术系 / BNRist，清华大学）作者列表： Zeyu Jin（清华大学计算机科学与技术系） Songtao Zhou（清华大学计算机科学与技术系） Haoyu Wang（清华大学计算机科学与技术系） Minghao Tian（Rice University） Kaifeng Yun（清华大学深圳国际研究生院） Zhuo Chen（ByteDance） Xiaoyu Qin（清华大学计算机科学与技术系） Jia Jia（清华大学计算机科学与技术系 / BNRist，清华大学） 💡 毒舌点评亮点在于其“基建”思维，为多模态对话生成这个嘈杂的领域，搭建了一套清晰的“路标”（任务定义）、“高速公路”（大规模标注数据集）和“考题”（跨模态一致性基准）。短板则是论文止步于“出题”和“阅卷”，并未提出一个能在这条新路上跑得更快的“新车”（统一的端到端生成模型），实验部分更多地是在证明现有模型“考不及格”。 🔗 开源详情代码：论文在“ETHICS STATEMENT”中承诺：“Our experimental code and data curation pipeline will be made publicly available upon acceptance of the paper.” 但未提供具体仓库链接。模型权重：论文中提到的基线模型（如Higgs-Audio-V2, Dia）是外部开源项目��但本文未贡献新的生成模型权重。数据集：论文承诺开源MM-DIA和MM-DIA-BENCH。获取方式应是根据提供的标注（时间戳、转录、风格标签等）自行对齐公开的影视内容。 Demo：未提及（论文中未提及在线演示链接）。复现材料：论文提供了详尽的附录，包括数据处理细节、验证结果、指标解释等，有利于复现。论文中引用的开源项目：生成模型基线：Higgs-Audio-V2 (Boson AI), Dia (Nari Labs), CosyVoice, Zero-Shot Dialogue Generation (ZSDG), MoonCast, Har-moniVox。视频生成基线：FLOAT, MultiTalk, Sonic, Wan-2.2, HunyuanVideo。工具/模型：Gemini 2.5-pro (Google), Qwen2.5-VL-7B, GPT-5 (OpenAI), Insightface (用于人脸识别)，以及语音质量评估工具（如UTMOS）。开源情况总结：论文承诺将在接受后开源核心数据集和处理代码，但目前尚未提供。论文本身严重依赖上述引用的开源模型和工具进行实验和标注。 📌 核心摘要问题：当前多模态对话生成研究主要关注单模态（如语音或视觉）的内容真实性，而忽略了跨模态（语音、视觉、文本）在交互风格（如情感、关系、互动模式）上的系统性对齐与精细可控性，导致生成内容的表达力和可控性不足。方法核心：提出了一套从电影/电视剧中自动提取对话、并进行细粒度交互风格标注的数据处理流水线。基于此构建了大规模多模态对话数据集MM-DIA，并定义了可控多模态对话生成（MDG）任务，将其形式化为带显式/隐式条件变量的条件生成问题。同时，建立了专门评估跨模态风格一致性的基准MM-DIA-BENCH。创新点：首次针对“对话表达力”而非“对话内容”构建大规模多模态数据集。提出两种互补的表达力标注范式：结构化“情感三元组”和自由风格描述。建立了首个专门评估音频-视频风格一致性的对话生成基准MM-DIA-BENCH。实验结果：在风格可控语音合成（Task 1）上，使用MM-DIA微调基线模型（如Higgs-Audio-V2）能显著提升性能。例如，WER从31.25降至4.45，指令遵循度（Human-MOS）从3.11提升至4.13（见表4）。在视觉条件语音合成（Task 2）和语音驱动对话视频生成（Task 3）上，现有模型（如HarmoniVox、Wan-2.2）在MM-DIA-BENCH上暴露出明显的跨模态风格对齐不足（如指令遵循度、自发性得分较低），揭示了现有技术的局限（见表5，表6）。实际意义：为可控多模态对话生成提供了标准化的定义、高质量的数据基础和严格的评估工具，有望推动该领域从“内容生成”向“可控交互生成”演进，对电影配音、虚拟人交互等应用有潜在价值。局限性：工作重心在于数据集和评估框架的构建，未提出一个能统一处理多模态输入输出的端到端生成模型；数据集来源于影视作品，与真实日常对话可能存在域差距；部分依赖Gemini等大型多模态模型进行标注，引入了潜在偏差。 🏗️ 模型架构本文并非提出一个新的神经网络模型架构，而是定义了多模态对话生成（MDG）的任务框架和数据处理流水线。其“架构”体现在： ...

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #流匹配 #自回归模型 #零样本 #语音大模型 🔥 8.5/10 | 前25% | #语音合成 | #流匹配 | #自回归模型 #零样本学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Weidong Chen (香港中文大学电子工程系) 通讯作者：Xixin Wu (香港中文大学电子工程系) 作者列表：Weidong Chen (香港中文大学电子工程系), Helen M. Meng (香港中文大学电子工程系), Xixin Wu (香港中文大学电子工程系) 💡 毒舌点评论文的亮点在于巧妙地将“组级量化”与“粒度排序”结合，从根源上解决了语音编解码器既要“高层抽象利于建模”又要“低层细节保证音质”的矛盾，设计思路清晰且优雅。但短板在于其框架组件繁多（编解码器、两阶段生成模型、额外训练的分配器），训练流程复杂，且token分配器的优化与主模型分离，可能并非全局最优，工程实现的门槛不低。 🔗 开源详情代码：论文中未提及官方代码仓库链接。模型权重：未提及公开预训练模型权重。数据集：训练使用Emilia（英文子集），评估使用LibriTTS和Seed-TTS，均为已有公开数据集。论文未提及提供新的数据集。 Demo：提供了在线演示链接：https://happycolor.github.io/gogo。复现材料：附录（A-M）提供了极其详细的实现细节、训练配置、评估设置、消融实验说明和可视化，复现信息非常充分。论文中引用的开源项目：Vocos (声码器), LLaMA-3.2-1B-Instruct (SLM基础模型), PyTorch等常见框架。对比实验中引用了EnCodec, DAC, SpeechTokenizer, Mimi, SNAC, WavTokenizer等众多开源编码器模型。 📌 核心摘要本文旨在解决当前语音语言模型中核心的语音编解码器面临的双重挑战：传统帧级量化难以捕获高层语义信息，以及固定比特率分配忽略了语音信号信息分布的不均匀性。为此，作者提出了Gogo编解码器，它创新性地将连续帧分组，并为每组生成从粗到细、粒度有序的令牌，粗令牌编码高层抽象，细令牌逐步恢复声学细节。基于此，设计了GogoSpeech两阶段语音生成模型：第一阶段以极低令牌率生成高层语音骨架，第二阶段再丰富细节。此外，引入了一个基于GRPO训练的令牌分配器，根据语音片段的复杂度自适应分配细粒度令牌的预算，以提升效率。实验表明，在47 Hz的令牌率下，Gogo在多项重建指标（如UT-MOS 4.19, DNS-MOS 3.99）上优于其他SOTA编解码器。在零样本语音合成任务中，GogoSpeech取得了最佳的说话人相似度（SIM 0.667）和综合质量评分（SMOS 4.381, CMOS +1.832），并证明了令牌分配器能在几乎不损质量的前提下将平均令牌率从47 Hz降至36 Hz。这项工作为高效、稳定的语音生成提供了新的范式。其局限性在于依赖固定的分组策略，且令牌分配器的训练与主生成模型解耦，可能存在优化不足。 ...

Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #零样本 #扩散模型 #端到端 🔥 8.5/10 | 前25% | #语音合成 | #自回归模型 | #零样本 #扩散模型学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.6 | 置信度高 👥 作者与机构第一作者：Yixuan Zhou（清华大学深圳国际研究生院）通讯作者：Zhiyong Wu（清华大学深圳国际研究生院）作者列表：Yixuan Zhou（清华大学深圳国际研究生院）、Guoyang Zeng（ModelBest Inc.）、Xin Liu（ModelBest Inc.）、Xiang Li（清华大学深圳国际研究生院）、Renjie Yu（清华大学深圳国际研究生院）、Ziyang Wang（ModelBest Inc.）、Runchuan Ye（清华大学深圳国际研究生院）、Weiyue Sun（ModelBest Inc.）、Jiancheng Gui（ModelBest Inc.）、Kehan Li（清华大学深圳国际研究生院）、Zhiyong Wu（清华大学深圳国际研究生院，通讯作者）、Zhiyuan Liu（清华大学计算机科学与技术系） 💡 毒舌点评论文巧妙地利用有限标量量化（FSQ）作为“强制分心”的瓶颈，逼着语言模型先管好内容和语调的大局，再把声学细节的脏活累活交给另一个模块，这种设计既有理论优雅性又有工程实用性；不过，尽管在客观指标和克隆相似度上表现亮眼，论文在主观自然度（N-MOS）上并未全面碾压IndexTTS2等强敌，暗示着“稳定”与“极致自然”之间可能还存在细微的权衡，尤其是在中文的韵律控制上可能还有提升空间。 🔗 开源详情代码：论文明确表示“We will release code and models to support future research”，但未提供具体的代码仓库链接。附录中给出了推断代码的占位符 codes.zip。模型权重：承诺发布，但未说明具体平台或链接。数据集：使用了公开的Emilia数据集（9.5万小时），并提及了内部大规模双语数据集（超过100万小时，未公开）。 Demo：提供了在线演示页面链接：https://voxcpm.github.io/VoxCPM-demopage/。复现材料：提供了非常充分的复现材料，包括：详细的模型架构参数表（附录表5）、训练阶段的学习率调度与批处理大小（附录表6）、所有消融实验的设置、硬件配置（GPU型号与数量）、以及多处关于训练技巧的说明（如WSD策略的重要性）。附录F部分包含了大量实验的细节和结果表格。论文中引用的开源项目：主要引用了作为基线的其他TTS系统（如CosyVoice, F5-TTS等），以及预训练的语言模型MiniCPM-4。在实现上，使用了Megatron框架。 📌 核心摘要要解决的问题：端到端语音合成中表达力（连续表示）与稳定性（离散表示）之间的根本性矛盾。离散化会损失细节，而连续建模则因任务纠缠（语义规划与声学渲染混杂）容易导致长序列上的误差累积和不稳定。方法核心：提出一个统一的端到端框架，通过“层次化语义-声学建模”和“半离crete残差表示”来解决上述矛盾。核心是在文本语义语言模型（TSLM）和残差声学语言模型（RALM）之间插入一个可微分的有限标量量化（FSQ）瓶颈。该瓶颈自然诱导了任务分离：TSLM专注于生成稳定的语义-韵律“骨架”，RALM负责恢复被量化的细粒度声学细节。两者生成的条件信号共同指导一个基于扩散的局部Transformer解码器（LocDiT）生成最终语音。与已有方法相比新在哪里：新在统一框架：将显式的层次化设计（语义 vs. 声学）与残差学习结合在一个可端到端训练的统一框架内，避免了传统多阶段流水线的割裂和对外部预训练分词器的依赖。新在瓶颈机制：不同于将量化作为预测目标，本工作将FSQ作为正则化瓶颈和归纳偏置，强制信息流进行分层，从而在保持可微性的同时实现了隐式的任务解耦。新在训练范式：整个层次化模型（包括量化瓶颈）仅使用简单的扩散目标进行端到端训练，简化了流程并实现了协同优化。主要实验结果：主实验：在超过100万小时的双语数据上训练的0.5B参数模型VoxCPM，在开源模型中取得了最先进（SOTA）的零样本TTS性能。在SEED-TTS-EVAL基准上，英文WER为1.85%，中文CER为0.93%，说话人相似度（SIM）分别为72.9%（EN）和77.2%（ZH），优于CosyVoice2, IndexTTS2等模型。关键对比数据：模型参数量训练数据英文WER↓ 英文SIM↑ 中文CER↓ 中文SIM↑ CosyVoice2 0.5B 170K hrs 3.09 65.9 1.38 75.7 IndexTTS 2 1.5B 55K hrs 2.23 70.6 1.03 76.5 VoxCPM 0.5B 1.8M hrs 1.85 72.9 0.93 77.2 消融实验：证实了FSQ瓶颈和残差声学模型（RALM）是性能关键。移除FSQ导致中文硬例句CER从18.19%飙升至24.92%；移除RALM（退化为单一连续模型）导致性能显著下降。FSQ维度选择也至关重要，256维是较优平衡点。可视化分析：t-SNE可视化显示TSLM-FSQ输出形成与文本内容相关的语义结构，而RALM残差输出则聚类为说话人相关的声学特征，验证了隐式解耦。实际意义：提供了一种新的、统一的端到端语音合成架构范式，证明了通过精心设计的瓶颈结构可以在连续空间中实现稳定且富有表达力的生成，无需外部离散编码器。这对于推动开源、高质量、可定制的语音合成技术具有重要意义。主要局限性：论文中已提及和暗示的局限包括：在极致语音自然度（N-MOS）上并非所有场景都绝对领先（如中文部分测试落后于IndexTTS2）；实时流式合成能力虽被提及（因果VAE、低延迟），但实验未深入展示其在长序列对话等复杂流式场景下的稳定性与表现；模型依赖大规模高质量数据（超过100万小时）以达最佳性能，其在低资源场景下的有效性未充分验证。 🏗️ 模型架构 VoxCPM是一个端到端的、自回归的层次化语音生成模型，其核心在于层次化的条件生成与半离散残差表示学习。整体架构如下图所示： ...

JaiTTS: A Thai Voice Cloning Model

📄 JaiTTS: A Thai Voice Cloning Model #语音合成 #语音克隆 #自回归模型 #泰语 #语音大模型 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #语音克隆 #泰语 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jullajak Karnjanaekarin (Jasmine Technology Solution) 通讯作者：未明确说明（论文提供了团队邮箱 jts.ai.team@gmail.com）作者列表： Jullajak Karnjanaekarin (Jasmine Technology Solution) Pontakorn Trakuekul (Jasmine Technology Solution) Narongkorn Panitsrisit (Jasmine Technology Solution) Sumana Sumanakul (Jasmine Technology Solution) Vichayuth Nitayasomboon (Jasmine Technology Solution) Nithid Guntasin (Sirindhorn International Institute of Technology，实习于Jasmine Technology Solution) Thanavin Denkavin (Sirindhorn International Institute of Technology) Attapol T. Rutherford (Jasmine Technology Solution; Chulalongkorn University, Department of Linguistics) 💡 毒舌点评亮点：论文在泰语语音克隆上实现了SOTA，CER甚至优于人类基准，并在400次盲测中以70%胜率击败商业巨头，展示了强大的工程落地和数据调优能力。短板：模型核心架构源自VoxCPM，原创性有限；更关键的是“代码、模型、数据”三无状态，使得其优异的实验结果暂时停留在“不可复现的宣称”阶段，大大削弱了学术贡献的可验证性和社区价值。 ...

Latent Speech-Text Transformer

📄 Latent Speech-Text Transformer #语音大模型 #预训练 #自回归模型 #语音识别 #语音合成 🔥 8.5/10 | 前10% | #语音大模型 | #预训练 | #自回归模型 #语音识别学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Yen-Ju Lu (Center for Language and Speech Processing, Johns Hopkins University) 通讯作者：Srinivasan Iyer†, Duc Le† (†联合末位作者， Meta Superintelligence Labs) 作者列表： Yen-Ju Lu† (Center for Language and Speech Processing, Johns Hopkins University) Yashesh Gaur (Meta Superintelligence Labs) Wei Zhou† (Meta Superintelligence Labs) Benjamin Muller (Meta Superintelligence Labs) Jesus Villalba (Center for Language and Speech Processing, Johns Hopkins University) Najim Dehak (Center for Language and Speech Processing, Johns Hopkins University) Luke Zettlemoyer (Meta Superintelligence Labs) Gargi Ghosh (Meta Superintelligence Labs) Mike Lewis (Meta Superintelligence Labs) Srinivasan Iyer† (Meta Superintelligence Labs) Duc Le† (Meta Superintelligence Labs) 💡 毒舌点评这篇论文的最大亮点在于精准诊断了语音-文本模型效率低下的“病因”（信息密度不匹配），并开出了一剂对症的“药方”（潜语音块），实验证明该药方不仅能提升语音任务表现，甚至对纯文本任务也有增益，思路清晰且效果显著。然而，其“药引子”——对齐补丁和课程学习策略——严重依赖外部对齐模型（Wav2Vec2+CTC），这为实际部署引入了额外的复杂性和潜在的误差传递，在追求“无对齐”的端到端理想模型道路上，这或许是一个迂回但务实的选择。 ...

MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control

📄 MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control #语音克隆 #语音合成 #状态空间模型 #语音大模型 #扩散模型 ✅ 7.5/10 | 前25% | #语音克隆 | #状态空间模型 | #语音合成 #语音大模型学术质量 6.5/7 | 选题价值 7.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sahil Kumar（Yeshiva University, Department of Mathematics）通讯作者：Youshan Zhang（Chuzhou University, School of Artificial Intelligence）作者列表：Sahil Kumar（Yeshiva University, Department of Mathematics）、Namrataben Patel（Yeshiva University, Department of Mathematics）、Honggang Wang（Yeshiva University, Department of Computer Science & Engineering）、Youshan Zhang（Chuzhou University, School of Artificial Intelligence） 💡 毒舌点评亮点：架构设计全面且理论动机清晰，通过引入门控双向融合与AdaLN调制，在完全移除推理时注意力的同时，有效提升了长文本的韵律稳定性和跨语言泛化能力，是Mamba在TTS领域一次扎实的工程化探索。短板：尽管声称改进，但核心性能增益（MOS +0.07， RTF -0.0005）绝对值很小，被扩散解码器主导的延迟瓶颈严重掩盖了SSM-only编码器的理论优势，实际部署价值提升有限。 ...

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

📄 ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction #语音对话系统 #强化学习 #知识蒸馏 #基准测试 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #强化学习 | #知识蒸馏 #基准测试学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Shu-wen Yang (台湾大学电气工程学系研究生院 / 字节跳动 Seed) 通讯作者：Lu Lu (字节跳动 Seed)， Hung-yi Lee (台湾大学电气工程学系) 作者列表： Shu-wen Yang (台湾大学电气工程学系研究生院，字节跳动 Seed) Ming Tu (字节跳动 Seed) Andy T. Liu (字节跳动 Seed) Xinghua Qu (字节跳动 Seed) Hung-yi Lee (台湾大学电气工程学系) Lu Lu (字节跳动 Seed) Yuxuan Wang (字节跳动 Seed) Yonghui Wu (字节跳动 Seed) 💡 毒舌点评这篇论文最大的亮点在于精准定义了“语音对话模型听不懂弦外之音”这一痛点，并系统性地设计了从评估基准（ParaS2SBench）到强化学习训练（ParaS2SAlign）的完整解决方案，堪称“对症下药”的范例。但其短板也明显：核心的强化学习框架（GRPO）和奖励模型蒸馏技术并非首次提出，创新更多体现在将这些技术成功适配到一个全新的、定义良好的问题域中，而非算法本身的突破；此外，自动评估器虽与人类评分高度相关，但其“风格幻觉”问题可能并未完全根除，依然依赖于其精心构建的特征提取流水线。 ...

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #模型评估 #强化学习 #奖励模型 #大语言模型 #语音合成 🔥 8.0/10 | 前25% | #模型评估 | #强化学习 | #奖励模型 #大语言模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Xueyao Zhang（香港中文大学（深圳））通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd）作者列表： Xueyao Zhang（香港中文大学（深圳）） Chaoren Wang（香港中文大学（深圳）） Huan Liao（香港中文大学（深圳）） Ziniu Li（香港中文大学（深圳）） Yuancheng Wang（香港中文大学（深圳）） Li Wang（香港中文大学（深圳）） Dongya Jia（字节跳动 Seed） Yuanzhe Chen（字节跳动 Seed） Xiulin Li（DataBaker Technology） Zhuo Chen（字节跳动 Seed） Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd） 💡 毒舌点评亮点：工作非常“接地气”且系统，从最基础的“数据集-基准-模型”三位一体入手，解决了语音合成对齐中缺乏大规模人类偏好数据的关键瓶颈，且承诺全部开源，这对领域发展是扎实的贡献。短板：核心的奖励模型训练依赖闭源的Gemini-2.5-Flash生成CoT数据进行“冷启动”，其“教学”质量直接决定了“学生”GRM的上限，这使得方法的独立性和可复现性打了点折扣；同时，数据集的语言（中英）和风格覆盖仍有明显局限。 ...

SpeechOp: Inference-Time Task Composition for Generative Speech Processing

📄 SpeechOp: Inference-Time Task Composition for Generative Speech Processing #语音增强 #语音分离 #扩散模型 #多任务学习 #语音合成 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #语音分离 #多任务学习学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Justin Lovelace（Cornell University）通讯作者：未明确说明，但Zeyu Jin（Adobe Research）和Kilian Q. Weinberger（Cornell University）可能为共同通讯作者（论文未明确标注）。作者列表： Justin Lovelace（Cornell University） Rithesh Kumar（Adobe Research） Jiaqi Su（Adobe Research） Ke Chen（Adobe Research） Kilian Q. Weinberger（Cornell University） Zeyu Jin（Adobe Research） 💡 毒舌点评亮点在于将预训练TTS模型“逆向适配”为通用语音处理器，并提出了一种理论上更严谨的推理时任务组合方法（TC-CFG），为融合生成模型和判别模型知识提供了新思路。短板是，在作为核心评估场景的语音增强任务上，其使用Whisper转录本引导的ITC管线在内容保持（WER）上确实优异，但感知质量（MOS）与HiFi-GAN-2等强基线持平，并未形成决定性优势，且在一些客观信号保真度指标上表现平平。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：使用了多个公开数据集（MLS, Libri-TTS, LibriTTS-R, WHAMR!, WSJ0-2Mix, DNS Challenge, EchoThief等），并提供了详细的模拟退化流程描述。 Demo：未提供在线演示链接。复现材料：论文在附录和正文中提供了非常详细的模型架构（表8）、训练配置（超参数、优化器、两阶段训练细节）、采样配置和评估方法，复现指引充分。论文中引用的开源项目：DAC (Kumar et al., 2023), ByT5, WhisperX, SDE-DPM-Solver++ (Lu et al., 2022), HiFi-GAN-2, SGMSE+, StoRm, SepFormer等。 📌 核心摘要解决的问题：文本到语音（TTS）模型因使用海量“野外”数据而性能优越，但语音到语音（S2S）处理任务（如增强、分离）受限于配对数据稀缺，导致生成式方法易扭曲语音内容和说话人身份。方法核心：提出SpeechOp，一个基于潜在扩散的多任务模型。它通过适配一个预训练的TTS模型，并在其上进行多任务微调（包括TTS、增强、分离等），将其转化为一个通用语音处理器。核心创新是提出任务组合分类器自由引导（TC-CFG），用于在推理时原则性地组合不同任务（如增强+文本引导），以及隐式任务组合（ITC）管线，利用ASR模型（如Whisper）的转录本指导增强过程。新在哪里：不同于直接从头训练多任务模型，SpeechOp充分利用了TTS预训练中学习到的丰富语音表示。TC-CFG方法避免了传统得分平均混合生成先验的缺陷，而是将TTS模型用作判别引导。ITC管线无需配对转录数据，即可在推理时利用ASR知识提升内容保持。主要实验结果：SpeechOp在零样本TTS和语音编辑上表现与当前SOTA相当或更优。在语音增强上，使用Whisper转录本的ITC管线将WER从基线的5.4-8.1%大幅降低至2.9%，实现SOTA内容保持，同时主观质量（MOS）与HiFi-GAN-2相当。在说话人分离上，其MOS显著优于SepFormer基线，但信号失真指标（如SI-SDRi）较低。消融实验证明TC-CFG在组合任务时优于得分平均方法。关键结果见下表：表3: 语音增强结果（部分）模型 PESQ ↑ WER ↓ MOS ↑ HiFi-GAN-2 2.23 5.4 3.90 ± 0.04 SpeechOp (无转录本) 2.00 8.1 3.93 ± 0.04 SpeechOp-ITC (WhisperX) 2.05 2.9 3.89 ± 0.04 表6: 任务组合消融（使用黄金转录本）模型 PESQ ↑ WER ↓ :— :— :— SpeechOp (无转录本) 2.00 8.1 SpeechOp (TC-Avg) 1.88 3.4 SpeechOp (TC-CFG) 2.06 2.1 实际意义：该工作为利用丰富的TTS数据解决数据受限的S2S任务提供了有效范式，并为需要同时考虑声学质量和内容恢复的场景（如嘈杂录音修复）提供了灵活可控的解决方案。主要局限性：1) 在信号保真度指标上，尤其在语音分离任务中，与专门优化这些指标的传统方法存在差距。2) ITC管线依赖外部ASR模型的质量和鲁棒性。3) 论文未明确提供代码和模型，限制了直接复现与应用。 🏗️ 模型架构 SpeechOp是一个基于潜在扩散模型的多任务模型，其架构如图3所示。整体包含两个主要输入路径和核心生成组件。 ...

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

📄 StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs #语音分词 #量化 #鲁棒性 #语音识别 #语音合成 🔥 9.0/10 | 前10% | #语音分词 | #量化 | #鲁棒性 #语音识别学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuhan Song（北京大学计算机科学技术学院，多媒体信息处理国家重点实验室）通讯作者：Linhao Zhang（微信AI，腾讯基础模型技术中心）；Houfeng Wang（北京大学计算机科学技术学院，多媒体信息处理国家重点实验室）作者列表：Yuhan Song（北京大学）、Linhao Zhang（腾讯微信AI）、Chuhan Wu（腾讯微信AI）、Aiwei Liu（腾讯微信AI）、Wei Jia（腾讯微信AI）、Houfeng Wang（北京大学）、Xiao Zhou（腾讯微信AI） 💡 毒舌点评亮点在于将“集成学习”的思想巧妙应用于单模型的量化过程，通过比特级别的投票实现了强纠错能力，设计非常聪明。短板在于虽然实验全面，但对多分支架构如何影响所学语义表征的内在可解释性探讨不足，更多是经验性的验证。 🔗 开源详情代码：论文明确提供了公开代码仓库链接：https://github.com/Tencent/StableToken。模型权重：论文声明“We will release our model checkpoint upon acceptance”，表明计划开源模型权重。数据集：训练使用了多个公开数据集（如LibriSpeech, GigaSpeech等），列表见附录B.1。论文本身未创建或要求下载新的非公开数据集。 Demo：论文未提及在线演示。复现材料：提供了极其详细的训练细节、配置、超参数（见附录B）以及下游任务评估设置（见附录F），复现指引非常充分。论文中引用的开源项目：主要依赖Whisper (OpenAI), Qwen2.5 (Alibaba), HiFi-GAN等开源模型或框架作为基础组件。 📌 核心摘要要解决什么问题：现有的监督式语义语音分词器（如S3 Tokenizer， CosyVoice）虽然在无噪声条件下效果良好，但对微小的声学扰动（噪声）极其敏感。即使在高信噪比（SNR）下，输出的离散语音标记序列也可能发生剧烈变化，这大大增加了下游语音大模型（SpeechLLM）的学习负担，是导致其在现实噪声场景中性能下降的关键原因。方法核心是什么：提出StableToken，通过架构与训练的协同设计来解决上述问题。其核心是：投票-LFQ模块：用多个并行的线性投影分支（“投票者”）替代传统的单一量化路径，每个分支独立生成一个二进制表示。在推理时，对所有分支在每个比特位上进行多数投票，形成最终稳定的标记序列。噪声感知共识训练：在训练时，将纯净音频输入给多数分支，将添加扰动的音频输入给少数分支，并设计一个共识损失，强迫所有分支（尤其是受噪声干扰的分支）输出的预量化表征向全体分支的平均值对齐，从而显式地学习噪声不变性。与已有方法相比新在哪里：不同于以往试图通过单路径架构或设计鲁棒损失（如NAST， R-Spin）的方法，StableToken首次引入了多分支比特级投票的量化范式。这提供了更细粒度的纠错机制，即使多个分支在标记级别出错，只要比特级别的错误是稀疏的，仍可能恢复出正确标记。同时，其训练策略将噪声鲁棒性直接作为优化目标，而非仅依赖最终的ASR损失。主要实验结果如何：分词器级别：在FLEURS基准测试的多种合成噪声和真实噪声下，StableToken的单元编辑距离（UED）平均降至10.17%，相比最强监督基线（S3 Tokenizer的26.17%）相对降低了61.1%，是新的SOTA（见表1）。同时，在LibriSpeech和SEED-TTS上的重建质量（WER和MOS）也达到或超过了SOTA水平（见表2）。下游任务级别：集成StableToken的SpeechLLM在ASR（CHiME-4基准测试WER降低约30%）、语音情感识别（SER）和文本到语音（TTS）任务上均表现出显著更强的噪声鲁棒性，尤其在低SNR条件下优势更为明显（图3）。实际意义是什么：该工作为构建更鲁棒、可靠的端到端语音大模型提供了关键的基础组件。稳定的语音标记是连接连续语音信号与离散文本空间（LLM）的可靠桥梁，有助于提升语音理解与生成系统在真实世界复杂噪声环境下的性能与可用性。主要局限性是什么：1) 多分支架构虽计算开销小，但仍增加了少量参数和前向计算；2) 论文未深入探讨其生成的标记表征在语义或声学特性上的具体变化与可解释性；3) 虽然实验覆盖了多种噪声，但对极端未见过的噪声类型或复杂声学场景的泛化能力仍需更多验证。 🏗️ 模型架构 StableToken的整体架构建立在经典的“编码器-解码器”语音识别模型（初始化自Whisper-large-v3）之上，并在编码器中点插入核心创新模块。 ...