语音分词 | 语音/音乐/音频论文速递

Scaling Speech Tokenizers with Diffusion Autoencoders

📄 Scaling Speech Tokenizers with Diffusion Autoencoders #语音分词 #扩散模型 #流匹配 #语音大模型 #语音识别 ✅ 7.5/10 | 前25% | #语音分词 | #扩散模型 | #流匹配 #语音大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuancheng Wang（Meta超级智能实验室、香港中文大学（深圳））通讯作者：未明确说明（论文中提供了第一作者的邮箱地址 yuanchengwang@link.cuhk.edu.cn）作者列表：Yuancheng Wang（Meta超级智能实验室、香港中文大学（深圳））、Zhenyu Tang（Meta超级智能实验室）、Yun Wang（Meta超级智能实验室）、Arthur Hinsvark（Meta超级智能实验室）、Yingru Liu（Meta超级智能实验室）、Yinghao Li（Meta超级智能实验室）、Kainan Peng（Meta超级智能实验室）、Junyi Ao（Meta超级智能实验室、香港中文大学（深圳））、Mingbo Ma（Meta超级智能实验室）、Mike Seltzer（Meta超级智能实验室）、Qing He（Meta超级智能实验室）、Xubo Liu（Meta超级智能实验室） 💡 毒舌点评亮点：论文提出的SiTok在极低比特率（0.2 kbps）和极低帧率（12.5 Hz）下实现了领先的语音重建质量和下游任务性能，为语音大模型提供了高效的离散化接口，技术路径清晰且实验全面。短板：模型规模巨大（1.6B参数）且依赖未公开的200万小时内部数据进行训练，这对于大多数研究团队而言复现门槛极高，其性能是否完全来自架构创新还是数据规模红利需要进一步厘清。 🔗 开源详情代码：论文附录D提供了详细的伪代码，且承诺将在论文正式发表后发布完整的推理代码和预训练模型检查点至公共、仅限研究使用的数据集。但未提供当前可用的代码仓库链接。模型权重：未提及当前是否提供公开的预训练权重。承诺未来发布。数据集：训练数据为200万小时内部数据，未公开，无法获取。 Demo：提供了在线演示网站链接：https://sitok-demo.github.io/。复现材料：提供了非常详细的模型架构（附录A）、伪代码（附录D.1， D.2）、训练超参数（附录D.3）和消融研究配置，复现信息（除数据和硬件外）较充分。论文中引用的开源项目：主要引用了Llama系列模型架构、RoPE位置编码、Vocos声码器、AdamW优化器��通用组件。未提及依赖其他特定的开源语音分词或扩散模型工具。 📌 核心摘要问题：现有语音分词器在平衡语义理解（需要压缩）与声学保真（需要细节）方面存在根本矛盾，尤其在极低比特率/帧率设置下，传统基于向量量化和回归损失的优化方式存在结构性瓶颈。方法核心：提出SiTok，一种基于扩散自编码器的语音分词器。其核心是端到端地联合优化离散量化与生成式重建，并引入一个基于CTC损失的辅助解码器对量化后的离散潜空间进行语义正则化，以学习同时具备高保真度和丰富语义的离散表示。创新点：a) 采用流匹配（扩散模型的一种）作为解码目标，替代传统回归损失或GAN，更有效地从激进压缩的离散码中恢复语音；b) 端到端联合训练量化器与扩散解码器，避免了两阶段训练导致的次优离散码；c) 直接对离散潜变量施加CTC语言监督，确保令牌的语义一致性；d) 探索了快捷微调等高效解码策略，将扩散推理步数大幅减少至2-4步。主要实验结果：SiTok在0.2 kbps和12.5 Hz的极端压缩设置下，重建WER为3.34（使用Classifier-Free Guidance），说话人相似度（SIM）达0.682（使用解码器微调），在语音重建和多项理解任务（ASR、情感识别、说话人验证、关键词检测）上均显著优于所有对比的强基线模型（见下表关键数据）。消融研究验证了扩散损失、语义正则化、模型缩放等关键设计的有效性。模型比特率(kbps) WER (↓) SIM (↑) UTMOS (↑) LLM ASR (↓) Ground Truth - 2.14 0.730 3.53 - Mimi (Baseline) 0.825 4.51 0.527 3.09 23.1 StableCodec (Baseline) 0.40 11.1 0.410 3.87 28.0 SiTok (CN=1, 基础) 0.20 4.06 0.641 3.44 4.95 SiTok (CN=1, +解码器微调) 0.20 3.79 0.682 3.48 - SiTok (CN=1, +Token CFG) 0.20 3.34 0.635 3.60 - 实际意义：为构建统一的、高效的语音大模型（同时处理理解和生成）提供了关键的离散化接口。其极低的令牌速率能显著缩短序列长度，提升语言模型的推理效率。主要局限性：a) 性能仍低于连续特征表示；b) 扩散解码器本身对流式生成不友好；c) 训练依赖大规模内部数据集，可获取性未说明。 🏗️ 模型架构 SiTok是一个基于扩散自编码器的语音分词系统，整体流程为：梅尔频谱图 -> 下采样 -> 编码器 -> 向量量化 -> 离散令牌 -> 扩散解码器 -> 重建梅尔频谱图。 ...

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

📄 StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs #语音分词 #量化 #鲁棒性 #语音识别 #语音合成 🔥 9.0/10 | 前10% | #语音分词 | #量化 | #鲁棒性 #语音识别学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuhan Song（北京大学计算机科学技术学院，多媒体信息处理国家重点实验室）通讯作者：Linhao Zhang（微信AI，腾讯基础模型技术中心）；Houfeng Wang（北京大学计算机科学技术学院，多媒体信息处理国家重点实验室）作者列表：Yuhan Song（北京大学）、Linhao Zhang（腾讯微信AI）、Chuhan Wu（腾讯微信AI）、Aiwei Liu（腾讯微信AI）、Wei Jia（腾讯微信AI）、Houfeng Wang（北京大学）、Xiao Zhou（腾讯微信AI） 💡 毒舌点评亮点在于将“集成学习”的思想巧妙应用于单模型的量化过程，通过比特级别的投票实现了强纠错能力，设计非常聪明。短板在于虽然实验全面，但对多分支架构如何影响所学语义表征的内在可解释性探讨不足，更多是经验性的验证。 🔗 开源详情代码：论文明确提供了公开代码仓库链接：https://github.com/Tencent/StableToken。模型权重：论文声明“We will release our model checkpoint upon acceptance”，表明计划开源模型权重。数据集：训练使用了多个公开数据集（如LibriSpeech, GigaSpeech等），列表见附录B.1。论文本身未创建或要求下载新的非公开数据集。 Demo：论文未提及在线演示。复现材料：提供了极其详细的训练细节、配置、超参数（见附录B）以及下游任务评估设置（见附录F），复现指引非常充分。论文中引用的开源项目：主要依赖Whisper (OpenAI), Qwen2.5 (Alibaba), HiFi-GAN等开源模型或框架作为基础组件。 📌 核心摘要要解决什么问题：现有的监督式语义语音分词器（如S3 Tokenizer， CosyVoice）虽然在无噪声条件下效果良好，但对微小的声学扰动（噪声）极其敏感。即使在高信噪比（SNR）下，输出的离散语音标记序列也可能发生剧烈变化，这大大增加了下游语音大模型（SpeechLLM）的学习负担，是导致其在现实噪声场景中性能下降的关键原因。方法核心是什么：提出StableToken，通过架构与训练的协同设计来解决上述问题。其核心是：投票-LFQ模块：用多个并行的线性投影分支（“投票者”）替代传统的单一量化路径，每个分支独立生成一个二进制表示。在推理时，对所有分支在每个比特位上进行多数投票，形成最终稳定的标记序列。噪声感知共识训练：在训练时，将纯净音频输入给多数分支，将添加扰动的音频输入给少数分支，并设计一个共识损失，强迫所有分支（尤其是受噪声干扰的分支）输出的预量化表征向全体分支的平均值对齐，从而显式地学习噪声不变性。与已有方法相比新在哪里：不同于以往试图通过单路径架构或设计鲁棒损失（如NAST， R-Spin）的方法，StableToken首次引入了多分支比特级投票的量化范式。这提供了更细粒度的纠错机制，即使多个分支在标记级别出错，只要比特级别的错误是稀疏的，仍可能恢复出正确标记。同时，其训练策略将噪声鲁棒性直接作为优化目标，而非仅依赖最终的ASR损失。主要实验结果如何：分词器级别：在FLEURS基准测试的多种合成噪声和真实噪声下，StableToken的单元编辑距离（UED）平均降至10.17%，相比最强监督基线（S3 Tokenizer的26.17%）相对降低了61.1%，是新的SOTA（见表1）。同时，在LibriSpeech和SEED-TTS上的重建质量（WER和MOS）也达到或超过了SOTA水平（见表2）。下游任务级别：集成StableToken的SpeechLLM在ASR（CHiME-4基准测试WER降低约30%）、语音情感识别（SER）和文本到语音（TTS）任务上均表现出显著更强的噪声鲁棒性，尤其在低SNR条件下优势更为明显（图3）。实际意义是什么：该工作为构建更鲁棒、可靠的端到端语音大模型提供了关键的基础组件。稳定的语音标记是连接连续语音信号与离散文本空间（LLM）的可靠桥梁，有助于提升语音理解与生成系统在真实世界复杂噪声环境下的性能与可用性。主要局限性是什么：1) 多分支架构虽计算开销小，但仍增加了少量参数和前向计算；2) 论文未深入探讨其生成的标记表征在语义或声学特性上的具体变化与可解释性；3) 虽然实验覆盖了多种噪声，但对极端未见过的噪声类型或复杂声学场景的泛化能力仍需更多验证。 🏗️ 模型架构 StableToken的整体架构建立在经典的“编码器-解码器”语音识别模型（初始化自Whisper-large-v3）之上，并在编码器中点插入核心创新模块。 ...

BEST-STD 2.0: Balanced and Efficient Speech Tokenizer for Spoken Term Detection

📄 BEST-STD 2.0: Balanced and Efficient Speech Tokenizer for Spoken Term Detection #音频检索 #自监督学习 #对比学习 #最优传输 #语音分词 ✅ 7.5/10 | 前25% | #音频检索 | #自监督学习 | #对比学习 #最优传输学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Anup Singh（IDLab, Department of Electronics and Information Systems, Ghent University, Belgium）通讯作者：Vipul Arora（ESAT-PSI, KU Leuven, Belgium；标注有⋆表示equal advising）作者列表：Anup Singh（IDLab, Department of Electronics and Information Systems, Ghent University, Belgium）、Vipul Arora（ESAT-PSI, KU Leuven, Belgium）、Kris Demuynck（IDLab, Department of Electronics and Information Systems, Ghent University, Belgium） 💡 毒舌点评亮点在于将最优传输（OT）优雅地用于解决语音分词码本坍缩这一老大难问题，使得大码本训练稳定且高效，且在抗噪抗混响的鲁棒性上做到了超越同类基线（包括大模型WavLM的分词）的扎实水平。短板是研究的问题域（查询式语音术语检索）略显小众，且其核心的“稳健性”提升高度依赖于特定的任务和评价指标（Jaccard相似度、MTWV），对于通用语音理解或生成任务的直接启示有限。 ...