StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs
📄 StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs #语音分词 #量化 #鲁棒性 #语音识别 #语音合成 🔥 9.0/10 | 前10% | #语音分词 | #量化 | #鲁棒性 #语音识别 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuhan Song(北京大学计算机科学技术学院,多媒体信息处理国家重点实验室) 通讯作者:Linhao Zhang(微信AI,腾讯基础模型技术中心);Houfeng Wang(北京大学计算机科学技术学院,多媒体信息处理国家重点实验室) 作者列表:Yuhan Song(北京大学)、Linhao Zhang(腾讯微信AI)、Chuhan Wu(腾讯微信AI)、Aiwei Liu(腾讯微信AI)、Wei Jia(腾讯微信AI)、Houfeng Wang(北京大学)、Xiao Zhou(腾讯微信AI) 💡 毒舌点评 亮点在于将“集成学习”的思想巧妙应用于单模型的量化过程,通过比特级别的投票实现了强纠错能力,设计非常聪明。短板在于虽然实验全面,但对多分支架构如何影响所学语义表征的内在可解释性探讨不足,更多是经验性的验证。 🔗 开源详情 代码:论文明确提供了公开代码仓库链接:https://github.com/Tencent/StableToken。 模型权重:论文声明“We will release our model checkpoint upon acceptance”,表明计划开源模型权重。 数据集:训练使用了多个公开数据集(如LibriSpeech, GigaSpeech等),列表见附录B.1。论文本身未创建或要求下载新的非公开数据集。 Demo:论文未提及在线演示。 复现材料:提供了极其详细的训练细节、配置、超参数(见附录B)以及下游任务评估设置(见附录F),复现指引非常充分。 论文中引用的开源项目:主要依赖Whisper (OpenAI), Qwen2.5 (Alibaba), HiFi-GAN等开源模型或框架作为基础组件。 📌 核心摘要 要解决什么问题:现有的监督式语义语音分词器(如S3 Tokenizer, CosyVoice)虽然在无噪声条件下效果良好,但对微小的声学扰动(噪声)极其敏感。即使在高信噪比(SNR)下,输出的离散语音标记序列也可能发生剧烈变化,这大大增加了下游语音大模型(SpeechLLM)的学习负担,是导致其在现实噪声场景中性能下降的关键原因。 方法核心是什么:提出StableToken,通过架构与训练的协同设计来解决上述问题。其核心是: 投票-LFQ模块:用多个并行的线性投影分支(“投票者”)替代传统的单一量化路径,每个分支独立生成一个二进制表示。在推理时,对所有分支在每个比特位上进行多数投票,形成最终稳定的标记序列。 噪声感知共识训练:在训练时,将纯净音频输入给多数分支,将添加扰动的音频输入给少数分支,并设计一个共识损失,强迫所有分支(尤其是受噪声干扰的分支)输出的预量化表征向全体分支的平均值对齐,从而显式地学习噪声不变性。 与已有方法相比新在哪里:不同于以往试图通过单路径架构或设计鲁棒损失(如NAST, R-Spin)的方法,StableToken首次引入了多分支比特级投票的量化范式。这提供了更细粒度的纠错机制,即使多个分支在标记级别出错,只要比特级别的错误是稀疏的,仍可能恢复出正确标记。同时,其训练策略将噪声鲁棒性直接作为优化目标,而非仅依赖最终的ASR损失。 主要实验结果如何: 分词器级别:在FLEURS基准测试的多种合成噪声和真实噪声下,StableToken的单元编辑距离(UED) 平均降至10.17%,相比最强监督基线(S3 Tokenizer的26.17%)相对降低了61.1%,是新的SOTA(见表1)。同时,在LibriSpeech和SEED-TTS上的重建质量(WER和MOS)也达到或超过了SOTA水平(见表2)。 下游任务级别:集成StableToken的SpeechLLM在ASR(CHiME-4基准测试WER降低约30%)、语音情感识别(SER)和文本到语音(TTS)任务上均表现出显著更强的噪声鲁棒性,尤其在低SNR条件下优势更为明显(图3)。 实际意义是什么:该工作为构建更鲁棒、可靠的端到端语音大模型提供了关键的基础组件。稳定的语音标记是连接连续语音信号与离散文本空间(LLM)的可靠桥梁,有助于提升语音理解与生成系统在真实世界复杂噪声环境下的性能与可用性。 主要局限性是什么:1) 多分支架构虽计算开销小,但仍增加了少量参数和前向计算;2) 论文未深入探讨其生成的标记表征在语义或声学特性上的具体变化与可解释性;3) 虽然实验覆盖了多种噪声,但对极端未见过的噪声类型或复杂声学场景的泛化能力仍需更多验证。 🏗️ 模型架构 StableToken的整体架构建立在经典的“编码器-解码器”语音识别模型(初始化自Whisper-large-v3)之上,并在编码器中点插入核心创新模块。 ...