StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs
📄 StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs #语音识别 #语音大模型 #鲁棒性 #流式处理 🔥 8.0/10 | 前25% | #语音识别 | #预训练 | #语音大模型 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuhan Song(北京大学计算机科学学院,多媒体信息处理国家重点实验室) 通讯作者:Linhao Zhang(张林浩,未提供机构,推测为微信AI基础模型技术中心)、Houfeng Wang(王厚峰,北京大学计算机科学学院,多媒体信息处理国家重点实验室) 作者列表:Yuhan Song(北京大学计算机科学学院,多媒体信息处理国家重点实验室)、Linhao Zhang(未说明具体机构)、Chuhan Wu(微信AI基础模型技术中心)、Aiwei Liu(微信AI基础模型技术中心)、Wei Jia(微信AI基础模型技术中心)、Houfeng Wang(北京大学计算机科学学院,多媒体信息处理国家重点实验室)、Xiao Zhou(微信AI基础模型技术中心) 💡 毒舌点评 这篇论文精准地抓住了现有语义语音分词器在噪声下“一碰就碎”的痛点,并提出了一个巧妙且工程友好的“位级投票”解决方案,实验结果对比非常亮眼,是解决一个实际问题的好工作。然而,其多分支结构在训练时引入的额外计算成本和复杂性未被深入讨论,且对“共识损失”的理论依据和不同变体的探索也显得较为基础。 🔗 开源详情 代码:提供GitHub仓库链接 https://github.com/Tencent/StableToken,论文中声明代码将公开。 模型权重:论文中声明模型检查点将在接受后公开。 数据集:训练使用的主要开源数据集列表已公开(表7)。评估使用FLEURS、LibriSpeech、CHiME-4、ESD、SEED-TTS等公开数据集。 Demo:论文中未提及在线演示。 复现材料:提供了训练超参数(表8)、噪声增强配置(表9)、模型详细架构描述、消融实验设置(附录C)等详尽信息。 论文中引用的开源项目:骨干网络使用了Whisper-large-v3,对比基线包括HuBERT、NAST、R-Spin、SpeechTokenizer等。 📌 核心摘要 本文旨在解决当前语义语音分词器在面对微小声学扰动(即使语音清晰可辨)时输出序列极不稳定的问题,这种不稳定性严重增加了下游语音大语言模型的学习负担。论文指出问题的根源在于两个方面:脆弱的单路径量化架构和仅监督最终转录文本的遥远训练信号。为此,作者提出了StableToken,一种基于共识机制的鲁棒分词器。其核心方法包含两个相互协同的部分:(1) Voting-LFQ模块,一种多分支量化器,每个分支独立处理输入并生成二进制表示,最后通过位级多数投票机制聚合成一个稳定的输出;(2) 噪声感知共识训练策略,在训练时为部分分支提供带噪声的输入(多视图),并通过一个共识损失强制所有分支的表示保持一致,从而显式地学习对噪声不变的特征。实验表明,StableToken在单元编辑距离(UED)指标上取得了当前最优结果,相对于最佳基线(S3 Tokenizer,26.17%)将平均UED降低了60%以上至10.17%,同时保持了高质量的音频重建能力。这种基础稳定性的提升直接转化为下游语音大模型在语音识别(ASR)、语音情感识别(SER)和文本到语音(TTS)任务上的鲁棒性收益,尤其在严重噪声下性能优势显著。主要局限性在于,多分支的数量选择是经验性的,且论文未深入探讨其在不同硬件上的实际推理效率开销。 🏗️ 模型架构 StableToken的整体架构建立在端到端ASR模型的基础之上,以Whisper-large-v3编码器为骨干网络。其核心创新在于将传统的单路径量化器替换为Voting-LFQ(投票式无查找量化)模块。 ...