Vocalnet-M2: Advancing Low-Latency Spoken Language Modeling via Integrated Multi-Codebook Tokenization and Multi-Token Prediction

📄 Vocalnet-M2: Advancing Low-Latency Spoken Language Modeling via Integrated Multi-Codebook Tokenization and Multi-Token Prediction #语音对话系统 #多令牌预测 #多码本分词 #语音大模型 ✅ 7.5/10 | 前25% | #语音对话系统 | #多令牌预测 | #多码本分词 #语音大模型 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yuhao Wang (上海交通大学,蚂蚁集团) 通讯作者:Yu Wang (上海交通大学) 作者列表:Yuhao Wang (上海交通大学,蚂蚁集团)、Ziyang Cheng (上海交通大学)、Heyang Liu (上海交通大学,蚂蚁集团)、Ronghua Wu (蚂蚁集团)、Qunshan Gu (蚂蚁集团)、Yanfeng Wang (上海交通大学)、Yu Wang (上海交通大学) 💡 毒舌点评 论文直击当前语音大模型在实时交互中的“阿喀琉斯之踵”——延迟,并通过多码本直出和MTP策略给出了有效缓解方案,工程实用性值得肯定。然而,多码本学习的“高门槛”特性意味着它严重依赖高质量、大规规模的训练数据,这可能成为其在资源受限场景下落地的“新瓶颈”。 📌 核心摘要 本文旨在解决当前端到端语音语言模型因自回归生成和依赖流匹配模型导致的响应延迟过高问题。方法核心是提出VocalNet-M2,一个采用“思考者-说话者”架构的低延迟模态对齐SLM。其创新在于:1)集成多码本分词器,直接生成包含丰富声学信息的8码本语音令牌,从而省去了高延迟的流匹配声学重建模型;2)设计了针对多码本生成的多令牌预测策略,在单次推理步骤中预测多个未来令牌,进一步提升效率并改善性能。主要实验结果表明,VocalNet-M2在保持与主流SLM竞争性的文本与语音质量(如AlpacaEval 7.29, WER 6.07)的同时,将首音频块延迟从基线系统的约725毫秒大幅降低至约349毫秒,实现了约2倍的推理加速。该工作的实际意义在于为构建低延迟、高响应的实时语音交互系统提供了有价值的架构设计和对比分析。主要局限性在于,学习多码本语音令牌比单码本令牌更困难,对训练数据的质量和数量要求更高。 ...

2026-04-29