LLM-Codec: Neural Audio Codec Meets Language Model Objectives

📄 LLM-Codec: Neural Audio Codec Meets Language Model Objectives #语音大模型, #预训练, #基准测试, #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Ho-Lam Chung (台湾大学 通信工程研究所, 华硕智能云服务) 通讯作者:Hung-yi Lee (台湾大学 人工智能卓越研究中心) 其他作者:Yiming Chen (华硕智能云服务) 💡 毒舌点评 亮点:精准地抓住了语音令牌化领域“重建质量”与“语言模型可预测性”之间的核心矛盾,并用一套设计精巧、实验扎实的“组合拳”(FTP+SA+Gumbel桥)漂亮地解决了问题,效果拔群。槽点:方法依赖语音-文本对齐(SA),这在非语音音频或无转录数据上就成了“阿喀琉斯之踵”,限制了其通用性;另外,训练时需要额外的前向传播和辅助模块,对计算资源是个小考验。 🔗 开源详情 代码与模型:论文明确承诺将开源,GitHub仓库地址为 https://github.com/voidful/llm-codec。截至论文阅读时(v1版本),代码和模型权重尚未发布。 预训练权重:基于AUV编码器和Qwen3-4B-Instruct语言模型进行微调。预计开源时会提供微调后的编码器权重。 在线Demo:论文中未提及。 依赖的开源项目:论文中引用了多个开源项目作为基线或组件,包括:AUV编码器、Qwen3大语言模型、EnCodec、SoundStream、BigCodec、UniCodec、WavTokenizer、LibriSpeech数据集、Codec-SUPERB评估工具、SALMon评估基准等。 📌 核心摘要 本文旨在解决语音语言模型(SLM)中一个根本性矛盾:神经音频编码器以波形重建为目标进行优化,而语言模型以序列预测为目标进行优化,这种目标不匹配导致生成的离散语音令牌熵值高、难以预测。为此,作者提出了LLM-Codec训练框架,在不改变编码器和语言模型架构的前提下,通过引入两个面向语言模型的正则化目标来重塑编码器:1)未来令牌预测(FTP),使用Medusa风格的多头结构预测多个未来令牌,鼓励令牌序列的局部可预测性;2)语义对齐(SA),通过对比学习将语音在冻结LLM中的隐藏状态与对应文本的隐藏状态对齐,确保令牌的语义一致性。一个可微分的Gumbel桥使得梯度能够端到端地回传至编码器。实验表明,LLM-Codec在SALMon语音连贯性基准上达到61.6%的准确率(比基线AUV高12.1个百分点),并将令牌级困惑度降低了35倍,同时在Codec-SUPERB-tiny基准上将语音Mel距离提升了5.0%,证明了重建质量与令牌可学习性可以协同提升。 🏗️ 模型架构 LLM-Codec的整体架构是一个增强型的神经音频编码器,其核心是在标准编码器-量化器-解码器流程中,插入了面向LLM的训练模块,并通过一个可微分的桥接器与冻结的LLM主干连接,实现端到端训练。 完整输入输出流程: 输入:原始音频波形 x。 编码与量化:音频 x 通过编码器 ℰ 得到连续潜变量 z,再通过量化器 𝒬(使用Gumbel-Softmax桥接)得到离散令牌 c。 LLM处理:离散令牌 c 通过音频令牌嵌入层 E_audio 转换为嵌入向量,输入到冻结的LLM主干(如Qwen3-4B)中,得到各层的隐藏状态 {h_t}。 辅助任务计算: 未来令牌预测(FTP):在LLM的最后一个隐藏状态上,连接K个Medusa头(线性层 M_k),分别预测当前时刻之后第k个未来令牌。 语义对齐(SA):从LLM的中间到高层(如第10-25层)提取语音序列的最后隐藏状态 h_audio,与对应文本通过相同且冻结的LLM得到的最后隐藏状态 h_text 进行对齐(余弦损失+对比损失)。 重建输出:离散令牌 c 通过解码器 𝒟 重建为音频波形 x̂。 损失计算与反向传播:总损失 ℒ_total 包含重建损失 ℒ_codec、桥接损失 ℒ_bridge、FTP损失 ℒ_FTP、语义对齐损失(ℒ_cos + ℒ_ctr)。梯度通过Gumbel桥反向传播至编码器 ℰ,从而优化编码器使其产生对LLM更友好的令牌。 主要组件与设计理由: ...

2026-04-21 · 更新于 2026-06-12 · 2 min · 391 words

NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR

📄 NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR #语音识别, #语音大模型, #强化学习, #流式处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 作者:Yuan Xie, Jiaqi Song, Guang Qiu, Xianliang Wang, Kai Qiao, Junfeng Yuan, Shengqing Liu, Yi Zhang, Bowen Chen, Ming Lei, Jie Gao, Jie Wu 所属机构:Advanced Intelligent Systems Group, NIO (蔚来汽车) 备注:论文未明确区分第一作者和通讯作者。所有作者均来自同一工业界团队(NIO)。 💡 毒舌点评 亮点:这是一篇典型的“工程美学”论文,把一个前沿技术(LLM-based ASR)在落地前可能遇到的坑(轻量化、幻觉、热词)都系统性地填上了,而且填得很扎实、很漂亮。特别是多阶段训练和流式推理的设计,体现了对LLM和语音特性深刻的理解。 槽点:理论创新的“性感”程度略逊于其工程实现的“性感”。它更像是一个优化到极致的“解决方案”而非一个颠覆性的“新方法”。另外,开源信息的缺失对于这样一个以实用为导向的工作来说,是个不小的遗憾。 🔗 开源详情 论文中未明确提及代码、模型权重或训练数据的开源计划。文末提供的GitHub链接(https://github.com/.../NIM4-ASR)上下文是“Report GitHub Issue”,且论文全文未提及任何关于开源发布的细节。因此,目前���法确认该项目已开源。 📌 核心摘要 本文提出了NIM4-ASR,一个面向生产环境的高效、鲁棒且可定制的实时语音识别框架。该工作旨在解决现有LLM-based ASR在实际部署中的三大挑战:1) 轻量化模型性能严重下降(有限的向下扩展性);2) 在声学挑战条件下产生幻觉;3) 缺乏生产就绪的热词定制机制。为此,作者提出了一套原则性的多阶段训练范式,通过模块感知的预训练、迭代异步监督微调(IA-SFT)和ASR专用强化学习(RL),显式地划分编码器与LLM的功能边界,减少模态差距并抑制表示漂移。在推理端,设计了优化的流式推理管道和基于音素检索增强生成(RAG)的百万级热词定制方案。实验表明,仅2.3B参数的NIM4-ASR在多个公开基准上达到SOTA水平,并在内部实体密集型场景中大幅超越更大规模的模型,同时支持亚毫秒级检索延迟的热词定制。该工作为构建适用于实时语音交互的LLM-based ASR系统提供了实用的解决方案。 🏗️ 模型架构 NIM4-ASR采用模块化的编码器-适配器-LLM架构,整体流程如下: ...

2026-04-21 · 更新于 2026-06-12 · 2 min · 257 words

VoxSafeBench: Not Just What Is Said, but Who, How, and Where

📄 VoxSafeBench: Not Just What Is Said, but Who, How, and Where #语音大模型, #基准测试, #鲁棒性, #多语言 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者:Yuxiang Wang(香港中文大学(深圳),Amphion Technology Co., Ltd.) 通讯作者:Zhizheng Wu(香港中文大学(深圳),深圳湾区研究院,Amphion Technology Co., Ltd.) 其他作者: Hongyu Liu(香港中文大学(深圳)) Yijiang Xu(香港中文大学(深圳)) Luchao Yao(香港中文大学(深圳)) Qinke Ni(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Wan Lin(香港中文大学(深圳)) Kunyu Feng(香港中文大学(深圳)) Dekun Chen(香港中文大学(深圳)) Xu Tan(未明确机构,根据上下文推断可能与Amphion或合作方相关) Lei Wang(未明确机构) Jie Shi(未明确机构) 💡 毒舌点评 亮点:这篇论文最大的贡献是“掀桌子”——它用一个设计精巧的基准(VoxSafeBench)清晰地证明,当前顶尖的语音大模型在文字游戏(文本安全)上可能很溜,但一旦涉及“听话听音”(谁在说、怎么说、在哪说),其社会常识和道德判断就集体掉线,暴露出严重的“语音接地”缺陷。其“两层设计”像一把精准的手术刀,切开了模型“知道”和“做到”之间的鸿沟。 槽点:评测框架虽然全面,但稍显复杂,22个任务对于快速复现和模型迭代可能是个挑战。此外,合成语音数据终究与真实世界充满噪声和不确定性的交互有差距,论文自己也承认了这点。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/amphionteam/VoxSafeBench 数据集:已公开。项目主页提供了数据获取链接:https://amphionteam.github.io/VoxSafeBench_demopage/ 模型权重:论文本身不涉及发布新模型,而是评估现有模型。评测代码支持评估列表中的开源和闭源模型。 预训练权重:不适用。 在线Demo:项目主页可能提供,论文中未明确说明。 引用的开源项目:论文中明确使用了CosyVoice3(语音合成)、Whisper-large-v3(语音识别/质量过滤)、DeepSeek-V3/Kimi-K2.5/GPT-5.2(作为LLM法官)等开源或公开可用的模型。 📌 核心摘要 这篇论文旨在解决当前语音语言模型(SLM)社会对齐评估不全面、不深入的问题。现有基准要么只关注基础音频理解,要么孤立地研究单一风险,无法区分模型是因“不懂”还是因“没用对地方”而失败。为此,作者提出了VoxSafeBench,这是首个联合评估SLM在安全、公平、隐私三大社会对齐维度上的综合基准。其核心方法是创新的两层(Two-Tier)设计:Tier 1评估内容中心风险(文本本身有害),通过对比文本、干净音频和多样音频输入,揭示跨模态对齐差距;Tier 2评估音频条件风险(文本无害,但正确响应依赖于说话人、副语言或环境线索),这是本工作的精髓。为确保Tier 2的效度,论文采用了三项关键控制:所有转录文本被验证为无害;构建了“文本参考上限”(将声学线索文本化后,文本模型表现接近饱和);并通过“中间感知探测”证实前沿SLM能感知相关声学线索但仍做出不安全响应。对多个领先SLM的评估一致表明:在文本层面看似稳健的安全防护,在语音场景中显著退化。模型经常能识别文本中的社会规范,却无法在决策线索必须通过语音接地时应用该规范,揭示了普遍存在的**“语音接地差距”**。该工作为评估和提升SLM的社会对齐能力提供了系统化的框架和关键洞见。 ...

2026-04-21 · 更新于 2026-06-12 · 2 min · 321 words