语音大模型，

LLM-Codec: Neural Audio Codec Meets Language Model Objectives

📄 LLM-Codec: Neural Audio Codec Meets Language Model Objectives #语音大模型， #预训练， #基准测试， #音频大模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Ho-Lam Chung (台湾大学通信工程研究所，华硕智能云服务) 通讯作者：Hung-yi Lee (台湾大学人工智能卓越研究中心) 其他作者：Yiming Chen (华硕智能云服务) 💡 毒舌点评亮点：精准地抓住了语音令牌化领域“重建质量”与“语言模型可预测性”之间的核心矛盾，并用一套设计精巧、实验扎实的“组合拳”（FTP+SA+Gumbel桥）漂亮地解决了问题，效果拔群。槽点：方法依赖语音-文本对齐（SA），这在非语音音频或无转录数据上就成了“阿喀琉斯之踵”，限制了其通用性；另外，训练时需要额外的前向传播和辅助模块，对计算资源是个小考验。 🔗 开源详情代码与模型：论文明确承诺将开源，GitHub仓库地址为 https://github.com/voidful/llm-codec。截至论文阅读时（v1版本），代码和模型权重尚未发布。预训练权重：基于AUV编码器和Qwen3-4B-Instruct语言模型进行微调。预计开源时会提供微调后的编码器权重。在线Demo：论文中未提及。依赖的开源项目：论文中引用了多个开源项目作为基线或组件，包括：AUV编码器、Qwen3大语言模型、EnCodec、SoundStream、BigCodec、UniCodec、WavTokenizer、LibriSpeech数据集、Codec-SUPERB评估工具、SALMon评估基准等。 📌 核心摘要本文旨在解决语音语言模型（SLM）中一个根本性矛盾：神经音频编码器以波形重建为目标进行优化，而语言模型以序列预测为目标进行优化，这种目标不匹配导致生成的离散语音令牌熵值高、难以预测。为此，作者提出了LLM-Codec训练框架，在不改变编码器和语言模型架构的前提下，通过引入两个面向语言模型的正则化目标来重塑编码器：1）未来令牌预测（FTP），使用Medusa风格的多头结构预测多个未来令牌，鼓励令牌序列的局部可预测性；2）语义对齐（SA），通过对比学习将语音在冻结LLM中的隐藏状态与对应文本的隐藏状态对齐，确保令牌的语义一致性。一个可微分的Gumbel桥使得梯度能够端到端地回传至编码器。实验表明，LLM-Codec在SALMon语音连贯性基准上达到61.6%的准确率（比基线AUV高12.1个百分点），并将令牌级困惑度降低了35倍，同时在Codec-SUPERB-tiny基准上将语音Mel距离提升了5.0%，证明了重建质量与令牌可学习性可以协同提升。 🏗️ 模型架构 LLM-Codec的整体架构是一个增强型的神经音频编码器，其核心是在标准编码器-量化器-解码器流程中，插入了面向LLM的训练模块，并通过一个可微分的桥接器与冻结的LLM主干连接，实现端到端训练。完整输入输出流程：输入：原始音频波形 x。编码与量化：音频 x 通过编码器 ℰ 得到连续潜变量 z，再通过量化器 𝒬（使用Gumbel-Softmax桥接）得到离散令牌 c。 LLM处理：离散令牌 c 通过音频令牌嵌入层 E_audio 转换为嵌入向量，输入到冻结的LLM主干（如Qwen3-4B）中，得到各层的隐藏状态 {h_t}。辅助任务计算：未来令牌预测（FTP）：在LLM的最后一个隐藏状态上，连接K个Medusa头（线性层 M_k），分别预测当前时刻之后第k个未来令牌。语义对齐（SA）：从LLM的中间到高层（如第10-25层）提取语音序列的最后隐藏状态 h_audio，与对应文本通过相同且冻结的LLM得到的最后隐藏状态 h_text 进行对齐（余弦损失+对比损失）。重建输出：离散令牌 c 通过解码器 𝒟 重建为音频波形 x̂。损失计算与反向传播：总损失 ℒ_total 包含重建损失 ℒ_codec、桥接损失 ℒ_bridge、FTP损失 ℒ_FTP、语义对齐损失（ℒ_cos + ℒ_ctr）。梯度通过Gumbel桥反向传播至编码器 ℰ，从而优化编码器使其产生对LLM更友好的令牌。主要组件与设计理由： ...

NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR

📄 NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR #语音识别， #语音大模型， #强化学习， #流式处理 🔥 评分：8.5/10 | arxiv 👥 作者与机构作者：Yuan Xie, Jiaqi Song, Guang Qiu, Xianliang Wang, Kai Qiao, Junfeng Yuan, Shengqing Liu, Yi Zhang, Bowen Chen, Ming Lei, Jie Gao, Jie Wu 所属机构：Advanced Intelligent Systems Group, NIO (蔚来汽车) 备注：论文未明确区分第一作者和通讯作者。所有作者均来自同一工业界团队（NIO）。 💡 毒舌点评亮点：这是一篇典型的“工程美学”论文，把一个前沿技术（LLM-based ASR）在落地前可能遇到的坑（轻量化、幻觉、热词）都系统性地填上了，而且填得很扎实、很漂亮。特别是多阶段训练和流式推理的设计，体现了对LLM和语音特性深刻的理解。槽点：理论创新的“性感”程度略逊于其工程实现的“性感”。它更像是一个优化到极致的“解决方案”而非一个颠覆性的“新方法”。另外，开源信息的缺失对于这样一个以实用为导向的工作来说，是个不小的遗憾。 🔗 开源详情论文中未明确提及代码、模型权重或训练数据的开源计划。文末提供的GitHub链接（https://github.com/.../NIM4-ASR）上下文是“Report GitHub Issue”，且论文全文未提及任何关于开源发布的细节。因此，目前��法确认该项目已开源。 📌 核心摘要本文提出了NIM4-ASR，一个面向生产环境的高效、鲁棒且可定制的实时语音识别框架。该工作旨在解决现有LLM-based ASR在实际部署中的三大挑战：1) 轻量化模型性能严重下降（有限的向下扩展性）；2) 在声学挑战条件下产生幻觉；3) 缺乏生产就绪的热词定制机制。为此，作者提出了一套原则性的多阶段训练范式，通过模块感知的预训练、迭代异步监督微调（IA-SFT）和ASR专用强化学习（RL），显式地划分编码器与LLM的功能边界，减少模态差距并抑制表示漂移。在推理端，设计了优化的流式推理管道和基于音素检索增强生成（RAG）的百万级热词定制方案。实验表明，仅2.3B参数的NIM4-ASR在多个公开基准上达到SOTA水平，并在内部实体密集型场景中大幅超越更大规模的模型，同时支持亚毫秒级检索延迟的热词定制。该工作为构建适用于实时语音交互的LLM-based ASR系统提供了实用的解决方案。 🏗️ 模型架构 NIM4-ASR采用模块化的编码器-适配器-LLM架构，整体流程如下： ...

VoxSafeBench: Not Just What Is Said, but Who, How, and Where

📄 VoxSafeBench: Not Just What Is Said, but Who, How, and Where #语音大模型， #基准测试， #鲁棒性， #多语言 🔥 评分：9.5/10 | arxiv 👥 作者与机构第一作者：Yuxiang Wang（香港中文大学（深圳），Amphion Technology Co., Ltd.）通讯作者：Zhizheng Wu（香港中文大学（深圳），深圳湾区研究院，Amphion Technology Co., Ltd.）其他作者： Hongyu Liu（香港中文大学（深圳）） Yijiang Xu（香港中文大学（深圳）） Luchao Yao（香港中文大学（深圳）） Qinke Ni（香港中文大学（深圳）） Li Wang（香港中文大学（深圳）） Wan Lin（香港中文大学（深圳）） Kunyu Feng（香港中文大学（深圳）） Dekun Chen（香港中文大学（深圳）） Xu Tan（未明确机构，根据上下文推断可能与Amphion或合作方相关） Lei Wang（未明确机构） Jie Shi（未明确机构） 💡 毒舌点评亮点：这篇论文最大的贡献是“掀桌子”——它用一个设计精巧的基准（VoxSafeBench）清晰地证明，当前顶尖的语音大模型在文字游戏（文本安全）上可能很溜，但一旦涉及“听话听音”（谁在说、怎么说、在哪说），其社会常识和道德判断就集体掉线，暴露出严重的“语音接地”缺陷。其“两层设计”像一把精准的手术刀，切开了模型“知道”和“做到”之间的鸿沟。槽点：评测框架虽然全面，但稍显复杂，22个任务对于快速复现和模型迭代可能是个挑战。此外，合成语音数据终究与真实世界充满噪声和不确定性的交互有差距，论文自己也承认了这点。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/amphionteam/VoxSafeBench 数据集：已公开。项目主页提供了数据获取链接：https://amphionteam.github.io/VoxSafeBench_demopage/ 模型权重：论文本身不涉及发布新模型，而是评估现有模型。评测代码支持评估列表中的开源和闭源模型。预训练权重：不适用。在线Demo：项目主页可能提供，论文中未明确说明。引用的开源项目：论文中明确使用了CosyVoice3（语音合成）、Whisper-large-v3（语音识别/质量过滤）、DeepSeek-V3/Kimi-K2.5/GPT-5.2（作为LLM法官）等开源或公开可用的模型。 📌 核心摘要这篇论文旨在解决当前语音语言模型（SLM）社会对齐评估不全面、不深入的问题。现有基准要么只关注基础音频理解，要么孤立地研究单一风险，无法区分模型是因“不懂”还是因“没用对地方”而失败。为此，作者提出了VoxSafeBench，这是首个联合评估SLM在安全、公平、隐私三大社会对齐维度上的综合基准。其核心方法是创新的两层（Two-Tier）设计：Tier 1评估内容中心风险（文本本身有害），通过对比文本、干净音频和多样音频输入，揭示跨模态对齐差距；Tier 2评估音频条件风险（文本无害，但正确响应依赖于说话人、副语言或环境线索），这是本工作的精髓。为确保Tier 2的效度，论文采用了三项关键控制：所有转录文本被验证为无害；构建了“文本参考上限”（将声学线索文本化后，文本模型表现接近饱和）；并通过“中间感知探测”证实前沿SLM能感知相关声学线索但仍做出不安全响应。对多个领先SLM的评估一致表明：在文本层面看似稳健的安全防护，在语音场景中显著退化。模型经常能识别文本中的社会规范，却无法在决策线索必须通过语音接地时应用该规范，揭示了普遍存在的**“语音接地差距”**。该工作为评估和提升SLM的社会对齐能力提供了系统化的框架和关键洞见。 ...