语音大模型

Closing the Gap Between Text and Speech Understanding in LLMs

📄 Closing the Gap Between Text and Speech Understanding in LLMs #语音大模型 #知识蒸馏 #主动学习 #大语言模型 #跨模态 🔥 8.5/10 | 前25% | #语音大模型 | #知识蒸馏 #主动学习 | #知识蒸馏 #主动学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Santiago Cuervo（Université de Toulon, Aix Marseille Université, CNRS, LIS）通讯作者：未说明作者列表：Santiago Cuervo（Université de Toulon, Aix Marseille Université, CNRS, LIS）、Skyler Seto（Apple）、Maureen de Seyssel（Apple）、Richard He Bai（Apple）、Zijin Gu（Apple）、Tatiana Likhomanenko（Apple）、Navdeep Jaitly（Apple）、Zakaria Aldeneh（Apple） 💡 毒舌点评论文对“文本-语音理解差距”的成因（遗忘与失准）进行了教科书级的清晰剖析，并据此设计了针对性的SALAD方法，数据效率极高，这种“分析驱动解决方案”的范式是最大亮点。然而，其主要验证集中于英语语音，对于跨语言泛化能力和TTS生成质量对下游性能的长期影响讨论不足，是一个有待拓展的短板。 ...

Data-Centric Lessons To Improve Speech-Language Pretraining

📄 Data-Centric Lessons To Improve Speech-Language Pretraining #语音问答 #预训练 #语音大模型 #多模态模型 #数据中心 🔥 8.0/10 | 前25% | #语音问答 | #预训练 | #语音大模型 #多模态模型学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen) 通讯作者：未明确说明作者列表：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen), Zhiyun Lu (Apple), Xuankai Chang (Apple), Yongqiang Wang (Apple), Albin Madappally Jose (Apple), Fartash Faghri (Apple), Joshua P Gardner (Apple), Chung-Cheng Chiu (Apple) 💡 毒舌点评亮点：论文的实验设计堪称“数据中心”研究范式的典范，通过精心设计的控制变量消融实验（如仅改变交错粒度或采样策略），清晰地量化了每个数据处理步骤的独立贡献，结论扎实可信。短板：所谓的“合成数据集”构建方法（从文本生成问答对再用TTS合成语音）相对基础，未探索利用更先进的端到端语音生成模型或更强的指令遵循能力，其提升可能受限于TTS的自然度和多样性。 ...

EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

📄 EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning #语音情感识别 #强化学习 #语音大模型 #数据集 #可解释AI 🔥 8.0/10 | 前25% | #语音情感识别 | #强化学习 | #语音大模型 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dingdong Wang (香港中文大学、微软) 通讯作者：未明确说明作者列表：Dingdong Wang (香港中文大学、微软), Shujie Liu (微软), Tianhua Zhang (未说明), Youjun Chen (未说明), Jinyu Li (微软), Helen Meng (香港中文大学) 💡 毒舌点评亮点在于将RL范式引入语音情感推理，并提出了一个新颖的“渐进式信任感知”奖励机制来约束推理过程，思路清晰且具有启发性。短板在于其核心的“推理质量”高度依赖一个由合成数据训练的奖励模型和GPT-4o的自动评估，这种“用AI评AI”的闭环验证其可靠性和泛化性仍需更多元的外部检验。 🔗 开源详情代码：论文提供了项目主页和GitHub仓库链接（https://github.com/dingdongwang/EmotionThinker）。模型权重：论文中未明确说明是否会开源EmotionThinker或EmotionThinker-Base的模型权重。数据集：论文构建了EmotionCoT-35K数据集，并描述了构建方法，预计会公开。 Demo：未提及。复现材料：在附录中提供了详细的数据构建流程、模型训练细节（SFT和RL）、奖励模型训练数据构造、评估prompt等，复现信息较为充分。依赖的开源项目：论文明确依赖并提及的开源项目包括：Qwen2.5-Omni（骨干模型）、WhiStress（重音检测）、wav2vec 2.0（说话人属性分类）、GPT-4o API（数据合成与评估）。 📌 核心摘要这篇论文旨在解决当前语音大语言模型（SpeechLLMs）在情感理解上仅进行简单分类、缺乏可解释性推理的问题。论文首次尝试将情感识别（SER）重新定义为一个深度推理问题，并提出EmotionThinker框架。该框架的核心方法包括：1）构建了首个面向语音情感推理的Chain-of-Thought数据集EmotionCoT-35K；2）通过韵律感知的监督微调（SFT）构建了基础模型EmotionThinker-Base，显著提升了模型对音高、能量等韵律线索的感知能力；3）设计了GRPO-PTR强化学习策略，该策略在标准规则奖励（结果准确性）基础上，逐步引入并动态调整一个评估推理过程质量的奖励模型。实验表明，EmotionThinker在IEMOCAP、MELD等多个基准上，情感识别平均准确率达68.89%，推理质量（由GPT-4o评估的4个维度平均分）达3.98，均显著优于对比的16个开源SpeechLLM。该工作的实际意义是推动SER从“是什么”走向“为什么”，为构建可解释、可信赖的情感AI迈出了一步。主要局限性在于其推理监督和评估对大型语言模型的合成数据和自动评分依赖较重。 ...

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #语音编解码 #流匹配 #自回归模型 #语音大模型 ✅ 7.5/10 | 前25% | #语音合成 | #语音编解码 | #流匹配 #自回归模型学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Weidong Chen (The Chinese University of Hong Kong) 通讯作者：Xixin Wu (The Chinese University of Hong Kong) 作者列表：Weidong Chen（The Chinese University of Hong Kong）、Helen M. Meng（The Chinese University of Hong Kong）、Xixin Wu（The Chinese University of Hong Kong） 💡 毒舌点评这篇工作最大的亮点在于将“组”作为语音量化的基本单元，并系统性地设计了粗细有序的token序列，这确实比传统逐帧量化更适合后续的语言模型建模，逻辑自洽且实验支撑有力。然而，其核心的token分配器虽然有效，但训练方法（GRPO）的引入略显“重”，对于一个动态分配离散资源的简单策略问题，是否有更轻量优雅的解法值得商榷，且论文最终未能开源代码，让这套精心设计的系统停留在了“可望”的层面。 ...

ICLR 2026 - 语音大模型论文列表

ICLR 2026 - 语音大模型共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Closing the Gap Between Text and Speech Understanding in LLM 8.5分前25% 📋 论文详情 🥇 Closing the Gap Between Text and Speech Understanding in LLMs 🔥 8.5/10 | 前25% | #语音大模型 | #知识蒸馏 #主动学习 | #知识蒸馏 #主动学习 👥 作者与机构第一作者：Santiago Cuervo（Université de Toulon, Aix Marseille Université, CNRS, LIS）通讯作者：未说明作者列表：Santiago Cuervo（Université de Toulon, Aix Marseille Université, CNRS, LIS）、Skyler Seto（Apple）、Maureen de Seyssel（Apple）、Richard He Bai（Apple）、Zijin Gu（Apple）、Tatiana Likhomanenko（Apple）、Navdeep Jaitly（Apple）、Zakaria Aldeneh（Apple） 💡 毒舌点评 ...

Latent Speech-Text Transformer

📄 Latent Speech-Text Transformer #语音识别 #语音合成 #语音大模型 #预训练 #自回归模型 ✅ 7.0/10 | 前25% | #语音识别 #语音合成 | #预训练 | #语音识别 #语音合成学术质量 7.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Yen-Ju Lu ( Johns Hopkins University, Center for Language and Speech Processing )，工作于 Meta 期间完成。通讯作者：Srinivasan Iyer, Duc Le ( Meta Superintelligence Labs ) 作者列表： Yen-Ju Lu ( Johns Hopkins University, CLSP ) Yashesh Gaur ( Meta Superintelligence Labs ) Wei Zhou ( Meta Superintelligence Labs )，工作于 Meta 期间完成。 Benjamin Muller ( Meta Superintelligence Labs ) Jesus Villalba ( Johns Hopkins University, CLSP ) Najim Dehak ( Johns Hopkins University, CLSP ) Luke Zettlemoyer ( Meta Superintelligence Labs ) Gargi Ghosh ( Meta Superintelligence Labs ) Mike Lewis ( Meta Superintelligence Labs ) Srinivasan Iyer ( Meta Superintelligence Labs ) Duc Le ( Meta Superintelligence Labs ) 💡 毒舌点评亮点在于精准识别了语音-文本模型因序列长度悬殊导致的“计算不公平”问题，并借鉴了文本领域的字节级Transformer思想，设计出一套从静态、对齐到课程学习的渐进式语音分块方案，有效提升了模型效率和跨模态性能。短板是部分最有效方案（如对齐分块）在推理时仍依赖外部对齐模型（Wav2Vec2+CTC），课程学习虽缓解了此问题，但完全无对齐依赖的端到端训练方案更具吸引力；此外，论文聚焦于预训练和补全任务，对更复杂的生成、理解或实时对话任务的探索尚待深入。 ...

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

📄 OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM #多模态模型 #语音大模型 #对比学习 #跨模态 #大语言模型 ✅ 7.5/10 | 前25% | #多模态模型 | #多模态模型 | #语音大模型 #对比学习学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Hanrong Ye（NVIDIA）通讯作者：Hongxu Yin（NVIDIA）， Pavlo Molchanov（NVIDIA）作者列表：Hanrong Ye， Chao-Han Huck Yang， Arushi Goel， Wei Huang， Ligeng Zhu， Yuanhang Su， Sean Lin， An-Chieh Cheng， Zhen Wan， Jinchuan Tian， Yuming Lou， Dong Yang（以上作者标注为“Core Contribution”，均来自NVIDIA）， Zhijian Liu， Yukang Chen， Ambrish Dantrey， Ehsan Jahangiri， Sreyan Ghosh， Daguang Xu， Ehsan Hosseini-Asl， Danial Mohseni Taheri， Vidya Murali， Sifei Liu， Yao Lu， Oluwatobi Olabiyi， Yu-Chiang Frank Wang， Rafael Valle， Bryan Catanzaro， Andrew Tao， Song Han， Jan Kautz， Hongxu Yin§†， Pavlo Molchanov§*（标注“§Equal Advisory”，“†Corresponding Authors”），机构均为NVIDIA。 💡 毒舌点评论文在系统性地探索全模态LLM架构与数据配方上做得非常扎实，尤其是OmniAlignNet结合时间编码的设计有清晰的工程动机。然而，论文对模型的具体规模（参数量、计算成本）和数据合成管道的细节披露略显不足，使得“效率优势”的宣称（如0.2T token训练）的完整上下文不够透明，更像是一个精心调优的大型系统工程展示，而非在某个单一技术点上的颠覆性创新。 ...

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

📄 ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction #语音对话系统 #强化学习 #语音大模型 #语音合成 #基准测试 🔥 8.0/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #语音合成学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Shu-wen Yang（台湾大学通讯工程研究所）通讯作者：Ming Tu（字节跳动 Seed），Lu Lu（字节跳动 Seed）作者列表：Shu-wen Yang（台湾大学通讯工程研究所，字节跳动 Seed†），Ming Tu（字节跳动 Seed†），Andy T. Liu（字节跳动 Seed），Xinghua Qu（字节跳动 Seed），Hung-yi Lee（台湾大学通讯工程研究所），Lu Lu（字节跳动 Seed†），Yuxuan Wang（字节跳动 Seed），Yonghui Wu（字节跳动 Seed） 💡 毒舌点评亮点：论文系统性地定义了副语言感知的S2S交互评估难题，并构建了从基准测试到自动评测再到强化学习训练的完整闭环，其提出的“PolyTone”训练策略和多阶段评测框架有效缓解了音频大模型的风格幻觉问题，实验结果令人信服。短板：整个框架高度依赖复杂的多阶段流程和多个外部模型（如Whisper， AudioReasoner， Qwen2.5-Omni），虽然论文提供了蒸馏后的奖励模型方案，但最终模型的轻量化和部署效率存在疑问，且核心RL方法（GRPO）并非原创。 ...

Scaling Speech Tokenizers with Diffusion Autoencoders

📄 Scaling Speech Tokenizers with Diffusion Autoencoders #语音识别 #语音合成 #扩散模型 #流匹配 #语音大模型 🔥 8.5/10 | 前25% | #语音识别 | #扩散模型 | #语音合成 #流匹配学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuancheng Wang (Meta超级智能实验室、香港中文大学（深圳）) 通讯作者：未明确说明（论文中注明“*Work done during an internship at Meta”，但未指明通讯作者）作者列表：Yuancheng Wang（Meta超级智能实验室、香港中文大学（深圳）），Zhenyu Tang（Meta超级智能实验室），Yun Wang（Meta超级智能实验室），Arthur Hinsvark（Meta超级智能实验室），Yingru Liu（Meta超级智能实验室），Yinghao Aaron Li（Meta超级智能实验室），Kainan Peng（Meta超级智能实验室），Junyi Ao（Meta超级智能实验室、香港中文大学（深圳）），Mingbo Ma（Meta超级智能实验室），Mike Seltzer（Meta超级智能实验室），Qing He（Meta超级智能实验室），Xubo Liu（Meta超级智能实验室） 💡 毒舌点评亮点：论文抓住了语音标记化器“既要压缩效率，又要重建质量，还要语义丰富”的“不可能三角”，用一个统一的扩散自编码器框架给出了一个极具竞争力的解，并在12.5Hz的极低帧率下将多项指标推向了新高度。短板：尽管提出了shortcut fine-tuning等解码加速方案，但扩散模型固有的多步采样本质仍是其在实时流式应用中的阿喀琉斯之踵，论文对此的解决方案（如轻量扩散头）效果有待更严苛场景的验证。 🔗 开源详情代码：论文未提及具体代码仓库链接，但在附录D提供了详细的伪代码，并承诺在发表后发布。模型权重：承诺在发表后发布预训练模型检查点（在公开研究数据集上）。数据集：使用200万小时内部数据，未提及公开。 Demo：提供了演示样例的链接 https://sitok-demo.github.io/。复现材料：提供了非常详细的模型架构（附录A）、训练循环伪代码（附录D.2）、超参数（附录D.3）和评估协议。依赖的开源项目：论文提到了依赖的开源项目或工具，如Llama Transformer架构、Vocos声码器、Whisper-large-v3用于评估。 📌 核心摘要本文针对语音标记化器在低比特率下面临的语义编码、声学重建与压缩效率难以兼顾的核心问题，提出了Speech Diffusion Tokenizer (SiTok)。其核心是将向量量化与扩散自编码器进行端到端联合优化，使离散编码既能高度压缩，又与生成式解码器的分布显式对齐。与先前两阶段或仅依赖重建损失的方法相比，SiTok创新性地引入了CTC语义正则化，直接对量化后的潜在空间施加文本监督，迫使离散token保留丰富的语言结构。实验表明，在极端的12.5 Hz token率和200 bits/s比特率下，SiTok在语音重建（如WER 3.34， SIM 0.682）和下游理解任务（如ASR WER 4.95）上均显著优于强基线。此外，通过快捷微调技术，解码步骤可缩减至2-4步而几乎不损质量。该工作为构建统一的语音语言模型提供了一个高效且全面的接口，但其在流式生成和多语言支持上的潜力有待进一步挖掘。 ...

Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech

📄 Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech #语音情感识别 #因果图 #显式推理 #语音大模型 #多模态 ✅ 7.5/10 | 前25% | #语音情感识别 | #因果图 | #显式推理 #语音大模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xuanru Zhou (浙江大学), Jiachen Lian (UC Berkeley) (论文明确标注两位作者贡献均等) 通讯作者：未明确说明作者列表：Xuanru Zhou (浙江大学), Jiachen Lian (UC Berkeley), Henry Hong (UC Berkeley), Xinyi Yang (浙江大学), Gopala Anumanchipalli (UC Berkeley) 💡 毒舌点评亮点是将认知科学的模块化思想形式化为一个可计算的因果图（WMA, ToM, SA, Prag），并利用其结构化先验显著提升了训练效率和推理能力，为“如何让语音模型像人一样思考”提供了一个新颖的框架。短板在于，该因果图的结构是预定义的，限制了模型对未见依赖关系的适应能力，且完全依赖合成标签训练指令微调阶段，可能成为性能上限的瓶颈。 ...