语音问答 | 语音/音乐/音频论文速递

FBK's Long-form SpeechLLMs for IWSLT 2026 Instruction Following

📄 FBK's Long-form SpeechLLMs for IWSLT 2026 Instruction Following #语音识别 #语音翻译 #语音问答 #语音摘要 6.5/10 ✅ 6.5/10 | 前50% | #语音识别 | #语音翻译 | #语音问答 #语音摘要 | arxiv 👥 作者与机构作者：Zhihang Xie (Fondazione Bruno Kessler & University of Trento), Marco Gaido (Fondazione Bruno Kessler), Sara Papi (Fondazione Bruno Kessler), Matteo Negri (Fondazione Bruno Kessler), Luisa Bentivogli (Fondazione Bruno Kessler) 机构：Fondazione Bruno Kessler, University of Trento 💡 毒舌点评这篇论文是一个扎实的共享任务系统描述，但深度和原创性有限。优点在于实验部分做得比较系统，特别是对长格式幻觉的量化分析（如表2，表8）和HIFS指标的引入，直面了当前SpeechLLM在长序列生成中的一个痛点。对三种分段策略的详尽比较也提供了实用的工程参考。然而，主要的不足在于“创新”的边界很窄。所谓的“长格式扩展”方法（人工拼接短数据）在领域内已有先例（如论文中引用的Fox et al., 2024），并未提出新的长程建模机制。核心模型架构直接复用了现有开源模型，适配器设计也是标准流程。长格式训练只跑了一个epoch就提交，这严重限制了结论的可信度——我们无法知道模型是否充分学习了长程依赖。评估方面，尽管提出了HIFS，但其公平性值得商榷：惩罚因子直接乘在任务分数上，可能过度惩罚了某些任务（如SSUM中幻觉率极高），而ASR中插入错误（INS）的数量剧增是否完全归咎于模型对长音频的幻觉，还是分段策略本身引入的上下文割裂问题，论文未能清晰区分。总体而言，这是一篇合格的任务报告，为社区提供了数据，但距离一篇有显著技术贡献的研究论文还有差距。 ...

Grounding Spoken LLMs in Multi-Speaker Audio via Diarization Conditioning

📄 Grounding Spoken LLMs in Multi-Speaker Audio via Diarization Conditioning #语音识别 #语音问答 #语音摘要 #多模态模型 #参数高效微调 8.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 🔥 8.5/10 | 前25% | #语音识别 | #参数高效微调 | #语音问答 #语音摘要 | arxiv 👥 作者与机构作者：Alexander Polok, Samuele Udupa, Sathvik Udupa, Jan Černocký, Shinji Watanabe, Lukáš Burget 机构：Speech@FIT, Brno University of Technology, Czechia；Language Technologies Institute, Carnegie Mellon University, USA ...

AuRA: Internalizing Audio Understanding into LLMs as LoRA

📄 AuRA: Internalizing Audio Understanding into LLMs as LoRA #语音问答 #参数高效微调 #知识蒸馏 #语音识别 #多模态模型 7.5/10 ✅ 7.5/10 | 前25% | #语音问答 | #参数高效微调 | #知识蒸馏 #语音识别 | arxiv 👥 作者与机构作者：Bo Cheng, Lei Shi, Zhanyu Ma, Yuan Wu, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He 机构：Meituan, Jilin University 💡 毒舌点评这篇论文精准地切中了当前语音-LLM集成的一个痛点：要么重（端到端训练），要么慢（级联推理），要么不够紧密（桥接方法）。AuRA提出的“内化”思路确实巧妙，像给LLM装了个隐藏的“语音耳朵”，推理时还能把这个“外挂”拆了，效率拉满。消融实验做得相当扎实，把各组件的作用都讲清楚了。不过，这位“耳朵”目前只能听懂“字面意思”（ASR），对于弦外之音（情感、语调）怕是无能为力，论文也老实承认了。实验范围有点保守，只在英语语音问答上打转，更广泛的语音理解任务（比如情感识别、对话）还没试水，这让“通用音频理解”的宣称稍微打了点折扣。总的来说，是一篇工程实现很扎实、想法很实用的扎实工作，但离“全面理解音频”还差那么一口气。 📌 核心摘要 AuRA 是一种轻量级的语音-LLM适配方法，其核心思想是将音频理解能力“内化”到大语言模型（LLM）的内部。该方法采用教师-学生蒸馏框架：训练时，一个冻结的ASR编码器（教师）与一个插入了LoRA适配器的冻结LLM（学生）并行处理相同的语音输入。通过设计的层间蒸馏损失，将教师模型的中间表示对齐到学生LLM的浅层隐藏状态中。推理时，移除庞大的ASR教师编码器，仅保留轻量的音频嵌入模块和LoRA适配的LLM，从而实现高效的端到端推理。在SDQA和HeySquad基准测试中，AuRA在准确率上超越了级联、适配和大规模端到端基线，同时显著降低了推理延迟和内存占用。 🔗 开源详情代码：论文中未提供AuRA的官方代码仓库链接。模型权重： AuRA 模型权重：论文中未提及。使用的基础模型： Qwen2.5-7B-Instruct / Qwen2.5-3B-Instruct: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 和 https://huggingface.co/Qwen/Qwen2.5-3B-Instruct。 Whisper-large-v3: https://huggingface.co/openai/whisper-large-v3。数据集： HeySquad: https://huggingface.co/datasets/yijingwu/HeySQuAD_human。 SDQA: https://huggingface.co/datasets/WillHeld/SD-QA。 CommonVoice (用于适配训练的语音部分)：论文提及使用英文子集，但未提供特定链接。该项目主站为 https://commonvoice.mozilla.org/。 VoRA-TextQA-Mixed (用于适配训练的文本部分)：论文未提供链接，仅提及名称。复现材料：论文附录 A 提供了详细的复现信息，包括训练数据（10K CommonVoice 和 10K VoRA-TextQA-Mixed）、音频预处理方法、LoRA 适配配置（前4层，秩256）、优化器设置（学习率 2e-4，批大小128，训练3个epoch）以及计算资源（8块 NVIDIA H20 GPU 训练约1.5小时）。论文中引用的开源项目： Whisper: https://github.com/openai/whisper。 Qwen (包括 Qwen2, Qwen2.5, Qwen2.5-Omni): https://github.com/QwenLM/Qwen (具体模型权重见上方模型权重部分)。 BLSP: https://github.com/microsoft/BLSP。 DiVA: https://github.com/declare-lab/DiVA。 Qwen2-Audio: 模型权重链接见上文，论文未提供独立代码库链接。 Qwen2.5-Omni: 模型权重链接见上文，论文未提供独立代码库链接。 CommonVoice: https://commonvoice.mozilla.org/。 🏗️ 方法概述和架构 AuRA 的整体架构遵循教师-学生蒸馏范式（如图2所示），旨在将ASR教师的能力转移到LLM学生中，并在推理时移除教师。其核心流程包含三个关键组件：音频补丁嵌入、LoRA适配的LLM学生以及层间蒸馏机制。 ...

FiLM-Based Speaker Conditioning of a SpeechLLM for Pathological Speech Recognition

📄 FiLM-Based Speaker Conditioning of a SpeechLLM for Pathological Speech Recognition #语音识别 #参数高效微调 #低资源 #语音问答 8.0/10 | 创新 6/2 | 严谨 7/1.5 | 实验 6/1.5 | 清晰 8/1 | 影响 5/1.5 | 开源 7/1.5 | 复现 7/0.5 | 工程 6/1.5 🔥 8.0/10 | 前50% | #语音识别 | #参数高效微调 | #低资源 #语音问答 | arxiv 👥 作者与机构 Fernando López, Santosh Kesiraju, Jordi Luque Telefónica Innovación Digital Spain, Universidad Autónoma de Madrid Spain, Brno University of Technology Czech Republic ...

Entity Binding Failures in Speech LLM Reasoning: Diagnosis and Chain-of-Thought Intervention

📄 Entity Binding Failures in Speech LLM Reasoning: Diagnosis and Chain-of-Thought Intervention #语音问答 #多模态模型 7.5/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.5/10 | 前25% | #语音问答 | #多模态模型 | arxiv 👥 作者与机构主要作者：Ming-Hao Hsu (hsuminghao1006@gmail.com), Xiaohai Tian, Jun Zhang, Zhizheng Wu (wuzhizheng@cuhk.edu.cn)。机构为中国香港中文大学（深圳）数据科学学院和字节跳动。 💡 毒舌点评这篇论文的诊断工作做得相当扎实，把“语音推理不行”这个笼统问题精准定位到了“实体绑定失败”这个具体病灶上，并且用EA-CoT这个“对症下药”的提示方法取得了显著疗效。实验设计也体现了严谨性，通过设置结构化控制提示和token预算对照组，努力剥离了“指令内容”和“生成长度”的混淆效应，这种实验洁癖值得肯定。消融实验也清晰地量化了“实体枚举”这一核心组件的贡献。然而，其提出的解决方案（EA-CoT）本质上是一种推理时的提示工程，而非模型架构的根本性改进，这使得其“修复”的普适性和效率存疑。论文承认这会显著增加推理延迟，在实际部署中可能是个硬伤。此外，评估完全依赖于合成语音和两个7B规模的模型，对真实世界噪声环境和更大规模模型的泛化能力，我们只能保持谨慎乐观。总体而言，这是一篇诊断清晰、验证严谨、但处方略显保守的工作。 📌 核心摘要本研究深入剖析了语音大语言模型（SLLMs）在复杂推理任务上性能逊于文本模型的“模态差距”问题。作者发现，这种差距并非均匀分布，而是高度集中于需要连续跟踪实体状态的逻辑推理任务（如“谎言之网”），在这些任务上语音输入的准确率甚至降至随机水平。论文将问题根源诊断为“实体绑定失败”：语音编码器的下采样机制虽然保留了全局语义，却模糊了细粒度的声学细节和离散令牌边界，导致模型在隐式推理过程中无法稳定关联实体与其动态属性。为此，论文提出“实体感知思维链”（EA-CoT）推理时干预策略，强制模型在文本空间显式地枚举实体并记录其属性主张，从而绕过脆弱的声学隐式跟踪。实验证明，EA-CoT在实体密集型任务上实现了高达24.4个百分点的绝对准确率提升，有效弥合了模态差距，且该方法即使在实体名称被错误识别时仍能保持有效。消融实验进一步确认，性能增益完全源于显式的语义绑定过程。 🔗 开源详情代码：论文中未提及代码链接或开源代码仓库。模型权重：论文中提及了 Qwen2.5-Omni-7B [33] 和 Phi-4-Multimodal [34] 两个模型，并说明在它们的发布配置下评估，但未提供具体的权重下载链接（如 HuggingFace 或 ModelScope）。数据集：论文中提及使用了 VoiceBench BBH [5] 的四个类别（共 1,000 条样本）和 MMSU [35] 数据集进行实验，未提及这些数据集的具体开源链接或协议。 Demo：论文中未提及。复现材料：论文中未提及训练配置、检查点等复现材料。论文中引用的开源项目： VoiceBench：论文引用了该基准，未提供直接链接。引用来源为[5]: Y. Chen, X. Yue, C. Zhang, X. Gao, R. T. Tan, and H. Li, “Voicebench: Benchmarking llm-based voice assistants,” CoRR, vol. abs/2410.17196, 2024. MMSU：论文引用了该基准，未提供直接链接。引用来源为[35]: D. Wang, J. Wu, J. Li, D. Yang, X. Chen, T. Zhang, and H. Meng, “MMSU: A massive multi-task spoken language understanding and reasoning benchmark,” CoRR, vol. abs/2506.04779, 2025. Qwen2.5-Omni：论文提及该模型并引用了技术报告，未提供权重或代码链接。引用来源为[33]: J. Xu, Z. Guo, J. He, H. Hu, T. He, S. Bai, K. Chen, J. Wang, Y. Fan, K. Dang, B. Zhang, X. Wang, Y. Chu, and J. Lin, “Qwen2.5-omni technical report,” CoRR, vol. abs/2503.20215, 2025. Phi-4-Multimodal：论文提及该模型并引用了技术报告，未提供权重或代码链接。引用来源为[34]: A. Abouelenin et al., “Phi-4-mini technical report: Compact yet powerful multimodal language models via mixture-of-loras,” CoRR, vol. abs/2503.01743, 2025. Qwen-Audio：论文在背景部分提及，未提供直接链接。引用来源为[4]: Y. Chu, J. Xu, X. Zhou, Q. Yang, S. Zhang, Y. Yan, C. Zhou, and J. Zhou, “Qwen-audio: Advancing universal audio understanding via unified large-scale audio-language models,” 2023. [Online]. Available: https://arxiv.org/abs/2311.07919 SALMONN：论文在背景部分提及，未提供直接链接。引用来源为[2]: C. Tang, W. Yu, G. Sun, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, and C. Zhang, “SALMONN: towards generic hearing abilities for large language models,” in ICLR. OpenReview.net, 2024. SpeechGPT：论文在背景部分提及，未提供直接链接。引用来源为[3]: D. Zhang, S. Li, X. Zhang, J. Zhan, P. Wang, Y. Zhou, and X. Qiu, “Speechgpt: Empowering large language models with intrinsic cross-modal conversational abilities,” in EMNLP (Findings), ser. Findings of ACL, vol. EMNLP 2023. Association for Computational Linguistics, 2023, pp. 15 757–15 773. CORD：论文在相关工作中提及，未提供直接链接。引用来源为[18]: J. Hu, D. Zhu, X. Luo, D. Zhang, S. He, Y. Lei, H. Zheng, S. Feng, J. He, Y. Sun, H. Wu, and H. Wang, “CORD: bridging the audio-text reasoning gap via weighted on-policy cross-modal distillation,” CoRR, vol. abs/2601.16547, 2026. Closing the modality reasoning gap for speech large language models：论文在相关工作中提及，未提供直接链接。引用来源为[19]: C. Wang, H. Lu, X. Zhang, S. Liu, Y. Lu, J. Li, and Z. Wu, “Closing the modality reasoning gap for speech large language models,” CoRR, vol. abs/2601.05543, 2026. Anatomy of the modality gap：论文引用了同一作者团队的相关工作，未提供直接链接。引用来源为[9]: M.-H. Hsu, X. Zhang, X. Tian, J. Zhang, and Z. Wu, “Anatomy of the modality gap: Dissecting the internal states of end-to-end speech llms,” 2026. [Online]. Available: https://arxiv.org/abs/2603.01502 🏗️ 方法概述和架构论文方法的核心在于诊断“实体绑定失败”这一特定瓶颈，并设计针对性的推理时干预策略EA-CoT。整个方法框架可视为一个“诊断-治疗”系统。 ...

Data-Centric Lessons To Improve Speech-Language Pretraining

📄 Data-Centric Lessons To Improve Speech-Language Pretraining #语音问答 #预训练 #语音大模型 #多模态模型 #数据中心 🔥 8.0/10 | 前25% | #语音问答 | #预训练 | #语音大模型 #多模态模型学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen) 通讯作者：未明确说明作者列表：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen), Zhiyun Lu (Apple), Xuankai Chang (Apple), Yongqiang Wang (Apple), Albin Madappally Jose (Apple), Fartash Faghri (Apple), Joshua P Gardner (Apple), Chung-Cheng Chiu (Apple) 💡 毒舌点评亮点：论文的实验设计堪称“数据中心”研究范式的典范，通过精心设计的控制变量消融实验（如仅改变交错粒度或采样策略），清晰地量化了每个数据处理步骤的独立贡献，结论扎实可信。短板：所谓的“合成数据集”构建方法（从文本生成问答对再用TTS合成语音）相对基础，未探索利用更先进的端到端语音生成模型或更强的指令遵循能力，其提升可能受限于TTS的自然度和多样性。 ...

ICLR 2026 - 语音问答论文列表

ICLR 2026 - 语音问答共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Data-Centric Lessons To Improve Speech-Language Pretraining 8.0分前25% 📋 论文详情 🥇 Data-Centric Lessons To Improve Speech-Language Pretraining 🔥 8.0/10 | 前25% | #语音问答 | #预训练 | #语音大模型 #多模态模型 👥 作者与机构第一作者：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen) 通讯作者：未明确说明作者列表：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen), Zhiyun Lu (Apple), Xuankai Chang (Apple), Yongqiang Wang (Apple), Albin Madappally Jose (Apple), Fartash Faghri (Apple), Joshua P Gardner (Apple), Chung-Cheng Chiu (Apple) 💡 毒舌点评 ...

Data-Centric Lessons To Improve Speech-Language Pretraining

📄 Data-Centric Lessons To Improve Speech-Language Pretraining #语音问答 #语音大模型 #预训练 #数据增强 #多模态模型 🔥 8.0/10 | 前25% | #语音问答 | #预训练 | #语音大模型 #数据增强学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen) 通讯作者：未说明作者列表：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen)、Zhiyun Lu (Apple)、Xuankai Chang (Apple)、Yongqiang Wang (Apple)、Albin Madappally Jose (Apple)、Fartash Faghri (Apple)、Joshua P Gardner (Apple)、Chung-Cheng Chiu (Apple) 💡 毒舌点评论文最大的亮点在于用极其扎实、系统化的消融实验，为语音-语言预训练中“数据如何处理”这个黑箱问题提供了首个清晰、可操作的答案，实验设计堪称标杆。短板在于，虽然模型SpeLangy表现出色，但其核心架构（Conformer编码器+离散量化+预训练LLM）并无新意，论文的真正价值在于“怎么用数据”，而非“怎么建模型”，对于追求架构创新的读者可能吸引力有限。 ...

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark

📄 MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark #基准测试 #数据集 #语音问答 #模型评估 #模型比较 🔥 8.5/10 | 前25% | #语音问答 | #模型评估 | #基准测试 #数据集学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dingdong WANG（香港中文大学）通讯作者：未说明（论文未明确指定通讯作者；通讯邮箱为第一作者邮箱：dingdongwang@link.cuhk.edu.hk）作者列表：Dingdong WANG (香港中文大学), Junan Li (香港中文大学), Jincenzi Wu (香港中文大学), Dongchao Yang (香港中文大学), Xueyuan Chen (香港中文大学), Tianhua Zhang (香港中文大学), Helen M. Meng (香港中文大学) 💡 毒舌点评亮点：该工作像一位严谨的语言学教授，为“只会听个响”的语音大模型们精心设计了一场覆盖音素、韵律、修辞等全方位的“期末统考”，诊断出当前模型普遍存在的“语音学文盲”和“韵律感知障碍”，指明了未来训练的重点补课方向。短板：考试形式局限于“单选题”，虽然高效，但无法评估模型在真实对话中灵活运用这些能力进行生成或交互的水平，有点“高分低能”的潜在风险。 🔗 开源详情代码：论文中未提及代码仓库链接。评估用的脚本或提示词模板未开源。模型权重：未提及。论文评估了多个现有模型，但未提供任何自己训练的模型。数据集：公开。论文明确提供了数据集获取链接：https://huggingface.co/datasets/ddwang2000/MMSU。 Demo：未提及。复现材料：论文在附录中详细说明了数据构建过程（自定义录音、人工审核）、任务定义、任务示例、错误案例分析以及使用的GPT提示词。这为理解基准构建和部分复现提供了丰富信息，但完整的评估流程复现仍需额外工作。论文中引用的开源项目：论文依赖并引用了多个开源数据集和模型，包括：CommonVoice, MELD, GigaSpeech, Switchboard, SLURP, SEAME, Fake-or-Real, RAVDESS, CoVoST 2, EDACC, VCTK, CHILDES, LogicBench等（完整列表见附录B）。评估的模型包括BLSP, Qwen-Audio, Kimi-Audio, Gemini, GPT-4o-Audio等众多开源和闭源SpeechLLMs。 📌 核心摘要问题：当前语音大模型（SpeechLLMs）的评估基准普遍存在三大缺陷：日常语音现象（如不流畅、语调变化、重音）覆盖不足、过度依赖合成语音导致不真实、以及评估设计缺乏语言学理论基础。这导致无法全面、真实地评估模型对语音的深层理解能力。方法核心：本文提出了MMSU，一个全新的、基于语言学理论的语音理解与推理基准。它系统性地整合了语音学、韵律学、修辞学、句法学、语义学和副语言学等理论，构建了包含感知（24个任务）和推理（23个任务）两大维度、共计47个任务的评估框架。数据包含5000个精心设计的音频-问题-答案三元组。创新与对比：与之前基准（如VoiceBench， ADU-Bench， MMAU）相比，MMSU的新颖之处在于：(a) 理论驱动：首次系统性地将语言学原理融入任务设计；(b) 全面覆盖：涵盖了前所未有的语音现象广度（从音素辨析到双关语理解）；(c) 数据真实性：主要采用真实世界录音（76.74%开源数据，13.44%专业录制），仅少量使用TTS补充。实验结果：论文对22个先进的SpeechLLMs和OmniLLMs进行了评估。关键结果如下表所示（数据摘自论文表3）：模型类别大小感知准确率(%) 推理准确率(%) 总体平均准确率(%) Human 人类基线 - 91.24 86.77 89.72 Gemini-1.5-Pro 闭源 - 46.10 76.16 60.68 Qwen2.5-Omni-7B 开源 7B 42.50 79.83 60.57 Kimi-Audio 开源 7B 43.52 76.03 59.28 GPT-4o-Audio 闭源 - 39.67 71.96 56.38 * 人类表现（89.72%）远超所有模型，最优模型Gemini-1.5-Pro（60.68%）与其存在近30%的差距，凸显了任务的挑战性。 * 开源模型（如Qwen2.5-Omni-7B）性能已接近甚至超越部分闭源模型（如GPT-4o-Audio）。 * 关键发现：模型在感知任务（尤其是音系学相关任务）上表现普遍较差，与人类“推理难于感知”的认知模式相反；噪声注入后性能下降轻微，证明模型确实在使用音频信号。图5展示了模型在噪声条件下的鲁棒性对比。实际意义：MMSU为社区提供了一个标准化、高难度的“体检工具”，能有效诊断出当前SpeechLLMs在精细语音感知和复杂语义推理上的短板（特别是音系处理能力），为下一代更类人的语音交互模型研发指明了优化方向。主要局限性：a) 基准主要覆盖英语和中英混合语音，对其他语言的评估能力未体现；b) 评估形式为固定选项的多选题，可能无法完全反映模型开放式生成或对话中的理解能力；c) 尽管追求真实，数据中仍有9.82%的合成语音。 🏗️ 模型架构本文提出的是基准测试（Benchmark），而非一个新的模型。因此，其“架构”指的是基准本身的层级结构设计。 MMSU的架构设计是一个三层的树状分类体系，旨在系统性地评估语音理解能力： ...

Advancing Speech Understanding in Speech-Aware Language Models with GRPO

📄 Advancing Speech Understanding in Speech-Aware Language Models with GRPO #语音大模型 #强化学习 #语音问答 #语音翻译 #大语言模型 ✅ 7.0/10 | 前25% | #语音问答 | #强化学习 | #语音大模型 #语音翻译学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Avishai Elmakies（IBM Research，*注：论文标注工作在实习期间完成）通讯作者：未说明作者列表：Avishai Elmakies（IBM Research）、Hagai Aronowitz（IBM Research）、Nimrod Shabtay（IBM Research）、Eli Schwartz（IBM Research）、Ron Hoory（IBM Research）、Avihu Dekel（IBM Research） 💡 毒舌点评论文成功地将GRPO和可验证奖励（BLEU）应用于语音大模型的开放生成任务，并展示了其优于SFT的性能，方法简洁有效且结果扎实。然而，其核心贡献更多是应用层面的迁移与验证，而非算法本身的重大革新，且完全未开源代码与模型，对社区的可复用性打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开训练后的模型权重。数据集：使用了公开数据集LibriSQA和CoVoST2，并说明了数据划分。 Demo：未提及。复现材料：提供了较为详细的实验配置（超参数搜索范围、训练硬件、GRPO具体参数如β和G），但未提供最终选定的完整配置和检查点。论文中引用的开源项目：引用了Granite Speech模型 [4] 和 Granite 3.0语言模型 [27] 作为基础，使用了AdamW优化器。 📌 核心摘要问题：现有语音感知大模型在多项选择题型的强化学习训练中受限于二元奖励，难以评估和提升其开放式的文本生成能力。标准SFT在生成任务上仍有提升空间。方法核心：提出将Group Relative Policy Optimization（GRPO）算法应用于语音问答和语音翻译等开放生成任务，并使用BLEU分数作为可验证奖励信号来优化模型。此外，探索了将真实答案作为离线样本纳入GRPO训练组的混合策略（MP-GRPO）。创新之处：将GRPO从多选任务扩展到更贴近实际应用的开放格式任务；使用简单有效的文本相似度度量（如BLEU）作为强化学习奖励；初步探索了在语音任务中结合在线与离线样本的混合训练策略。主要结果：在LibriSQA（语音问答）和CoVoST2（语音翻译）数据集上，基于Granite Speech 2B/8B模型的实验表明，GRPO训练在BLEU、ROUGE、BERTScore等多项指标上显著优于SFT和基线模型。例如，在LibriSQA上，GRPO使Granite Speech 2B的BLEU从基线的27.74提升至44.90（+61.8%），相比SFT（40.88）也有9.8%的提升。MP-GRPO在语音翻译任务上进一步带来增益。实际意义：提供了一种简单高效的语音大模型训练范式，能显著提升模型在实际对话和翻译场景中的生成质量，为开发更强大的语音交互系统提供了新思路。主要局限：仅在英语语音问答和英德翻译任务上验证；未探索ASR等唯一答案任务；训练计算成本高于SFT；混合策略（MP-GRPO）在语音问答上表现不稳定，需进一步研究；未开源代码和模型，阻碍快速复现与验证。 🏗️ 模型架构论文并未提出新的模型架构，而是研究如何训练现有的Speech-Aware Large Language Models。其核心训练框架涉及两个主要组件： ...