Advancing Speech Understanding in Speech-Aware Language Models with GRPO
📄 Advancing Speech Understanding in Speech-Aware Language Models with GRPO #语音大模型 #强化学习 #语音问答 #语音翻译 #大语言模型 ✅ 7.0/10 | 前25% | #语音问答 | #强化学习 | #语音大模型 #语音翻译 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Avishai Elmakies(IBM Research,*注:论文标注工作在实习期间完成) 通讯作者:未说明 作者列表:Avishai Elmakies(IBM Research)、Hagai Aronowitz(IBM Research)、Nimrod Shabtay(IBM Research)、Eli Schwartz(IBM Research)、Ron Hoory(IBM Research)、Avihu Dekel(IBM Research) 💡 毒舌点评 论文成功地将GRPO和可验证奖励(BLEU)应用于语音大模型的开放生成任务,并展示了其优于SFT的性能,方法简洁有效且结果扎实。然而,其核心贡献更多是应用层面的迁移与验证,而非算法本身的重大革新,且完全未开源代码与模型,对社区的可复用性打了折扣。 📌 核心摘要 问题:现有语音感知大模型在多项选择题型的强化学习训练中受限于二元奖励,难以评估和提升其开放式的文本生成能力。标准SFT在生成任务上仍有提升空间。 方法核心:提出将Group Relative Policy Optimization(GRPO)算法应用于语音问答和语音翻译等开放生成任务,并使用BLEU分数作为可验证奖励信号来优化模型。此外,探索了将真实答案作为离线样本纳入GRPO训练组的混合策略(MP-GRPO)。 创新之处:将GRPO从多选任务扩展到更贴近实际应用的开放格式任务;使用简单有效的文本相似度度量(如BLEU)作为强化学习奖励;初步探索了在语音任务中结合在线与离线样本的混合训练策略。 主要结果:在LibriSQA(语音问答)和CoVoST2(语音翻译)数据集上,基于Granite Speech 2B/8B模型的实验表明,GRPO训练在BLEU、ROUGE、BERTScore等多项指标上显著优于SFT和基线模型。例如,在LibriSQA上,GRPO使Granite Speech 2B的BLEU从基线的27.74提升至44.90(+61.8%),相比SFT(40.88)也有9.8%的提升。MP-GRPO在语音翻译任务上进一步带来增益。 实际意义:提供了一种简单高效的语音大模型训练范式,能显著提升模型在实际对话和翻译场景中的生成质量,为开发更强大的语音交互系统提供了新思路。 主要局限:仅在英语语音问答和英德翻译任务上验证;未探索ASR等唯一答案任务;训练计算成本高于SFT;混合策略(MP-GRPO)在语音问答上表现不稳定,需进一步研究;未开源代码和模型,阻碍快速复现与验证。 🏗️ 模型架构 论文并未提出新的模型架构,而是研究如何训练现有的Speech-Aware Large Language Models。其核心训练框架涉及两个主要组件: ...