Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards
📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #推理 学术质量 8.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel 计算与数据科学学院) 通讯作者:未说明 作者列表:Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校),Roger Ren (Amazon),Jingyuan Li (Amazon),Rahul Pandey (Amazon),Prashanth Gurunath Shivakumar (Amazon),Ivan Bulyko (Amazon),Ankur Gandhe (Amazon),Ge Liu (伊利诺伊大学厄巴纳-香槟分校),Yile Gu (Amazon) 💡 毒舌点评 亮点在于系统性地诊断并解决了音频LLM推理的“测试时逆缩放”这一实际且重要的“反直觉”现象,并建立了一套从过程奖励到可扩展能力的完整方法论。短板是其基于GRPO的在线强化学习训练计算成本高昂(需要8块H200训练61小时),且多奖励组件的超参数调节(如α权重)虽经实验验证,但给实际复现增加了一定复杂度。 ...