RLBR: Reinforcement Learning with Biasing Rewards for Contextual Speech Large Language Models
📄 RLBR: Reinforcement Learning with Biasing Rewards for Contextual Speech Large Language Models #语音识别 #强化学习 #语音大模型 #端到端 🔥 8.0/10 | 前25% | #语音识别 | #强化学习 | #语音大模型 #端到端 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Bo Ren(Microsoft Core AI, USA) 通讯作者:未说明 作者列表:Bo Ren(Microsoft Core AI, USA)、Ruchao Fan(Microsoft Core AI, USA)、Yelong Shen(Microsoft Core AI, USA)、Weizhu Chen(Microsoft Core AI, USA)、Jinyu Li(Microsoft Core AI, USA) 💡 毒舌点评 亮点:首次将强化学习(GRPO算法)应用于解决语音大模型的上下文偏置问题,奖励函数设计针对性强,并创新性地引入“参考感知”机制以扩充训练探索空间,技术思路新颖且有效。短板:所有验证实验均在人工构造偏置列表的LibriSpeech标准数据集上进行,缺乏在真实复杂场景(如多轮对话、高噪音、真实领域术语)下的验证,其实际落地效果有待商榷。 ...