Can Speech LLMs Think while Listening?
📄 Can Speech LLMs Think while Listening? #语音对话系统 #大语言模型 #思维链 #偏好学习 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #大语言模型 | #思维链 #偏好学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yi-Jen Shih (The University of Texas at Austin, Meta Superintelligence Labs) 通讯作者:未明确说明(论文标注两位共同第一作者:Yi-Jen Shih, Desh Raj,以及共同作者:Chunyang Wu, Wei Zhou等) 作者列表:Yi-Jen Shih (The University of Texas at Austin, Meta Superintelligence Labs), Desh Raj (Meta Superintelligence Labs), Chunyang Wu (Meta Superintelligence Labs), Wei Zhou (Meta Superintelligence Labs), SK Bong (Meta Superintelligence Labs), Yashesh Gaur (Meta Superintelligence Labs), Jay Mahadeokar (Meta Superintelligence Labs), Ozlem Kalinli (Meta Superintelligence Labs), Michael L. Seltzer (Meta Superintelligence Labs) 💡 毒舌点评 论文成功地将“思维链”和“边听边想”的概念从文本大模型工程化移植到语音大模型领域,提出了“问题完整度”这一新颖的触发指标,并用DPO优化了推理启动时机与长度,工程设计思路清晰。然而,最大的短板在于所有实验基于未公开的内部模型和数据集(虽用了公开的Moshi,但训练数据为私有),这使得其提出的“问题完整度”度量的普适性和复现性存疑,论文的结论严重依赖其特定的训练流程和私有数据。 ...