📄 Thinking-while-speaking: A Controlled, Interleaved Reasoning Method for Real-Time Speech Generation #语音对话系统 #强化学习 #实时处理 #语言模型
✅ 6.9/10 | 前50% | #语音对话系统 | #强化学习 | #实时处理 #语言模型 | arxiv
学术质量 5.5/7 | 影响力 1.2/2 | 可复现性 0.2/2 | 置信度 中
👥 作者与机构 第一作者:Xuan Du (华为) 通讯作者:Xinghao Chen (华为) 作者列表:Xuan Du (华为), Qiangyu Yan (华为), Wenshuo Li (华为), Borui Jiang (华为), Changming Xiao (华为), Han Shu (华为), Xinghao Chen (华为)。机构信息为“Huawei Technologies”,未提供更具体的实验室或部门信息。 💡 毒舌点评 论文将“边思考边说话”模式形式化为一个可控的交错生成框架,通过TA-Balance奖励函数管理推理片段长度以匹配语音播放时间,思路清晰且针对实时交互的痛点。然而,其核心贡献更偏向于一个针对特定基座模型(Qwen2.5-Omni-3B)的工程化优化方案。方法强依赖于精心构建的离线交错数据,这种数据构建管线本身的通用性和可扩展性存疑。实验仅在一个3B模型上验证,缺乏对方法泛化性(如更大模型、不同架构)的深入探讨。此外,流畅度评估完全依赖LLM打分器,缺乏人类听感评测,说服力不足。
...