How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue

📄 How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue #语音对话系统 #流式处理 #语音大模型 #语音打断处理 ✅ 6.0/10 | 前25% | #语音对话系统 | #流式处理 | #语音大模型 #语音打断处理 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Hui Lu(The Chinese University of Hong Kong) 通讯作者:论文作者列表后标注“Corresponding author”,但未明确指名。 作者列表:Hui Lu (The Chinese University of Hong Kong)、Xueyuan Chen (The Chinese University of Hong Kong)、Huimeng Wang (The Chinese University of Hong Kong)、Shuhai Peng (Tsinghua University)、Shiyin Kang (SenseTime Research)、Xixin Wu (The Chinese University of Hong Kong)、Zhiyong Wu (Tsinghua University) 💡 毒舌点评 本文针对全双工语音对话中一个关键但被忽视的架构问题——“用户流路由”——进行了系统性研究,通过一个精心设计的统一框架对通道融合与交叉注意力路由两种策略进行了公平对比。其价值在于首次将该问题明确化、轴心化,并提供了清晰的实证权衡关系(语义整合 vs. 上下文鲁棒性),对系统设计有直接指导意义。短板在于,作为一项对比研究,其结论严重依赖于一个1.7B规模的骨干LLM和固定的训练配方。模型能力是否足够代表当前水平、结论是否可扩展至更大模型,均存疑。此外,对交叉注意力路由性能较差的根源剖析不足,使得“权衡”的成因略显模糊,削弱了洞察的深度。 ...

2026-05-12 · 更新于 2026-05-19 · 4 min · 839 words