Adaptive Turn-Taking for Real-time Multi-Party Voice Agents
📄 Adaptive Turn-Taking for Real-time Multi-Party Voice Agents #数据增强 #流式处理 6.7/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.7/10 | 后50% | #数据增强 | #数据增强 | #流式处理 | arxiv 👥 作者与机构 Soumyajit Mitra, Prabhat Pandey, Abhinav Jain, Shanmukha Sahith, K V Vijay Girish。机构:Amazon AGI, IIT Kharagpur, India。 💡 毒舌点评 这篇论文试图用“角色扮演”来解决一个语音对话中的棘手问题——“谁该说话”,想法是不错的。但它就像一个训练有素的演员,在剧本(合成数据)和特定舞台(RolePlayConv评估集)上表现完美,可一旦到了真实、混乱、没有剧本的会议(NOTSOFAR-1)或者去掉提词器(文本转录),演技就大打折扣。最致命的是,它精心设计的整套“表演”系统——从数据、评估到角色分配——大部分都是自产自销、自我验证的闭环,代码和数据集都锁在仓库里,这严重削弱了它声称的“突破性”价值。说白了,这是一篇工程上细致、实验上自洽,但在开放性和真实世界通用性上自我设限的系统论文。 📌 核心摘要 本文针对多方语音对话中轮次转换(即决定何时发言)的难题,提出了ModeratorLM。这是一个基于语音大语言模型(LLM)的角色扮演代理,其是否介入对话的行为取决于一个明确指定的角色(如“主持人”)。系统采用分块流式处理方式。作者还引入了ModeratorLM-Think变体,它在做出决策前,会结合对话上下文和指定角色进行链式思维推理。为了训练模型,他们构建了大规模合成数据集RolePlayConv。实验表明,与没有角色条件的基线模型相比,ModeratorLM-Think在轮次转换的精确率、召回率上均有大幅提升(精确率提升超40%,召回率提升超70%),并显著减少了误打断。消融实验分析了分块策略和文本转录的影响。 ...