MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models
📄 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models #语音对话系统 #音频大模型 #大语言模型 #流式处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Chung-Ming Chien (Kyutai, 推断) 通讯作者:论文未明确标注,根据机构和工作内容推断为 Alexandre Défossez 或 Chung-Ming Chien (Kyutai) 其他作者: Manu Orsini (Kyutai, 推断) Eugene Kharitonov (Meta FAIR, 推断) Neil Zeghidour (Google DeepMind, 推断) Karen Livescu (纽约大学, 推断) Alexandre Défossez (Kyutai, 推断) 注:论文正文未直接列出作者机构,但根据作者邮箱后缀(@kyutai.org, @meta.com, @google.com, @nyu.edu)及致谢内容推断。 💡 毒舌点评 亮点:巧妙地将RAG“塞进”了全双工语音对话的严格时间缝隙里,实现了“边说边查”的真人感,技术路线设计得很优雅。槽点:整个系统依赖大量合成数据训练和复杂的多模块协作(ASR+LLM检索+语音模型),像一台精密但脆弱的瑞士钟表,实际部署和维护成本恐怕不低。 🔗 开源详情 代码:论文提到推理代码已在GitHub开源:https://github.com/kyutai-labs/moshi-rag。 模型权重:论文未明确说明MoshiRAG的模型权重是否公开。原始Moshi模型权重是公开的。 数据集:论文中描述的合成训练数据集未提及是否公开发布。 在线Demo:论文提供了在线演示地址:https://moshi-rag.kyutai.org。 依赖的开源项目:论文中明确引用的开源项目包括:Moshi(基础模型)、Gemma 3(用于数据生成和检索)、ARC-Encoder(参考编码)、Tavily(搜索API)、HaluEval、Natural Questions等数据集。 📌 核心摘要 本文提出了MoshiRAG,这是首个集成检索增强生成功能的全双工语音语言模型。要解决的问题是全双工语音模型在保持实时交互性的同时,事实准确性不足的挑战。核心方法是基于Moshi模型,设计了一个异步检索框架:前端全双工模型在遇到知识密集型查询时预测一个特殊的检索触发词<ret>,随后在继续与用户对话的同时,后台异步调用基于文本的检索系统(如LLM或搜索引擎)获取参考资料;利用语音响应中“关键词延迟”的自然时间差(即从开始说话到说出关键信息的时间),在关键内容生成前将检索到的信息注入模型。主要发现显示,MoshiRAG在多项问答基准测试上显著提升了事实准确性(如在TriviaQA上从22.8%提升至73.7%),性能可媲美甚至超越多数非全双工语音模型,同时保持了全双工系统低延迟、高交互性的优势。此外,系统展现出良好的泛化能力,在未见过的数学推理任务上也取得不错效果。实际意义在于为构建更可靠、知识更丰富的实时语音AI助手提供了一条可行路径。局限性在于目前依赖合成数据进行训练,且系统复杂度较高。 ...