MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes
📄 MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes #语音对话系统 #多模态模型 #基准测试 #数据集 #大语言模型 ✅ 7.0/10 | #语音对话系统 #多模态模型 | arxiv 👥 作者与机构 第一作者:Maximillian Chen (哥伦比亚大学计算机系) 通讯作者:Yohan Jo (首尔大学) 作者列表: Maximillian Chen (哥伦比亚大学计算机系,现供职于Google) Xuanming Zhang (哥伦比亚大学计算机系,*共同贡献) Michael Peng (哥伦比亚大学计算机系) Zhou Yu (哥伦比亚大学计算机系) Alexandros Papangelis (哥伦比亚大学计算机系,现供职于Apple) Yohan Jo (首尔大学,对应作者) 💡 毒舌点评 本文最大的亮点在于构建了一个全面且精心设计的智能家居语音交互基准,将多模态理解、工具调用和状态跟踪紧密结合,填补了该领域评估工具的空白。然而,其核心贡献是“定义问题和提供工具”而非“解决问题”,模型部分的实验更像是利用现有闭源大模型作为“天花板”展示,缺乏对模型本身架构创新的探讨,使得论文在技术创新深度上稍显不足。 📌 核心摘要 解决的问题:在智能家居物联网场景中,开发能理解用户语音指令、操作现实世界设备并管理复杂交互状态(如歧义、纠正、冗余)的多模态语音助手面临重大挑战。现有任务导向对话(TOD)基准未能充分涵盖物理空间约束、动态状态跟踪和混合主动交互模式。 方法核心:提出MIST,一个合成的多轮、语音驱动的工具调用基准数据集及其生成框架。该框架采用神经符号方法:首先采样多样化家庭配置(房间、设备、用户特征),然后通过概率编排器生成包含六种核心交互模式(动作执行、例程更新、纠正循环、歧义解决、冗余拒绝、状态更新)的对话,确保每轮对话在模拟的“数字孪生”家庭状态上是物理一致的。 新意:与已有TOD任务或纯文本工具调用任务相比,MIST首次系统地将语音输入、多设备状态跟踪、复杂空间逻辑和混合主动交互模式整合在一个统一的评估基准中。其数据生成框架可扩展,能持续产生符合物理约束的新数据。 主要结果:实验评估了多个开放权重和闭源多模态大模型。闭源模型(尤其是Gemini 2.5 Pro)在代码生成(执行匹配79.53%,精确匹配65.56%)和对话智能(F1 46.00,准确率66.73%)上显著优于开放权重模型(最佳开放模型Qwen 3 Omni的精确匹配仅为47.19%,F1为14.54)。错误分析显示,开放模型主要问题是过度触发和目标设备错误,而闭源模型主要问题是参数值错误。即使最强闭源模型也存在显著改进空间(如73.0%的确认请求被遗漏)。 实际意义:MIST为评估和提升面向物理世界的多模态语音助手提供了高质量的测试平台,其可扩展的数据生成框架有助于合成训练数据,推动开放权重模型在这一重要应用场景中的发展。 主要局限性:论文明确提到,当前评估主要基于闭源模型性能作为参照,开放权重模型表现不佳,任务具有挑战性。潜在局限包括:合成数据与真实世界交互的差距、评估指标(尤其是Exact Match)可能对合理变体过于严苛、缺乏端到端语音流式交互的评估。 🔗 开源详情 代码:论文中未提供明确的代码仓库(如 GitHub)链接。论文中提及发布了一个“可扩展的数据生成框架”,并指向项目主页 https://billyzhang24kobe.github.io/mist-smarthome,但未说明代码的具体托管位置。 模型权重:论文中未提及发布任何模型权重。论文评估了多个开源(如 Qwen Audio, Soundwave)和闭源(如 Gemini 2.5)多模态模型,但这些是外部模型,并非本文发布。 数据集:数据集名称为 MIST (Multimodal Interactive Speech-based Tool-calling Dataset)。论文中提到发布该数据集,但未提供直接的下载链接(如 HuggingFace)。唯一的信息是指向项目主页 https://billyzhang24kobe.github.io/mist-smarthome,数据集可能需通过该页面获取。未提及具体的开源协议。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及提供如训练配置、预训练检查点等复现材料。论文在附录中详细描述了数据生成框架的实现细节(如环境模拟、用户角色、声学参数等),并提供了用于生成数据的系统提示词(如 Table A6, Table A8),这些信息有助于理解或扩展数据生成过程。 论文中引用的开源项目:论文中评估了以下模型作为基线,但未提供这些模型的官方链接: Qwen Audio Qwen 2 Audio Soundwave Qwen 3 Omni Gemini 2.5 Flash-Lite, Gemini 2.5 Flash, Gemini 2.5 Pro(闭源模型) 🏗️ 方法概述和架构 MIST系统由两个核心部分组成:一个可扩展的神经符号数据生成框架和一个基于现有MLLM的基准评估流程。 ...