📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context

#语音对话系统 #多模态模型 #端到端 #数据集 #机器人

🔥 8.5/10 | 前10% | #语音对话系统 | #多模态模型 | #端到端 #数据集

学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Siyin Wang(复旦大学,上海创新研究院)
  • 通讯作者:Jinlan Fu (N/A), Xipeng Qiu (复旦大学,上海创新研究院)(论文标注†为共同通讯作者)
  • 作者列表:Siyin Wang(复旦大学,上海创新研究院)、Jinlan Fu(新加坡国立大学)、Feihong Liu(复旦大学)、Xinzhe He(复旦大学)、Huangxuan Wu(复旦大学)、Junhao Shi(复旦大学,上海创新研究院)、Kexin Huang(复旦大学)、Zhaoye Fei(复旦大学)、Jingjing Gong(上海创新研究院)、Zuxuan Wu(复旦大学,上海创新研究院)、Yu-Gang Jiang(复旦大学)、See-Kiong Ng(新加坡国立大学)、Tat-Seng Chua(新加坡国立大学)、Xipeng Qiu(复旦大学,上海创新研究院)

💡 毒舌点评

亮点:这篇论文真正让机器人“听懂”了对话的弦外之音(比如“嗯…橙汁”的嫌弃语气)并主动发起询问确认,而不是傻等一句“把可乐放桌上”的明确指令,这在人机交互的自然性上是个重要进步。短板:虽然构建了庞大的合成数据集,但真实世界交互的复杂性(比如多人同时说话、声音重叠、远场噪声)与合成数据之间的差距可能仍然存在,论文在应对这些极端边缘案例时的鲁棒性上限有待进一步验证。

🔗 开源详情

  • 代码:提供GitHub仓库链接:https://github.com/OpenMOSS/RoboOmni
  • 模型权重:未提及是否公开预训练权重,但论文中提到将“开源模型检查点”。
  • 数据集:公开OmniAction数据集,承诺将开源获取。
  • Demo:未提及在线演示。
  • 复现材料:提供了非常详细的训练细节(硬件、超参数、优化器设置)、数据集构建流程(三阶段)、实验设置(基线模型描述)和附录中的更多示例。
  • 引用的开源项目:论文中引用的开源项目包括OpenVLA、OpenVLA-OFT、π0、NORA、LIBERO、Whisper、FAST+分词器、Qwen2.5-VL/Omni、DINOv2、SigLIP等。

📌 核心摘要

  1. 问题:现有的视觉-语言-动作(VLA)模型严重依赖用户发出的显式、直接的指令(如文本命令),但在真实场景中,人类意图常通过对话上下文、语气、环境音等隐式线索表达,机器人缺乏主动推断和确认意图的能力。
  2. 方法核心:提出RoboOmni,一个基于端到端全模态大语言模型(如Qwen2.5-Omni)的Perceiver-Thinker-Talker-Executor框架。该模型能同时处理视觉、音频(包含语音和副语言线索、环境声)和文本对话历史,统一进行意图推理、生成确认性语音回复和执行机器人动作。
  3. 新意:a) 定义了“跨模态上下文指令”新范式。b) 提出了统一感知、推理、交互和执行的端到端框架,无需ASR管道,保留了副语言信息。c) 构建了首个大规模、专用于此任务的数据集OmniAction(14万 episodes),包含6种上下文指令类型。
  4. 主要实验结果:在模拟基准OmniAction-LIBERO上,RoboOmni平均成功率85.6%,大幅超越最强文本基线NORA(25.9%)。在真实人类语音测试(OmniAction-LIBERO-Real)中,成功率76.6%,优于π0(73.8%)。真实机器人实验成功率73.9%,远超ASR+VLA基线(52.2%)。消融实验证明,移除音频后意图识别准确率从88.89%暴跌至11.11%。
  5. 实际意义:推动了机器人从“命令执行者”向“主动协作者”的转变,为下一代更自然、智能的人机交互提供了可行的技术路径和评估基准。
  6. 主要局限性:a) 依赖大规模合成数据,虽然通过真人录音补充,但数据与真实交互的鸿沟可能依然存在。b) 模型的成功高度依赖预训练的全模态LLM基座(Qwen2.5-Omni)的能力。c) 在非常复杂的、需要深层社会认知推理的意图识别上仍有提升空间。

🏗️ 模型架构

RoboOmni采用Perceiver-Thinker-Talker-Executor四阶段端到端架构,所有组件通过自回归语言模型骨干统一。

RoboOmni框架图]

  • Perceiver(感知器):负责多模态输入编码。在每个时间步t,接收一帧视觉图像V_t、一段音频S_t(包含语音和环境声)以及对话历史C_t。使用各自模态特定的编码器(如Qwen2.5-Omni的视觉编码器、音频编码器)提取特征,得到视觉嵌入v_t、音频嵌入s_t和文本嵌入c_t,并将它们拼接为统一表示X_t = [v_t; s_t; c_t]
  • Thinker(思考器):核心推理引擎,基于预训练的LLM骨干。它处理来自Perceiver的统一多模态表示X_t,并自回归地在由文本词表V和动作词表A组成的联合词汇空间V ∪ A中生成序列。该序列可以无缝交织文本token(用于对话)、语音表示(传递给Talker)和动作token(传递给Executor)。
  • Talker(对话器):语音生成模块。接收Thinker产生的高层语义表示和文本token,将其转换为自然语音波形,用于与用户的语音交互。
  • Executor(执行器):动作生成模块。接收Thinker生成的离散动作token序列(每个连续动作向量由FAST+分词器编码为短序列),将其解码回可执行的7自由度机器人控制指令(Δx, Δθ, ΔGrip)。

数据流:原始视觉、音频、文本输入 -> Perceiver编码为统一嵌入 -> Thinker进行跨模态推理并自回归生成文本/动作token -> 文本token流向Talker生成语音回复 -> 动作token流向Executor控制机器人。整个模型以端到端方式训练。

💡 核心创新点

  1. 定义“跨模态上下文指令”新范式:突破了机器人操作领域依赖显式指令的传统,首次系统研究如何从融合对话、副语言线索(语气、情感)、环境声和视觉观察的复杂上下文里主动推断用户隐式意图。
  2. 提出端到端的全模态统一框架RoboOmni:该框架将意图识别、交互确认和动作执行统一在一个自回归LLM中。它直接处理原始音频,避免了ASR管道带来的信息损失和延迟,能够利用语气、说话人身份等副语言线索进行更精准的意图推理。
  3. 构建大规模专用数据集OmniAction:针对数据稀缺问题,构建了包含14万回合、覆盖6种上下文指令类型(情感、重叠、非语言、身份、双人/三人对话)、5000+说话人、2400种环境声的大规模多模态机器人操作数据集,填补了该领域的空白。
  4. 设计多维度评估体系:不仅评估任务成功率,还专门设计了意图识别准确率和主动交互能力的评估,并提供了模拟(OmniAction-LIBERO)和真实机器人(WidowX 250S)的双重验证平台。

🔬 细节详述

  • 训练数据:
    • 主要数据集:OmniAction,包含141,162个多模态回合,源自Open-X数据集的基础轨迹,通过三阶段流程(文本脚本、听觉实现、人工验证)构建。
    • 覆盖:112种技能,748种物体,5,096种说话人音色,2,482种非语音事件,640种环境背景。
    • 数据增强:使用TTS(MOSS-TTSD, CosyVoice, Gemini-TTS)生成对话,进行多说话人模拟(含重叠)、插入非语音事件、混合不同信噪比的环境背景音。
  • 损失函数:统一的自回归最大似然目标。模型学习在给定多模态输入X_t的条件下,预测对话回复y或动作token序列r。总损失为对话损失L_chat和动作损失L_act的加和,等价于对联合词表V ∪ A的token进行预测。
  • 训练策略:
    • 预训练:在OmniAction上训练10个epoch,使用64个A100 GPU,训练10天(约15,360 A100小时),batch size为512,学习率5e-5,前1000步warm-up。
    • 下游微调(SFT):在具体任务数据上微调,使用8个A100 GPU,训练1-3万步,学习率5e-5
  • 关键超参数:
    • 模型骨干:Qwen2.5-Omni(3B参数版本用于主要实验)。
    • 输入图像分辨率:224x224。
    • 音频采样率:16,000 Hz。
    • 动作分块大小(Action Chunk Size):6。
    • 动作token:使用FAST+分词器,将7维连续动作向量映射为短的离散token序列(词表大小A=2048)。
  • 推理细节:采用自回归解码。对于对话回复,生成文本token;对于动作执行,生成一个动作块(chunk)的离散token序列,然后通过FAST+反解码为连续控制信号。

📊 实验结果

主要基准测试结果:

  1. 模拟环境评估(OmniAction-LIBERO-TTS) 成功率(%),RoboOmni vs. 最强基线(NORA)

    任务套件RoboOmni最佳基线 (NORA)提升幅度
    Spatial93.056.5+36.5
    Goal85.816.3+69.5
    Object84.013.8+70.2
    Long79.551.0+28.5
    平均85.625.9+59.7
    RoboOmni在所有任务套件和所有上下文指令类型上均大幅超越所有基线。
  2. 真实人类语音评估(OmniAction-LIBERO-Real) 成功率(%)

    模型SpatialGoalObjectLong平均
    π0 (ASR+Text)86.060.070.079.073.8
    OpenVLA (ASR+Text)51.638.238.032.440.1
    RoboOmni89.071.675.175.076.6
    在直接处理真实语音输入时,RoboOmni优于依赖ASR转写的强大基线π0。
  3. 真实机器人实验(WidowX 250S) 成功率(%)

    模型平均成功率
    最佳ASR+VLA基线52.2
    RoboOmni73.9
    在真实机器人部署中,端到端方法显著优于级联管道。

真实世界实验结果对比图 图5展示了RoboOmni在真实机器人上对所有六种上下文指令类型的性能,均显著超过ASR+VLA基线。

  1. 消融研究(意图识别能力)

    设置准确率(%)
    完整输入 (Ours)88.89
    无视觉输入58.89
    无音频输入11.11
    无副语言线索50.56
    证明了音频(核心语义)、视觉(上下文锚定)和副语言线索(消歧)的互补性和必要性。
  2. 推理效率 推理延迟对比图 以ASR+OpenVLA为基准(1.0×),RoboOmni的单次推理延迟仅为0.49×,消除了ASR瓶颈。

  3. 主动交互能力定性分析 主动交互能力对比图 图7b展示了在复杂上下文推理和主动澄清交互上,RoboOmni明显优于作为基线的Qwen2.5-Omni和ASR+GPT-4o。

⚖️ 评分理由

  • 学术质量:6.5/7:论文提出了一个清晰、新颖且重要的问题,并设计了一个完整、合理的解决方案。技术路径基于成熟的LLM/VLA范式,但创新性地将多模态输入与主动交互闭环结合。实验设计严谨,从模拟到真实世界,从成功率到交互能力,并有消融研究支持结论,证据充分可信。扣分点在于模型严重依赖一个强大的商业/开源基座模型(Qwen2.5-Omni),其核心创新更多在于系统集成和数据构建,而非底层架构的根本性突破。
  • 选题价值:1.5/2:课题处于具身AI和自然人机交互的前沿,对于构建真正有用的家用或服务机器人具有直接的指导意义和应用潜力。对于语音和多模态AI的研究者,这是一个展示语音副语言信息巨大价值的优秀案例。
  • 开源与复现加成:0.5/1:论文承诺并提供了开源代码、数据集和详细的复现指南,这对社区贡献巨大,显著降低了后续研究的门槛。

← 返回 ICLR 2026 论文分析