RoboOmni: Proactive Robot Manipulation in Omni-modal Context

📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context #语音对话系统 #多模态模型 #端到端 #数据集 #机器人 🔥 8.5/10 | 前10% | #语音对话系统 | #多模态模型 | #端到端 #数据集 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Siyin Wang(复旦大学,上海创新研究院) 通讯作者:Jinlan Fu (N/A), Xipeng Qiu (复旦大学,上海创新研究院)(论文标注†为共同通讯作者) 作者列表:Siyin Wang(复旦大学,上海创新研究院)、Jinlan Fu(新加坡国立大学)、Feihong Liu(复旦大学)、Xinzhe He(复旦大学)、Huangxuan Wu(复旦大学)、Junhao Shi(复旦大学,上海创新研究院)、Kexin Huang(复旦大学)、Zhaoye Fei(复旦大学)、Jingjing Gong(上海创新研究院)、Zuxuan Wu(复旦大学,上海创新研究院)、Yu-Gang Jiang(复旦大学)、See-Kiong Ng(新加坡国立大学)、Tat-Seng Chua(新加坡国立大学)、Xipeng Qiu(复旦大学,上海创新研究院) 💡 毒舌点评 亮点:这篇论文真正让机器人“听懂”了对话的弦外之音(比如“嗯…橙汁”的嫌弃语气)并主动发起询问确认,而不是傻等一句“把可乐放桌上”的明确指令,这在人机交互的自然性上是个重要进步。短板:虽然构建了庞大的合成数据集,但真实世界交互的复杂性(比如多人同时说话、声音重叠、远场噪声)与合成数据之间的差距可能仍然存在,论文在应对这些极端边缘案例时的鲁棒性上限有待进一步验证。 🔗 开源详情 代码:提供GitHub仓库链接:https://github.com/OpenMOSS/RoboOmni 模型权重:未提及是否公开预训练权重,但论文中提到将“开源模型检查点”。 数据集:公开OmniAction数据集,承诺将开源获取。 Demo:未提及在线演示。 复现材料:提供了非常详细的训练细节(硬件、超参数、优化器设置)、数据集构建流程(三阶段)、实验设置(基线模型描述)和附录中的更多示例。 引用的开源项目:论文中引用的开源项目包括OpenVLA、OpenVLA-OFT、π0、NORA、LIBERO、Whisper、FAST+分词器、Qwen2.5-VL/Omni、DINOv2、SigLIP等。 📌 核心摘要 问题:现有的视觉-语言-动作(VLA)模型严重依赖用户发出的显式、直接的指令(如文本命令),但在真实场景中,人类意图常通过对话上下文、语气、环境音等隐式线索表达,机器人缺乏主动推断和确认意图的能力。 方法核心:提出RoboOmni,一个基于端到端全模态大语言模型(如Qwen2.5-Omni)的Perceiver-Thinker-Talker-Executor框架。该模型能同时处理视觉、音频(包含语音和副语言线索、环境声)和文本对话历史,统一进行意图推理、生成确认性语音回复和执行机器人动作。 新意:a) 定义了“跨模态上下文指令”新范式。b) 提出了统一感知、推理、交互和执行的端到端框架,无需ASR管道,保留了副语言信息。c) 构建了首个大规模、专用于此任务的数据集OmniAction(14万 episodes),包含6种上下文指令类型。 主要实验结果:在模拟基准OmniAction-LIBERO上,RoboOmni平均成功率85.6%,大幅超越最强文本基线NORA(25.9%)。在真实人类语音测试(OmniAction-LIBERO-Real)中,成功率76.6%,优于π0(73.8%)。真实机器人实验成功率73.9%,远超ASR+VLA基线(52.2%)。消融实验证明,移除音频后意图识别准确率从88.89%暴跌至11.11%。 实际意义:推动了机器人从“命令执行者”向“主动协作者”的转变,为下一代更自然、智能的人机交互提供了可行的技术路径和评估基准。 主要局限性:a) 依赖大规模合成数据,虽然通过真人录音补充,但数据与真实交互的鸿沟可能依然存在。b) 模型的成功高度依赖预训练的全模态LLM基座(Qwen2.5-Omni)的能力。c) 在非常复杂的、需要深层社会认知推理的意图识别上仍有提升空间。 🏗️ 模型架构 RoboOmni采用Perceiver-Thinker-Talker-Executor四阶段端到端架构,所有组件通过自回归语言模型骨干统一。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 246 words

UVT-LM: Unifying Visual and Tactile Perception with Language Model

📄 UVT-LM: Unifying Visual and Tactile Perception with Language Model #多模态模型 #跨模态 #音频分类 #大语言模型 #机器人 ✅ 7.0/10 | 前25% | #跨模态 | #多模态模型 | #音频分类 #大语言模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Jinlin Wang(四川大学,合成视觉国家重点实验室) 通讯作者:Hongyu Yang(四川大学计算机学院),Yulong Ji(四川大学航空航天学院) 作者列表:Jinlin Wang(四川大学合成视觉国家重点实验室)、Hongyu Yang(四川大学计算机学院)、Yulong Ji(四川大学航空航天学院) 💡 毒舌点评 亮点:该工作巧妙地将大语言模型(LLM)作为“语义粘合剂”,用文本查询引导将视觉、触觉图像、音频、压力等异构信号映射到共享语义空间,这种设计思路在解决多模态对齐难题上具有启发性,且实验中的跨数据集零样本性能(51.85%)证明了其泛化潜力。 短板:论文在实验部分声称“outperforming state-of-the-art methods”,但未清晰说明其对比的基线方法(如MTF, MViTac)是否真正代表了当前最优水平;更关键的是,作为一篇方法论文,其训练细节(如LLM如何参与训练、所有超参数)近乎完全缺失,这严重削弱了研究的可复现性和工程参考价值,无异于“只给菜谱不给火候”。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/PluteW/UVT-LM。 模型权重:论文中未提及是否公开预训练或训练好的模型权重。 数据集:论文使用的数据集(Calandra, Au, PHAC-2, Jianhua)均为公开的学术数据集,但论文未说明如何获取或预处理。 Demo:论文中未提及提供在线演示。 复现材料:论文未提供训练细节、配置文件、检查点或详细的复现指南。技术细节严重不足。 论文中引用的开源项目:论文明确引用了预训练模型作为组件:CLIP [11], BERT [12], Llama2-7B, Whisper [18]。 📌 核心摘要 要解决的问题:现有机器人视觉-触觉融合方法受限于特定传感器配对,且难以有效融合异构的触觉信号(如图像、音频、压力)与视觉输入,制约了通用化多模态感知能力的发展。 方法核心:提出UVT-LM框架,采用四阶段流程:1) 使用模态特定编码器将各类输入转化为特征;2) 通过“模态语义映射器”,以文本查询生成的Key,引导视觉和触觉特征通过交叉注意力对齐到共享语义空间;3) 利用预训练的Llama2-7B作为“语义编码器”进一步处理融合特征;4) 通过任务头进行预测。 与已有方法相比新在哪里:首次提出一个统一架构,能够处理包括触觉图像、音频、压力在内的多种异构触觉信号,并利用LLM的预训练知识进行语义级对齐,而非传统的特征级简单拼接或对比学习。 主要实验结果:在物体识别(Au数据集,89.58%)、材料分类(Au数据集95.83%,PHAC-2数据集85.05%)和抓取结果预测(Calandra数据集98.82%)任务上,UVT-LM的准确率均优于所对比的基线方法。在跨数据集零样本迁移(Jianhua数据集)中,达到51.85%的准确率,显著高于随机初始化模型(SNAP, 36.46%)。关键对比结果如下表所示: 任务 数据集 指标 UVT-LM 最强基线 差距 物体识别 Au 准确率(%) 89.58 CRNN: 88.89 +0.69 材料分类 Au 准确率(%) 95.83 C2M: 88.92 +6.91 材料分类 PHAC-2 准确率(%) 85.05 C3: 76.19 +8.86 抓取预测 Calandra 准确率(%) 98.82 MoCo: 81.83 +16.99 零样本迁移 Jianhua 准确率(%) 51.85 SNAP: 36.46 +15.39 实际意义:为机器人感知提供了一种更通用、可扩展的多模态融合框架,使机器人能利用更丰富的触觉信号理解环境与操作对象,有望提升其在复杂物理交互任务中的鲁棒性和适应性。 主要局限性:1) 训练细节(超参数、硬件、策略)完全缺失,严重影响可复现性;2) 实验对比的基线方法是否全面代表了各任务的最先进水平存疑;3) 未探讨模型效率、推理延迟等在实际机器人部署中的关键问题。 🏗️ 模型架构 UVT-LM的整体架构(如图1所示)是一个四阶段的管道,旨在将异构输入统一到由LLM主导的语义空间中。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 411 words