机器人 | 语音/音频论文速递

📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context #语音对话系统 #多模态模型 #端到端 #数据集 #机器人 🔥 8.5/10 | 前10% | #语音对话系统 | #多模态模型 | #端到端 #数据集学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siyin Wang（复旦大学，上海创新研究院）通讯作者：Jinlan Fu (N/A), Xipeng Qiu (复旦大学，上海创新研究院)（论文标注†为共同通讯作者）作者列表：Siyin Wang（复旦大学，上海创新研究院）、Jinlan Fu（新加坡国立大学）、Feihong Liu（复旦大学）、Xinzhe He（复旦大学）、Huangxuan Wu（复旦大学）、Junhao Shi（复旦大学，上海创新研究院）、Kexin Huang（复旦大学）、Zhaoye Fei（复旦大学）、Jingjing Gong（上海创新研究院）、Zuxuan Wu（复旦大学，上海创新研究院）、Yu-Gang Jiang（复旦大学）、See-Kiong Ng（新加坡国立大学）、Tat-Seng Chua（新加坡国立大学）、Xipeng Qiu（复旦大学，上海创新研究院） 💡 毒舌点评亮点：这篇论文真正让机器人“听懂”了对话的弦外之音（比如“嗯…橙汁”的嫌弃语气）并主动发起询问确认，而不是傻等一句“把可乐放桌上”的明确指令，这在人机交互的自然性上是个重要进步。短板：虽然构建了庞大的合成数据集，但真实世界交互的复杂性（比如多人同时说话、声音重叠、远场噪声）与合成数据之间的差距可能仍然存在，论文在应对这些极端边缘案例时的鲁棒性上限有待进一步验证。 🔗 开源详情代码：提供GitHub仓库链接：https://github.com/OpenMOSS/RoboOmni 模型权重：未提及是否公开预训练权重，但论文中提到将“开源模型检查点”。数据集：公开OmniAction数据集，承诺将开源获取。 Demo：未提及在线演示。复现材料：提供了非常详细的训练细节（硬件、超参数、优化器设置）、数据集构建流程（三阶段）、实验设置（基线模型描述）和附录中的更多示例。引用的开源项目：论文中引用的开源项目包括OpenVLA、OpenVLA-OFT、π0、NORA、LIBERO、Whisper、FAST+分词器、Qwen2.5-VL/Omni、DINOv2、SigLIP等。 📌 核心摘要问题：现有的视觉-语言-动作（VLA）模型严重依赖用户发出的显式、直接的指令（如文本命令），但在真实场景中，人类意图常通过对话上下文、语气、环境音等隐式线索表达，机器人缺乏主动推断和确认意图的能力。方法核心：提出RoboOmni，一个基于端到端全模态大语言模型（如Qwen2.5-Omni）的Perceiver-Thinker-Talker-Executor框架。该模型能同时处理视觉、音频（包含语音和副语言线索、环境声）和文本对话历史，统一进行意图推理、生成确认性语音回复和执行机器人动作。新意：a) 定义了“跨模态上下文指令”新范式。b) 提出了统一感知、推理、交互和执行的端到端框架，无需ASR管道，保留了副语言信息。c) 构建了首个大规模、专用于此任务的数据集OmniAction（14万 episodes），包含6种上下文指令类型。主要实验结果：在模拟基准OmniAction-LIBERO上，RoboOmni平均成功率85.6%，大幅超越最强文本基线NORA（25.9%）。在真实人类语音测试（OmniAction-LIBERO-Real）中，成功率76.6%，优于π0（73.8%）。真实机器人实验成功率73.9%，远超ASR+VLA基线（52.2%）。消融实验证明，移除音频后意图识别准确率从88.89%暴跌至11.11%。实际意义：推动了机器人从“命令执行者”向“主动协作者”的转变，为下一代更自然、智能的人机交互提供了可行的技术路径和评估基准。主要局限性：a) 依赖大规模合成数据，虽然通过真人录音补充，但数据与真实交互的鸿沟可能依然存在。b) 模型的成功高度依赖预训练的全模态LLM基座（Qwen2.5-Omni）的能力。c) 在非常复杂的、需要深层社会认知推理的意图识别上仍有提升空间。 🏗️ 模型架构 RoboOmni采用Perceiver-Thinker-Talker-Executor四阶段端到端架构，所有组件通过自回归语言模型骨干统一。 ...

📄 UVT-LM: Unifying Visual and Tactile Perception with Language Model #多模态模型 #跨模态 #音频分类 #大语言模型 #机器人 ✅ 7.0/10 | 前25% | #跨模态 | #多模态模型 | #音频分类 #大语言模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度中 👥 作者与机构第一作者：Jinlin Wang（四川大学，合成视觉国家重点实验室）通讯作者：Hongyu Yang（四川大学计算机学院），Yulong Ji（四川大学航空航天学院）作者列表：Jinlin Wang（四川大学合成视觉国家重点实验室）、Hongyu Yang（四川大学计算机学院）、Yulong Ji（四川大学航空航天学院） 💡 毒舌点评亮点：该工作巧妙地将大语言模型（LLM）作为“语义粘合剂”，用文本查询引导将视觉、触觉图像、音频、压力等异构信号映射到共享语义空间，这种设计思路在解决多模态对齐难题上具有启发性，且实验中的跨数据集零样本性能（51.85%）证明了其泛化潜力。短板：论文在实验部分声称“outperforming state-of-the-art methods”，但未清晰说明其对比的基线方法（如MTF, MViTac）是否真正代表了当前最优水平；更关键的是，作为一篇方法论文，其训练细节（如LLM如何参与训练、所有超参数）近乎完全缺失，这严重削弱了研究的可复现性和工程参考价值，无异于“只给菜谱不给火候”。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/PluteW/UVT-LM。模型权重：论文中未提及是否公开预训练或训练好的模型权重。数据集：论文使用的数据集（Calandra, Au, PHAC-2, Jianhua）均为公开的学术数据集，但论文未说明如何获取或预处理。 Demo：论文中未提及提供在线演示。复现材料：论文未提供训练细节、配置文件、检查点或详细的复现指南。技术细节严重不足。论文中引用的开源项目：论文明确引用了预训练模型作为组件：CLIP [11], BERT [12], Llama2-7B, Whisper [18]。 📌 核心摘要要解决的问题：现有机器人视觉-触觉融合方法受限于特定传感器配对，且难以有效融合异构的触觉信号（如图像、音频、压力）与视觉输入，制约了通用化多模态感知能力的发展。方法核心：提出UVT-LM框架，采用四阶段流程：1) 使用模态特定编码器将各类输入转化为特征；2) 通过“模态语义映射器”，以文本查询生成的Key，引导视觉和触觉特征通过交叉注意力对齐到共享语义空间；3) 利用预训练的Llama2-7B作为“语义编码器”进一步处理融合特征；4) 通过任务头进行预测。与已有方法相比新在哪里：首次提出一个统一架构，能够处理包括触觉图像、音频、压力在内的多种异构触觉信号，并利用LLM的预训练知识进行语义级对齐，而非传统的特征级简单拼接或对比学习。主要实验结果：在物体识别（Au数据集，89.58%）、材料分类（Au数据集95.83%，PHAC-2数据集85.05%）和抓取结果预测（Calandra数据集98.82%）任务上，UVT-LM的准确率均优于所对比的基线方法。在跨数据集零样本迁移（Jianhua数据集）中，达到51.85%的准确率，显著高于随机初始化模型（SNAP, 36.46%）。关键对比结果如下表所示：任务数据集指标 UVT-LM 最强基线差距物体识别 Au 准确率(%) 89.58 CRNN: 88.89 +0.69 材料分类 Au 准确率(%) 95.83 C2M: 88.92 +6.91 材料分类 PHAC-2 准确率(%) 85.05 C3: 76.19 +8.86 抓取预测 Calandra 准确率(%) 98.82 MoCo: 81.83 +16.99 零样本迁移 Jianhua 准确率(%) 51.85 SNAP: 36.46 +15.39 实际意义：为机器人感知提供了一种更通用、可扩展的多模态融合框架，使机器人能利用更丰富的触觉信号理解环境与操作对象，有望提升其在复杂物理交互任务中的鲁棒性和适应性。主要局限性：1) 训练细节（超参数、硬件、策略）完全缺失，严重影响可复现性；2) 实验对比的基线方法是否全面代表了各任务的最先进水平存疑；3) 未探讨模型效率、推理延迟等在实际机器人部署中的关键问题。 🏗️ 模型架构 UVT-LM的整体架构（如图1所示）是一个四阶段的管道，旨在将异构输入统一到由LLM主导的语义空间中。 ...