<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>机器人操作 on 语音/音频论文速递</title>
    <link>https://nanless.github.io/audio-paper-digest-blog/tags/%E6%9C%BA%E5%99%A8%E4%BA%BA%E6%93%8D%E4%BD%9C/</link>
    <description>每日 AI 自动生成的语音/AI 领域论文深度分析</description>
    <language>zh-cn</language>
    <lastBuildDate>Mon, 04 May 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://nanless.github.io/audio-paper-digest-blog/tags/%E6%9C%BA%E5%99%A8%E4%BA%BA%E6%93%8D%E4%BD%9C/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>ICLR 2026 - 机器人操作 论文列表</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/iclr2026-task-009/</link>
      <pubDate>Mon, 04 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/iclr2026-task-009/</guid>
      <description>&lt;h1 id=&#34;iclr-2026---机器人操作&#34;&gt;ICLR 2026 - 机器人操作&lt;/h1&gt;
&lt;p&gt;共 &lt;strong&gt;1&lt;/strong&gt; 篇论文&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;https://nanless.github.io/audio-paper-digest-blog/posts/iclr2026-summary/&#34;&gt;← 返回 ICLR 2026 总览&lt;/a&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;排名&lt;/th&gt;
          &lt;th&gt;论文&lt;/th&gt;
          &lt;th&gt;评分&lt;/th&gt;
          &lt;th&gt;分档&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;🥇&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-roboomni-proactive-robot-manipulation-in-omni&#34;&gt;RoboOmni: Proactive Robot Manipulation in Omni-modal Context&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;7.5分&lt;/td&gt;
          &lt;td&gt;前25%&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;-论文详情&#34;&gt;📋 论文详情&lt;/h2&gt;
&lt;h3 id=&#34;-roboomni-proactive-robot-manipulation-in-omni-modal-context&#34;&gt;🥇 &lt;a href=&#34;https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-roboomni-proactive-robot-manipulation-in-omni&#34;&gt;RoboOmni: Proactive Robot Manipulation in Omni-modal Context&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;✅ &lt;strong&gt;7.5/10&lt;/strong&gt; | 前25% | #机器人操作 | #端到端 | #多模态模型 #数据集&lt;/p&gt;
&lt;p&gt;👥 &lt;strong&gt;作者与机构&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Siyin Wang（复旦大学、上海创新研究院）&lt;/li&gt;
&lt;li&gt;通讯作者：Jinlan Fu（未说明具体机构，对应邮箱jinlanjonna@gmail.com），Xipeng Qiu（复旦大学、上海创新研究院）&lt;/li&gt;
&lt;li&gt;作者列表：
&lt;ul&gt;
&lt;li&gt;Siyin Wang（复旦大学、上海创新研究院）&lt;/li&gt;
&lt;li&gt;Jinlan Fu（国家大学新加坡）&lt;/li&gt;
&lt;li&gt;Feihong Liu（复旦大学）&lt;/li&gt;
&lt;li&gt;Xinzhe He（复旦大学）&lt;/li&gt;
&lt;li&gt;Huangxuan Wu（复旦大学）&lt;/li&gt;
&lt;li&gt;Junhao Shi（复旦大学、上海创新研究院）&lt;/li&gt;
&lt;li&gt;Kexin Huang（复旦大学）&lt;/li&gt;
&lt;li&gt;Zhaoye Fei（复旦大学）&lt;/li&gt;
&lt;li&gt;Jingjing Gong（上海创新研究院）&lt;/li&gt;
&lt;li&gt;Zuxuan Wu（复旦大学、上海创新研究院）&lt;/li&gt;
&lt;li&gt;Yu-Gang Jiang（复旦大学）&lt;/li&gt;
&lt;li&gt;See-Kiong Ng（国家大学新加坡）&lt;/li&gt;
&lt;li&gt;Tat-Seng Chua（国家大学新加坡）&lt;/li&gt;
&lt;li&gt;Xipeng Qiu（复旦大学、上海创新研究院）&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;&lt;/h1&gt;
&lt;p&gt;💡 &lt;strong&gt;毒舌点评&lt;/strong&gt;&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="iclr-2026---机器人操作">ICLR 2026 - 机器人操作</h1>
<p>共 <strong>1</strong> 篇论文</p>
<p><a href="/audio-paper-digest-blog/posts/iclr2026-summary/">← 返回 ICLR 2026 总览</a></p>
<hr>
<table>
  <thead>
      <tr>
          <th>排名</th>
          <th>论文</th>
          <th>评分</th>
          <th>分档</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>🥇</td>
          <td><a href="/audio-paper-digest-blog/posts/2026-05-04-roboomni-proactive-robot-manipulation-in-omni">RoboOmni: Proactive Robot Manipulation in Omni-modal Context</a></td>
          <td>7.5分</td>
          <td>前25%</td>
      </tr>
  </tbody>
</table>
<hr>
<h2 id="-论文详情">📋 论文详情</h2>
<h3 id="-roboomni-proactive-robot-manipulation-in-omni-modal-context">🥇 <a href="/audio-paper-digest-blog/posts/2026-05-04-roboomni-proactive-robot-manipulation-in-omni">RoboOmni: Proactive Robot Manipulation in Omni-modal Context</a></h3>
<p>✅ <strong>7.5/10</strong> | 前25% | #机器人操作 | #端到端 | #多模态模型 #数据集</p>
<p>👥 <strong>作者与机构</strong></p>
<ul>
<li>第一作者：Siyin Wang（复旦大学、上海创新研究院）</li>
<li>通讯作者：Jinlan Fu（未说明具体机构，对应邮箱jinlanjonna@gmail.com），Xipeng Qiu（复旦大学、上海创新研究院）</li>
<li>作者列表：
<ul>
<li>Siyin Wang（复旦大学、上海创新研究院）</li>
<li>Jinlan Fu（国家大学新加坡）</li>
<li>Feihong Liu（复旦大学）</li>
<li>Xinzhe He（复旦大学）</li>
<li>Huangxuan Wu（复旦大学）</li>
<li>Junhao Shi（复旦大学、上海创新研究院）</li>
<li>Kexin Huang（复旦大学）</li>
<li>Zhaoye Fei（复旦大学）</li>
<li>Jingjing Gong（上海创新研究院）</li>
<li>Zuxuan Wu（复旦大学、上海创新研究院）</li>
<li>Yu-Gang Jiang（复旦大学）</li>
<li>See-Kiong Ng（国家大学新加坡）</li>
<li>Tat-Seng Chua（国家大学新加坡）</li>
<li>Xipeng Qiu（复旦大学、上海创新研究院）</li>
</ul>
</li>
</ul>
<h1></h1>
<p>💡 <strong>毒舌点评</strong></p>
<p>这篇论文的亮点在于其极具前瞻性的选题——让机器人从多模态对话和环境音中“听出”意图并主动询问，而非被动接受指令，这比单纯提升操作成功率更有意义。然而，其真实世界评估仅在单一机器人平台（WidowX 250S）上进行，且失败分析显示执行错误（如抓取失败）占比过半，凸显了当前端到端模型在感知推理与底层控制能力之间的巨大鸿沟，离“家庭管家”的理想距离尚远。</p>
<h1></h1>
<p>🔗 <strong>开源详情</strong></p>
<ul>
<li>代码：论文提供了GitHub仓库链接：<code>https://github.com/OpenMOSS/RoboOmni</code>，表明计划开源。</li>
<li>模型权重：论文中提到“make all our datasets and code publicly available”，暗示模型权重也可能开源，但未明确说明具体开源哪些检查点。</li>
<li>数据集：明确将开源OmniAction数据集和OmniAction-LIBERO基准。</li>
<li>Demo：论文中未提及在线演示。</li>
<li>复现材料：论文在第5.1节详细说明了训练细节（硬件、批大小、学习率、训练时长等），并在附录中提供了数据构建、基线模型、失败分析等补充信息，复现信息较为充分。</li>
<li>论文中引用的开源项目：论文依赖或对比了多个开源项目，包括OpenVLA, π0, NORA, LIBERO, Open-X Embodiment, Whisper, Qwen2.5-Omni, DINOv2, SigLIP, PaliGemma, FAST+分词器等。</li>
</ul>
<p>📌 <strong>核心摘要</strong></p>
<ol>
<li>问题：现有VLA模型主要依赖明确的文字或语音指令，但真实人机交互中，用户意图往往隐含在对话、语气、环境音等多模态上下文中，机器人需要具备主动推理和确认的能力。</li>
<li>方法核心：提出RoboOmni框架，采用Perceiver-Thinker-Talker-Executor四模块端到端架构，直接处理原始音频（语音+环境音）和视觉输入，通过统一的token空间联合建模，实现意图识别、语音交互和动作生成。</li>
<li>创新之处：1）定义了“跨模态上下文指令”新范式；2）设计了端到端的多模态感知-推理-交互-执行框架，避免了级联系统的信息损失；3）构建了首个大规模、多说话人、多声音事件的机器人操作数据集OmniAction（140k episodes）。</li>
<li>实验结果：在OmniAction-LIBERO-TTS模拟基准上，RoboOmni平均成功率85.6%，大幅超越最强基线NORA（25.9%）。在真实人类语音指令（OmniAction-LIBERO-Real）上，成功率76.6%，优于π0（73.8%）。消融实验显示，移除音频、视觉或副语言线索会显著降低意图识别准确率（从88.89%降至11.11%-58.89%）。</li>
<li>实际意义：推动了更自然、主动的人机协作机器人发展，其方法和数据集对多模态具身智能研究有重要价值。</li>
<li>主要局限：真实世界评估场景和机器人平台单一；执行层面的失败率（如抓取、定位）仍较高，表明底层控制能力是瓶颈；生成对话和动作的长期连贯性与复杂性有待进一步验证。</li>
</ol>
<h1></h1>
<hr>
]]></content:encoded>
      <category>机器人操作</category>
    </item>
    <item>
      <title>RoboOmni: Proactive Robot Manipulation in Omni-modal Context</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-roboomni-proactive-robot-manipulation-in-omni/</link>
      <pubDate>Mon, 04 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-roboomni-proactive-robot-manipulation-in-omni/</guid>
      <description>&lt;h1 id=&#34;-roboomni-proactive-robot-manipulation-in-omni-modal-context&#34;&gt;📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context&lt;/h1&gt;
&lt;p&gt;#机器人操作 #多模态模型 #端到端 #数据集 #语音对话系统&lt;/p&gt;
&lt;p&gt;✅ &lt;strong&gt;7.5/10&lt;/strong&gt; | 前25% | #机器人操作 | #端到端 | #多模态模型 #数据集&lt;/p&gt;
&lt;p&gt;学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高&lt;/p&gt;
&lt;h3 id=&#34;-作者与机构&#34;&gt;👥 作者与机构&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Siyin Wang（复旦大学、上海创新研究院）&lt;/li&gt;
&lt;li&gt;通讯作者：Jinlan Fu（未说明具体机构，对应邮箱jinlanjonna@gmail.com），Xipeng Qiu（复旦大学、上海创新研究院）&lt;/li&gt;
&lt;li&gt;作者列表：
&lt;ul&gt;
&lt;li&gt;Siyin Wang（复旦大学、上海创新研究院）&lt;/li&gt;
&lt;li&gt;Jinlan Fu（国家大学新加坡）&lt;/li&gt;
&lt;li&gt;Feihong Liu（复旦大学）&lt;/li&gt;
&lt;li&gt;Xinzhe He（复旦大学）&lt;/li&gt;
&lt;li&gt;Huangxuan Wu（复旦大学）&lt;/li&gt;
&lt;li&gt;Junhao Shi（复旦大学、上海创新研究院）&lt;/li&gt;
&lt;li&gt;Kexin Huang（复旦大学）&lt;/li&gt;
&lt;li&gt;Zhaoye Fei（复旦大学）&lt;/li&gt;
&lt;li&gt;Jingjing Gong（上海创新研究院）&lt;/li&gt;
&lt;li&gt;Zuxuan Wu（复旦大学、上海创新研究院）&lt;/li&gt;
&lt;li&gt;Yu-Gang Jiang（复旦大学）&lt;/li&gt;
&lt;li&gt;See-Kiong Ng（国家大学新加坡）&lt;/li&gt;
&lt;li&gt;Tat-Seng Chua（国家大学新加坡）&lt;/li&gt;
&lt;li&gt;Xipeng Qiu（复旦大学、上海创新研究院）&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;&lt;/h1&gt;
&lt;h3 id=&#34;-毒舌点评&#34;&gt;💡 毒舌点评&lt;/h3&gt;
&lt;p&gt;这篇论文的亮点在于其极具前瞻性的选题——让机器人从多模态对话和环境音中“听出”意图并主动询问，而非被动接受指令，这比单纯提升操作成功率更有意义。然而，其真实世界评估仅在单一机器人平台（WidowX 250S）上进行，且失败分析显示执行错误（如抓取失败）占比过半，凸显了当前端到端模型在感知推理与底层控制能力之间的巨大鸿沟，离“家庭管家”的理想距离尚远。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="-roboomni-proactive-robot-manipulation-in-omni-modal-context">📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context</h1>
<p>#机器人操作 #多模态模型 #端到端 #数据集 #语音对话系统</p>
<p>✅ <strong>7.5/10</strong> | 前25% | #机器人操作 | #端到端 | #多模态模型 #数据集</p>
<p>学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高</p>
<h3 id="-作者与机构">👥 作者与机构</h3>
<ul>
<li>第一作者：Siyin Wang（复旦大学、上海创新研究院）</li>
<li>通讯作者：Jinlan Fu（未说明具体机构，对应邮箱jinlanjonna@gmail.com），Xipeng Qiu（复旦大学、上海创新研究院）</li>
<li>作者列表：
<ul>
<li>Siyin Wang（复旦大学、上海创新研究院）</li>
<li>Jinlan Fu（国家大学新加坡）</li>
<li>Feihong Liu（复旦大学）</li>
<li>Xinzhe He（复旦大学）</li>
<li>Huangxuan Wu（复旦大学）</li>
<li>Junhao Shi（复旦大学、上海创新研究院）</li>
<li>Kexin Huang（复旦大学）</li>
<li>Zhaoye Fei（复旦大学）</li>
<li>Jingjing Gong（上海创新研究院）</li>
<li>Zuxuan Wu（复旦大学、上海创新研究院）</li>
<li>Yu-Gang Jiang（复旦大学）</li>
<li>See-Kiong Ng（国家大学新加坡）</li>
<li>Tat-Seng Chua（国家大学新加坡）</li>
<li>Xipeng Qiu（复旦大学、上海创新研究院）</li>
</ul>
</li>
</ul>
<h1></h1>
<h3 id="-毒舌点评">💡 毒舌点评</h3>
<p>这篇论文的亮点在于其极具前瞻性的选题——让机器人从多模态对话和环境音中“听出”意图并主动询问，而非被动接受指令，这比单纯提升操作成功率更有意义。然而，其真实世界评估仅在单一机器人平台（WidowX 250S）上进行，且失败分析显示执行错误（如抓取失败）占比过半，凸显了当前端到端模型在感知推理与底层控制能力之间的巨大鸿沟，离“家庭管家”的理想距离尚远。</p>
<h1></h1>
<h3 id="-开源详情">🔗 开源详情</h3>
<ul>
<li>代码：论文提供了GitHub仓库链接：<code>https://github.com/OpenMOSS/RoboOmni</code>，表明计划开源。</li>
<li>模型权重：论文中提到“make all our datasets and code publicly available”，暗示模型权重也可能开源，但未明确说明具体开源哪些检查点。</li>
<li>数据集：明确将开源OmniAction数据集和OmniAction-LIBERO基准。</li>
<li>Demo：论文中未提及在线演示。</li>
<li>复现材料：论文在第5.1节详细说明了训练细节（硬件、批大小、学习率、训练时长等），并在附录中提供了数据构建、基线模型、失败分析等补充信息，复现信息较为充分。</li>
<li>论文中引用的开源项目：论文依赖或对比了多个开源项目，包括OpenVLA, π0, NORA, LIBERO, Open-X Embodiment, Whisper, Qwen2.5-Omni, DINOv2, SigLIP, PaliGemma, FAST+分词器等。</li>
</ul>
<h3 id="-核心摘要">📌 核心摘要</h3>
<ol>
<li>问题：现有VLA模型主要依赖明确的文字或语音指令，但真实人机交互中，用户意图往往隐含在对话、语气、环境音等多模态上下文中，机器人需要具备主动推理和确认的能力。</li>
<li>方法核心：提出RoboOmni框架，采用Perceiver-Thinker-Talker-Executor四模块端到端架构，直接处理原始音频（语音+环境音）和视觉输入，通过统一的token空间联合建模，实现意图识别、语音交互和动作生成。</li>
<li>创新之处：1）定义了“跨模态上下文指令”新范式；2）设计了端到端的多模态感知-推理-交互-执行框架，避免了级联系统的信息损失；3）构建了首个大规模、多说话人、多声音事件的机器人操作数据集OmniAction（140k episodes）。</li>
<li>实验结果：在OmniAction-LIBERO-TTS模拟基准上，RoboOmni平均成功率85.6%，大幅超越最强基线NORA（25.9%）。在真实人类语音指令（OmniAction-LIBERO-Real）上，成功率76.6%，优于π0（73.8%）。消融实验显示，移除音频、视觉或副语言线索会显著降低意图识别准确率（从88.89%降至11.11%-58.89%）。</li>
<li>实际意义：推动了更自然、主动的人机协作机器人发展，其方法和数据集对多模态具身智能研究有重要价值。</li>
<li>主要局限：真实世界评估场景和机器人平台单一；执行层面的失败率（如抓取、定位）仍较高，表明底层控制能力是瓶颈；生成对话和动作的长期连贯性与复杂性有待进一步验证。</li>
</ol>
<h1></h1>
<h3 id="-模型架构">🏗️ 模型架构</h3>
<p>RoboOmni是一个端到端的多模态大语言模型框架，其整体架构如图4所示。其设计旨在将感知、推理、交互和执行统一在一个自回归生成模型中。</p>
<p><img alt="RoboOmni模型架构图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-04/OJh7oBCYhL-0.png"></p>
<p>图4：RoboOmni的Perceiver-Thinker-Talker-Executor架构概览。模型接收视觉、音频和文本对话历史，通过统一的token空间进行处理，最终输出语音交互和机器人动作。</p>
<p>具体组件如下：</p>
<ol>
<li>Perceiver（感知器）：负责多模态输入编码。它包含针对视觉和音频的专用编码器（如使用Qwen2.5-Omni的编码器）。在每一时间步，接收视觉帧、音频片段和对话历史，分别编码为视觉隐层表示、音频隐层表示和文本token，然后将它们拼接成一个统一的表示 <code>Xt = [vt; st; ct]</code>，作为后续Thinker的输入。</li>
<li>Thinker（思考器）：核心推理引擎，基于大语言模型骨干网络。它处理来自Perceiver的统一多模态表示，并在联合词汇空间 <code>V ∪ A</code>（V为文本词汇表，A为动作token集合）中自回归地生成输出序列。该序列可以交错包含文本token、语音表示和动作token，从而实现跨模态的统一推理。</li>
<li>Talker（对话器）：语音生成组件。它接收Thinker生成的高层语义表示和文本token，通过分层架构将其转换为自然的语音波形，用于与人进行语音交互。</li>
<li>Executor（执行器）：动作生成组件。它利用FAST+分词器将连续的机器人动作向量 <code>at ∈ R^7</code>（如7自由度控制）编码为离散的动作token序列 <code>rt ⊂ A</code>。在生成时，Thinker自回归地预测动作token序列，然后由Executor将这些token解码回可执行的机器人命令。</li>
</ol>
<p>数据流与交互方式：所有模态的输入首先被编码并统一到token空间，Thinker作为中央处理器进行联合推理，并决定是生成对话文本（通过Talker转为语音）还是生成动作序列（由Executor解码为控制指令）。这种设计实现了从原始感知到认知再到行动的闭环。</p>
<h1></h1>
<h3 id="-核心创新点">💡 核心创新点</h3>
<ol>
<li>提出“跨模态上下文指令”新问题：明确指出当前VLA模型在指令类型（仅显式）和来源（仅文本/ASR转写）上的局限，定义了需要从语音、环境音和视觉的融合中推理隐式意图的新任务。这比现有研究更贴近真实世界交互。</li>
<li>端到端的Omni-modal VLA框架（RoboOmni）：不同于级联的“感知-规划-控制”流水线或仅处理文本指令的VLA模型，RoboOmni在单一自回归模型中统一了多模态感知（语音、环境音、视觉）、认知推理、语音对话和动作执行。这避免了ASR转写带来的信息损失（如语调、情感、说话人身份），并减少了模块间接口的信息损耗。</li>
<li>构建大规模专用数据集OmniAction：为解决缺乏主动意图识别训练数据的问题，构建了包含14万集、5千+说话人、2.4千事件声、640背景音和6种上下文指令类型的大规模数据集。其构建流程（图3）创新性地结合了文本脚本生成、多TTS语音合成、声音事件与背景音插入以及多轮验证。</li>
<li>引入交互式确认机制：模型在推理出模糊或潜在意图后，不是直接执行，而是生成语音向用户进行澄清和确认（如“Would you like me to&hellip;?”），实现了更安全、协作式的主动机器人辅助。</li>
<li>系统性的评估体系：不仅评估了操作成功率，还专门设计了意图识别准确率、交互能力定性评估、推理速度对比等多维度指标，并在模拟（OmniAction-LIBERO）和真实世界环境中进行了验证。</li>
</ol>
<h1></h1>
<h3 id="-细节详述">🔬 细节详述</h3>
<ul>
<li>训练数据：
<ul>
<li>数据集名称：OmniAction。</li>
<li>来源：基于Open-X Embodiment数据集中的轨迹进行改造和扩充。</li>
<li>规模：141，162集（episodes），覆盖112种技能（如pick-place, open/close）和748种物体。</li>
<li>构建过程：三阶段流程（图3）：1）文本脚本：使用GPT-4o将原子指令改写为包含6种上下文指令类型的多轮家庭对话；2）听觉实现：使用多种TTS引擎（MOSS-TTS、CosyVoice、Gemini-TTS）进行语音合成，模拟多说话人（包括重叠语音），插入非语言事件和环境背景音；3）验证：人工评估，确保意图可恢复性（98.7%一致性）。</li>
<li>预处理与增强：音频采样率为16kHz，视觉输入分辨率224x224。数据增强主要体现在数据集构建过程中，通过多样化的说话人音色、非语言事件和背景噪声实现。</li>
</ul>
</li>
<li>损失函数：论文中未明确说明具体损失函数公式。根据其自回归生成范式，训练目标应为最大化生成序列的似然度。对于对话生成部分，优化 <code>L_chat(θ) = -E[log pθ(y|X)]</code>；对于动作生成部分，优化 <code>L_act(θ) = -E[log pθ(r|X)]</code>。最终总损失是两者之和：<code>L(θ) = L_chat(θ) + L_act(θ)</code>。</li>
<li>训练策略：
<ul>
<li>预训练：在OmniAction数据集上进行大规模预训练。使用64个A100 GPU训练10天，总计约15，360 A100小时。批大小512，学习率5e-5，训练10个epoch，前1000步进行warm-up。</li>
<li>有监督微调（SFT）：在下游任务上微调，使用8个A100 GPU，训练1万-3万步，学习率5e-5。</li>
</ul>
</li>
<li>关键超参数：
<ul>
<li>模型骨干：基于Qwen2.5-Omni（3B或7B参数版本，论文未明确指出具体使用哪个，但实验比较了二者）。</li>
<li>动作分词：FAST+分词器，码本大小A=2048。</li>
<li>动作块长度：N=6。</li>
<li>输入图像分辨率：224×224。</li>
<li>音频采样率：16，000 Hz。</li>
</ul>
</li>
<li>训练硬件：大规模预训练使用64个NVIDIA A100 GPU；SFT使用8个NVIDIA A100 GPU。</li>
<li>推理细节：
<ul>
<li>解码策略：自回归生成。对于文本，逐token生成；对于动作，生成长度为N（N=6）的chunk。</li>
<li>推理速度比较：在单个RTX 4090 GPU上测量，RoboOmni的推理延迟仅为ASR+OpenVLA基线的0.49倍（图10），显示出端到端模型的效率优势。</li>
</ul>
</li>
<li>正则化或稳定训练技巧：论文中未明确提及。</li>
</ul>
<h1></h1>
<h3 id="-实验结果">📊 实验结果</h3>
<p>主要对比实验（模拟环境OmniAction-LIBERO-TTS）：
论文在4种任务套件（Spatial, Goal, Object, Long-Horizon）和6种上下文指令类型上进行了评估，对比了“真值文本提示”和“语音经ASR转写为文本提示”两类基线。结果如表1所示。</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">任务套件</th>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">成功率（%）</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">Spatial (平均)</td>
          <td style="text-align: left">Ground-truth Textual Prompt (NORA)</td>
          <td style="text-align: left">49.8</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Audio→ASR→Text Prompt (NORA)</td>
          <td style="text-align: left">56.5</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">RoboOmni (本文)</td>
          <td style="text-align: left">93.0</td>
      </tr>
      <tr>
          <td style="text-align: left">Goal (平均)</td>
          <td style="text-align: left">Ground-truth Textual Prompt (NORA)</td>
          <td style="text-align: left">12.5</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Audio→ASR→Text Prompt (NORA)</td>
          <td style="text-align: left">16.3</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">RoboOmni (本文)</td>
          <td style="text-align: left">85.8</td>
      </tr>
      <tr>
          <td style="text-align: left">Object (平均)</td>
          <td style="text-align: left">Ground-truth Textual Prompt (NORA)</td>
          <td style="text-align: left">6.3</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Audio→ASR→Text Prompt (NORA)</td>
          <td style="text-align: left">13.8</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">RoboOmni (本文)</td>
          <td style="text-align: left">84.0</td>
      </tr>
      <tr>
          <td style="text-align: left">Long (平均)</td>
          <td style="text-align: left">Ground-truth Textual Prompt (NORA)</td>
          <td style="text-align: left">32.3</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Audio→ASR→Text Prompt (NORA)</td>
          <td style="text-align: left">51.0</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">RoboOmni (本文)</td>
          <td style="text-align: left">79.5</td>
      </tr>
      <tr>
          <td style="text-align: left">总体平均</td>
          <td style="text-align: left">Ground-truth Textual Prompt (最强基线)</td>
          <td style="text-align: left">16.3</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Audio→ASR→Text Prompt (最强基线)</td>
          <td style="text-align: left">25.9</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">RoboOmni (本文)</td>
          <td style="text-align: left">85.6</td>
      </tr>
  </tbody>
</table>
<p>关键结论：RoboOmni在所有任务套件和指令类型上均大幅领先所有文本和ASR基线模型。基线模型在处理Goal和Object等语义模糊的任务时成功率骤降，而RoboOmni保持了高水平性能（85.8%和84.0%），证明了其处理复杂上下文的能力。</p>
<p>真实环境评估（OmniAction-LIBERO-Real）：
评估真实人类录制语音指令下的性能，结果如表2所示。</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">Spatial</th>
          <th style="text-align: left">Goal</th>
          <th style="text-align: left">Object</th>
          <th style="text-align: left">Long</th>
          <th style="text-align: left">平均</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">OpenVLA</td>
          <td style="text-align: left">51.6</td>
          <td style="text-align: left">38.2</td>
          <td style="text-align: left">38.0</td>
          <td style="text-align: left">32.4</td>
          <td style="text-align: left">40.1</td>
      </tr>
      <tr>
          <td style="text-align: left">NORA</td>
          <td style="text-align: left">2.0</td>
          <td style="text-align: left">5.6</td>
          <td style="text-align: left">26.8</td>
          <td style="text-align: left">35.4</td>
          <td style="text-align: left">17.4</td>
      </tr>
      <tr>
          <td style="text-align: left">π0</td>
          <td style="text-align: left">86.0</td>
          <td style="text-align: left">60.0</td>
          <td style="text-align: left">70.0</td>
          <td style="text-align: left">79.0</td>
          <td style="text-align: left">73.8</td>
      </tr>
      <tr>
          <td style="text-align: left">RoboOmni (本文)</td>
          <td style="text-align: left">89.0</td>
          <td style="text-align: left">71.6</td>
          <td style="text-align: left">75.1</td>
          <td style="text-align: left">75.0</td>
          <td style="text-align: left">76.6</td>
      </tr>
  </tbody>
</table>
<p>关键结论：RoboOmni（76.6%）在真实语音指令下超过了以鲁棒性著称的π0模型（73.8%），并远超其他ASR+VLA基线。</p>
<p>意图识别能力评估：
在专门的意图识别任务上（图7a），RoboOmni准确率达88.89%，显著高于ASR+GPT-4o（55.56%）和Qwen2.5-Omni-7B（50.00%）。</p>
<p><img alt="意图识别能力对比图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-04/OJh7oBCYhL-6.png"></p>
<p>图7a：不同模型在意图识别任务上的准确率对比。RoboOmni展现了最强的跨模态意图推理能力。</p>
<p>消融实验（表3）：
分析了不同输入模态对意图识别的影响。</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">设置</th>
          <th style="text-align: left">准确率（%）</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">Full Input (本文)</td>
          <td style="text-align: left">88.89</td>
      </tr>
      <tr>
          <td style="text-align: left">无视觉输入</td>
          <td style="text-align: left">58.89</td>
      </tr>
      <tr>
          <td style="text-align: left">无音频输入</td>
          <td style="text-align: left">11.11</td>
      </tr>
      <tr>
          <td style="text-align: left">无副语言线索</td>
          <td style="text-align: left">50.56</td>
      </tr>
  </tbody>
</table>
<p>关键结论：音频是提供核心指令信息的关键，视觉为场景理解提供必要上下文，副语言线索（语气、情感、非语言声音）对消歧有重要作用。</p>
<p>训练效率分析（图8）：
比较了在OmniAction上预训练后再微调与从零开始训练的收敛速度。预训练模型在约2k步内即可达到接近90%的准确率，而从零训练模型在20k步后仅达到约30%且不稳定。</p>
<p><img alt="训练效率对比图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-04/OJh7oBCYhL-7.png"></p>
<p>图8：预训练+微调与从零开始训练在不同指令类型上的收敛曲线对比。预训练提供了强大的泛化先验，显著加速和稳定了下游任务适应。</p>
<p>推理效率分析（图10）：</p>
<p><img alt="推理延迟对比图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-04/OJh7oBCYhL-1.png"></p>
<p>图10：不同级联管线与RoboOmni的单次推理延迟对比。RoboOmni将延迟降低至ASR+OpenVLA基线的一半（0.49倍）。</p>
<h1></h1>
<h3 id="-评分理由">⚖️ 评分理由</h3>
<ul>
<li>学术质量：6.0/7：论文提出了一个定义清晰且重要的新问题（跨模态上下文指令），并给出了一个完整、创新的解决方案（RoboOmni框架和OmniAction数据集）。技术路线合理，实验设计全面，包括了模拟/真实环境、多种基线对比、消融实验和多维度分析（成功率、意图识别、交互、效率）。证据可信，数据充分。扣分点在于：1）真实世界评估的机器人平台和场景较为单一，泛化性证明稍弱；2）失败分析显示执行层错误占比高，表明框架在“思考”和“行动”的衔接上仍有明显短板；3）对Talker模块（语音生成）的训练细节和效果评估不够详细。</li>
<li>选题价值���1.5/2：选题非常前沿，直击当前VLA模型与真实人机交互需求之间的关键差距。从被动执行到主动推理，是提升机器人智能水平的重要方向。其研究成果对具身智能、人机交互领域有显著的推动潜力，应用空间广阔。</li>
<li>开源与复现加成：0.5/1：论文承诺开源数据集（OmniAction）、模型权重和代码（GitHub链接已提供），并详细描述了训练细节（GPU、学习率、步数等），这极大地促进了研究的可复现性。数据集构建流程描述清晰。扣分点在于：1）未明确开源的是预训练模型还是最终微调模型；2）具体的超参数配置和训练脚本细节需待代码公开后验证。</li>
</ul>
<h1></h1>
<hr>
<p><a href="/audio-paper-digest-blog/posts/iclr2026-summary/">← 返回 ICLR 2026 论文分析</a></p>
]]></content:encoded>
      <category>机器人操作</category>
      <category>多模态模型</category>
      <category>端到端</category>
      <category>数据集</category>
      <category>语音对话系统</category>
    </item>
  </channel>
</rss>
