📄 End-to-end Listen, Look, Speak and Act

#多模态模型 #语音对话系统 #机器人控制 #混合专家 #端到端

🔥 8.5/10 | 前25% | #语音对话系统 | #混合专家 | #多模态模型 #机器人控制

学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Siyin Wang (清华大学), Wenyi Yu (清华大学) (共同第一作者)
  • 通讯作者:Chao Zhang (清华大学)
  • 作者列表:Siyin Wang (清华大学), Wenyi Yu (清华大学), Xianzhao Chen (字节跳动), Xiaohai Tian (字节跳动), Jun Zhang (字节跳动), Lu Lu (字节跳动), Yuxuan Wang (字节跳动), Chao Zhang (清华大学)

💡 毒舌点评

这篇论文在架构设计上确实有巧思,将全双工多模态交互与MoE范式结合,实现了首个能“听说读写做”的端到端模型,在模拟环境中的全面表现也很亮眼。但核心实验全在���真环境里打转,离真正理解“人类如何一边聊天一边倒水”还有巨大鸿沟,且其声称的“首个”全双工多模态端到端模型,在缺乏与同期所有相关工作进行系统性对比的情况下,说服力稍显不足。

🔗 开源详情

  • 代码:论文中承诺将在 https://github.com/bytedance/SALMONN 发布所有代码,但未说明是否已发布。
  • 模型权重:论文中承诺将发布模型检查点(model checkpoints),未说明具体形式(完整模型/LoRA权重等)。
  • 数据集:论文中承诺将发布所有数据。部分数据集为公开基准(如LibriSpeech, LIBERO),部分为作者合成或生成(如高级交互任务数据)。
  • Demo:未提及在线演示。
  • 复现材料:提供了极其详尽的复现材料,包括:
    • 完整的模型规格(各组件维度、参数量)
    • 详细的三阶段训练策略和超参数(学习率、批大小、步数)
    • 所有训练数据集的名称、规模、来源和预处理方法
    • 评估基准的具体设置和指标
    • 新任务(上下文VQA、缺陷指令拒绝、动作打断)的详细定义和示例
    • 所有实验的完整结果表格和消融研究
    • 用于生成数据和评估的LLM提示词(附录E)
  • 论文中引用的开源项目:LLaMA-3.1-8B-Instruct, Emu3 (Emu3-VisionTokenizer, Emu3-Base), UniVLA, CosyVoice2-0.5B, Mamba, SPEAR (Yang et al., 2025), Whisper (Radford et al., 2023), LIBERO, FAST (Pertsch et al., 2025)。
  • 总结:论文在复现材料的详尽程度上做得非常出色,承诺的开源计划也很有吸引力,但因其具体发布状态未明,不能给予完整的开源加分。

📌 核心摘要

  1. 问题:当前的人工智能模型要么是“能说不能做”的对话模型,要么是“能做不能说”的具身操作模型,无法像人类一样同时、流畅地处理多种模态的输入(视觉、听觉)并产生多种模态的输出(语言、动作),实现自然的“全双工”交互(如边说边做、即时打断)。
  2. 方法核心:提出ELLSA模型,其核心是SA-MoE(自注意力混合专家) 架构。该架构将不同模态的处理分配给专门的专家模块(语音专家处理语音和文本,动作专家处理视觉和动作),并通过一个统一的自注意力机制将这些专家连接起来,实现跨模态信息的高效融合与交互。
  3. 新意:这是第一个在单一架构中、以端到端流式方式,统一视觉、文本、语音和动作感知与生成的全双工模型。与以往分离的对话或操作模型不同,ELLSA能够自主决策何时开始/停止说话或行动,并支持如“边说边做”、“基于上下文的视觉问答”和“动作打断”等前所未有的高级交互行为。
  4. 主要实验结果:
    • 基础能力:在语音交互基准(Llama Questions等)和机器人操作基准(LIBERO)上,性能与专用模型相当或更优。例如,在LIBERO LONG任务上,ELLSA的平均成功率达到89.4%,超越了此前最强的VLA模型(85.5%)。
    • 高级能力:
      能力任务类型性能(成功率)
      对话轮换语音交互任务100.0% (Llama Q.等)
      动作轮换机器人操作任务96.4% - 100.0%
      缺陷指令拒绝机器人操作任务96.4% - 100.0%
      边说边做语音交互(S2T)相比单独说话性能有下降(如TriviaQA: 35.1 vs 45.2)
      机器人操作相比单独操作性能略有下降(如LONG: 73.2% vs 84.4%)
      上下文VQA视觉问答平均准确率约82.5%(人工评估)
    • 消融研究:SA-MoE架构显著优于单一稠密模型(在S2T任务上,SA-MoE的TriviaQA准确率为45.2%,而从语音专家初始化的稠密模型仅为29.7%)。
  5. 意义:展示了构建更自然、通用的交互式智能体的可行架构范式,将对话AI与具身AI统一,向通用人工智能迈进了一步。
  6. 局限性:所有实验均在模拟环境(LIBERO)中进行,未在真实世界部署验证;目前仅支持有限的交互场景(如轮换、打断),未涉及反馈信号(backchannel)等更复杂的交互动态。

🏗️ 模型架构

ELLSA是一个端到端的全双工、流式、多输入多输出(MIMO)模型,其整体架构如 图1 所示。

ELLSA整体架构

图1: (a) ELLSA概览图。在ELLSA中,不同模态由不同专家处理,并通过SA-MoE架构集成以实现模态交互。(b) 通过交错的时序多模态序列实现流式全双工MIMO交互。

  • 核心设计:交错时序序列与时间块

    • 模型以固定的时间块(默认为1秒)运行。在每个时间块内,输入和输出按照固定顺序组织:语音输入 → 图像输入 → 文本输出 → 动作输出(见图1(b))。
    • 每种模态的数据用特殊的起始/结束标记(如<bos>/<eos> for 语音, <boi>/<eoi> for 图像)包裹,清晰界定边界。
    • 语音输出由文本输出直接驱动,因此未在主序列中单独列出。这种设计让模型可以自主决定何时开始或停止生成各模态的输出,实现全双工。
  • 核心模块:SA-MoE架构

    • 动机:直接训练单一模型处理所有模态会导致严重的模态干扰和性能下降。SA-MoE通过“分工协作”解决此问题。
    • 结构:如 图2 所示,SA-MoE包含两个主要专家:
      1. 语音专家:处理语音和文本模态。由一个流式Mamba语音编码器和一个冻结的LLaMA-3.1-8B LLM骨干网络(附加LoRA)构成。
      2. 动作专家:处理视觉和动作模态。基于预训练的UniVLA模型,其骨干是Emu3-Base,并用FAST动作分词器替换部分词表以预测动作。
    • 工作机制:
      • 在每一层,输入的嵌入根据其模态类型被路由到对应的专家进行处理(语音/文本到语音专家,视觉/动作到动作专家)。
      • 关键的是,所有专家共享统一的注意力机制。这意味着在每一层,每个专家在计算注意力时,都可以访问到所有专家产生的键(K)和值(V)缓存(KV cache)。
      • 因此,尽管每个专家主要处理自己的模态,但通过注意力机制,它们能“看到”其他模态的信息,实现跨模态理解。例如,语音专家可以通过注意力获取动作专家处理的视觉信息,从而回答关于当前场景的问题(如上下文VQA)。
    • 优势:这种设计既让每个专家保持其在原模态上的高性能(利用预训练知识),又通过统一的注意力框架实现了高效的多模态融合,减少了模态间的干扰。

图2:SA-MoE的工作机制。每个模态被路由到其指定的专家,跨模态交互通过注意力机制实现。在推理期间,所有专家共享一个统一的KV缓存。通过关注KV缓存,每个专家可以整合跨模态的信息并实现连贯的多模态理解。

  • 训练策略:如 图3 所示,采用三阶段训练:
    1. 阶段一:训练独立专家。分别训练语音专家(ASR和语音QA任务)和动作专家(使用预训练的UniVLA)。
    2. 阶段二:训练SA-MoE。将两个专家整合进SA-MoE框架,在混合任务上进行微调,学习跨模态交互和全双工动态。
    3. 阶段三:连接语音合成器。将一个流式语音合成器(基于CosyVoice2-0.5B)端到端地连接到语音专家的隐藏状态上,赋予模型生成语音的能力。

图3:ELLSA的训练策略。首先训练独立专家,然后通过集成这些专家构建SA-MoE骨干,最后连接语音合成器。在这些阶段中,训练任务和可训练参数会根据模型增长的能力进行调整。

💡 核心创新点

  1. 提出SA-MoE架构实现高效多模态融合:

    • 局限:以往多模态大模型要么将所有模态混合在一个稠密模型中训练(易导致模态干扰),要么采用分离的模型进行简单拼接(交互不充分)。
    • 创新:设计了一种基于注意力的混合专家架构。专家负责模态专用处理,统一注意力负责模态间信息交换。这平衡了专业性能和融合效率。
    • 收益:实验证明,SA-MoE性能显著优于单一稠密模型(见表7),并且在整合后仍能较好地保持各专家原有的能力(见表8)。
  2. 首个端到端全双工MIMO的多模态交互模型:

    • 局限:现有的语音对话模型无法执行物理动作;现有的视觉-语言-动作(VLA)模型通常是“聋哑”的、基于文本指令和半双工(轮流工作)。
    • 创新:通过交错时序序列设计和SA-MoE架构,在一个统一的模型中实现了对视觉、语音、文本、动作的同时感知与生成,并支持流式交互。
    • 收益:解锁了诸如“边说边做”、“基于当前场景的问答”、“动作打断”等以前无法实现的高级交互行为,更接近自然人类交互。
  3. 系统性验证全双工多模态交互的可行性与价值:

    • 局限:以往工作要么聚焦于对话,要么聚焦于操作,缺乏对两者结合后产生的全新交互模式的深入探索和评估。
    • 创新:不仅提出了模型,还设计并评估了一系列新的交互任务(如动作轮换、缺陷指令拒绝、边说边做、动作打断),并在多个基准上证明了ELLSA的有效性。
    • 收益:为“交互式智能体”这一研究方向提供了具体的架构范例和评估基准,证明了全双工多模态设计的必要性和潜力。

🔬 细节详述

  • 训练数据:

    • 语音相关:ASR任务使用LibriSpeech (281k样本) 和GigaSpeech (200k样本);语音QA任务使用了Alpaca-52k (39k), Web Questions (4k), TriviaQA (58k), SQuAD (127k), Natural Questions (301k) 等多个数据集,以及VoiceAssistant-400k (79k) 和UltraChat (120k)。其中,问答数据集的问答文本由Llama-3-8B-Instruct生成,并使用CosyVoice2-0.5B合成语音。
    • 机器人操作:使用LIBERO基准,包含约3386个训练样本。
    • 高级交互任务:缺陷指令拒绝(1693个样本)和上下文VQA的样本由Gemini-2.5-Pro生成标注。动作打断指令(如“Pause here”)由CosyVoice2合成大量实例(训练时每条生成150次,测试时20次)。
    • 预处理:使用Whisper-medium-en过滤语音合成样本,确保转录准确。
  • 损失函数:论文未明确说明具体的损失函数公式。通常这类自回归模型使用下一个令牌预测的交叉熵损失。

  • 训练策略:

    • 优化器:AdamW (β1=0.9, β2=0.95)。
    • 学习率调度:前1%步数线性预热。
    • 阶段一:训练语音专家,批大小512,学习率2e-4,训练40k步。
    • 阶段二:训练SA-MoE,批大小1024,学习率4e-4,训练500步。
    • 阶段三:连接语音合成器,批大小256,学习率2e-4,训练20k步。
    • 精度:使用bfloat16精度。
    • 可训练参数:各阶段主要对适配器(Adapter)和LoRA层进行训练,骨干网络(LLaMA, Emu3, 语音编码器)在阶段一和阶段三部分冻结,阶段二全微调LoRA。
  • 关键超参数:

    • 模型规模:语音专家LLM骨干为LLaMA-3.1-8B-Instruct;动作专家骨干为Emu3-Base;语音合成器为CosyVoice2-0.5B。
    • 架构参数:两个专家均具有32层Transformer,隐藏维度4096,32个注意力头,8个键值头。LoRA秩为256,缩放因子1.0。
    • 时间块:默认1秒。语音编码器帧率25Hz,每5帧拼接下采样到5Hz后输入LLM。每个时间块生成8个文本令牌(或1个<silence>令牌)和1秒的动作。
  • 训练硬件:论文未明确说明具体使用的GPU型号和数量,仅提到“在A100 GPU上进行训练”。

  • 推理细节:

    • 流式交互:模型以时间块为单位流式处理。每个时间块完成后即产生相应的语音和动作输出。
    • 解码:论文未详细说明文本解码策略(如束搜索大小、温度等)。对于动作,由动作分词器直接预测。
    • 延迟:在A100 GPU上测量,1秒时间块的语音到语音平均延迟为854ms,语音到动作平均延迟为786ms;0.48秒时间块的对应延迟分别为455ms和428ms(表9d)。
  • 正则化/稳定技巧:未明确提及。LoRA本身是一种正则化手段。

📊 实验结果

论文在语音交互、机器人操作以及独特的全双工高级能力上进行了广泛评估。

  1. 基础能力对比
  • 语音交互:与当前开源全双工语音对话模型对比(表1)。
    模型Llama Q. (Acc.%)Web Q. (Acc.%)TriviaQA (Acc.%)AlpacaEval (GPTScore)
    S2TS2SS2TS2S
    Moshi60.854.523.422.1
    Freeze-Omni74.256.240.827.9
    ELLSA74.770.039.536.5

结论:ELLSA在语音到语音(S2S)性能上全面领先,表明其端到端语音生成能力强。

  • 机器人操作:在LIBERO基准上与文本条件VLA模型对比(表2)。
    模型SPATIALOBJECTGOALLONG平均
    π0-FAST96.4%96.8%88.6%60.2%85.5%
    ELLSA90.8%95.8%86.4%84.4%89.4%

结论:ELLSA在平均成功率和最具挑战性的LONG任务上均达到了最佳性能,证明了SA-MoE能有效融合模态,使动作专家成功处理语音指令。

  1. 全双工高级能力
  • 轮换与打断成功率(表3):
    场景模型/任务成功率
    (a) 对话轮换ELLA (Llama Q. / Web Q. / TriviaQA / AlpacaEval)100.0% / 100.0% / 100.0% / 100.0%
    (b) 动作轮换与缺陷指令拒绝ELLSA (SPATIAL / OBJECT / GOAL / LONG)100.0% / 99.6% / 100.0% / 96.4%
    (c) 边说边做 - 不同语音输入ELLSA (通用问题 / 中断指令 / 静默)100.0% / 94.3% / 100.0%

结论:ELLSA在需要自主决策的场景中几乎完美执行,证明了其强大的全双工控制能力。

  • 边说边做时的性能(表4):当同时执行说话和动作任务时,性能有所下降。
    • 语音交互性能(S2T)相比单独说话平均下降约7-22个百分点(例如,TriviaQA从45.2降至35.1)。
    • 机器人操作成功率相比单独操作在简单任务上略有提升,在复杂任务(LONG)上下降约11个百分点(从84.4%降至73.2%)。

图4:ELLSA高级能力示例:从语音指令开始,模型执行动作,进行上下文视觉问答,并支持动作打断。这个例子不仅展示了ELLSA的核心技能,还展示了其独特能力:处理多模态输入输出的MIMO能力,以及管理轮换、打断等复杂对话动态的双工能力。

  • 上下文视觉问答(表5):在机器人执行任务过程中回答关于场景状态的问题。
    评估方式平均准确率
    人工评估82.5%
    Gemini-2.5-Pro评估83.3%

结论:模型能有效整合所有四种模态(视觉观察动作进程,理解语音问题,生成文本答案),达到较高准确率。值得注意的是,语音专家从未在视觉数据上训练,但通过SA-MoE实现了视觉理解。

  1. 架构有效性消融
  • SA-MoE vs. 稠密模型(表7):
    模型TriviaQA (Acc.%)LIBERO LONG (成功率)
    稠密模型(从语音专家初始化)29.70.0%
    稠密模型(从动作专家初始化)9.160.6%
    SA-MoE45.284.4%

结论:SA-MoE远优于任何单一的稠密模型,证实了其解决模态干扰、利用预训练知识的有效性。

  1. 时间块消融(表9):将时间块从1秒缩短至0.48秒,交互延迟降低,但动作专家性能显著下降(LONG任务从94.0%降至81.0%),导致SA-MoE整体性能下降。这表明动作生成的时序连贯性对时间块长度敏感。

⚖️ 评分理由

  • 学术质量:6.5/7

    • 创新性:SA-MoE架构和端到端全双工MIMO的设计具有明确的创新性,解决了多模态模型中的关键难题。
    • 技术正确性:方法设计合理,理论清晰。三阶段训练策略和SA-MoE的注意力共享机制是技术上的亮点。
    • 实验充分性:实验非常充分,涵盖了基础能力对比(语音、操作)、大量新颖的全双工高级能力评估(轮换、打断、边做边说、上下文问答),以及深入的架构消融研究(SA-MoE vs 稠密模型,时间块,专家数量,编码器强度)。提供了详实的数字证据。
    • 证据可信度:所有实验在模拟环境中进行,结果具有可比性。使用了标准的基准和指标。
    • 扣分点:创新虽好,但属于渐进式改进而非范式革命。最关键的局限是缺乏真实世界验证,这在具身智能领域是重要短板。所有结果的生态效度存疑。
  • 选题价值:1.5/2

    • 前沿性:将语音交互与具身操作统一,实现全双工多模态交互,是当前AI领域非常前沿和热门的方向。
    • 潜在影响:如果成功应用于现实,将极大提升人机交互的自然度和效率,推动服务机器人、智能家居等领域发展。
    • 实际应用空间:理论上空间巨大,但当前受限于仿真环境和相对简单的任务,实际落地路径尚不清晰。
    • 读者相关性:对于关注多模态大模型、语音对话系统、机器人控制的读者,此文相关性很高。
  • 开源与复现加成:0.5/1

    • 代码/模型/数据:论文承诺将发布所有数据、代码和模型检查点(在https://github.com/bytedance/SALMONN),这是巨大的加分项。但截至论文发表时(ICASSP 2026),具体发布状态“未说明”。
    • 复现细节:附录提供了非常详细的实现细节(模块规格、训练超参数、数据集细节、评估提示词、任务定义),为复现提供了坚实基础。
    • 依赖项目:明确使用了LLaMA-3.1-8B、Emu3、UniVLA、CosyVoice2、Mamba、SPEAR等多个开源项目作为组件。
    • 扣分点:虽然承诺开源,但未提供已验证的、可立即使用的开源仓库链接,因此不能给满分。

← 返回 ICLR 2026 论文分析