📄 Cosmos 3: Omnimodal World Models for Physical AI

#多模态模型 #扩散模型 #音频生成 #强化学习

10/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5

🔥 10/10 | 前10% | #音频生成 | #强化学习 | #多模态模型 #扩散模型 | arxiv

👥 作者与机构

论文作者:NVIDIA(英伟达)。贡献者来自NVIDIA的多个部门,包括模型架构、Reasoner预训练/后训练数据、生成器数据、训练、基础设施、结果和基准测试等团队。

💡 毒舌点评

Cosmos 3是一篇典型的“巨无霸”式工业技术报告,旨在通过发布一个全模态(语言、图像、视频、音频、动作)统一模型,为Physical AI(机器人、自动驾驶)提供一个通用的骨干网络。其核心动机——打破理解、生成和行动模型的分离——是清晰且有价值的。模型在架构上(MoT)和训练策略上(分阶段、多模态课程)都有扎实的工程实践,并在多个SOTA榜单上取得了优异成绩。然而,它的优势很大程度上源于NVIDIA庞大的资源和数据工程能力,而非基础科学层面的颠覆性创新。论文本身是出色的工程集成和系统设计的展示,但在分析某个具体子问题(如长尾物理规律的建模、跨具身迁移的理论基础)时深度有限。更关键的是,作为一篇技术报告,其“自我声明”的局限性部分(sim-to-real gap等)论述得相当克制,甚至可以说是轻描淡写,对于一篇宣称要解决真实世界Physical AI问题的工作来说,这需要读者自己更批判性地审视。开源程度很高,但模型的巨大规模和复杂的基础设施栈,使得真正的“可复现性”对普通研究者而言几乎是一个伪命题。

📌 核心摘要

Cosmos 3 是一个统一的全模态世界模型家族,旨在联合处理和生成语言、图像、视频、音频和动作序列,以支持Physical AI(具身智能)。其核心架构是基于Mixture-of-Transformers (MoT) 的双塔结构:一个自回归Reasoner路径负责理解和推理,一个扩散Generator路径负责生成,两者通过双流联合注意力机制交互。模型采用多阶段训练流程,Reasoner先在大规模图文/视频-文本数据上预训练,再在Physical AI任务上微调;Generator则采用渐进式多模态课程训练,从图像、视频、音频预训练开始,逐步引入动作和传输数据进行中期训练,最后在特定领域数据上进行后训练。评估显示,Cosmos 3在多个理解与生成基准测试上达到或超越了当时的开源及部分闭源模型的最佳水平,其后训练版本在Artificial Analysis榜单上被评为最佳开源文生图和图生视频模型,在RoboArena上被评为最佳机器人策略模型。论文同时开源了代码、模型权重、合成数据集和评估基准。

🔗 开源详情

🏗️ 方法概述和架构

Cosmos 3 的核心思想是通过一个统一的架构支持多种模态和任务,根据输入-输出配置在不同的操作模式之间无缝切换。

  1. 模态编码器:将不同模态的输入映射到统一的表示空间。

    • 图像与视频:使用两个独立的编码器。理解任务使用预训练的ViT编码器(带DeepStack和时间戳),生成任务使用冻结的Wan2.2视频VAE编码器(进行4倍时间压缩和32x32空间压缩)。
    • 音频:采用冻结的音频VAE编码器,将48kHz立体声以1920样本的跳跃大小编码,产生每秒25个令牌。
    • 动作:提出统一动作表示,将不同领域(机器人、自动驾驶、相机运动、自我中心运动)的异构控制映射到紧凑的动作向量,包含自我姿态、末端执行器姿态和抓取状态等组件。使用域感知输入/输出投影层将动作向量投影到模型隐藏维度,并进行域特定解码。
  2. 令牌排列与生成模式:定义了统一的令牌排列格式以支持不同任务。

    • 双子序列结构:输入序列分为自回归(AR)子序列和扩散(DM)子序列。AR子序列包含语言令牌和ViT编码的视觉令牌,负责推理;DM子序列包含VAE编码的视觉、音频和动作令牌,负责生成。
    • 生成模式:通过填充AR和DM子序列的不同内容,支持语言、文生图、文生视频(+音频)、图生视频/视频续写(+音频)、视频迁移、动作生成(前向动力学、逆动力学、策略)等多种模式。
  3. Mixture-of-Transformers (MoT) 骨干:核心架构,在每一层解码器中包含两套独立的参数。

    • 双塔层结构:Reasoner塔处理AR子序列,Generator塔处理DM子序列。两套参数均从预训练的VLM(如Qwen3-VL)初始化,允许模型继承强大的语言和视觉推理能力,同时学习生成。
    • 双流联合注意力:AR令牌使用因果自注意力,仅关注AR子序列。DM令牌使用双向注意力,同时关注AR和DM子序列的所有令牌。这使得生成可以依赖AR上下文,而AR不受生成令牌影响。
  4. 多模态位置编码:扩展了3D MRoPE以对齐不同采样率的令牌。

    • 位置索引分配:AR令牌遵循原始3D MRoPE。视频令牌在时间、高度、宽度三个轴变化;音频和动作令牌仅在时间轴变化。在AR和DM子序列间插入固定时间间隔(15000)作为缓冲。
    • 绝对时间调制:定义每秒时间步数(TPS),通过调制时间增量 \(\delta t = \text{TPS}_{\text{base}} / \text{TPS}\),将不同模态或数据源的令牌对齐到共享的物理时间轴。以24 FPS视频的TPS为基准(\(\text{TPS}_{\text{base}} = 6\))。
  5. 模型变体:训练了三个规模的模型:Edge (4B)、Nano (16B)、Super (64B),均基于从预训练VLM初始化的MoT架构。

  6. 训练流程:

    • Reasoner训练:分预训练(在约22M样本上进行,以OCR、VQA、接地等任务为主)和监督微调(约2.2M样本,专注于机器人、自动驾驶、智能基础设施等Physical AI任务)。
    • Generator训练:采用渐进式多阶段课程。预训练在大规模图像(7.67亿)、视频(3.477亿片段)和音频数据上进行,采用多分辨率训练(256p, 480p, 720p)和序列打包。中期训练引入动作数据和传输数据,进行领域特化和多模态整合。后训练在特定领域数据集上进行,以生产领域专家模型(如Cosmos3-Super-Text2Image, Cosmos3-Super-Image2Video, Cosmos3-Nano-Policy-DROID)。训练目标是所有模态下的整流流匹配目标。

💡 核心创新点

  1. 首个支持全模态的统一大规模世界模型:将理解(Reasoner)和生成(Generator)功能,以及语言、图像、视频、音频、动作五种模态统一到一个架构中,无需架构修改即可支持VLM、视频生成器、世界模拟器、策略模型等多种角色。
  2. 基于Mixture-of-Transformers的双塔交互架构:设计了一种高效的解耦架构,使理解和生成路径可以共享上下文(通过联合注意力)但拥有独立参数,在继承预训练VLM能力的同时支持高质量生成。
  3. 统一动作表示与跨领域建模:提出了一个将机器人、自动驾驶、相机运动、人体运动等异构控制信号统一表示为几何动作向量的方法,使得一个世界模型可以跨具身领域学习动作先验。
  4. 大规模合成数据生成与集成:系统性地构建并发布了五个针对Physical AI场景的合成数据集(物理交互、机器人、自动驾驶、数字人、仓库),并展示了如何将这些数据有效地集成到训练流程中以提升模型在特定领域的能力。
  5. 完整的全栈基础设施:从数据处理(SILA平台)、大规模分布式训练(HSDP + CP)、到多框架推理服务(vLLM, TensorRT-LLM, vLLM-Omni)和综合基准测试评估,构建了支持全生命周期的基础设施。

📊 实验结果

论文在理解(Reasoner)和生成(Generator)两大方面进行了广泛评估。

  1. 理解评估(Reasoner): Cosmos 3在48个基准测试上进行评估,分为通用、机器人、智能基础设施和驾驶四类。结果表明,Cosmos 3在通用基准上与开源模型(如Qwen3-VL-32B)有竞争力,但落后于闭源的Gemini 3.1 Pro。在机器人、智能基础设施和驾驶等Physical AI特定领域,Cosmos 3超越了包括RynnBrain、MiMo-Embodied、Gemma-4在内的开源和部分闭源模型。例如,在机器人平均分上,Cosmos 3 Super(57.8)超过了Qwen3-VL-32B(52.6)和Gemini 3.1 Pro(58.2,略低)。在驾驶平均分上,Cosmos 3 Super(79.3)大幅领先所有对比模型。

  2. 生成评估(Generator):

  • 图像生成:Cosmos3-Super-Text2Image在UniGenBench(全集91.36)、CVTG(长提示GNED 80.88,PNED 89.08)、HPSv3(11.60)等基准上表现优异,特别是在物理AI子集(Phys)上得分89.54。在Artificial Analysis文生图排行榜上,该模型在开源模型中排名第一(总排名第四)。
  • 视频生成:
    • 自动评估:在PAIBench-G(文生图总体80.0,图生视频82.8)和RBench(图生视频58.4%)上,Cosmos3-Super和Nano达到了开源模型最佳。在Physics-IQ(物理一致性)基准上,Cosmos3-Super在I2V(43.8)和V2V(59.7)模式下均达到SOTA,使用WMeward+BoN后进一步提升。
    • 人工评估:在Cosmos HUE(人类评估)上,Cosmos3-Super在T2V(89.3)和I2V(89.6)上均为最佳开源模型,I2V上仅落后闭源Veo-3.1(89.7)0.1分。在Human World Bench(人体动作生成)上,Cosmos3-Super(71.9)为所有模型最佳,大幅领先Veo-3.1(67.8)。
  • 音频生成:在Cosmos-SoundBench上,Cosmos3-Nano在语义音频视觉质量(SAV 8.35)和音频视觉对齐(AVAlign 8.16)上得分最高,但在整体音频视觉质量(AVQ 7.34)上落后于Seedance-1.5-Pro(7.64),主要差距在于音频感知质量(PQ)。
  • 传输生成:在PAIBench-C(控制条件生成)和AVBench-C(驾驶场景)上,Cosmos 3在多个控制模态和驾驶场景指标上匹配或超越了专用的Cosmos-Transfer2.5基线。
  • 动作生成:
    • 前向/逆向动力学:在自动驾驶(逆向)、相机运动(前向)、自我中心运动(前向)和机器人(前向)等领域,从中期训练检查点(MT-init)微调的结果普遍优于从预训练检查点(PT-init)微调的结果,并超越了专用基线(如DepthAnything3, VGGT, Ctrl-World)。例如,在DROID机器人前向动力学上,Cosmos3-Super(MT-init)PSNR为26.04,超过Ctrl-World(22.99)。
    • 机器人策略:Cosmos3-Nano-Policy-DROID在RoboLab仿真基准(任务平均成功率39.7%,具体指令下)和RoboArena真实世界基准(排名第一)上均建立了新的SOTA。
  1. 消融研究: 论文进行了多项消融研究,验证了:Reasoner为Generator提供了更好的Physical AI域嵌入;文本控制和MRoPE FPS调制共同作用可最佳控制生成视频的帧率;音频数据预训练对视频生成指标有积极影响;联合训练前向动力学、逆向动力学和策略任务可以共享有用结构,提升策略覆盖和逆向动力学精度;动作数据存在跨域协同效应,如相机运动可从多个合作训练伙伴中受益。

⚖️ 评分理由

  • 创新性 (1.8/2):将理解与生成、多模态(包括动作)统一到一个大规模世界模型框架中的动机清晰且重要。MoT架构和统一动作表示是有效的设计选择。但核心思想(统一生成与理解、扩散与自回归结合)并非首次提出(如Transfusion, BAGEL),创新更多体现在将这些组件以工程化的方式整合并规模化到Physical AI这一特定且重要的应用场景中。
  • 技术严谨性 (1.4/1.5):方法描述详尽,架构、训练流程、数据处理、基础设施均有清晰的技术阐述。训练策略和消融研究设计合理,支撑了主要结论。然而,对于某些关键设计选择(如AR-DM时间间隔设为15000的具体依据)缺乏更深入的理论或实验分析。
  • 实验充分性 (1.6/1.8):实验极其广泛,覆盖了Reasoner的48个基准和Generator在图像、视频、音频、传输、动作等多个任务上的定量评估,并与众多基线进行了比较。消融研究覆盖了关键设计点。不足之处在于:1)部分对比基线(如Veo-3.1, Seedance-1.5-Pro)是闭源模型,其复现可能依赖特定提示工程或私有后处理;2)对于“Physical AI”这一宏大目标,评估仍主要集中在相对标准的基准上,对于模型在复杂、长程、真实交互任务中的表现评估不足。
  • 清晰度 (1.2/1.5):作为一篇技术报告,结构清晰,图表丰富(如架构图、训练流程图、结果汇总表)。然而,由于篇幅庞大、涉及模态众多,读者需要花费大量精力才能理清各组件间的完整交互关系。部分技术细节(如SILA数据处理平台的内部机制)描述冗长,对理解核心模型帮助有限。
  • 影响力 (1.3/1.5):该工作对于加速Physical AI研究具有显著的潜在影响力,特别是通过开源模型、数据和工具。它设定了一个全模态世界模型的新标杆。然而,其影响力主要局限于那些有足够资源使用或在其基础上构建工作的团队。对于更广泛的AI社区,尤其是语音/音乐/音频领域的读者,其直接相关性和可借鉴性有限。
  • 开源 (1.5/1.5):开源极为彻底,提供了代码��多个仓库)、模型权重(多个检查点)、合成数据集(5个)、评估基准。许可证(OpenMDW-1.1)友好。这是本文的巨大亮点。
  • 可复现性 (1.4/1.5):提供了训练配方的详细描述和推理代码。然而,模型的巨大规模(最大64B参数)、对特定硬件(数千GB200 GPU)的依赖、以及复杂的多阶段数据处理和训练流程,使得从零复现整个训练过程对于绝大多数研究机构而言是不现实的。但利用提供的检查点进行推理和微调是可行的。
  • 工程/实践价值 (1.3/1.5):工程实践价值极高,展示了如何从数据、模型到服务构建一个完整的全栈系统,特别是SILA数据处理平台和分布式训练优化,对业界有直接参考价值。但对于学术界而言,其中很多工业级优化可能难以直接应用。

🚨 局限与问题

  1. 评估的“标准”与“真实”差距:论文的评估主要依赖于现有的、相对静态的基准测试(如PAIBench-G, RBench)。这些基准能否充分衡量一个为“Physical AI”设计的模型在动态、开放世界、长程交互中的能力是存疑的。模型在RoboArena等真实世界评估中表现优异,但这更多是特定平台上的结果,通用性有待验证。
  2. 对“World Model”定义的狭义化:论文将“世界模型”主要定义为能够生成符合物理规律的多模态预测。这与一些强调内部状态表示、预测和规划能力(如JEPA系列)的“世界模型”定义存在差异。Cosmos 3更偏向于一个强大的多模态条件生成器,其是否真正“理解”世界动态以进行有效规划和推理,仅从生成质量评估中难以判断。
  3. 资源壁垒与公平性:这项工作依赖于NVIDIA近乎无限的计算资源、内部专有数据和庞大的工程团队。这虽然产生了优秀的成果,但也加剧了AI研究中的资源不平等问题。开源虽然部分缓解了这一问题,但训练成本使得改进或扩展该工作本身仍仅限于少数实体。
  4. Sim-to-Real Gap的轻描淡写:论文在局限性中提到了合成数据与真实数据的鸿沟,但通过发布更多合成数据(SDG系列)作为解决方案。然而,这并未根本解决模拟器无法完美模拟真实世界物理和视觉复杂性的问题。模型在合成数据上训练的提升,是否必然导致在真实世界任务中提升,需要更谨慎的论证。
  5. 动作空间的潜在限制:统一的动作表示虽然优雅,但将其压缩到固定维度的向量,可能丢失了一些领域特有的、与控制密切相关的细粒度信息(如力、阻抗、低级电机指令)。这可能导致在需要精细力控制的任务上性能受限。
  6. 音频生成的相对滞后:相比于在视觉和动作生成上的突出表现,音频生成(尤其在感知质量上)仍有提升空间,这与模型主要针对视觉和动作模态优化的设计选择有关。

← 返回 2026-06-03 语音/音乐/音频论文速递