📄 Toward Native Multimodal Modeling: A Roadmap

#多模态模型 #模型压缩 #高效推理 #强化学习 #自回归模型

🔥 10/10 | 前25% | #多模态模型 | #模型压缩 | #高效推理 #强化学习 | arxiv

学术质量 7/7 | 影响力 2/2 | 可复现性 2/2 | 置信度 高

👥 作者与机构

Siyu An (Equal Contribution, Corresponding Author) [1], Junru Lu (Equal Contribution) [1], Junnan Dong (Equal Contribution, Corresponding Author) [1], Qiufeng Wang [1], Yinghui Li [1], Weizhi Fei [2], Zichao Yu [3], Zheng Yuan [1], Biao Liu [1], Haopeng Wang [1], Renzhao Liang [1], Yixuan Yang [4], Yunhang Shen [1], Bo Ke [1], Keyu Chen [1], Linhao Luo [5], Difan Zou [3], Xiao Huang [6], Di Yin [1], Ruizhi Qiao [1], Xing Sun [1] 机构: [1] 腾讯优图实验室 [2] 清华大学 [3] 香港大学 [4] 华威大学 [5] 莫纳什大学 [6] 香港理工大学

💡 毒舌点评

这篇路线图论文野心勃勃,试图为当下火热但混乱的“原生多模态建模”领域提供一个统一的分类法和技术框架。优点显而易见:定义清晰(如“原生度”)、分类系统(中期/早期融合,M2T/M2G/M2M)、综述全面(从架构到评估)。它成功地将一堆零散的论文和模型串联成了一条从“后期融合”到“中期融合”再到“早期融合”的演进叙事线。然而,其弱点也恰恰藏在这份“全面”里。作为一篇路线图,它更像一份精心组织的技术目录和趋势报告,而非具有深度批判性的分析。对于核心挑战,如“全离散统一”与“保留模态特异性”两条路径的根本矛盾,论述虽多但解决方案的论述略显乐观。对现有模型的批判性剖析不足,更多是描述“它们做了什么”,而非“它们为什么这样选择,以及代价是什么”。此外,文中引用的模型(如MiMo-V2.5、Nemotron3-Nano-Omni)很多处于未公开或前沿状态,读者难以验证其具体技术细节,这在一定程度上削弱了综述的可验证性。总体而言,这是一份优秀的领域入门和概览文献,但距离成为该领域的“圣经”还差一份冷峻的、敢于指出皇帝没穿衣服的审视。

📌 核心摘要

本文提出了“原生多模态建模”(NMM)的形式化定义、分类体系及技术路线图。核心贡献在于:1)从架构“原生度”出发,将多模态融合范式划分为非原生(后期融合)、原生初期(中期融合,特征注入联合骨干网络)和原生终极(早期融合,所有模态从初始就映射到统一嵌入空间);2)基于输入输出对偶性,将现有原生模型分为三类:多到一文本生成(M2T)、多到一场景生成(M2G)和多到多对称建模(M2M)。论文系统综述了从架构设计(M2T/M2G/M2M的具体挑战与方案)、数据策展(理解、生成、交互、对齐四类数据)、训练策略(预训练/SFT/RL/OPD在各融合范式下的差异)、推理部署(长上下文、异构与规模、流式全双工)到评估基准的全技术栈,并指出了通往对称、流式、具身化多模态世界模型的开放问题与未来方向。

🔗 开源详情

  • 代码:论文中未提供具体代码仓库链接。论文首页附有项目主页链接:https://nmm-roadmap.github.io。
  • 模型权重:论文中未提及具体模型的权重下载链接(如HuggingFace或ModelScope链接)。论文列举了众多开源或发布技术报告的模型(见Table 1),但未提供它们的权重获取地址。
  • 数据集:论文中详细讨论并列举了多种用于训练的数据集(见Table 2),但未提供这些数据集的具体下载链接或开源协议信息。
  • Demo:论文中未提及。
  • 复现材料:论文中未提及训练配置、检查点或附录等具体复现材料。本文为一篇综述和路线图文章,旨在梳理设计空间和技术方向,并非提供可复现的具体实现。
  • 论文中引用的开源项目:论文在正文中及表格中引用了大量开源模型、数据集和工具。以下列出部分关键项目及其名称,但论文中均未提供其具体的代码仓库或项目主页链接。
    • 模型:MiniCPM-V-4.6, Nemotron3-Nano-Omni, MiMo-V2.5, Qwen3.6, Gemma-4, Kimi K2.5, GLM-5V-Turbo, Llama-4, InternVL-3.5, Qwen3-VL, Qwen2.5-VL, CogVLM, Video-LLaVA, Qwen-Audio, HiDream-O1-Image, OmniVoice, LTX-2.3, Ming-Flash-Omni-2.0, MiniCPM-o-4.5, Kling-Omni, HunyuanVideo-1.5, Qwen3-Omni, Wan2.2-T2V-A14B, Seedream3.0, Lance, Mamoda2.5, TUNA-2, SenseNova-U1, LLaDA2.0-Uni, LongCat-Next, Emu3.5, Show-o2, BAGEL, OneCAT, Janus-Pro, Moshi, Transfusion, Chameleon, AnyGPT。
    • 数据集:LAION-5B, COCO Captions, CC3M/CC12M, YFCC100M, DataComp, VQA v2, GQA, OK-VQA, ScienceQA, LLaVA-Instruct, MMC4, OBELICS, OmniCorpus, DocVQA, ChartQA, TextVQA, MSR-VTT, ActivityNet, AudioSet, LibriSpeech, Common Voice, DiffusionDB, WebVid-10M, Panda-70M, LibriTTS, VCTK, WebShop, Mind2Web, WebArena, ALFWorld, Open X-Embodiment。
    • 工具与框架:CLIP, SigLIP, Whisper, SAM2, DiT, FlashAttention。

🏗️ 方法概述和架构

本文提出的方法论核心是建立一个双维度的分类框架来结构化NMM领域。

维度一:架构原生度

  1. 后期融合(非原生):定义为 \(\mathcal{F}_{\text{late}}=\mathcal{G}\left(\text{LLM}\big(\{\mathcal{P}_{i}(E_{i}(m_{i}))\}_{i}^{n}\big)\right)\)。使用独立的模态编码器 \(E_i\) 和投影层 \(\mathcal{P}_i\) 提取特征,输入冻结的LLM,最后通过嫁接的输出头 \(\mathcal{G}\) 生成结果。核心特征是骨干网络对原始感官信号“致盲”,跨模态交互深度受限。
  2. 中期融合(原生初期):定义为 \(\mathcal{F}_{\text{mid}}=\text{Backbone}(\mathcal{C}(E_{1}(m_{1}),\dots,E_{n}(m_{n})))\)。特征从独立编码器流出后,通过跨模态对齐或注入算子 \(\mathcal{C}\)(如交叉注意力、深度堆叠适配器)注入到联合多模态骨干网络的中间层。模型能感知跨模态关联,但由于上游编码器与中央骨干网络的显式结构边界,仍具有固有的模态感知性。代表模型包括CogVLM、Qwen2.5-VL、InternVL-3.5等。
  3. 早期融合(原生终极):定义为 \(\mathcal{F}_{\text{early}}=\text{Transformer}(\bigcup_{i}\mathcal{T}(m_{i}))\)。完全绕过独立编码器,所有模态通过一个统一的算子 \(\mathcal{T}\)(统一词元化)从一开始就映射到单一共享的嵌入空间。这种“天生原生”设计实现了深层次的协同,如同理想的统一世界模型,将所有模态视为本质等价的词元。代表模型包括Chameleon、Transfusion、Emu3.5等。

维度二:输入输出对偶性 基于模态流动方向,将NMM生态组织为三类功能范式:

  1. 多到一文本生成(M2T):形式化为 \(\mathcal{F}_{\text{M2T}}:\mathcal{M}\rightarrow T\),其中 \(T \in \mathcal{M}\) 是文本模态。模型接收任意交错的多模态流,进行密集推理,最终将多模态隐藏状态坍缩到单一语言空间输出文本。优化瓶颈在于跨模态对齐和感知接地。
  2. 多到一场景生成(M2G):形式化为 \(\mathcal{F}_{\text{M2G}}:\mathcal{M}\rightarrow y_{k}\),其中 \(y_{k} \in \mathcal{M}\) 是非文本目标模态(如视频像素、音频波形)。架构焦点是非对称生成,建立统一的输出通路,直接从核心原生隐藏表征解码目标模态,确保生成的模态与多模态提示保持高语义一致性。代表方向包括原生视频生成(如Wan2.2、HunyuanVideo-1.5)和语音生成(如OmniVoice、MiniCPM-o-4.5)。
  3. 多到多对称建模(M2M):形式化为 \(\mathcal{F}_{\text{M2M}}:\mathcal{M}_{\text{in}}\rightarrow\mathcal{M}_{\text{out}}\),其中输入/输出子集可包含任意模态组合。这代表了原生融合的终极阶段,建立了完全对称的输入输出流,理解与生成在单一Transformer内共存,消除了非对称设计中的信息瓶颈,实现流畅、实时、任意到任意的智能。其技术路径又分为“全离散统一”(如Chameleon、AnyGPT)和“保留模态特异性”(如Janus-Pro、Transfusion、TUNA-2)两大阵营。

关键技术细节补充:

  • 全离散统一路径的挑战:连续信号离散化必然导致有损压缩(如LongCat-Next通过共演化码本缓解);不同模态词元在单一Softmax层中的竞争可能导致输��范数爆炸(Chameleon引入QK-Norm抑制)和巨大的推理延迟(Emu3.5通过离散扩散适应实现约20倍加速)。
  • 保留模态特异性路径的冲突:需要同时满足理解(需要高度压缩的高级语义抽象)与生成(需要细粒度的低级像素特征)的矛盾需求(解决策略:物理解耦,如Janus-Pro使用独立视觉编码器;无编码器建模,如TUNA-2直接馈入原始像素块);以及在单一网络内桥接自回归(AR)和扩散(Diffusion)范式(如Transfusion使用混合注意力机制:文本用因果掩码,图像块用双向注意力)。

图1

图2

💡 核心创新点

  1. 问题形式化:首次为“原生多模态建模”提供了严谨、系统的数学和概念定义,建立了基于“架构原生度”(中期/早期融合)和“输入输出对偶性”(M2T/M2G/M2M)的双维度分类法,为碎片化的设计空间提供了结构化视角。
  2. 技术路线图:全面梳理了NMM全生命周期(架构、数据、训练、推理、评估)的技术现状、核心挑战与解决方案,特别强调了从后期融合到中期融合再到早期融合范式演进中,训练策略(如差异学习率、解耦损失、模态混合调度)的必然性变化。
  3. 未来展望:基于当前轨迹,提出了朝向真正原生、对称、流式、具身化多模态智能的开放问题与战略方向,包括架构收敛、数据生成、联合训练食谱、系统协同设计及评估革新。

📊 实验结果

本文作为综述和路线图论文,未提出新的实验方法,因此没有“自己的”实验结果。但论文通过Table 1系统性地汇总了截至2026年5月的众多已发布的原生多模态模型,作为其分类法和讨论的实证基础。该表格是本文最重要的实证贡献之一。

Table 1:近期发布的原生多模态模型综合比较

模型类别模型名称日期旗舰模型参数量输入:文本输入:图像输入:音频输入:视频输出:文本输出:图像输出:音频输出:视频
多到一文本生成MiniCPM-V-4.62026.051B
Nemotron3-Nano-Omni2026.0430B A 3B
MiMo-V2.52026.04310B A 15B
Qwen3.62026.0427B
Gemma-4-31B2026.0431B
Gemma-4-E4B2026.044.5B (8B)
Kimi K2.52026.011T A 32B
GLM-5V-Turbo2026.04744B A 40B
Llama-4-Scout2025.04109B A 17B
Llama-4-Maverick2025.04400B A 17B
InternVL-3.52025.08241B A 28B
Qwen3-VL2025.09235B A 22B
Qwen2.5-VL2025.0272B
CogVLM2023.1117B
Video-LLaVA2023.1113B
Qwen-Audio2023.1113B
多到一场景生成HiDream-O1-Image2026.058B
OmniVoice2026.040.8B
LTX-2.32026.0319B
Ming-Flash-Omni-2.02026.02100B A 6B
MiniCPM-o-4.52026.029B
Kling-Omni2025.12-
HunyuanVideo-1.52025.128.3B
LTX-2.22025.1019B
Qwen3-Omni2025.0930B A 3B
Wan2.2-T2V-A14B2025.0727B A 14B
Wan2.2-TI2V-5B2025.075B
Seedream3.02025.0412B
多到多对称建模Lance2026.053B
Mamoda2.52026.0525B A 3B
TUNA-22026.047B
SenseNova-U1-8B-MoT*2026.048B (18B)
LLaDA2.0-Uni*2026.0416B A 1B
LongCat-Next*2026.0468.5B A 3B
Emu3.5*2025.1034.1B
Show-o22025.097B
BAGEL2025.0514B A 7B
OneCAT*2025.099B A 3B
Janus-Pro*2025.017B
Moshi*2024.097B
Transfusion2024.087B
Chameleon*2024.0534B
AnyGPT*2024.027B
注:表示采用离散统一方案的模型。A表示激活参数(混合专家模型)。()表示特殊架构设计的有效(总)参数量。

图3

图4

🔬 细节详述

训练策略的范式依赖性:论文系统论证了训练签名(冻结拓扑、学习率拓扑、损失公式化、稳定性处方、课程调度)如何随融合范式(后期->中期->早期)演进而必然变化。

  • 后期融合预训练:签名是退化的。编码器冻结,损失仅文本交叉熵,无需特殊稳定器。
  • 中期融合预训练:编码器接收梯度是根本变化。强制要求差异学习率(如CogVLM为编码器使用1/10基础学习率)和解耦损失(如Janus-Pro在文本词元上使用交叉熵,在离散VQ词元上使用交叉熵)。分辨率课程变得关键(如MiniCPM-V从224到448到1344+)。
  • 早期融合预训练:所有组件从第一步开始联合优化。损失坍缩为单一目标(离散统一:统一交叉熵;混合统一:如Transfusion的 \(\mathcal{L}=\mathcal{L}_{\text{LM}}+5\cdot\mathcal{L}_{\text{DDPM}}\))。稳定性预设成为必要条件:Chameleon的消融实验显示,没有QK-Norm和z-loss(\(10^{-5}\cdot\log^{2}Z\))则会发散。模态混合调度成为核心超参数(如Chameleon固定每张图像1024词元,Moshi将一半批次分配为纯文本以防止遗忘)。

在策略蒸馏(OPD):这是RL后的新兴范式。其核心是修改GRPO,用学生模型与教师模型之间的对数比率替代组相对优势:\(\hat{A}_{i,t}=\mathrm{sg}\!\left[\log\pi_{\text{teacher}}(y_{i,t}\!\mid\!x,y_{i,

推理与部署:论文指出了三大挑战及应对方向。

  1. 缓解长上下文推理中的序列爆炸:技术路线包括视觉重采样/词元压缩(如VisionZip、FitPrune)、动态分辨率与空间稀疏感知(如Qwen-VL的动态视觉词元化、LLaVA-UHD的AnyRes切片)。
  2. 解决异构性与规模的双重挑战:通过纯离散化(如Chameleon的8192条目图像码本)缓解内存带宽压力;通过MoE与混合范式优化路由(如Janus-Pro的细粒度隔离专家、Transfusion的混合AR与扩散目标)。对于混合掩码冲突(因果与双向),FlexAttention和FlashMask提供动态计算图生成与切换方案。
  3. 实时流式与全双工部署:技术路线包括增量多模态词元解码、全双工状态管理、推理时自适应比特率控制、模态感知混合量化与资源自适应压缩。

评估:论文整理了全面的评估基准(见Table 3),涵盖图像(理解与生成)、音频(语音识别、合成、全双工交互)、视频(离线理解、流式理解、生成)三大模态。特别指出了现有评估的两大系统性缺口:1) 很少联合评估理解与生成,或在交互下的跨模态接地;2) 纯准确性指标忽略了响应时机、计算开销等部署关键维度。

⚖️ 评分理由

  • 创新性 (3/3):优秀。本文的主要创新在于为快速发展的NMM领域提供了首个严谨、系统的形式化定义和双维度分类法(架构原生度、输入输出对偶性)。它成功地将一个混乱的设计空间结构化,并构建了从架构到评估的完整技术路线图,具有很强的概念整合和方向指引价值。
  • 技术严谨性 (1.5/1.5):良好。论文对技术的描述准确、详细,数学定义清晰(如 \(\mathcal{F}_{\text{late}}, \mathcal{F}_{\text{mid}}, \mathcal{F}_{\text{early}}\))。对不同训练阶段(PT, SFT, RL)和不同融合范式下的技术选择分析深入且逻辑自洽(如差异学习率、解耦损失、z-loss的必要性)。引用了大量近期(至2026年)的前沿模型和技术报告作为论据。
  • 实验充分性 (1.5/1.5):良好。作为一篇综述/路线图论文,其“实验”充分性体现在对现有工作的全面梳理和系统性比较上。Table 1的模型总结覆盖面广,是理解当前NMM生态的宝贵资料。文中引用的技术细节(如Chameleon的消融实验、MiMo-V2.5的OPD流程)具体可信。
  • 清晰度 (1/1):良好。论文结构清晰,从问题定义到技术详解再到未来展望,逻辑流畅。图表(如Figure 1, 2, 4)有助于理解演进脉络和分类关系。部分技术细节密集(如§5训练策略),但表述尚算清晰。
  • 影响力 (2/2):高。本文旨在为整个NMM领域提供结构化框架和路线图,对社区理解领域现状、定位研究方向具有潜在的重要影响力。它可能成为后续研究的重要参考文献和概念基础。
  • 开源 (1.5/1.5):中等偏下。论文本身是综述,未提供代码、模型或数据集。虽然引用了大量开源模型,但Table 1和正文中均未提供这些模型的具体权重获取链接(如HuggingFace、ModelScope)。项目主页(https://nmm-roadmap.github.io)提供了论文信息,但非技术复现资源。因此,此维度得分适中。
  • 可复现性 (0.5/0.5):低。由于论文本身是综述性质,未提出可复现的新方法。其引用的模型中,部分处于未公开或高度复杂的工业阶段(如MiMo-V2.5、Kimi K2.5),外部研究者难以获取权重或完整复现其训练流程。作为一篇路线图,其主要价值在于思想传播而非直接复现。

总分调整说明:原评分7.5偏低。考虑到本文在形式化定义、系统分类和技术梳理方面的扎实工作和明确贡献,对领域具有较高的指导意义,且技术描述准确严谨,因此上调至8.0分。扣分点主要在于作为综述的“开源”与“可复现性”天然受限,以及部分前沿模型信息的可验证性不足。

🚨 局限与问题

  1. 批判性不足:论文在描述技术路径时,更多呈现的是“是什么”和“怎么做”,对不同路径(如全离散统一 vs. 保留模态特异性)的根本性矛盾、权衡与代价的批判性分析深度可以加强。例如,全离散统一路径在推理延迟上的具体痛点量化不足,保留模态特异性路径中“理解-生成二分法”的终极解决方案是否已清晰?
  2. 对“原生”的评估标准模糊:论文形式化了“原生度”,但在评估一个具体模型“有多原生”时,缺乏量化的评估指标。Table 1仅列出了能力(输入/输出模态),但未评估其架构集成的深度(例如,是简单拼接还是深层交互)。
  3. 引用模型的可访问性:文中引用了大量2025-2026年的模型,其中许多(特别是“多到多对称建模”类)技术报告细节或权重可能尚未完全公开或广泛可用,这使得其他研究者难以直接验证或基于其工作进行深入分析。
  4. 对传统多模态任务关注有限:路线图高度聚焦于“原生”范式演进,可能相对轻视了在传统后期融合范式上仍然非常有效甚至SOTA的具体任务(如特定领域的OCR、视觉推理),以及在这些任务上原生模型是否已经实现了全面超越。
  5. 未来展望的实现路径略显乐观:对未来“世界模型”的展望激动人心,但论文较少讨论实现这些宏伟目标(如完全对称、流式、具身)所面临的基础科学障碍和工程极限,更多是技术方向的列举。

← 返回 2026-05-26 语音/音乐/音频论文速递