📄 Toward Native Multimodal Modeling: A Roadmap
#多模态模型 #模型压缩 #高效推理 #强化学习 #自回归模型
🔥 10/10 | 前25% | #多模态模型 | #模型压缩 | #高效推理 #强化学习 | arxiv
学术质量 7/7 | 影响力 2/2 | 可复现性 2/2 | 置信度 高
👥 作者与机构
Siyu An (Equal Contribution, Corresponding Author) [1], Junru Lu (Equal Contribution) [1], Junnan Dong (Equal Contribution, Corresponding Author) [1], Qiufeng Wang [1], Yinghui Li [1], Weizhi Fei [2], Zichao Yu [3], Zheng Yuan [1], Biao Liu [1], Haopeng Wang [1], Renzhao Liang [1], Yixuan Yang [4], Yunhang Shen [1], Bo Ke [1], Keyu Chen [1], Linhao Luo [5], Difan Zou [3], Xiao Huang [6], Di Yin [1], Ruizhi Qiao [1], Xing Sun [1] 机构: [1] 腾讯优图实验室 [2] 清华大学 [3] 香港大学 [4] 华威大学 [5] 莫纳什大学 [6] 香港理工大学
💡 毒舌点评
这篇路线图论文野心勃勃,试图为当下火热但混乱的“原生多模态建模”领域提供一个统一的分类法和技术框架。优点显而易见:定义清晰(如“原生度”)、分类系统(中期/早期融合,M2T/M2G/M2M)、综述全面(从架构到评估)。它成功地将一堆零散的论文和模型串联成了一条从“后期融合”到“中期融合”再到“早期融合”的演进叙事线。然而,其弱点也恰恰藏在这份“全面”里。作为一篇路线图,它更像一份精心组织的技术目录和趋势报告,而非具有深度批判性的分析。对于核心挑战,如“全离散统一”与“保留模态特异性”两条路径的根本矛盾,论述虽多但解决方案的论述略显乐观。对现有模型的批判性剖析不足,更多是描述“它们做了什么”,而非“它们为什么这样选择,以及代价是什么”。此外,文中引用的模型(如MiMo-V2.5、Nemotron3-Nano-Omni)很多处于未公开或前沿状态,读者难以验证其具体技术细节,这在一定程度上削弱了综述的可验证性。总体而言,这是一份优秀的领域入门和概览文献,但距离成为该领域的“圣经”还差一份冷峻的、敢于指出皇帝没穿衣服的审视。
📌 核心摘要
本文提出了“原生多模态建模”(NMM)的形式化定义、分类体系及技术路线图。核心贡献在于:1)从架构“原生度”出发,将多模态融合范式划分为非原生(后期融合)、原生初期(中期融合,特征注入联合骨干网络)和原生终极(早期融合,所有模态从初始就映射到统一嵌入空间);2)基于输入输出对偶性,将现有原生模型分为三类:多到一文本生成(M2T)、多到一场景生成(M2G)和多到多对称建模(M2M)。论文系统综述了从架构设计(M2T/M2G/M2M的具体挑战与方案)、数据策展(理解、生成、交互、对齐四类数据)、训练策略(预训练/SFT/RL/OPD在各融合范式下的差异)、推理部署(长上下文、异构与规模、流式全双工)到评估基准的全技术栈,并指出了通往对称、流式、具身化多模态世界模型的开放问题与未来方向。
🔗 开源详情
- 代码:论文中未提供具体代码仓库链接。论文首页附有项目主页链接:https://nmm-roadmap.github.io。
- 模型权重:论文中未提及具体模型的权重下载链接(如HuggingFace或ModelScope链接)。论文列举了众多开源或发布技术报告的模型(见Table 1),但未提供它们的权重获取地址。
- 数据集:论文中详细讨论并列举了多种用于训练的数据集(见Table 2),但未提供这些数据集的具体下载链接或开源协议信息。
- Demo:论文中未提及。
- 复现材料:论文中未提及训练配置、检查点或附录等具体复现材料。本文为一篇综述和路线图文章,旨在梳理设计空间和技术方向,并非提供可复现的具体实现。
- 论文中引用的开源项目:论文在正文中及表格中引用了大量开源模型、数据集和工具。以下列出部分关键项目及其名称,但论文中均未提供其具体的代码仓库或项目主页链接。
- 模型:MiniCPM-V-4.6, Nemotron3-Nano-Omni, MiMo-V2.5, Qwen3.6, Gemma-4, Kimi K2.5, GLM-5V-Turbo, Llama-4, InternVL-3.5, Qwen3-VL, Qwen2.5-VL, CogVLM, Video-LLaVA, Qwen-Audio, HiDream-O1-Image, OmniVoice, LTX-2.3, Ming-Flash-Omni-2.0, MiniCPM-o-4.5, Kling-Omni, HunyuanVideo-1.5, Qwen3-Omni, Wan2.2-T2V-A14B, Seedream3.0, Lance, Mamoda2.5, TUNA-2, SenseNova-U1, LLaDA2.0-Uni, LongCat-Next, Emu3.5, Show-o2, BAGEL, OneCAT, Janus-Pro, Moshi, Transfusion, Chameleon, AnyGPT。
- 数据集:LAION-5B, COCO Captions, CC3M/CC12M, YFCC100M, DataComp, VQA v2, GQA, OK-VQA, ScienceQA, LLaVA-Instruct, MMC4, OBELICS, OmniCorpus, DocVQA, ChartQA, TextVQA, MSR-VTT, ActivityNet, AudioSet, LibriSpeech, Common Voice, DiffusionDB, WebVid-10M, Panda-70M, LibriTTS, VCTK, WebShop, Mind2Web, WebArena, ALFWorld, Open X-Embodiment。
- 工具与框架:CLIP, SigLIP, Whisper, SAM2, DiT, FlashAttention。
🏗️ 方法概述和架构
本文提出的方法论核心是建立一个双维度的分类框架来结构化NMM领域。
维度一:架构原生度
- 后期融合(非原生):定义为 \(\mathcal{F}_{\text{late}}=\mathcal{G}\left(\text{LLM}\big(\{\mathcal{P}_{i}(E_{i}(m_{i}))\}_{i}^{n}\big)\right)\)。使用独立的模态编码器 \(E_i\) 和投影层 \(\mathcal{P}_i\) 提取特征,输入冻结的LLM,最后通过嫁接的输出头 \(\mathcal{G}\) 生成结果。核心特征是骨干网络对原始感官信号“致盲”,跨模态交互深度受限。
- 中期融合(原生初期):定义为 \(\mathcal{F}_{\text{mid}}=\text{Backbone}(\mathcal{C}(E_{1}(m_{1}),\dots,E_{n}(m_{n})))\)。特征从独立编码器流出后,通过跨模态对齐或注入算子 \(\mathcal{C}\)(如交叉注意力、深度堆叠适配器)注入到联合多模态骨干网络的中间层。模型能感知跨模态关联,但由于上游编码器与中央骨干网络的显式结构边界,仍具有固有的模态感知性。代表模型包括CogVLM、Qwen2.5-VL、InternVL-3.5等。
- 早期融合(原生终极):定义为 \(\mathcal{F}_{\text{early}}=\text{Transformer}(\bigcup_{i}\mathcal{T}(m_{i}))\)。完全绕过独立编码器,所有模态通过一个统一的算子 \(\mathcal{T}\)(统一词元化)从一开始就映射到单一共享的嵌入空间。这种“天生原生”设计实现了深层次的协同,如同理想的统一世界模型,将所有模态视为本质等价的词元。代表模型包括Chameleon、Transfusion、Emu3.5等。
维度二:输入输出对偶性 基于模态流动方向,将NMM生态组织为三类功能范式:
- 多到一文本生成(M2T):形式化为 \(\mathcal{F}_{\text{M2T}}:\mathcal{M}\rightarrow T\),其中 \(T \in \mathcal{M}\) 是文本模态。模型接收任意交错的多模态流,进行密集推理,最终将多模态隐藏状态坍缩到单一语言空间输出文本。优化瓶颈在于跨模态对齐和感知接地。
- 多到一场景生成(M2G):形式化为 \(\mathcal{F}_{\text{M2G}}:\mathcal{M}\rightarrow y_{k}\),其中 \(y_{k} \in \mathcal{M}\) 是非文本目标模态(如视频像素、音频波形)。架构焦点是非对称生成,建立统一的输出通路,直接从核心原生隐藏表征解码目标模态,确保生成的模态与多模态提示保持高语义一致性。代表方向包括原生视频生成(如Wan2.2、HunyuanVideo-1.5)和语音生成(如OmniVoice、MiniCPM-o-4.5)。
- 多到多对称建模(M2M):形式化为 \(\mathcal{F}_{\text{M2M}}:\mathcal{M}_{\text{in}}\rightarrow\mathcal{M}_{\text{out}}\),其中输入/输出子集可包含任意模态组合。这代表了原生融合的终极阶段,建立了完全对称的输入输出流,理解与生成在单一Transformer内共存,消除了非对称设计中的信息瓶颈,实现流畅、实时、任意到任意的智能。其技术路径又分为“全离散统一”(如Chameleon、AnyGPT)和“保留模态特异性”(如Janus-Pro、Transfusion、TUNA-2)两大阵营。
关键技术细节补充:
- 全离散统一路径的挑战:连续信号离散化必然导致有损压缩(如LongCat-Next通过共演化码本缓解);不同模态词元在单一Softmax层中的竞争可能导致输��范数爆炸(Chameleon引入QK-Norm抑制)和巨大的推理延迟(Emu3.5通过离散扩散适应实现约20倍加速)。
- 保留模态特异性路径的冲突:需要同时满足理解(需要高度压缩的高级语义抽象)与生成(需要细粒度的低级像素特征)的矛盾需求(解决策略:物理解耦,如Janus-Pro使用独立视觉编码器;无编码器建模,如TUNA-2直接馈入原始像素块);以及在单一网络内桥接自回归(AR)和扩散(Diffusion)范式(如Transfusion使用混合注意力机制:文本用因果掩码,图像块用双向注意力)。


💡 核心创新点
- 问题形式化:首次为“原生多模态建模”提供了严谨、系统的数学和概念定义,建立了基于“架构原生度”(中期/早期融合)和“输入输出对偶性”(M2T/M2G/M2M)的双维度分类法,为碎片化的设计空间提供了结构化视角。
- 技术路线图:全面梳理了NMM全生命周期(架构、数据、训练、推理、评估)的技术现状、核心挑战与解决方案,特别强调了从后期融合到中期融合再到早期融合范式演进中,训练策略(如差异学习率、解耦损失、模态混合调度)的必然性变化。
- 未来展望:基于当前轨迹,提出了朝向真正原生、对称、流式、具身化多模态智能的开放问题与战略方向,包括架构收敛、数据生成、联合训练食谱、系统协同设计及评估革新。
📊 实验结果
本文作为综述和路线图论文,未提出新的实验方法,因此没有“自己的”实验结果。但论文通过Table 1系统性地汇总了截至2026年5月的众多已发布的原生多模态模型,作为其分类法和讨论的实证基础。该表格是本文最重要的实证贡献之一。
Table 1:近期发布的原生多模态模型综合比较
| 模型类别 | 模型名称 | 日期 | 旗舰模型参数量 | 输入:文本 | 输入:图像 | 输入:音频 | 输入:视频 | 输出:文本 | 输出:图像 | 输出:音频 | 输出:视频 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 多到一文本生成 | MiniCPM-V-4.6 | 2026.05 | 1B | ✓ | ✓ | – | ✓ | ✓ | – | – | – |
| Nemotron3-Nano-Omni | 2026.04 | 30B A 3B | ✓ | ✓ | ✓ | ✓ | ✓ | – | – | – | |
| MiMo-V2.5 | 2026.04 | 310B A 15B | ✓ | ✓ | ✓ | ✓ | ✓ | – | – | – | |
| Qwen3.6 | 2026.04 | 27B | ✓ | ✓ | – | ✓ | ✓ | – | – | – | |
| Gemma-4-31B | 2026.04 | 31B | ✓ | ✓ | – | ✓ | ✓ | – | – | – | |
| Gemma-4-E4B | 2026.04 | 4.5B (8B) | ✓ | ✓ | ✓ | ✓ | ✓ | – | – | – | |
| Kimi K2.5 | 2026.01 | 1T A 32B | ✓ | ✓ | – | ✓ | ✓ | – | – | – | |
| GLM-5V-Turbo | 2026.04 | 744B A 40B | ✓ | ✓ | – | ✓ | ✓ | – | – | – | |
| Llama-4-Scout | 2025.04 | 109B A 17B | ✓ | ✓ | – | ✓ | ✓ | – | – | – | |
| Llama-4-Maverick | 2025.04 | 400B A 17B | ✓ | ✓ | – | ✓ | ✓ | – | – | – | |
| InternVL-3.5 | 2025.08 | 241B A 28B | ✓ | ✓ | – | ✓ | ✓ | – | – | – | |
| Qwen3-VL | 2025.09 | 235B A 22B | ✓ | ✓ | – | ✓ | ✓ | – | – | – | |
| Qwen2.5-VL | 2025.02 | 72B | ✓ | ✓ | – | ✓ | ✓ | – | – | – | |
| CogVLM | 2023.11 | 17B | ✓ | ✓ | – | – | ✓ | – | – | – | |
| Video-LLaVA | 2023.11 | 13B | ✓ | ✓ | – | ✓ | ✓ | – | – | – | |
| Qwen-Audio | 2023.11 | 13B | ✓ | ✓ | – | ✓ | ✓ | – | – | – | |
| 多到一场景生成 | HiDream-O1-Image | 2026.05 | 8B | ✓ | ✓ | – | – | – | ✓ | – | – |
| OmniVoice | 2026.04 | 0.8B | ✓ | ✓ | ✓ | – | – | – | ✓ | – | |
| LTX-2.3 | 2026.03 | 19B | ✓ | ✓ | ✓ | ✓ | – | – | ✓ | ✓ | |
| Ming-Flash-Omni-2.0 | 2026.02 | 100B A 6B | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | – | |
| MiniCPM-o-4.5 | 2026.02 | 9B | ✓ | ✓ | ✓ | ✓ | ✓ | – | ✓ | – | |
| Kling-Omni | 2025.12 | - | ✓ | ✓ | – | ✓ | – | – | – | ✓ | |
| HunyuanVideo-1.5 | 2025.12 | 8.3B | ✓ | – | – | – | – | – | – | ✓ | |
| LTX-2.2 | 2025.10 | 19B | ✓ | ✓ | ✓ | ✓ | – | – | ✓ | ✓ | |
| Qwen3-Omni | 2025.09 | 30B A 3B | ✓ | ✓ | ✓ | ✓ | ✓ | – | ✓ | – | |
| Wan2.2-T2V-A14B | 2025.07 | 27B A 14B | ✓ | – | – | – | – | – | – | ✓ | |
| Wan2.2-TI2V-5B | 2025.07 | 5B | ✓ | ✓ | – | – | – | – | – | ✓ | |
| Seedream3.0 | 2025.04 | 12B | ✓ | – | – | – | – | ✓ | – | – | |
| 多到多对称建模 | Lance | 2026.05 | 3B | ✓ | ✓ | – | ✓ | ✓ | ✓ | – | ✓ |
| Mamoda2.5 | 2026.05 | 25B A 3B | ✓ | ✓ | – | – | ✓ | ✓ | – | – | |
| TUNA-2 | 2026.04 | 7B | ✓ | ✓ | – | – | ✓ | ✓ | – | – | |
| SenseNova-U1-8B-MoT* | 2026.04 | 8B (18B) | ✓ | ✓ | – | – | ✓ | ✓ | – | – | |
| LLaDA2.0-Uni* | 2026.04 | 16B A 1B | ✓ | ✓ | ✓ | – | ✓ | ✓ | ✓ | – | |
| LongCat-Next* | 2026.04 | 68.5B A 3B | ✓ | ✓ | ✓ | – | ✓ | ✓ | ✓ | – | |
| Emu3.5* | 2025.10 | 34.1B | ✓ | ✓ | – | ✓ | ✓ | ✓ | – | ✓ | |
| Show-o2 | 2025.09 | 7B | ✓ | ✓ | – | ✓ | ✓ | ✓ | – | ✓ | |
| BAGEL | 2025.05 | 14B A 7B | ✓ | ✓ | – | ✓ | ✓ | ✓ | – | – | |
| OneCAT* | 2025.09 | 9B A 3B | ✓ | ✓ | ✓ | – | ✓ | ✓ | ✓ | – | |
| Janus-Pro* | 2025.01 | 7B | ✓ | ✓ | – | – | ✓ | ✓ | – | – | |
| Moshi* | 2024.09 | 7B | ✓ | – | ✓ | – | ✓ | – | ✓ | – | |
| Transfusion | 2024.08 | 7B | ✓ | ✓ | – | – | ✓ | ✓ | – | – | |
| Chameleon* | 2024.05 | 34B | ✓ | ✓ | – | – | ✓ | ✓ | – | – | |
| AnyGPT* | 2024.02 | 7B | ✓ | ✓ | ✓ | – | ✓ | ✓ | ✓ | – | |
| 注:表示采用离散统一方案的模型。A表示激活参数(混合专家模型)。()表示特殊架构设计的有效(总)参数量。 |


🔬 细节详述
训练策略的范式依赖性:论文系统论证了训练签名(冻结拓扑、学习率拓扑、损失公式化、稳定性处方、课程调度)如何随融合范式(后期->中期->早期)演进而必然变化。
- 后期融合预训练:签名是退化的。编码器冻结,损失仅文本交叉熵,无需特殊稳定器。
- 中期融合预训练:编码器接收梯度是根本变化。强制要求差异学习率(如CogVLM为编码器使用1/10基础学习率)和解耦损失(如Janus-Pro在文本词元上使用交叉熵,在离散VQ词元上使用交叉熵)。分辨率课程变得关键(如MiniCPM-V从224到448到1344+)。
- 早期融合预训练:所有组件从第一步开始联合优化。损失坍缩为单一目标(离散统一:统一交叉熵;混合统一:如Transfusion的 \(\mathcal{L}=\mathcal{L}_{\text{LM}}+5\cdot\mathcal{L}_{\text{DDPM}}\))。稳定性预设成为必要条件:Chameleon的消融实验显示,没有QK-Norm和z-loss(\(10^{-5}\cdot\log^{2}Z\))则会发散。模态混合调度成为核心超参数(如Chameleon固定每张图像1024词元,Moshi将一半批次分配为纯文本以防止遗忘)。
在策略蒸馏(OPD):这是RL后的新兴范式。其核心是修改GRPO,用学生模型与教师模型之间的对数比率替代组相对优势:\(\hat{A}_{i,t}=\mathrm{sg}\!\left[\log\pi_{\text{teacher}}(y_{i,t}\!\mid\!x,y_{i, 推理与部署:论文指出了三大挑战及应对方向。 评估:论文整理了全面的评估基准(见Table 3),涵盖图像(理解与生成)、音频(语音识别、合成、全双工交互)、视频(离线理解、流式理解、生成)三大模态。特别指出了现有评估的两大系统性缺口:1) 很少联合评估理解与生成,或在交互下的跨模态接地;2) 纯准确性指标忽略了响应时机、计算开销等部署关键维度。 总分调整说明:原评分7.5偏低。考虑到本文在形式化定义、系统分类和技术梳理方面的扎实工作和明确贡献,对领域具有较高的指导意义,且技术描述准确严谨,因此上调至8.0分。扣分点主要在于作为综述的“开源”与“可复现性”天然受限,以及部分前沿模型信息的可验证性不足。⚖️ 评分理由
🚨 局限与问题