📄 Toward Native Multimodal Modeling: A Roadmap

#多模态模型 #模型压缩 #高效推理 #强化学习 #自回归模型

学术质量 7/7 | 影响力 2/2 | 可复现性 2/2 | 置信度高

👥 作者与机构

Siyu An (Equal Contribution, Corresponding Author) [1], Junru Lu (Equal Contribution) [1], Junnan Dong (Equal Contribution, Corresponding Author) [1], Qiufeng Wang [1], Yinghui Li [1], Weizhi Fei [2], Zichao Yu [3], Zheng Yuan [1], Biao Liu [1], Haopeng Wang [1], Renzhao Liang [1], Yixuan Yang [4], Yunhang Shen [1], Bo Ke [1], Keyu Chen [1], Linhao Luo [5], Difan Zou [3], Xiao Huang [6], Di Yin [1], Ruizhi Qiao [1], Xing Sun [1] 机构： [1] 腾讯优图实验室 [2] 清华大学 [3] 香港大学 [4] 华威大学 [5] 莫纳什大学 [6] 香港理工大学

💡 毒舌点评

这篇路线图论文野心勃勃，试图为当下火热但混乱的“原生多模态建模”领域提供一个统一的分类法和技术框架。优点显而易见：定义清晰（如“原生度”）、分类系统（中期/早期融合，M2T/M2G/M2M）、综述全面（从架构到评估）。它成功地将一堆零散的论文和模型串联成了一条从“后期融合”到“中期融合”再到“早期融合”的演进叙事线。然而，其弱点也恰恰藏在这份“全面”里。作为一篇路线图，它更像一份精心组织的技术目录和趋势报告，而非具有深度批判性的分析。对于核心挑战，如“全离散统一”与“保留模态特异性”两条路径的根本矛盾，论述虽多但解决方案的论述略显乐观。对现有模型的批判性剖析不足，更多是描述“它们做了什么”，而非“它们为什么这样选择，以及代价是什么”。此外，文中引用的模型（如MiMo-V2.5、Nemotron3-Nano-Omni）很多处于未公开或前沿状态，读者难以验证其具体技术细节，这在一定程度上削弱了综述的可验证性。总体而言，这是一份优秀的领域入门和概览文献，但距离成为该领域的“圣经”还差一份冷峻的、敢于指出皇帝没穿衣服的审视。

📌 核心摘要

本文提出了“原生多模态建模”（NMM）的形式化定义、分类体系及技术路线图。核心贡献在于：1）从架构“原生度”出发，将多模态融合范式划分为非原生（后期融合）、原生初期（中期融合，特征注入联合骨干网络）和原生终极（早期融合，所有模态从初始就映射到统一嵌入空间）；2）基于输入输出对偶性，将现有原生模型分为三类：多到一文本生成（M2T）、多到一场景生成（M2G）和多到多对称建模（M2M）。论文系统综述了从架构设计（M2T/M2G/M2M的具体挑战与方案）、数据策展（理解、生成、交互、对齐四类数据）、训练策略（预训练/SFT/RL/OPD在各融合范式下的差异）、推理部署（长上下文、异构与规模、流式全双工）到评估基准的全技术栈，并指出了通往对称、流式、具身化多模态世界模型的开放问题与未来方向。

🔗 开源详情

代码：论文中未提供具体代码仓库链接。论文首页附有项目主页链接：https://nmm-roadmap.github.io。
模型权重：论文中未提及具体模型的权重下载链接（如HuggingFace或ModelScope链接）。论文列举了众多开源或发布技术报告的模型（见Table 1），但未提供它们的权重获取地址。
数据集：论文中详细讨论并列举了多种用于训练的数据集（见Table 2），但未提供这些数据集的具体下载链接或开源协议信息。
Demo：论文中未提及。
复现材料：论文中未提及训练配置、检查点或附录等具体复现材料。本文为一篇综述和路线图文章，旨在梳理设计空间和技术方向，并非提供可复现的具体实现。
论文中引用的开源项目：论文在正文中及表格中引用了大量开源模型、数据集和工具。以下列出部分关键项目及其名称，但论文中均未提供其具体的代码仓库或项目主页链接。
- 模型：MiniCPM-V-4.6, Nemotron3-Nano-Omni, MiMo-V2.5, Qwen3.6, Gemma-4, Kimi K2.5, GLM-5V-Turbo, Llama-4, InternVL-3.5, Qwen3-VL, Qwen2.5-VL, CogVLM, Video-LLaVA, Qwen-Audio, HiDream-O1-Image, OmniVoice, LTX-2.3, Ming-Flash-Omni-2.0, MiniCPM-o-4.5, Kling-Omni, HunyuanVideo-1.5, Qwen3-Omni, Wan2.2-T2V-A14B, Seedream3.0, Lance, Mamoda2.5, TUNA-2, SenseNova-U1, LLaDA2.0-Uni, LongCat-Next, Emu3.5, Show-o2, BAGEL, OneCAT, Janus-Pro, Moshi, Transfusion, Chameleon, AnyGPT。
- 数据集：LAION-5B, COCO Captions, CC3M/CC12M, YFCC100M, DataComp, VQA v2, GQA, OK-VQA, ScienceQA, LLaVA-Instruct, MMC4, OBELICS, OmniCorpus, DocVQA, ChartQA, TextVQA, MSR-VTT, ActivityNet, AudioSet, LibriSpeech, Common Voice, DiffusionDB, WebVid-10M, Panda-70M, LibriTTS, VCTK, WebShop, Mind2Web, WebArena, ALFWorld, Open X-Embodiment。
- 工具与框架：CLIP, SigLIP, Whisper, SAM2, DiT, FlashAttention。

🏗️ 方法概述和架构

本文提出的方法论核心是建立一个双维度的分类框架来结构化NMM领域。

维度一：架构原生度

后期融合（非原生）：定义为 \(\mathcal{F}_{\text{late}}=\mathcal{G}\left(\text{LLM}\big(\{\mathcal{P}_{i}(E_{i}(m_{i}))\}_{i}^{n}\big)\right)\)。使用独立的模态编码器 \(E_i\) 和投影层 \(\mathcal{P}_i\) 提取特征，输入冻结的LLM，最后通过嫁接的输出头 \(\mathcal{G}\) 生成结果。核心特征是骨干网络对原始感官信号“致盲”，跨模态交互深度受限。
中期融合（原生初期）：定义为 \(\mathcal{F}_{\text{mid}}=\text{Backbone}(\mathcal{C}(E_{1}(m_{1}),\dots,E_{n}(m_{n})))\)。特征从独立编码器流出后，通过跨模态对齐或注入算子 \(\mathcal{C}\)（如交叉注意力、深度堆叠适配器）注入到联合多模态骨干网络的中间层。模型能感知跨模态关联，但由于上游编码器与中央骨干网络的显式结构边界，仍具有固有的模态感知性。代表模型包括CogVLM、Qwen2.5-VL、InternVL-3.5等。
早期融合（原生终极）：定义为 \(\mathcal{F}_{\text{early}}=\text{Transformer}(\bigcup_{i}\mathcal{T}(m_{i}))\)。完全绕过独立编码器，所有模态通过一个统一的算子 \(\mathcal{T}\)（统一词元化）从一开始就映射到单一共享的嵌入空间。这种“天生原生”设计实现了深层次的协同，如同理想的统一世界模型，将所有模态视为本质等价的词元。代表模型包括Chameleon、Transfusion、Emu3.5等。

维度二：输入输出对偶性基于模态流动方向，将NMM生态组织为三类功能范式：

多到一文本生成（M2T）：形式化为 \(\mathcal{F}_{\text{M2T}}:\mathcal{M}\rightarrow T\)，其中 \(T \in \mathcal{M}\) 是文本模态。模型接收任意交错的多模态流，进行密集推理，最终将多模态隐藏状态坍缩到单一语言空间输出文本。优化瓶颈在于跨模态对齐和感知接地。
多到一场景生成（M2G）：形式化为 \(\mathcal{F}_{\text{M2G}}:\mathcal{M}\rightarrow y_{k}\)，其中 \(y_{k} \in \mathcal{M}\) 是非文本目标模态（如视频像素、音频波形）。架构焦点是非对称生成，建立统一的输出通路，直接从核心原生隐藏表征解码目标模态，确保生成的模态与多模态提示保持高语义一致性。代表方向包括原生视频生成（如Wan2.2、HunyuanVideo-1.5）和语音生成（如OmniVoice、MiniCPM-o-4.5）。
多到多对称建模（M2M）：形式化为 \(\mathcal{F}_{\text{M2M}}:\mathcal{M}_{\text{in}}\rightarrow\mathcal{M}_{\text{out}}\)，其中输入/输出子集可包含任意模态组合。这代表了原生融合的终极阶段，建立了完全对称的输入输出流，理解与生成在单一Transformer内共存，消除了非对称设计中的信息瓶颈，实现流畅、实时、任意到任意的智能。其技术路径又分为“全离散统一”（如Chameleon、AnyGPT）和“保留模态特异性”（如Janus-Pro、Transfusion、TUNA-2）两大阵营。

关键技术细节补充：

全离散统一路径的挑战：连续信号离散化必然导致有损压缩（如LongCat-Next通过共演化码本缓解）；不同模态词元在单一Softmax层中的竞争可能导致输��范数爆炸（Chameleon引入QK-Norm抑制）和巨大的推理延迟（Emu3.5通过离散扩散适应实现约20倍加速）。
保留模态特异性路径的冲突：需要同时满足理解（需要高度压缩的高级语义抽象）与生成（需要细粒度的低级像素特征）的矛盾需求（解决策略：物理解耦，如Janus-Pro使用独立视觉编码器；无编码器建模，如TUNA-2直接馈入原始像素块）；以及在单一网络内桥接自回归（AR）和扩散（Diffusion）范式（如Transfusion使用混合注意力机制：文本用因果掩码，图像块用双向注意力）。

💡 核心创新点

问题形式化：首次为“原生多模态建模”提供了严谨、系统的数学和概念定义，建立了基于“架构原生度”（中期/早期融合）和“输入输出对偶性”（M2T/M2G/M2M）的双维度分类法，为碎片化的设计空间提供了结构化视角。
技术路线图：全面梳理了NMM全生命周期（架构、数据、训练、推理、评估）的技术现状、核心挑战与解决方案，特别强调了从后期融合到中期融合再到早期融合范式演进中，训练策略（如差异学习率、解耦损失、模态混合调度）的必然性变化。
未来展望：基于当前轨迹，提出了朝向真正原生、对称、流式、具身化多模态智能的开放问题与战略方向，包括架构收敛、数据生成、联合训练食谱、系统协同设计及评估革新。

📊 实验结果

本文作为综述和路线图论文，未提出新的实验方法，因此没有“自己的”实验结果。但论文通过Table 1系统性地汇总了截至2026年5月的众多已发布的原生多模态模型，作为其分类法和讨论的实证基础。该表格是本文最重要的实证贡献之一。

Table 1：近期发布的原生多模态模型综合比较

模型类别	模型名称	日期	旗舰模型参数量	输入：文本	输入：图像	输入：音频	输入：视频	输出：文本	输出：图像	输出：音频	输出：视频
多到一文本生成	MiniCPM-V-4.6	2026.05	1B	✓	✓	–	✓	✓	–	–	–
	Nemotron3-Nano-Omni	2026.04	30B A 3B	✓	✓	✓	✓	✓	–	–	–
	MiMo-V2.5	2026.04	310B A 15B	✓	✓	✓	✓	✓	–	–	–
	Qwen3.6	2026.04	27B	✓	✓	–	✓	✓	–	–	–
	Gemma-4-31B	2026.04	31B	✓	✓	–	✓	✓	–	–	–
	Gemma-4-E4B	2026.04	4.5B (8B)	✓	✓	✓	✓	✓	–	–	–
	Kimi K2.5	2026.01	1T A 32B	✓	✓	–	✓	✓	–	–	–
	GLM-5V-Turbo	2026.04	744B A 40B	✓	✓	–	✓	✓	–	–	–
	Llama-4-Scout	2025.04	109B A 17B	✓	✓	–	✓	✓	–	–	–
	Llama-4-Maverick	2025.04	400B A 17B	✓	✓	–	✓	✓	–	–	–
	InternVL-3.5	2025.08	241B A 28B	✓	✓	–	✓	✓	–	–	–
	Qwen3-VL	2025.09	235B A 22B	✓	✓	–	✓	✓	–	–	–
	Qwen2.5-VL	2025.02	72B	✓	✓	–	✓	✓	–	–	–
	CogVLM	2023.11	17B	✓	✓	–	–	✓	–	–	–
	Video-LLaVA	2023.11	13B	✓	✓	–	✓	✓	–	–	–
	Qwen-Audio	2023.11	13B	✓	✓	–	✓	✓	–	–	–
多到一场景生成	HiDream-O1-Image	2026.05	8B	✓	✓	–	–	–	✓	–	–
	OmniVoice	2026.04	0.8B	✓	✓	✓	–	–	–	✓	–
	LTX-2.3	2026.03	19B	✓	✓	✓	✓	–	–	✓	✓
	Ming-Flash-Omni-2.0	2026.02	100B A 6B	✓	✓	✓	✓	✓	✓	✓	–
	MiniCPM-o-4.5	2026.02	9B	✓	✓	✓	✓	✓	–	✓	–
	Kling-Omni	2025.12	-	✓	✓	–	✓	–	–	–	✓
	HunyuanVideo-1.5	2025.12	8.3B	✓	–	–	–	–	–	–	✓
	LTX-2.2	2025.10	19B	✓	✓	✓	✓	–	–	✓	✓
	Qwen3-Omni	2025.09	30B A 3B	✓	✓	✓	✓	✓	–	✓	–
	Wan2.2-T2V-A14B	2025.07	27B A 14B	✓	–	–	–	–	–	–	✓
	Wan2.2-TI2V-5B	2025.07	5B	✓	✓	–	–	–	–	–	✓
	Seedream3.0	2025.04	12B	✓	–	–	–	–	✓	–	–
多到多对称建模	Lance	2026.05	3B	✓	✓	–	✓	✓	✓	–	✓
	Mamoda2.5	2026.05	25B A 3B	✓	✓	–	–	✓	✓	–	–
	TUNA-2	2026.04	7B	✓	✓	–	–	✓	✓	–	–
	SenseNova-U1-8B-MoT*	2026.04	8B (18B)	✓	✓	–	–	✓	✓	–	–
	LLaDA2.0-Uni*	2026.04	16B A 1B	✓	✓	✓	–	✓	✓	✓	–
	LongCat-Next*	2026.04	68.5B A 3B	✓	✓	✓	–	✓	✓	✓	–
	Emu3.5*	2025.10	34.1B	✓	✓	–	✓	✓	✓	–	✓
	Show-o2	2025.09	7B	✓	✓	–	✓	✓	✓	–	✓
	BAGEL	2025.05	14B A 7B	✓	✓	–	✓	✓	✓	–	–
	OneCAT*	2025.09	9B A 3B	✓	✓	✓	–	✓	✓	✓	–
	Janus-Pro*	2025.01	7B	✓	✓	–	–	✓	✓	–	–
	Moshi*	2024.09	7B	✓	–	✓	–	✓	–	✓	–
	Transfusion	2024.08	7B	✓	✓	–	–	✓	✓	–	–
	Chameleon*	2024.05	34B	✓	✓	–	–	✓	✓	–	–
	AnyGPT*	2024.02	7B	✓	✓	✓	–	✓	✓	✓	–
注：表示采用离散统一方案的模型。A表示激活参数（混合专家模型）。()表示特殊架构设计的有效（总）参数量。

🔬 细节详述

训练策略的范式依赖性：论文系统论证了训练签名（冻结拓扑、学习率拓扑、损失公式化、稳定性处方、课程调度）如何随融合范式（后期->中期->早期）演进而必然变化。

后期融合预训练：签名是退化的。编码器冻结，损失仅文本交叉熵，无需特殊稳定器。
中期融合预训练：编码器接收梯度是根本变化。强制要求差异学习率（如CogVLM为编码器使用1/10基础学习率）和解耦损失（如Janus-Pro在文本词元上使用交叉熵，在离散VQ词元上使用交叉熵）。分辨率课程变得关键（如MiniCPM-V从224到448到1344+）。
早期融合预训练：所有组件从第一步开始联合优化。损失坍缩为单一目标（离散统一：统一交叉熵；混合统一：如Transfusion的 \(\mathcal{L}=\mathcal{L}_{\text{LM}}+5\cdot\mathcal{L}_{\text{DDPM}}\)）。稳定性预设成为必要条件：Chameleon的消融实验显示，没有QK-Norm和z-loss（\(10^{-5}\cdot\log^{2}Z\)）则会发散。模态混合调度成为核心超参数（如Chameleon固定每张图像1024词元，Moshi将一半批次分配为纯文本以防止遗忘）。

在策略蒸馏（OPD）：这是RL后的新兴范式。其核心是修改GRPO，用学生模型与教师模型之间的对数比率替代组相对优势：\(\hat{A}_{i,t}=\mathrm{sg}\!\left[\log\pi_{\text{teacher}}(y_{i,t}\!\mid\!x,y_{i,

推理与部署：论文指出了三大挑战及应对方向。

缓解长上下文推理中的序列爆炸：技术路线包括视觉重采样/词元压缩（如VisionZip、FitPrune）、动态分辨率与空间稀疏感知（如Qwen-VL的动态视觉词元化、LLaVA-UHD的AnyRes切片）。
解决异构性与规模的双重挑战：通过纯离散化（如Chameleon的8192条目图像码本）缓解内存带宽压力；通过MoE与混合范式优化路由（如Janus-Pro的细粒度隔离专家、Transfusion的混合AR与扩散目标）。对于混合掩码冲突（因果与双向），FlexAttention和FlashMask提供动态计算图生成与切换方案。
实时流式与全双工部署：技术路线包括增量多模态词元解码、全双工状态管理、推理时自适应比特率控制、模态感知混合量化与资源自适应压缩。

评估：论文整理了全面的评估基准（见Table 3），涵盖图像（理解与生成）、音频（语音识别、合成、全双工交互）、视频（离线理解、流式理解、生成）三大模态。特别指出了现有评估的两大系统性缺口：1) 很少联合评估理解与生成，或在交互下的跨模态接地；2) 纯准确性指标忽略了响应时机、计算开销等部署关键维度。

⚖️ 评分理由

创新性 (3/3)：优秀。本文的主要创新在于为快速发展的NMM领域提供了首个严谨、系统的形式化定义和双维度分类法（架构原生度、输入输出对偶性）。它成功地将一个混乱的设计空间结构化，并构建了从架构到评估的完整技术路线图，具有很强的概念整合和方向指引价值。
技术严谨性 (1.5/1.5)：良好。论文对技术的描述准确、详细，数学定义清晰（如 \(\mathcal{F}_{\text{late}}, \mathcal{F}_{\text{mid}}, \mathcal{F}_{\text{early}}\)）。对不同训练阶段（PT, SFT, RL）和不同融合范式下的技术选择分析深入且逻辑自洽（如差异学习率、解耦损失、z-loss的必要性）。引用了大量近期（至2026年）的前沿模型和技术报告作为论据。
实验充分性 (1.5/1.5)：良好。作为一篇综述/路线图论文，其“实验”充分性体现在对现有工作的全面梳理和系统性比较上。Table 1的模型总结覆盖面广，是理解当前NMM生态的宝贵资料。文中引用的技术细节（如Chameleon的消融实验、MiMo-V2.5的OPD流程）具体可信。
清晰度 (1/1)：良好。论文结构清晰，从问题定义到技术详解再到未来展望，逻辑流畅。图表（如Figure 1, 2, 4）有助于理解演进脉络和分类关系。部分技术细节密集（如§5训练策略），但表述尚算清晰。
影响力 (2/2)：高。本文旨在为整个NMM领域提供结构化框架和路线图，对社区理解领域现状、定位研究方向具有潜在的重要影响力。它可能成为后续研究的重要参考文献和概念基础。
开源 (1.5/1.5)：中等偏下。论文本身是综述，未提供代码、模型或数据集。虽然引用了大量开源模型，但Table 1和正文中均未提供这些模型的具体权重获取链接（如HuggingFace、ModelScope）。项目主页（https://nmm-roadmap.github.io）提供了论文信息，但非技术复现资源。因此，此维度得分适中。
可复现性 (0.5/0.5)：低。由于论文本身是综述性质，未提出可复现的新方法。其引用的模型中，部分处于未公开或高度复杂的工业阶段（如MiMo-V2.5、Kimi K2.5），外部研究者难以获取权重或完整复现其训练流程。作为一篇路线图，其主要价值在于思想传播而非直接复现。

总分调整说明：原评分7.5偏低。考虑到本文在形式化定义、系统分类和技术梳理方面的扎实工作和明确贡献，对领域具有较高的指导意义，且技术描述准确严谨，因此上调至8.0分。扣分点主要在于作为综述的“开源”与“可复现性”天然受限，以及部分前沿模型信息的可验证性不足。

🚨 局限与问题

批判性不足：论文在描述技术路径时，更多呈现的是“是什么”和“怎么做”，对不同路径（如全离散统一 vs. 保留模态特异性）的根本性矛盾、权衡与代价的批判性分析深度可以加强。例如，全离散统一路径在推理延迟上的具体痛点量化不足，保留模态特异性路径中“理解-生成二分法”的终极解决方案是否已清晰？
对“原生”的评估标准模糊：论文形式化了“原生度”，但在评估一个具体模型“有多原生”时，缺乏量化的评估指标。Table 1仅列出了能力（输入/输出模态），但未评估其架构集成的深度（例如，是简单拼接还是深层交互）。
引用模型的可访问性：文中引用了大量2025-2026年的模型，其中许多（特别是“多到多对称建模”类）技术报告细节或权重可能尚未完全公开或广泛可用，这使得其他研究者难以直接验证或基于其工作进行深入分析。
对传统多模态任务关注有限：路线图高度聚焦于“原生”范式演进，可能相对轻视了在传统后期融合范式上仍然非常有效甚至SOTA的具体任务（如特定领域的OCR、视觉推理），以及在这些任务上原生模型是否已经实现了全面超越。
未来展望的实现路径略显乐观：对未来“世界模型”的展望激动人心，但论文较少讨论实现这些宏伟目标（如完全对称、流式、具身）所面临的基础科学障碍和工程极限，更多是技术方向的列举。

← 返回 2026-05-26 语音/音乐/音频论文速递

📄 Toward Native Multimodal Modeling: A Roadmap#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

🔬 细节详述#

⚖️ 评分理由#

🚨 局限与问题#

📎 相关论文