📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching
#多模态模型 #流匹配 #音频生成 #语音对话系统
🔥 8.5/10 | 前25% | #多模态模型 | #流匹配 | #音频生成 #语音对话系统
学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高
👥 作者与机构
- 第一作者:Run Luo(中国科学院深圳先进技术研究院,中国科学院大学)
- 通讯作者:Xiaobo Xia(新加坡国立大学,中国科学技术大学);Min Yang(中国科学院深圳先进技术研究院,深圳大学先进技术研究院)
- 作者列表:Run Luo(中国科学院深圳先进技术研究院,中国科学院大学)、Xiaobo Xia(新加坡国立大学,中国科学技术大学)、Lu Wang(Rtizz-AI)、Longze Chen(中国科学院深圳先进技术研究院,中国科学院大学)、Renke Shan(Rtizz-AI)、Jing Luo(中国科学院深圳先进技术研究院,中国科学院大学)、Min Yang(中国科学院深圳先进技术研究院,深圳大学先进技术研究院)、Tat-Seng Chua(新加坡国立大学)
💡 毒舌点评
亮点在于其架构的简洁与统一性,用单一DFM骨干取代了常见的AR+Diffusion混合或解耦设计,这在处理需要深度融合的多模态检索任务时确实显示出优势,实验也验证了这一点。短板则受限于“论文中未说明”训练硬件的具体规格和训练总时长,且其核心贡献——DFM在统一建模上的潜力——受限于仅7B的参数规模,大规模Scaling下的表现未知,使得“下一代范式”的论断稍显仓促。
🔗 开源详情
- 代码:是,提供了GitHub仓库链接:https://github.com/ritzz-ai/Next-OMNI
- 模型权重:是,论文明确提到“开源”模型检查点,并提供了链接。
- 数据集:部分公开。论文中使用的大部分数据集为公开数据集(如LAION, LibriSpeech等),但也包含“私有数据”。论文未提供统一的训练数据下载链接,但详细列出了数据来源和构成(表8)。
- Demo:论文中未提及在线演示。
- 复现材料:非常充分。附录中提供了模型设计细节(D)、数据策展详情(E)、训练配方(F,表9)和额外的实验与可视化结果(G, H, I)。
- 论文中引用的开源项目:主要包括:Qwen2.5系列(骨干/对齐损失)、CLIP-ViT(视觉编码器初始化)、Whisper(音频编码器初始化)、FLUX(图像生成数据合成)、MMEvol(指令数据增强)、以及训练数据相关的多个公开数据集工具(如LAION, Common Crawl)。
📌 核心摘要
本文旨在解决现有统一多模态模型在理解和生成任务间存在固有冲突、架构冗余(混合/解耦设计)导致难以支持跨模态检索等更通用场景的问题。核心方法是提出NExT-OMNI,首个完全基于离散流匹配(DFM)的开源全能态基础模型。与已有的自回归或混合架构相比,其新在:1)完全摒弃自回归范式,采用DFM进行并行去噪,原生支持双向信息融合;2)设计了带有重建损失的统一表征编码器,为生成、理解和检索任务提供一体化特征;3)引入动态长度生成策略和自适应缓存机制以提升效率。主要实验结果如下:在全能态理解基准(OmniBench, WorldSense, AV-Odyssey)上,平均得分39.7,优于OpenOmni(36.5);在多轮视觉交互(OpenING)上,平均分55.0,显著高于前代模型;在多模态检索(MMEBEDIR子集)上,平均Top-5准确率32.9,优于所有对比模型(MMaDA为31.8);在语音交互(Spoken QA)上取得有竞争力的结果。实际意义在于,它为构建更统一、高效的全能态基础模型提供了一个有前景的新范式。主要局限性在于,受限于计算资源,模型仅在7B规模上训练和验证,其在大规模下的潜力尚未证明。
🏗️ 模型架构
NExT-OMNI的整体架构旨在通过单一的DFM骨干统一处理任意模态到任意模态的任务。
图1:NExT-OMNI框架概览,展示了其统一的理解、生成和检索能力。
完整流程:
- 输入处理:输入为交错的文本、图像、视频和音频序列。通过各自的模态编码器(基于CLIP-ViT和Whisper初始化的统一表征编码器)和文本分词器,将所有模态转换为离散的标记序列
x1。 - 骨干网络建模:将离散序列
x1注入噪声得到xt,输入到骨干网络(基于Qwen2.5-7B初始化,内部采用全模态的自注意力)。骨干网络的目标是预测原始干净序列x1或其对应的“速度场”,这是DFM的核心。训练时使用交叉熵损失(公式2)和模态重建损失(公式3)。 - 输出生成:
- 生成任务:从完全随机的噪声序列
t=1开始,通过多步迭代去噪(如图2右侧所示),最终得到目标模态的离散标记,再由对应的模态头(LM Head, Vision Head, Audio Head)解码为输出。 - 理解/检索任务:将输入序列送入模型,利用
<EOS>位置的统一表征特征进行分类或检索排序。
- 生成任务:从完全随机的噪声序列
主要组件:
- 模态编码器:采用统一表征设计,同一个编码器同时服务于理解和生成。通过额外的VQVAE量化器和解码器进行重建损失训练,并通过对比学习或caption损失进行语义对齐,确保其生成的特征既包含细节又具备高层语义。
- 骨干网络:继承自AR LLM,但训练目标改为DFM。关键设计是在每一层都进行多模态自注意力,以实现深层特征融合,而非使用MoE等解耦模块。
- 模态头:轻量级解码头,针对每个模态(文本、视觉、音频)独立设计。由于采用多码本量化(MCQ),视觉和音频头需要预测多个子码本索引,论文采用了基于自回归的多头设计。
- 训练目标:核心是DFM的交叉熵损失(
Lce),但为了防止模型在DFM训练中丢失统一表征中的细粒度信息,同时复用了模态编码器的重建损失(LVrec,LArec)作为约束。
图2:NExT-OMNI框架流程图。左侧展示了从噪声到干净序列的DFM过程;右侧展示了基于统一表征的跨模态检索。
💡 核心创新点
- 完全基于离散流匹配(DFM)的全能态统一架构:区别于AR或AR+Diffusion的混合架构,NExT-OMNI首次在开源的全能态模型中,从骨干网络到训练范式完全采用DFM。DFM从完全噪声并行去噪的特性,天然支持双向上下文信息融合,为需要深度特征交互的任务(如跨模态检索)提供了更优的基础,同时简化了架构(无需单独的扩散头)。
- 重建反馈增强的统一表征:为了解决统一编码器在理解和生成任务间可能存在的粒度冲突,论文设计了一种训练策略:在预训练阶段,不仅进行语义对齐,还强制编码器通过辅助的量化器和解码器进行输入重构(图4)。这种重建损失约束,确保了编码器输出的统一表征同时包含用于检索/理解的丰富语义和用于生成的细节信息,是支撑其任何到任何能力的关键。
- 动态长度生成策略与自适应缓存加速:针对理解任务需要动态输出长度的问题,训练时在响应部分插入
<PAD>,推理时根据<EOS>的置信度动态调整生成长度。同时,利用DFM多步去噪过程中特征变化平缓的特点,设计了自适应缓存机制(图3),对指令部分特征缓存不变,对响应部分特征根据余弦相似度选择性更新,结合并行解码,实现了比AR模型更快的推理速度(1.2×提升)。
图3:动态长度生成策略(左)和自适应缓存设计(右)的示意图。
🔬 细节详述
- 训练数据:
- 预训练(PT):使用短图像(256×256)、短音频(≤15s)、短文本(2K窗口)和大量低质量数据进行对齐。数据集包括ImageNet-1K,JourneyDB,LAION,FLUX合成数据(图生);重标注的COYO,CommonCrawl,LAION,DataComp(文生);LibriSpeech,WenetSpeech,AudioCaps,私有数据(音频)。
- 持续预训练(CPT):提升图像分辨率至384×384,引入长文本、交错图文、视频(8帧)和长音频(>15s分块处理)。数据集增加PixMo,LLaVA-OneVision,MMC4-Core,OmniCorpus,ShareGPT4Video,OpenVid等。
- 监督微调(SFT):在全部多模态指令数据上训练。数据集包括LLaVA-OneVision,PixMo(图);LLaVA-Video(视频);OpenOmni,InterSyn(多轮交互);BLIP3-o,ShareGPT-4o-Image,Nano-consistent(图生);TIP-I2V(视频生成)等。还通过MMEvol采样得到4M推理增强数据,用FLUX合成5M推理生成图像数据。
- 损失函数:
- 主损失:DFM建模的交叉熵损失
Lce(公式2)。 - 辅助损失:模态重建损失
LVrec和LArec,包含像素/梅尔谱重建损失、VQ损失、感知/特征匹配损失、判别器损失等。 - 总损失:
Loverall = λ1 · Lce + λ2 · LVrec + λ3 · LArec(公式3),使用GradNorm动态调整权重。
- 主损失:DFM建模的交叉熵损失
- 训练策略:三阶段渐进式训练(PT -> CPT -> SFT)。采用交错任务批次训练和梯度累积以提高效率(1.4×提升)。
- 关键超参数:
- 模型:骨干初始化自Qwen2.5-7B;视觉编码器初始自CLIP-ViT-Large(256×256,下采样率16);音频编码器初始自Whisper-Turbo。
- 量化:视觉码本4×4096,音频码本2×2048。 其他:分类器引导概率0.1,响应填充块大小64,DFM参数β_t = 3(t/(1-t))^0.9。
- 训练硬件:论文中未说明GPU型号、数量及训练总时长。
- 推理细节:使用Euler求解器进行多步迭代去噪。采用动态长度生成策略,块大小增量为64。应用自适应缓存机制加速。
- 正则化/稳定技巧:使用GradNorm平衡多任务损失;在DFM训练中加入重建损失作为正则化,防止细粒度信息丢失。
📊 实验结果
论文在全能态理解、语音交互、视觉交互和多模态检索四大类任务上进行了评估。
主要对比结果:
全能态理解(表1):在OmniBench、WorldSense、AV-Odyssey三个基准上,NExT-OMNI的平均分(AVG.)为39.7,超越了所有对比模型,包括OpenOmni(36.5)和VITA 1.5(33.9)。
模型 OmniBench (T+V/T+A/T+A+V) WorldSense (A/T+A/T+A+V) AV-Odyssey AVG. OpenOmni 38.3/36.7/37.4 34.1/38.9/37.2 32.8 36.5 VITA 1.5 34.7/31.2/33.4 32.9/37.5/36.9 30.6 33.9 NExT-OMNI 41.4/39.5/40.7 37.2/42.1/40.5 36.4 39.7 语音交互(表2):在Spoken QA基准上,NExT-OMNI在Llama Q.的S→T任务(78.4)和平均分(62.0)上表现最优,与Stream-Omni和OpenOmni等领先模型具有竞争力。
模型 Spoken QA (AVG.) Stream-Omni 60.3 (S→T) / 46.3 (S→S) OpenOmni 59.6 (S→T) / 48.1 (S→S) NExT-OMNI 62.0 (S→T) / 47.4 (S→S) 视觉交互(表3):在OpenING基准的多轮交错图文生成评估中,NExT-OMNI的平均分(AVG.)达到55.0,显著高于AR基准模型如SEED-X(50.2)和近期模型如FUDOKI(44.5)。
模型 OpenING AVG. (GPT/IntJudge) SEED-X 50.2 FUDOKI 44.5 NExT-OMNI 55.0 多模态检索(表4):在基于MMEBEDIR子集的训练和测试中,NExT-OMNI在InfoSeek、OVEN、FashionIQ、CIRR四个基准上的平均Top-5准确率为32.9,优于所有对比模型,包括采用离散��散的MMaDA(31.8)和AR混合架构的Bagel(28.5)。
模型 Paradigm AVG. Bagel AR+Diff. 28.5 MMaDA Discrete Diff. 31.8 NExT-OMNI DFM 32.9
消融实验(表5):验证了DFM范式、统一表征、动态生成策略(DGS)和重建损失项的贡献。结果显示,DGS显著提升理解性能,重建损失项对生成和检索任务提升明显,并有助于维持统一表征的细粒度信息。
图4:视觉编码器(左)和音频编码器(右)预训练训练流程。
图5:音频重构的定性结果对比。
图6:图像重构的定性结果对比。
图7:模态头设计示意图,展示了自回归多索引预测和并行多头预测两种结构。
⚖️ 评分理由
- 学术质量:6.0/7。创新性明确,将DFM范式成功应用于开源全能态模型构建,并引入重建增强的统一表征来解决核心矛盾。技术实现严谨,理论与实验结合紧密。实验非常充分,覆盖了理解、生成、检索、交互等多个维度,并进行了详尽的消融研究。证据可信,关键结论如“DFM在检索上更优”有明确数据支持。扣分主要因为模型规模(7B)限制了对DFM潜力上限的探索,部分对比未纳入当时最新的大规模模型(如Qwen2.5-Omni)。
- 选题价值:2.0/2。课题处于多模态基础模型研究的最前沿,旨在统一“理解-生成-检索”这一终极目标。其提出的DFM统一范式若能被大规模验证,可能对下一代模型架构产生重要影响。应用空间广阔,覆盖所有模态间的任意交互。与音频/语音研究者高度相关,因为音频是其核心处理模态之一。
- 开源与复现加成:+1.0/1。开源程度极高,提供了完整的代码仓库、模型检查点、详细的数据策展与训练配方。这极大地降低了社区复现和跟进研究的门槛,是本文的重大贡献之一。