NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching
📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #音频生成 #语音对话系统 🔥 8.5/10 | 前25% | #多模态模型 | #流匹配 | #音频生成 #语音对话系统 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Run Luo(中国科学院深圳先进技术研究院,中国科学院大学) 通讯作者:Xiaobo Xia(新加坡国立大学,中国科学技术大学);Min Yang(中国科学院深圳先进技术研究院,深圳大学先进技术研究院) 作者列表:Run Luo(中国科学院深圳先进技术研究院,中国科学院大学)、Xiaobo Xia(新加坡国立大学,中国科学技术大学)、Lu Wang(Rtizz-AI)、Longze Chen(中国科学院深圳先进技术研究院,中国科学院大学)、Renke Shan(Rtizz-AI)、Jing Luo(中国科学院深圳先进技术研究院,中国科学院大学)、Min Yang(中国科学院深圳先进技术研究院,深圳大学先进技术研究院)、Tat-Seng Chua(新加坡国立大学) 💡 毒舌点评 亮点在于其架构的简洁与统一性,用单一DFM骨干取代了常见的AR+Diffusion混合或解耦设计,这在处理需要深度融合的多模态检索任务时确实显示出优势,实验也验证了这一点。短板则受限于“论文中未说明”训练硬件的具体规格和训练总时长,且其核心贡献——DFM在统一建模上的潜力——受限于仅7B的参数规模,大规模Scaling下的表现未知,使得“下一代范式”的论断稍显仓促。 🔗 开源详情 代码:是,提供了GitHub仓库链接:https://github.com/ritzz-ai/Next-OMNI 模型权重:是,论文明确提到“开源”模型检查点,并提供了链接。 数据集:部分公开。论文中使用的大部分数据集为公开数据集(如LAION, LibriSpeech等),但也包含“私有数据”。论文未提供统一的训练数据下载链接,但详细列出了数据来源和构成(表8)。 Demo:论文中未提及在线演示。 复现材料:非常充分。附录中提供了模型设计细节(D)、数据策展详情(E)、训练配方(F,表9)和额外的实验与可视化结果(G, H, I)。 论文中引用的开源项目:主要包括:Qwen2.5系列(骨干/对齐损失)、CLIP-ViT(视觉编码器初始化)、Whisper(音频编码器初始化)、FLUX(图像生成数据合成)、MMEvol(指令数据增强)、以及训练数据相关的多个公开数据集工具(如LAION, Common Crawl)。 📌 核心摘要 本文旨在解决现有统一多模态模型在理解和生成任务间存在固有冲突、架构冗余(混合/解耦设计)导致难以支持跨模态检索等更通用场景的问题。核心方法是提出NExT-OMNI,首个完全基于离散流匹配(DFM)的开源全能态基础模型。与已有的自回归或混合架构相比,其新在:1)完全摒弃自回归范式,采用DFM进行并行去噪,原生支持双向信息融合;2)设计了带有重建损失的统一表征编码器,为生成、理解和检索任务提供一体化特征;3)引入动态长度生成策略和自适应缓存机制以提升效率。主要实验结果如下:在全能态理解基准(OmniBench, WorldSense, AV-Odyssey)上,平均得分39.7,优于OpenOmni(36.5);在多轮视觉交互(OpenING)上,平均分55.0,显著高于前代模型;在多模态检索(MMEBEDIR子集)上,平均Top-5准确率32.9,优于所有对比模型(MMaDA为31.8);在语音交互(Spoken QA)上取得有竞争力的结果。实际意义在于,它为构建更统一、高效的全能态基础模型提供了一个有前景的新范式。主要局限性在于,受限于计算资源,模型仅在7B规模上训练和验证,其在大规模下的潜力尚未证明。 ...