ICLR 2026 - 多模态模型
共 5 篇论文
📋 论文详情
🥇 Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding
🔥 8.5/10 | 前25% | #多模态模型 | #预训练 | #音频分类 #音视频
👥 作者与机构
- 第一作者:Keane Ong(MIT;National University of Singapore)
- 通讯作者:未说明
- 作者列表:Keane Ong(MIT;National University of Singapore)、Wei Dai(MIT)、Carol Li(MIT)、Dewei Feng(MIT)、Hengzhi Li(MIT;Imperial College London)、Jingyao Wu(MIT)、Jiaee Cheong(Harvard University)、Rui Mao(Nanyang Technological University)、Gianmarco Mengaldo(National University of Singapore)、Erik Cambria(Nanyang Technological University)、Paul Pu Liang(MIT)
💡 毒舌点评
亮点:在行为理解领域,该工作首次系统性地将分散在情感、认知、病理和社会过程等多个维度的异构数据集、任务和评估指标统一成一个标准化基准,为构建行为基础模型提供了至关重要的“数据-任务-评估”三位一体的基础设施。短板:论文更像是一个扎实的工程整合工作,其核心创新在于“统一”而非提出解决行为理解某一具体子任务(如深度讽刺识别或复杂社交推理)的新算法或架构,对于寻求领域内技术深度突破的读者来说,可能略显“广而不深”。
🔗 开源详情
- 代码:论文明确提供了代码仓库链接:
https://github.com/MIT-MI/human_behavior_atlas。 - 模型权重:论文声明将发布“HUMAN BEHAVIOR ATLAS”基准及其相关的“OMNISAPIENS-7B”模型。
- 数据集:论文声明将发布“HUMAN BEHAVIOR ATLAS”基准数据集。
- Demo:论文中未提及在线演示。
- 复现材料:论文在附录中提供了极其详尽的复现信息,包括:
- 所有13个子数据集的训练/验证/测试集划分数量(表7)。
- 完整的训练超参数(学习率、batch size、LoRA配置、优化器设置等)。
- 评估指标的详细计算公式(加权F1、加权准确率)。
- 用于评估开放式生成任务的LLM评判器(GPT-5-nano)的具体提示模板。
- 模型架构的数学形式化描述(附录B.1)。
- 强化学习GRPO算法的详细推导和奖励函数设计(附录B.2)。
- 论文中引用的开源项目/工具:
- 骨干模型:Qwen2.5-Omni-7B。
- 行为描述符提取:MediaPipe(用于面部和身体关键点),OpenSMILE(使用ComParE 2016配置提取声学特征)。
- 语音转录:Whisper v3 Large模型。
- 评估工具:GPT-5-nano(作为LLM裁判)。
- 训练框架:PyTorch,Accelerate。
- 优化器:Adam,AdamW。
📌 核心摘要
本文旨在解决当前人类心理与社会行为理解领域中存在的任务专业化、数据集异构、评估标准不一以及缺乏统一基础模型训练框架的问题。为此,作者构建了HUMAN BEHAVIOR ATLAS,这是一个涵盖情感、认知、病理、社会过程四大维度,包含超过101k个文本、音频、视觉多模态样本的统一基准。核心方法包括:1)定义统一的行为分类体系;2)将所有数据集样本重新组织为标准化的“提示-目标”格式;3)统一跨数据集的评估指标;4)提取行为描述符(如面部关键点、声学特征)以丰富数据。基于此基准,论文训练并评估了三个7B参数的模型变体:OMNISAPIENS-7B SFT(监督微调)、OMNISAPIENS-7B BAM(集成行为描述符适配器)和OMNISAPIENS-7B RL(强化学习)。实验结果表明,在HUMAN BEHAVIOR ATLAS上训练的模型在10个行为任务中的多数上优于现有的通用多模态大模型(如Qwen2.5-Omni-7B),例如在情绪识别(EMO)任务上,OMNISAPIENS-7B BAM达到0.651(CREMA-D数据集),而Qwen2.5-Omni-7B仅为0.521。此外,在该基准上的预训练能显著提升模型到新数据集(如MUStARD讽刺检测)的迁移能力,即使微调仅一个epoch,OMNISAPIENS-7B SFT的加权F1也能达到0.658,远高于从头微调的Qwen2.5-Omni-7B的0.473。该工作为行为理解领域提供了首个大规模的统一基准、标准化的建模范式和经过验证的模型,推动了通用行为基础模型的发展,但其模型规模(7B)和主要针对分类任务的设计可能限制了其在更复杂生成或推理场景下的应用。
🥈 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching
🔥 8.0/10 | 前25% | #多模态模型 | #流匹配 | #跨模态检索 #语音对话系统
👥 作者与机构
- 第一作者:Run Luo (中国科学院深圳先进技术研究院、中国科学院大学)
- 通讯作者:未明确说明(论文中未以“Corresponding author”标注单独作者,但提供了多个联系邮箱)
- 作者列表:
- Run Luo (中国科学院深圳先进技术研究院, 中国科学院大学)
- Xiaobo Xia (新加坡国立大学, 中国科学技术大学) *
- Lu Wang (Rtizz-AI)
- Longze Chen (中国科学院深圳先进技术研究院, 中国科学院大学)
- Renke Shan (Rtizz-AI)
- Jing Luo (中国科学院深圳先进技术研究院, 中国科学院大学)
- Min Yang (中国科学院深圳先进技术研究院, 深圳大学) *
- Tat-Seng Chua (新加坡国立大学)
- 标注的作者在作者列表中被提及为通讯作者。
💡 毒舌点评
亮点在于论文提出了一个干净利落的统一框架(DFM),避免了自回归范式在理解/生成任务间的先天矛盾,并且在跨模态检索这类需要深度融合表征的任务上展现了架构优势。短板在于其核心生成能力(如文本生成图像)的绝对质量与FLUX等专用模型的差距可能被“统一”的光环所掩盖,且论文中“动态长度生成策略”等优化的具体效果有待更细粒度的分析。
🔗 开源详情
- 代码:提供GitHub仓库链接:https://github.com/ritzz-ai/Next-OMNI。
- 模型权重:论文提到为开源模型,并提供了模型检查点。
- 数据集:论文详细列出了训练所用的公开和合成数据集(表8),并说明了数据构建过程。部分专有数据未公开。
- Demo:论文中未提及在线演示链接。
- 复现材料:提供了极其详细的训练三阶段(PT, CPT, SFT)的配方,包括数据规模、图像/音频处理设置、学习率、模型初始化等关键信息。附录中对模型设计(编码器、解码头)、数据合成和额外实现细节有补充说明。
- 引用的开源项目:论文明确依赖并提及了Qwen2.5系列、CLIP-ViT、Whisper、FLUX、VQVAE、UniTok、WavTokenizer、GradNorm等多个开源模型和工具。
- 总结:论文在开源方面做得非常出色,为该工作的复现和后续研究提供了坚实基础。
📌 核心摘要
本文旨在解决现有自回归多模态模型在平衡理解与生成能力方面的内在局限,以及混合/解耦设计带来的冗余和适用性窄的问题。其核心是提出NExT-OMNI,一个基于离散流匹配(DFM)范式的开源全模态基础模型。与依赖AR的解耦模型不同,NExT-OMNI采用度量诱导概率路径和动力学最优速度,通过单一的双向注意力骨架,实现了文本、图像、视频、音频间任意到任意的生成与理解。模型在统一表征建模阶段引入重建损失,以保留细粒度信息,并设计了动态生成策略和自适应缓存以提升推理效率。在多个基准上,NExT-OMNI在全模态理解(平均分39.7 vs. OpenOmni 36.5)、多轮视觉交互(OpenING平均55.0)、语音交互(Spoken QA)以及跨模态检索(平均32.9)任务上均表现出竞争力或优于现有统一模型。实验验证了DFM架构在统一建模上的潜力,尤其是在需要深度特征融合的检索任务中。其主要局限性是目前模型规模仅为7B,且受限于资源,未能在更大规模上验证其性能上限。论文为构建下一代统一多模态基础模型提供了新的范式参考。
🥉 OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
✅ 7.5/10 | 前25% | #多模态模型 | #多模态模型 | #语音大模型 #对比学习
👥 作者与机构
- 第一作者:Hanrong Ye(NVIDIA)
- 通讯作者:Hongxu Yin(NVIDIA), Pavlo Molchanov(NVIDIA)
- 作者列表:Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang(以上作者标注为“Core Contribution”,均来自NVIDIA), Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Yao Lu, Oluwatobi Olabiyi, Yu-Chiang Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin§†, Pavlo Molchanov§*(标注“§Equal Advisory”,“†Corresponding Authors”), 机构均为NVIDIA。
💡 毒舌点评
论文在系统性地探索全模态LLM架构与数据配方上做得非常扎实,尤其是OmniAlignNet结合时间编码的设计有清晰的工程动机。然而,论文对模型的具体规模(参数量、计算成本)和数据合成管道的细节披露略显不足,使得“效率优势”的宣称(如0.2T token训练)的完整上下文不够透明,更像是一个精心调优的大型系统工程展示,而非在某个单一技术点上的颠覆性创新。
🔗 开源详情
- 代码:论文中提及将公开代码,但未提供具体仓库链接。
- 模型权重:论文中提及将公开模型,但未提供具体下载地址。
- 数据集:论文中提及构建了24M数据集,并提到了部分来源数据集,但未说明完整数据集的开源获取方式。
- Demo:未提及在线演示。
- 复现材料:论文提供了模型架构图、主要消融实验设置、训练策略概览(两阶段、GRPO配置)和部分超参数(如GRPO的采样数、批次大小),为复现提供了重要信息。详细的超参数配置、检查点等可能在附录中,但当前摘要未完全涵盖。
- 论文中引用的开源项目:提到了Magpie TTS, Long-RL训练框架, Whisper, Qwen系列模型等作为基线或工具,但未明确列出所有依赖项。
📌 核心摘要
- 要解决什么问题:本文旨在构建一个能同时高效、准确理解视觉、音频(含语音和环境音)和文本的开源全模态大语言模型(LLM),以克服现有模型在跨模态对齐、时序建模和数据效率上的不足。
- 方法核心是什么:核心是模型架构与数据工程的协同创新。架构上提出三项关键技术:(1)OmniAlignNet,通过对比学习将视觉和音频嵌入对齐到统一的潜在空间;(2)时间嵌入分组(TEG),基于时间戳对视觉和音频嵌入进行分组以捕获相对时序;(3)约束旋转时间嵌入(CRTE),通过旋转编码注入绝对时间信息。数据上,构建了一个包含2400万对话的管道,通过“隐式学习”(利用已有视频QA数据)和“显式学习”(生成带跨模态标签的新数据)来训练模型。
- 与已有方法相比新在哪里:新在将上述三项架构创新系统性整合,并提出专门解决“模态特定幻觉”的数据合成流程(通过LLM融合独立的视觉和音频描述)。与Qwen2.5-Omni等SOTA模型相比,该方法在更少的训练数据(0.2T token vs 1.2T)下实现了性能提升。
- 主要实验结果如何:在多个基准测试上取得显著提升。在跨模态理解DailyOmni上得分66.50(+19.05 vs Qwen2.5-Omni),在音频MMAR上58.40(+1.7),在视频Video-MME上68.2(+3.9)。在机器人导航、医疗AI等下游任务中也展示了有效性。关键消融实验证明了TEG、CRTE和OmniAlignNet的有效性(详见下表)。
主要消融实验结果(Table 1):
| 方法 | Omni WorldSense↑ | Dailyomni↑ | Omnibench↑ | Average↑ |
|---|---|---|---|---|
| Token Concatenation – Baseline | 42.21 | 54.55 | 36.46 | 45.51 |
| + TEG (ours) | 44.51 | 60.99 | 37.65 | 47.72 |
| ++ CRTE (ours) | 45.46 | 65.66 | 39.64 | 50.25 |
| +++ OmniAlignNet (ours) | 46.21 | 65.83 | 45.74 | 52.59 |
与Qwen2.5-Omni在关键基准上的对比(Table 3, 4, 5):
| 基准任务 | Qwen2.5-Omni | OmniVinci (Ours) |
|---|---|---|
| Omni WorldSense | 45.40 | 48.23 |
| Omni Dailyomni | 47.45 | 66.50 |
| Audio MMAR | 56.70 | 58.40 |
| Video-MME (w/o sub.) | 70.3 | 68.2 |
| 注:Video-MME上Qwen2.5-Omni略高,但OmniVinci在LongVideoBench和MVBench上更优 |
图1(论文Figure 1):直观对比OmniVinci与Qwen2.5-Omni等模型在DailyOmni、MMAR、Video-MME等关键基准上的得分优势。
- 实际意义是什么:证明了通过精心的架构设计和数据工程,可以构建出更高效(训练数据少6倍)、能力更均衡(视听融合增强理解)的全模态基础模型。为机器人控制、智能工厂、医疗辅助诊断等需要同时处理多种感官输入的下游智能体提供了强大的骨干模型。
- 主要局限性:论文对计算成本(如训练总GPU小时数)和完整的模型规模(虽提及9B参数)交代不够详细。数据合成管道的细节(如何确保合成数据质量、多样性)主要在图示中体现,文本描述较简略。此外,尽管展示了应用,但未对所有下游任务进行深入的错误分析。
4. Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
✅ 7.5/10 | 前25% | #多模态模型 | #强化学习 | #在线处理 #记忆机制
👥 作者与机构
- 第一作者:Lin Long (Zhejiang University, Bytedance Seed)
- 通讯作者:Yuan Lin (Bytedance Seed)
- 作者列表:Lin Long (Zhejiang University, Bytedance Seed)、Yichen He (Bytedance Seed)、Wentao Ye (Zhejiang University)、Yiyuan Pan (Robotics Institute, Carnegie Mellon University)、Yuan Lin (Bytedance Seed)、Hang Li (Bytedance Seed)、Junbo Zhao (Zhejiang University)、Wei Li (Bytedance Seed)
💡 毒舌点评
本文最大的亮点在于构建了一个“类人记忆”的闭环系统,并发布了极具针对性的评测集M3-Bench,直指当前智能体长期记忆能力评估的空白。但其记忆系统的动态更新与冲突解决机制(如权重投票)描述过于简略,实际大规模部署时的鲁棒性与效率存疑。
🔗 开源详情
- 代码:论文承诺开源代码,包括记忆化与控制流程、工具实现、演示数据合成流程等,代码仓库链接为
https://github.com/ByteDance-Seed/m3-agent。 - 模型权重:论文承诺公开记忆化模型(
memory-7b-sft)和控制模型(control-32b-rl)的检查点。 - 数据集:论文承诺公开完整的M3-Bench数据集(含所有机器人视角和网络视频、问答标注及评估脚本)。
- Demo:论文中未提及在线演示。
- 复现材料:论文提供了详细的训练超参数(如DAPO参数见附录表14)、训练数据规模、评估脚本(使用GPT-4o自动评估器),以及在附录中提供了大量提示模板和实现细节,复现信息充分。
- 论文中引用的开源项目:InsightFace(人脸识别)、ERes2NetV2(说话人验证模型)、OpenAI text-embedding-3-large(文本嵌入)、Qwen2.5-Omni、Qwen3等。
📌 核心摘要
- 解决的问题:现有大型多模态智能体缺乏类似人类的、可持续积累和检索的长期记忆能力,难以在复杂、动态的真实环境中进行深度理解与推理。
- 方法核心:提出M3-Agent框架,包含“记忆化”和“控制”两个并行过程。记忆化过程持续处理音视频流,生成并更新实体中心(Entity-centric)的情景记忆和语义记忆,构建长期记忆图。控制过程则通过强化学习训练的策略模型,进行多轮推理并自主检索相关记忆以完成指令任务。
- 与已有方法相比新在哪里:不同于传统针对有限时长视频的离线理解方法,M3-Agent设计为在线处理无限长流;不同于标准检索增强生成(RAG)的单轮检索,其控制策略通过强化学习实现多轮迭代推理与记忆访问;其记忆结构以实体为中心,整合多模态信息(人脸、语音、文本),以维持跨时间的一致性和深度。
- 主要实验结果:在全新的M3-Bench(含100个机器人视角视频和920个网络视频)及VideoMME-long上,M3-Agent均取得最优。与最强基线(Gemini-1.5-pro + GPT-4o提示智能体)相比,M3-Agent在M3-Bench-robot、M3-Bench-web和VideoMME-long上分别提升了6.7%、7.7%和5.3%的准确率。消融实验证实了长期记忆(尤其是语义记忆)、强化学习训练和多轮推理的重要性。
| 方法 | M3-Bench-robot (All) | M3-Bench-web (All) | VideoMME-Long |
|---|---|---|---|
| Gemini-GPT4o-Hybrid (最强基线) | 24.0 | 41.2 | 56.5 |
| M3-Agent (本文) | 30.7 | 48.9 | 61.8 |
图7:M3-Bench与其他长视频问答基准(LVQA)的对比,展示了其在是否包含智能体、跨模态QA、人物理解QA和知识QA等维度上的独特性。
- 实际意义:为构建能持续感知、学习并推理的具身智能体提供了可落地的框架,并建立了评估此类智能体关键能力的标准。
- 主要局限性:记忆的增量更新与权重投票机制细节有待完善;视觉记忆的效率(如视频帧采样与特征提取)可能成为瓶颈;实验主要集中在问答任务,对连续任务执行的验证不足。
5. TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES
✅ 7.0/10 | 前25% | #多模态模型 | #预训练 | #大语言模型 #端到端
👥 作者与机构
- 第一作者:Yilong Li(University of Wisconsin – Madison)
- 通讯作者:未明确说明(论文未标注通讯作者信息)
- 作者列表:Yilong Li (1), Shuai Zhang (2), Yijing Zeng (1), Chengpo Yan (1), Hao Zhang (1), Xinmiao Xiong (1), Jingyu Liu (1), Pan Hu (3), Suman Banerjee (1)。机构:(1) University of Wisconsin – Madison, (2) Amazon Web Services AI, USA, (3) Uber, USA。
💡 毒舌点评
这篇论文最硬核的地方在于作者真的自己画了PCB、焊了板子、写了底层驱动来验证他们的想法,这种“手工打造端到端系统”的匠心在AI论文里相当少见。但遗憾的是,其核心的“模型分解与动态调度”思想在边缘计算领域已有先例,且论文对模型量化后在特定下游任务上的精度损失分析不够细致,更像是一个优化效果显著的“系统集成报告”。
🔗 开源详情
- 代码:论文中未提及代码仓库链接。
- 模型权重:未提及是否公开经过特定适配或优化的模型权重。
- 数据集:使用公开数据集(InfoVQA, DocVQA, MMBench, MME)进行评测,但未提及是否提供新的数据集。
- Demo:提供了自制硬件原型的实物照片(图11),但未提及在线演示。
- 复现材料:提供了非常详细的硬件设计图(图4)、软件架构图(图3)、关键内核的实现思路和全面的性能评测数据,但这些属于设计文档,而非开箱即用的复现材料。
- 论文中引用的开源项目:llama.cpp, whisper.cpp, Piper, RKNN Toolkit2, Qualcomm AI Hub, PowerInfer-2, MLC-LLM。
📌 核心摘要
这篇论文旨在解决大型多模态模型(LMMs)在电池供电的小型边缘设备上高效运行的难题。现有部署方案通常将模型作为整体在单一加速器上执行,无法充分利用现代片上系统(SoC)中的异构计算单元(CPU, GPU, NPU),导致资源浪费和高延迟。
方法核心是提出一个名为NANOMIND的软硬件协同设计框架。其核心思想是将固有的模块化LMMs(如视觉编码器、投影器、语言解码器)分解为独立的“组件”,并根据各组件计算特性(如视觉编码适合NPU的低比特运算,语言解码适合GPU的并行浮点运算)和异构加速器的优势,进行动态跨加速器调度。同时,框架设计了Token感知缓冲区管理器(TABM)在统一内存架构下实现零拷贝数据传输,以及电池感知的执行模式。
与已有方法相比,新在以下几点:
- 端到端软硬件协同设计:不仅停留在算法或软件层面,而是定制了硬件平台(基于RK3566 SoC,配备独立PMU)并开发了配套的底层计算内核和驱动。
- 模块级动态卸载:实现了跨NPU/GPU/CPU的细粒度任务调度,而非传统的层级卸载或单一加速器执行。
- 统一内存下的零拷贝优化:TABM设计有效解决了异构加速器间数据传输的瓶颈。
主要实验结果:在自制硬件原型上运行LlaVA-OneVision-qwen2-05B模型,与主流框架(如llama.cpp)相比,NANOMIND的能耗降低了42.3%,GPU内存使用减少了11.2%。在低功耗事件触发模式下,配合2000mAh电池,可实现长达20.8小时的运行时间(见图9)。在吞吐量方面,其定制的融合计算内核在Orange Pi 5 (RK3588)上运行Qwen2-1.5B模型时,性能优于llama.cpp、MLC-LLM等框架(见图7c)。
实际意义在于,它证明了通过深度的软硬件协同优化,在成本低廉(SoC价格<12美元)、功耗极低的小型设备上本地运行多模态大模型是可行的,为离线、隐私敏感的边缘AI应用提供了实用方案。
主要局限性是:1)框架的验证和性能提升高度依赖于作者定制的特定硬件平台(基于RK3566),在其他商用设备上的可移植性和性能优势需进一步验证;2)论文未深入讨论模型分解和量化对多模态任务(如复杂视觉问答)最终输出质量的影响;3)未提供开源代码或标准化模型,复现门槛较高。