ICLR 2026 - 模型比较

共 1 篇论文

← 返回 ICLR 2026 总览

排名	论文	评分	分档
🥇	OptMerge: Unifying Multimodal LLM Capabilities and Modalitie	7.0分	前25%

📋 论文详情

🥇 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

✅ 7.0/10 | 前25% | #模型比较 | #迁移学习 | #多模态模型 #模型评估

👥 作者与机构

第一作者：Yongxian Wei (清华大学)
通讯作者：Chun Yuan (清华大学)
作者列表：Yongxian Wei (清华大学)， Runxi Cheng (清华大学)， Weike Jin (华为诺亚方舟实验室)， Enneng Yang (中山大学)， Li Shen (中山大学)， Lu Hou (华为诺亚方舟实验室)， Sinan Du (清华大学)， Chun Yuan (清华大学)， Xiaochun Cao (中山大学)， Dacheng Tao (南洋理工大学)

💡 毒舌点评

亮点在于提出了首个系统性的MLLM能力融合基准和“无数据”的模态融合思路，为社区提供了重要的评估框架和基线。短板是论文标题中的“Omni-language model”在实验中仅限于简单的音视频问答融合，与真正意义上的通用全能模型差距较大，且核心方法OptMerge在理论层面更像是对现有技术的巧妙组合。

🔗 开源详情

代码：论文明确表示“All code and checkpoints are publicly available here”，并提供了开源承诺，但具体链接需从论文或官方页面获取。
模型权重：承诺公开基准中训练的所有专家模型检查点（InternVL2.5和Qwen2-VL系列，以及模态融合用的Vicuna-7B变体）。
数据集：使用的训练数据来自多个公开数据集，论文在表1和表11中列出了详细清单。基准本身所收集整理的数据是否作为独立数据集发布未说明。
Demo：未提及在线演示。
复现材料：提供了非常详细的训练超参数（学习率、优化器、epoch数、LoRA秩等）、评估设置（使用的评测库、提示模板）和硬件信息（8xV100），复现指引充分。
论文中引用的开源项目：依赖多个开源模型和库，如InternVL2.5， Qwen2-VL， Vicuna， CLIP， BEATs， LanguageBind， VLMEvalKit， LMMs-Eval， mergekit等。

📌 核心摘要

本文针对多模态大语言模型（MLLM）能力整合与模态统一的需求，研究模型融合这一低成本、无数据的技术路径。论文的核心工作是：(1) 构建了首个针对MLLM的细粒度能力融合基准，涵盖VQA、几何推理、图表理解、OCR和视觉定位五种能力，并探索了跨模态（视觉-音频-视频）的模型融合；(2) 提出了一种新的模型融合算法OptMerge，通过低秩近似去除任务向量噪声，并基于任务向量间的交互优化合并参数，实验表明其在多种设置下平均性能提升2.48%；(3) 通过大量实验证明，在无需训练数据的情况下，模型融合能够构建性能媲美甚至超越多任务混合训练的增强型MLLM，并有效整合不同模态信息。其主要局限性在于，当前实验规模限于7B参数模型，且“全能模型”的探索尚处于初步阶段。

ICLR 2026 - 模型比较#

📋 论文详情#

🥇 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging#

📎 相关论文

ICLR 2026 - 模型比较

📋 论文详情

🥇 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging