📄 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging #多模态模型 #模型合并 #基准测试 #开源工具
🔥 8.0/10 | 前25% | #多模态模型 | #模型合并 | #基准测试 #开源工具
学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构 第一作者:Yongxian Wei(清华大学) 通讯作者:Lu Hou(华为诺亚方舟实验室),Chun Yuan(清华大学) 作者列表:Yongxian Wei(清华大学),Runxi Cheng(清华大学),Weike Jin(华为诺亚方舟实验室),Enneng Yang(中山大学),Li Shen(中山大学),Lu Hou(华为诺亚方舟实验室),Sinan Du(清华大学),Chun Yuan(清华大学),Xiaochun Cao(中山大学),Dacheng Tao(南洋理工大学) 💡 毒舌点评 亮点:论文最大的价值在于系统性地填补了MLLM模型合并领域“无标准基准”的空白,并基于此提出了针对全微调和LoRA微调两种不同场景的、有理论支撑的优化方法(OptMerge),实验充分且开源承诺良好。
短板:实验规模主要集中在1B和7B参数的模型上,对于当前主流的大参数量(如70B以上)多模态模型的合并效果、以及合并后模型的长期稳定性(如对话能力衰减)缺乏更深入的探讨。
🔗 开源详情 代码:论文明确提及“All code and checkpoints are publicly available here”,并提供了链接(here应为超链接,但当前文本中未显示具体URL)。因此,代码将开源。 模型权重:论文明确提及公开“checkpoints”,包括为基准训练的所有专家模型(VQA, Geometry, Chart, OCR, Grounding)在InternVL2.5和Qwen2-VL上的权重,以及模态合并实验中使用的视觉、音频、视频模型权重。 数据集:基准中使用的所有训练数据和评估数据均来自公开数据集(如Table 1所列),论文提供了详细的列表。评估使用VLMEvalKit和LMMs-Eval等公开工具。 Demo:论文中未提及提供在线演示。 复现材料:论文提供了详细的实现细节(附录C),包括微调参数、合并设置、优化器配置等。所有实验在8×V100 GPU上进行,提供了硬件参考。 引用的开源项目:论文依赖并引用了多个开源工具和模型,包括: 模型:InternVL2.5, Qwen2-VL, Vicuna, CLIP, BEATs, LanguageBind, LLaVA系列, CogVLM, InstructBLIP等。 评估工具:VLMEvalKit, LMMs-Eval。 合并工具:提到MergeKit。 框架:HuggingFace Transformers。 📌 核心摘要 要解决什么问题:现有模型合并研究缺乏针对多模态大语言模型(MLLM)的、能清晰划分其多种能力(如VQA、几何推理、图表理解等)并评估其模态融合效果的专用基准。同时,现有的数据驱动合并方法成本高昂,需要一种数据高效的后处理方法来统一不同专家模型的能力或不同模态。 方法核心是什么:本文提出了OptMerge基准,包含从VQA到Grounding五类能力的训练数据集和评估集,覆盖了InternVL2.5(全微调)和Qwen2-VL(LoRA)两种设置。同时,提出了OptMerge算法,通过对任务向量进行低秩近似去噪,并基于任务向量间的交互损失来鲁棒地优化合并向量,以应对全微调和LoRA微调模型参数特性不同的挑战。 与已有方法相比新在哪里:(1) 首次构建了细粒度划分MLLM能力并评估模态融合的专用模型合并基准。(2) 提出了针对MLLM特性的新合并算法OptMerge,通过SVD去噪和针对性的优化策略(全微调用Adam+中心化,LoRA用SGD+初始化为平均值)来提升稳定性与性能。(3) 首次在基准上系统性地探索了通过合并来融合视觉、音频、视频多种模态,构建“全模态”语言模型。 主要实验结果如何: 能力合并:OptMerge在基准上平均性能提升2.48%,在InternVL2.5(全微调)上达到57.44分(最佳),在Qwen2-VL(LoRA)上达到63.30分(最佳),超越了需要数据混合训练的基线(如InternVL2.5混合训练为57.66分)。 模态合并:合并视觉、音频、视频三个模态模型后,在Audio-VQA任务上平均得分66.88,显著高于单个模态模型(视觉63.16,音频37.75,视频64.11)。 消融实验:对LoRA合并,从WUDI Merging(58.65)逐步加入SGD(降至48.88)、初始化(升至63.08)、低秩近似(最终63.30)各组件,验证了各设计的有效性。 实际模型:合并从Hugging Face收集的4个不同专长模型(如GRPO数学模型、Pokemon模型),平均分达66.70,超过了最强单体模型(63.17)。 实际意义是什么:证明了模型合并是一种数据高效、计算成本低的构建增强版MLLM的有效路径。它不仅能融合同一基础模型的不同能力版本,还能通过“数据free”的方式整合不同模态的编码器,为快速集成社区开源模型、构建全模态模型提供了新思路。 主要局限性是什么:实验主要在中等规模模型(1B, 7B)上进行,对更大规模模型(如32B以上)的验证(虽然补充了32B实验但不深入)和计算效率的更全面评估有待加强。此外,基准所用的训练数据均为公开数据集,可能无法完全代表工业界复杂的私有数据场景。 🏗️ 模型架构 本文的核心贡献并非提出一个新的多模态模型架构,而是提出一种模型合并(Merging)的方法论,用于将多个已训练好的、具有不同能力或模态的多模态大语言模型(MLLM)融合成一个统一的模型。因此,其“架构”主要指合并后模型的构成方式。
...