📄 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging
#多模态模型 #模型合并 #基准测试 #开源工具
🔥 8.0/10 | 前25% | #多模态模型 | #模型合并 | #基准测试 #开源工具
学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Yongxian Wei(清华大学)
- 通讯作者:Lu Hou(华为诺亚方舟实验室),Chun Yuan(清华大学)
- 作者列表:Yongxian Wei(清华大学),Runxi Cheng(清华大学),Weike Jin(华为诺亚方舟实验室),Enneng Yang(中山大学),Li Shen(中山大学),Lu Hou(华为诺亚方舟实验室),Sinan Du(清华大学),Chun Yuan(清华大学),Xiaochun Cao(中山大学),Dacheng Tao(南洋理工大学)
💡 毒舌点评
亮点:论文最大的价值在于系统性地填补了MLLM模型合并领域“无标准基准”的空白,并基于此提出了针对全微调和LoRA微调两种不同场景的、有理论支撑的优化方法(OptMerge),实验充分且开源承诺良好。
短板:实验规模主要集中在1B和7B参数的模型上,对于当前主流的大参数量(如70B以上)多模态模型的合并效果、以及合并后模型的长期稳定性(如对话能力衰减)缺乏更深入的探讨。
🔗 开源详情
- 代码:论文明确提及“All code and checkpoints are publicly available here”,并提供了链接(
here应为超链接,但当前文本中未显示具体URL)。因此,代码将开源。 - 模型权重:论文明确提及公开“checkpoints”,包括为基准训练的所有专家模型(VQA, Geometry, Chart, OCR, Grounding)在InternVL2.5和Qwen2-VL上的权重,以及模态合并实验中使用的视觉、音频、视频模型权重。
- 数据集:基准中使用的所有训练数据和评估数据均来自公开数据集(如Table 1所列),论文提供了详细的列表。评估使用VLMEvalKit和LMMs-Eval等公开工具。
- Demo:论文中未提及提供在线演示。
- 复现材料:论文提供了详细的实现细节(附录C),包括微调参数、合并设置、优化器配置等。所有实验在8×V100 GPU上进行,提供了硬件参考。
- 引用的开源项目:论文依赖并引用了多个开源工具和模型,包括:
- 模型:InternVL2.5, Qwen2-VL, Vicuna, CLIP, BEATs, LanguageBind, LLaVA系列, CogVLM, InstructBLIP等。
- 评估工具:VLMEvalKit, LMMs-Eval。
- 合并工具:提到MergeKit。
- 框架:HuggingFace Transformers。
📌 核心摘要
- 要解决什么问题:现有模型合并研究缺乏针对多模态大语言模型(MLLM)的、能清晰划分其多种能力(如VQA、几何推理、图表理解等)并评估其模态融合效果的专用基准。同时,现有的数据驱动合并方法成本高昂,需要一种数据高效的后处理方法来统一不同专家模型的能力或不同模态。
- 方法核心是什么:本文提出了OptMerge基准,包含从VQA到Grounding五类能力的训练数据集和评估集,覆盖了InternVL2.5(全微调)和Qwen2-VL(LoRA)两种设置。同时,提出了OptMerge算法,通过对任务向量进行低秩近似去噪,并基于任务向量间的交互损失来鲁棒地优化合并向量,以应对全微调和LoRA微调模型参数特性不同的挑战。
- 与已有方法相比新在哪里:(1) 首次构建了细粒度划分MLLM能力并评估模态融合的专用模型合并基准。(2) 提出了针对MLLM特性的新合并算法OptMerge,通过SVD去噪和针对性的优化策略(全微调用Adam+中心化,LoRA用SGD+初始化为平均值)来提升稳定性与性能。(3) 首次在基准上系统性地探索了通过合并来融合视觉、音频、视频多种模态,构建“全模态”语言模型。
- 主要实验结果如何:
- 能力合并:OptMerge在基准上平均性能提升2.48%,在InternVL2.5(全微调)上达到57.44分(最佳),在Qwen2-VL(LoRA)上达到63.30分(最佳),超越了需要数据混合训练的基线(如InternVL2.5混合训练为57.66分)。
- 模态合并:合并视觉、音频、视频三个模态模型后,在Audio-VQA任务上平均得分66.88,显著高于单个模态模型(视觉63.16,音频37.75,视频64.11)。
- 消融实验:对LoRA合并,从WUDI Merging(58.65)逐步加入SGD(降至48.88)、初始化(升至63.08)、低秩近似(最终63.30)各组件,验证了各设计的有效性。
- 实际模型:合并从Hugging Face收集的4个不同专长模型(如GRPO数学模型、Pokemon模型),平均分达66.70,超过了最强单体模型(63.17)。
- 实际意义是什么:证明了模型合并是一种数据高效、计算成本低的构建增强版MLLM的有效路径。它不仅能融合同一基础模型的不同能力版本,还能通过“数据free”的方式整合不同模态的编码器,为快速集成社区开源模型、构建全模态模型提供了新思路。
- 主要局限性是什么:实验主要在中等规模模型(1B, 7B)上进行,对更大规模模型(如32B以上)的验证(虽然补充了32B实验但不深入)和计算效率的更全面评估有待加强。此外,基准所用的训练数据均为公开数据集,可能无法完全代表工业界复杂的私有数据场景。
🏗️ 模型架构
本文的核心贡献并非提出一个新的多模态模型架构,而是提出一种模型合并(Merging)的方法论,用于将多个已训练好的、具有不同能力或模态的多模态大语言模型(MLLM)融合成一个统一的模型。因此,其“架构”主要指合并后模型的构成方式。
- 合并目标:一个共享的、强大的大语言模型(LLM)骨干网络,例如Vicuna-7B-v1.5。
- 合并过程:
- 能力合并:将基于同一基础模型(如InternVL2.5-1B-Instruct或Qwen2-VL-7B-Base)微调出的多个专家模型(如VQA专家、几何专家)的参数进行合并。每个专家模型结构相同,参数不同。
- 模态合并:将使用不同模态编码器但共享同一LLM骨干的模型进行合并。例如,视觉语言模型(CLIP-ViT + MLP + LLM)、音频语言模型(BEATs + Q-Former + LLM)和视频语言模型(LanguageBind + MLP + LLM)共享Vicuna-7B-v1.5作为LLM。合并时,仅合并共享的LLM部分的参数,而保留各自独特的模态编码器和连接器。
- 数据流(以模态合并为例):合并后的模型在推理时,可以同时接收视觉、音频或视频输入。具体模态的输入会通过其对应的编码器(CLIP、BEATs、LanguageBind)和连接器,转换成LLM能理解的token表示,然后送入合并后的、统一的LLM骨干网络中进行处理,生成文本响应。
- 关键设计选择:保留模态特定组件(编码器、连接器)而仅合并LLM参数,这一选择是合理的,因为不同模态的编码器架构和预训练目标差异巨大,直接合并权重意义不大;而LLM作为统一的语义理解和生成接口,其参数更易于通过数学操作进行融合。
图1:展示了通过模型合并来统一MLLM的能力(①将不同任务微调模型合并)或模态(②将视觉、音频、视频模型合并),从而构建一个更强的多任务或全模态模型,且此过程无需原始训练数据。
💡 核心创新点
构建首个针对MLLM的模型合并基准:
- 之前局限:缺乏标准基准,现有研究任务划分模糊,无法公平对比不同合并方法。
- 如何起作用:提出了包含VQA、几何、图表、OCR、Grounding五类能力的细粒度基准,为每类任务收集了至少10万条训练数据并划分了专门的评估集。同时涵盖了InternVL2.5(全微调)和Qwen2-VL(LoRA)两种主流微调范式。
- 收益:为社区提供了可复用的评测标准,使得模型合并研究有了清晰、公平的比较平台。
提出OptMerge优化合并方法:
- 之前局限:现有方法如WUDI Merging在优化合并向量时可能不稳定,尤其对LoRA模型的低秩特性考虑不足,易导致合并向量范数爆炸。
- 如何起作用:
- 针对全微调模型:通过SVD分解任务向量,保留主要奇异成分进行低秩近似,实现去噪。优化目标基于合并向量与去噪任务向量的交互损失(公式3)。
- 针对LoRA微调模型:观察到LoRA任务向量的低秩性,采用SGD优化器(具有隐式正则化)、对任务向量直接进行截断SVD去噪、并将合并向量初始化为任务向量平均值,以防止优化过程中合并向量范数过度增长(如图4所示)。
- 收益:显著提升了合并的稳定性和最终性能,在多个设置下取得了最优结果。
探索数据高效的模态融合路径:
- 之前局限:传统构建全模态(Omni)模型需要收集海量多模态指令数据进行联合训练,成本高昂。
- 如何起作用:利用模型合并技术,将独立训练好的视觉、音频、视频语言模型的LLM部分参数合并,无需任何新数据即可让模型具备处理多模态输入的能力。
- 收益:实验表明,合并后的模型在多模态问答任务上超过了单模态模型,证明了模态信息的互补性,为构建全模态模型提供了一条“数据free”的可扩展路径。
🔬 细节详述
- 训练数据:
- 能力合并基准:为五类任务收集了公开数据集,总规模约137万条。具体见Table 1,例如VQA包含GQA、VQAv2等共58万条;Geometry包含GeoQA+等19万条。数据被统一转换为ShareGPT指令微调格式。在训练Qwen2-VL-Base时,仅使用了英文数据集以避免性能下降。
- 模态合并:视觉模型使用LLaVA-mixed(66.5万),音频模型使用OpenAQA filtered(35万),视频模型使用Video-ChatGPT和LLaVA-mixed子集(共24万)。训练分为两阶段:首先只训练连接器进行对齐,然后全参数微调连接器和LLM(使用LoRA,rank=128)。
- 损失函数:OptMerge优化合并向量的核心损失定义于公式(3)。其本质是让合并后的模型在隐藏激活层面,尽可能接近每个专家模型的效果,即
(θ₀,l + τₘ,l) x ≈ (θ₀,l + τᵢ,l) x。具体形式为最小化合并向量与去噪任务向量在列空间(由Σ₁:kV⊤₁:k表示)上的投影差异。 - 训练策略:
- 专家模型微调:InternVL2.5采用全微调,学习率4e-5,warmup比例0.03,训练1个epoch。Qwen2-VL采用LoRA(rank=8),学习率1e-5,warmup比例0.1,训练1个epoch。均使用余弦学习率调度。
- OptMerge合并过程:合并系数
λ在[0.1, 0.3, 0.5, 0.7, 1.0, 1.5]中搜索。对于优化过程,全微调模型(InternVL)使用Adam优化器,学习率1e-5;LoRA模型(QwenVL)使用SGD优化器,学习率1e-4。优化迭代次数为300步,仅对模型的线性层进行优化,其他层简单平均。
- 关键超参数:OptMerge中的关键超参数
k(低秩近似的阶数)被简单设置为每个任务向量秩的1/5(任务数)。消融实验(Table 8)表明,k在任务向量秩的10%-30%范围内性能稳定。 - 训练硬件:所有实验使用8块NVIDIA V100 GPU进行。
- 推理细节:论文未提及特殊的解码策略(如温度、beam size),评估使用VLMEvalKit和LMMs-Eval库,确保公平对比。对于MathVista和MATH-Vision的评估,使用GPT-4o-mini API从模型输出中提取答案。
- 正则化/稳定训练技巧:在OptMerge中,对于LoRA模型合并,引入了SGD优化器(提供隐式正则化)和将合并向量初始化为任务向量平均值作为稳定训练的关键技巧,有效防止了合并向量范数爆炸(图4)。
📊 实验结果
主要实验分为能力合并、模态合并、实际模型验证和消融研究。
表2:在InternVL2.5(全微调)上的能力合并结果
| 方法 | VizWiz | GQA | MathVista | MATH-Vision | ChartQA | TextVQA | OCRVQA | RefCOCO | RefCOCO+ | RefCOCOg | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| InternVL2.5-Instruct | 29.15 | 54.62 | 46.80 | 18.42 | 69.48 | 72.51 | 41.08 | 71.69 | 65.41 | 67.40 | 53.66 |
| Individual VQA | 30.58 | 60.91 | 35.50 | 17.11 | 48.76 | 63.68 | 36.04 | - | - | - | 41.80 |
| Task Arithmetic | 30.67 | 56.34 | 45.36 | 21.05 | 72.88 | 76.26 | 43.39 | 74.90 | 68.15 | 72.75 | 56.18 |
| OptMerge (Ours) | 30.97 | 57.13 | 54.48 | 21.05 | 68.72 | 76.01 | 46.35 | 75.97 | 69.72 | 73.94 | 57.44 |
| Mixture Training | 29.79 | 61.33 | 52.83 | 23.68 | 70.32 | 72.96 | 60.25 | 72.06 | 65.93 | 67.46 | 57.66 |
���2:展示了基准中任务向量的分布。(a, b)显示任务向量幅值较小,全微调模型呈右偏分布,LoRA模型呈多峰分布。(c, d)显示不同任务在不同层的归一化Frobenius范数差异显著,带来了合并挑战。
表3:在Qwen2-VL(LoRA微调)上的能力合并结果
| 方法 | VizWiz | GQA | MathVista | MATH-Vision | ChartQA | TextVQA | OCRVQA | RefCOCO | RefCOCO+ | RefCOCOg | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Qwen2-VL-Base | 5.52 | 5.39 | 47.85 | 23.68 | 0.36 | 20.22 | 1.07 | 45.32 | 37.55 | 31.26 | 21.82 |
| Task Arithmetic | 40.52 | 62.31 | 40.36 | 26.31 | 79.67 | 81.09 | 59.50 | 75.96 | 61.33 | 75.85 | 60.29 |
| WUDI Merging | 37.19 | 56.45 | 42.96 | 27.63 | 67.84 | 79.92 | 65.56 | 76.25 | 60.72 | 71.99 | 58.65 |
| OptMerge (Ours) | 41.61 | 61.16 | 48.66 | 40.79 | 74.08 | 81.54 | 60.06 | 80.92 | 65.90 | 78.24 | 63.30 |
| Qwen2-VL-Instruct | 44.09 | 62.18 | 46.02 | 19.73 | 70.04 | 78.38 | 65.42 | 82.89 | 77.87 | 75.63 | 62.23 |
表5:模态合并结果(零样本音视频问答)
| 数据集 | Individual Modalities | Merging Methods (平均得分) | Online Composing | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 视觉 | 音频 | 视频 | Weight Average | Task Arithmetic | TIES Merging | TSV Merging | Iso-C | WUDI Merging | OptMerge (Ours) | NaiveMC | DAMC | |
| MUSIC-AVQA | 50.77 | 27.93 | 49.02 | 47.75 | 52.14 | 50.35 | 53.78 | 52.77 | 52.43 | 53.17 | 53.50 | 52.80 |
| AVQA | 75.55 | 47.57 | 79.20 | 69.39 | 78.62 | 75.84 | 80.90 | 77.51 | 76.86 | 80.82 | 80.26 | 80.78 |
| 平均 | 63.16 | 37.75 | 64.11 | 58.57 | 65.38 | 63.10 | 67.34 | 65.14 | 64.65 | 67.00 | 66.88 | 66.79 |
图3:展示LoRA模型合并时,优化合并向量容易因低秩约束而通过增大幅值来“走捷径”达到正交,导致问题。
图4:展示了OptMerge通过初始化与优化策略,在优化过程中能保持合并向量Frobenius范数的稳定,而WUDI Merging则会出现范数快速增长。
表4:消融实验(在Qwen2-VL LoRA合并和Vicuna-7B模态合并上)
| 方法 | Qwen2-VL (平均) | Vicuna-7B (平均) |
|---|---|---|
| WUDI Merging | 58.65 | 64.65 |
| + SGD | 48.88 (-9.77%) | 66.91 (+2.26%) |
| + Initialization | 63.08 (+4.43%) | 67.07 (+2.42%) |
| + Low-rank | 63.30 (+4.65%) | 67.00 (+2.35%) |
表6:在Hugging Face实际微调模型上的合并结果
| 方法 | VizWiz | GQA | MathVista | MATH-Vision | ChartQA | TextVQA | OCRVQA | RefCOCO | RefCOCO+ | RefCOCOg | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Qwen2-VL-7B-GRPO-8k | 44.13 | 62.04 | 46.74 | 22.37 | 69.20 | 78.58 | 68.85 | 84.13 | 79.12 | 76.54 | 63.17 |
| Qwen2-VL-7B-Pokemon | 42.51 | 60.96 | 43.69 | 19.74 | 63.20 | 76.75 | 67.64 | 70.11 | 68.80 | 68.64 | 58.20 |
| olmOCR-7B-0225-preview | 43.76 | 61.48 | 38.91 | 18.42 | 67.48 | 77.24 | 68.29 | 75.17 | 71.55 | 69.64 | 59.19 |
| EraX-VL-7B-V1.0 | 36.09 | 54.36 | 38.58 | 25.00 | 56.00 | 70.70 | 65.59 | 41.89 | 40.99 | 43.26 | 47.25 |
| OptMerge (Ours) | 43.76 | 61.29 | 44.68 | 27.63 | 76.24 | 82.97 | 71.48 | 89.56 | 82.97 | 86.42 | 66.70 |
表10:合并模型在一般多模态QA基准上的涌现能力
| 模型/方法 | MMMU | DocVQA | ScienceQA | AI2D | InfographicVQA | 平均提升 |
|---|---|---|---|---|---|---|
| Individual Geometry | 33.67 | 64.29 | 73.25 | 62.27 | 29.79 | - |
| Individual Grounding | 34.22 | 65.64 | 76.54 | 63.24 | 33.82 | - |
| … | … | … | … | … | … | - |
| OptMerge (Ours) | 39.33 | 84.18 | 91.89 | 79.44 | 56.84 | +10.85% |
关键结论:
- 能力合并:OptMerge在多数基准上取得最佳平均分,且能匹配甚至超越基于数据混合训练的基线(Mixture Training / Qwen2-VL-Instruct),证明了合并的高效性。
- 模态合并:合并后的模型在音视频问答任务上显著超越了任何单模态模型,验证了模态融合的有效性。
- 泛化能力:将多个专家模型合并后,在需要综合能力的通用多模态基准(如MMMU, DocVQA)上,合并模型展现出超越任何单个专家模型的“涌现能力”(表10),平均提升达10.85%。
- 实用性:在合并来自HuggingFace的真实微调模型时,OptMerge依然表现优异(表6),证明了其现实应用价值。
⚖️ 评分理由
- 学术质量:6.0/7 - 创新性强,首次为MLLM模型合并建立系统基准并提出针对性优化算法(OptMerge)。理论分析(定理3.1)与实验设计严谨,覆盖全面,消融实验充分证明了各组件的有效性。结论可靠,揭示了“合并可能优于混合训练”、“模态合并可构建全模态模型”等有价值的观点。
- 选题价值:1.5/2 - 聚焦于降低多模态模型开发成本的核心需求,为模型复用和快速集成提供了创新方案,具有明确的应用前景。虽然不直接针对音频/语音任务,但其方法论(合并)和构建全模态模型的目标与音视频理解领域高度相关。
- 开源与复现加成:+0.5/1 - 论文明确承诺公开基准数据集、专家模型检查点和代码,这极大促进了社区的复现和进一步研究,是一个重要的加分项。