模型合并 on 语音/音频论文速递

Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data

Wed, 06 May 2026 00:00:00 +0000

📄 Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data

#生物声学 #任务算术 #模型合并 #零样本 #数据集

学术质量 4.0/7 | 选题价值 4.0/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Ragib Amin Nihal（东京科学研究所，系统与控制工程）
通讯作者：未明确说明（根据邮箱 ragib@ra.sc.e.titech.ac.jp 推断，可能为第一作者）
作者列表：
- Ragib Amin Nihal（东京科学研究所，系统与控制工程；RIKEN BDR）
- Benjamin Yen（东京科学研究所，系统与控制工程）
- Runwu Shi（东京科学研究所，系统与控制工程；RIKEN BDR）
- Takeshi Ashizawa（东京科学研究所，系统与控制工程）
- Kazuhiro Nakadai（东京科学研究所，系统与控制工程；RIKEN BDR）

💡 毒舌点评

亮点在于将生态学中的“声学生态位假说”巧妙映射到模型参数空间，为“为什么简单的模型合并（平均）在生物声学任务上有效，而复杂的冲突解决方法（如TIES）反而失效”提供了一个优雅的几何解释（任务向量近正交）。短板是应用场景相对垂直（多物种生物声学监测），其核心发现（基于频谱距离预测合并效果）的普适性有待在更广泛的音频任务（如通用声音事件检测）中验证，且合并后的模型精度（59.2%）相比联合训练基线（68.3%）仍有近10个百分点的明显差距。

🔗 开源详情

代码：论文中未提及代码链接。论文摘要下方有“Code Link”字样，但后文未给出具体URL。
模型权重：论文中未提及具体权重链接，但文中使用的预训练模型为BEATs (iter3+ AS2M) [chen2023beats]。
数据集：论文使用了多个开源数据集，具体获取链接未在论文中给出，但引用中指明了来源平台：
- BirdCLEF 2023/2024/2025：来源为Kaggle竞赛数据集。
- Watkins Marine Mammal Sound Database：来源为WHOI（伍兹霍尔海洋研究所）。
- AnuraSet：来源为Zenodo。
- BirdSet POW：来源为HuggingFace Datasets。（注：论文附录C和表格S3中提供了详细描述，但未给出具体项目主页URL。）
Demo：论文中未提及。
复现材料：论文附录提供了详细的训练协议。具体包括：
- 完整超参数配置（附录D，表S2）。
- 任务向量计算方法和存储格式（附录D.3）。
- 复现所需的配置哈希（SHA-256前缀 c4c3cf3b）和随机种子设置（附录H）。
- 所有实验的附加分析（附录E，包括数据效率、层级分析、持续学习等）。（注：论文未提供预训练检查点或具体代码的下载链接。）
论文中引用的开源项目：
- BEATs：预训练音频模型。论文中引用[chen2023beats]，未提供具体链接。
- Task arithmetic：模型合并方法。论文中引用[ilharco2023editing]，未提供具体链接。
- TIES-Merging：冲突解决型合并方法。论文中引用[yadav2023ties]，未提供具体链接。
- DARE：基于丢弃的合并方法。论文中引用[yu2024dare]，未提供具体链接。
- DELLA：结合DARE和TIES的合并方法。论文中引用[panigrahi2024della]，未提供具体链接。
- AudioSet：BEATs的预训练数据集。论文中引用[audioset]，未提供具体链接。

补充信息

[细节详述] 补充：模型架构的关键设计动机之一是BEATs使用了LayerNorm，这使得合并后的编码器无需进行权重重新校准（原文2.5节：“BEATs uses LayerNorm, so merged encoders do not require recalibration."）。
[实验结果] 补充：论文提供了更细致的k-NN诊断结果对比，合并模型（72.8%）与联合训练基线（75.1%）的差距仅为2.3%，远小于线性探测的9.4%差距，这表明局部特征结构在合并后大部分得以保留，差距主要由全局子空间排布变化引起（对应Finding F2）。
[细节详述] 补充：计算效率实验（附录E.5）中明确指出了训练硬件为NVIDIA A100 GPU，并给出了具体的计算时间对比：独立训练五组专家模型总需4.87 GPU-小时（可并行），而联合训练需4.67 GPU-小时（单次）。添加新组时，合并方法（训练新专家+0.76秒CPU算术）比从头联合训练（4.67 GPU-小时）快约6倍。
[实验结果] 补充：论文进行了一项关于归一化调整加权（norm-adjusted weighting）的消融实验（附录E.6）。结果显示，在各种缩放系数下，均匀加权（uniform weighting）的表现均优于反范数加权（inverse-norm weighting）1.7到4.5个百分点。这进一步支持了在近正交几何下，简单平均即为最优策略的结论。
[核心摘要/评分理由] 补充：论文自我声明的局限性还包括：a) 该方法的有效性高度依赖于任务向量间的低干扰性（近正交性），这在物种分类单元更细或任务更相似的场景下可能减弱（结论部分）；b) 该方法要求所有专家模型基于完全相同的基础模型和超参数配置进行微调，这需要一定程度的预先协调（方法2.1节）。这些是理解该方法适用边界的重要信息。
[作者与机构] 补充：论文中标注的机构“RIKEN BDR”全称为“RIKEN Center for Biosystems Dynamics”（理化学研究所生物系统动力学研究中心），这更准确地描述了合作者的背景。
[实验结果] 补充：论文中的“联合训练基线”准确率（68.3% for 661 classes, 67.2% for 4 regions）是在相同数据划分、模型架构和线性探测协议下，使用所有可用训练数据从头联合训练得到的模型所达到的性能，作为评估合并效果的上界参考。
补充链接（自动提取）：
- 代码仓库：https://github.com/Ragib-Amin-Nihal/BioAcousticArithmetic

📌 核心摘要

问题：生物声学监测数据分散在不同机构、物种群和区域，难以集中训练统一的分类器。现有的联邦学习或集中式训练面临数据隐私、传输成本和计算负担等挑战。
方法核心：提出“生态约束任务算术”框架。各研究团队使用相同的预训练BEATs模型，在各自私有数据上独立微调，得到针对特定物种群（如鸟类、海洋哺乳动物）的专家模型。然后，仅共享轻量级的“任务向量”（微调后模型参数与预训练模型参数之差），通过简单的向量平均进行合并，构建一个无需共享原始数据的多物种（661种）分类器。
创新点：首次在生物声学领域验证任务算术的可行性，并创新性地发现：a) 不同物种群的任务向量在参数空间中近乎正交（余弦相似度0.01-0.09）；b) 这种正交性与物种群间的频谱分布距离（Jensen-Shannon散度）强相关（Spearman ρ = -0.915），为声学生态位假说提供了参数空间的证据；c) 该几何结构导致简单的向量平均效果最优，而适用于计算机视觉的符号冲突解决方法（如TIES）会因符号近乎随机而失效。
主要实验结果：
- 合并后的661类模型达到59.2%的准确率，为联合训练基线（68.3%）的86%。简单平均和DARE等直接组合方法表现最佳（见表2）。
- 合并存在不对称性：数据量大的物种群（如雀形目鸟类）准确率下降11.8%，而数据量少的物种群（海洋哺乳动物、两栖动物）准确率分别提升3.9%和1.9%（见图4b）。
- 四个区域模型的合并实现了跨区域零样本迁移，在未见过的区域达到专用模型90.8%的性能。
- 通过从任务向量中减去特定领域的向量来“否定”该领域（如焦点录音）的方法失败，因为领域信息与物种身份信息在参数空间中纠缠。
实际意义：提供了一种保护数据隐私、支持协作的生物声学模型构建范式。机构只需贡献任务向量（~360MB）即可参与构建覆盖更多物种和区域的分类器，特别有利于监测受数据共享协议保护的濒危物种。
主要局限性：该方法要求所有专家模型基于完全相同的预训练模型和超参数配置进行微调，这需要一定程度的预先协调。此外，合并模型的精度仍低于联合训练，且其有效性高度依赖于任务向量间的低干扰性（近正交性），这在物种分类单元更细或任务更相似的场景下可能减弱。

🏗️ 模型架构

本文的核心并非提出一个新的端到端模型架构，而是提出一种基于现有模型的合并框架。其系统架构如图1所示，可分为三个阶段：

独立微调阶段：每个研究组使用相同的预训练音频编码器（本文为BEATs，一个90M参数的音频谱图Transformer），在其私有的、物种不重叠的数据集上进行微调，得到一个特��物种群的专家编码器（参数为θ_i）。
任务向量提取与合并阶段：每个专家编码器生成一个任务向量τ_i = θ_i - θ_0（θ_0为预训练模型参数），该向量捕获了微调学到的知识。将所有任务向量进行算术合并（本文发现简单平均最佳），然后将其加到预训练模型上：θ_merged = θ_0 + (1/N) * Στ_i。
评估阶段：冻结合并后的编码器，训练一个简单的线性分类头进行物种分类评估。

图1：生态约束任务算术流程。(a) 声学生态位分区示意图。(b) 上：任务向量在权重空间中近乎正交，其幅度与数据集大小成正比。下：每个群组修改了编码器中一个稀疏且基本不重叠的参数子集。 (c) 合并流程：独立微调的专家产生任务向量，这些向量被平均并添加到共享的预训练编码器中，无需共享数据即产生统一的分类器。

该框架的关键设计选择是：

基于BEATs：选择其强大的音频表示能力和在AudioSet上的预训练基础。
仅合并编码器权重：排除了结构不兼容的分类头。
保持冻结编码器：评估时冻结合并后的编码器，仅训练线性探针，以隔离编码器质量。

💡 核心创新点

发现并验证了生物声学任务向量的近正交几何特性：这是最核心的贡献。与计算机视觉中任务向量通常具有较高余弦相似度不同，本文发现跨分类群（如鸟 vs 海洋哺乳动物）的任务向量余弦相似度低至0.01-0.04。这为理解音频模型合并提供了新的几何视角。
建立了任务向量几何与声学生态学原理的强相关性：通过将任务向量余弦相似度与各物种群平均频谱分布的Jensen-Shannon散度进行相关性分析（Spearman ρ = -0.915），将“声学生态位假说”成功映射到参数空间。这不仅解释了正交性的来源，也为预测合并效果提供了先验知识。
揭示了合并导致的“容量重分配”不对称效应：从公式推导（Eq. 2）和实验结果（图4b）证明，在近正交条件下，简单的1/N平均会导致数据量大的群组（任务向量L2范数大）在合并模型中被“稀释”得更厉害，精度下降更多；而小数据群组则相对受益。这种效应在联合训练中是不存在的。
提供了生物声学模型合并的完整实证框架：论文系统性地验证了线性模式连通性（所有微调模型在同一损失盆地）、多种合并策略的比较（直接组合方法优于符号冲突解决方法）、跨区域的零样本迁移能力，以及领域否定的失败边界，形成了一个完整的方法论闭环。

🔬 细节详述

训练数据：
- 物种群数据：将661种划分为五个群组（G1:雀形目336种，G2:非雀形目鸟157种，G3:猛禽/水鸟84种，G4:海洋哺乳动物21种，G5:两栖动物63种）。数据源包括BirdCLEF 23/24/25竞赛数据、Watkins海洋哺乳动物声音数据库、AnuraSet两栖动物数据集。每个物种按70/10/20划分训练/验证/测试集（表1）。
- 区域数据：四个地理子集：R1(东非BirdCLEF23)、R2(南亚BirdCLEF24)、R3(新热带BirdCLEF25中的鸟类)、R4(北美BirdSet POW)。区域间物种重叠极低（Jaccard相似度<0.034）。
- 数据预处理与增强：音频统一为16kHz、5秒、-60dB能量滤波。使用SpecAugment（2个时间掩码，T=50）和Mixup（α=0.3）进行增强。
损失函数：论文未明确说明微调时使用的具体损失函数。评估时，线性探针使用标准的分类交叉熵损失。合并效果通过“组成间隙”（Δ = 联合训练准确率 - 合并模型准确率）衡量。
训练策略：
- 优化器：AdamW (lr=1e-5, wd=0.01)
- 调度器：OneCycleLR（余弦衰减+线性warmup，warmup步数500）
- 批大小：32
- 训练轮数：20 epochs，早停（patience=5，基于验证集损失）
- 精度：BF16混合精度
- 其他技巧：标签平滑（ε=0.1），梯度裁剪（最大范数1.0）。
- 编码器冻结策略：前2个epoch仅训练分类头，之后解冻整个编码器。
关键超参数：
- 模型：BEATs (iter3+ AS2M)，编码器输出768维，通过时间轴平均池化。
- 分类头：单层线性层（768 -> 类别数），Xavier初始化。
- 任务向量：在250个编码器参数张量（约90M参数）上计算，存储为FP32（约360MB）。
训练硬件：NVIDIA A100 GPU（计算效率分析中提及）。
推理细节：评估时，冻结编码器，仅使用一个线性探针（Adam, lr=1e-3, batch=256, 10 epochs）。同时使用1-近邻（k=1）作为无参诊断。
合并策略：评估了六种方法：1）简单平均，2）任务算术（λ * Στ_i），3）DARE（随机丢弃+缩放），4）TIES（修剪、符号选举、合并），5）DARE+TIES，6）DELLA。详见表2及附录B。

📊 实验结果

主要基准对比（表2）：

方法	最佳配置	661类准确率	与联合训练(68.3%)的差距
DARE + avg	p=0.9	59.2%	9.1%
Task arithmetic	λ=1.0	59.0%	9.3%
Simple avg	—	58.8%	9.5%
DARE + TIES†	p=0.9, k=0.2	57.9%	10.4%
DELLA†	p=0.9, k=0.2	55.3%	13.0%
TIES†	k=0.5	53.0%	15.3%
结论：所有直接组合方法（平均、任务算术、DARE）表现接近且最佳，任何涉及符号冲突解决（†）的方法性能都更差。

不对称合并效应（图4b）：图4(b)：各群组合并间隙。横轴为群组，纵轴为与联合训练基线的准确率差值（Δ Acc）。雀形目鸟类（G1，数据量最大）下降最多（-11.8%），而海洋哺乳动物（G4）和两栖动物（G5）准确率上升（+3.9%, +1.9%）。这证实了容量从大群组向小群组的重分配。

任务向量几何与频谱距离相关性（图4a）：图4(a)：频谱分布距离（Jensen-Shannon散度，横轴）与任务向量余弦相似度（纵轴）的散点图。呈现强负相关（Spearman ρ=-0.915）。点按类型着色：鸟-鸟对（绿色，高相似）、鸟-其他对（橙色，中相似）、涉及G4的对（红色，极低相似）。这为声学生态位假说提供了参数空间证据。

区域合并与零样本迁移：四个区域任务向量的余弦相似度（0.083-0.116）高于跨分类群对。均匀合并60.8%准确率（间隙6.5%）。关键结果：留一法评估中，合并三个区域模型后，在未见过的第四个区域达到专用模型90.8%的性能，实现了有效的零样本区域迁移。

线性模式连通性（图2）：图2：部分专家对之间的线性插值损失曲线。所有曲线单调，没有损失障碍超过端点。这证实了所有微调模型都位于预训练模型θ_0附近的同一个损失盆地中，这是任务算术能够成功应用的前提。

领域否定失败（图5）：图5：领域否定结果。从源模型中减去焦点录音的任务向量（τ_focal），在不同强度β下，焦点和声景准确率均单调下降（实线）。随机向量控制（虚线）几乎无影响。这表明“领域”信息（焦点/声景）与“物种身份”信息在参数空间中纠缠，无法通过简单减法分离。

⚖️ 评分理由

学术质量：6.0/7。创新性地将生态学假说引入模型合并的几何分析，提供了新颖的解释框架和实验发现。实验设计全面严谨（从LMC验证到不对称效应分析、区域迁移、边界条件探索），证据链完整。技术实现正确，结果可信度高。扣分点在于方法核心（任务算术）并非原创，且应用场景（多物种分类）相对垂直。
选题价值：1.5/2。选题紧扣生物声学领域的实际痛点（数据分散与隐私），提出的协作范式具有明确的应用前景和生态意义。其理论发现（频谱距离预测合并效果）对音频模型合并领域有启发价值。与语音音频读者的相关性中等，但声学信号处理方法和对模型几何的洞察具有参考意义。
开源与复现加成：0.5/1。论文提供了代码链接和非常详细的复现信息（表S2超参数、数据划分、配置哈希），有利于复现。但模型权重未提及公开，部分数据集（如Watkins）访问受限，可能影响完全复现。因此给予中等加成。

← 返回 2026-05-06 论文速递

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

Sat, 02 May 2026 00:00:00 +0000

📄 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

#多模态模型 #模型合并 #基准测试 #开源工具

🔥 8.0/10 | 前25% | #多模态模型 | #模型合并 | #基准测试 #开源工具

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Yongxian Wei（清华大学）
通讯作者：Lu Hou（华为诺亚方舟实验室），Chun Yuan（清华大学）
作者列表：Yongxian Wei（清华大学），Runxi Cheng（清华大学），Weike Jin（华为诺亚方舟实验室），Enneng Yang（中山大学），Li Shen（中山大学），Lu Hou（华为诺亚方舟实验室），Sinan Du（清华大学），Chun Yuan（清华大学），Xiaochun Cao（中山大学），Dacheng Tao（南洋理工大学）

💡 毒舌点评

亮点：论文最大的价值在于系统性地填补了MLLM模型合并领域“无标准基准”的空白，并基于此提出了针对全微调和LoRA微调两种不同场景的、有理论支撑的优化方法（OptMerge），实验充分且开源承诺良好。
短板：实验规模主要集中在1B和7B参数的模型上，对于当前主流的大参数量（如70B以上）多模态模型的合并效果、以及合并后模型的长期稳定性（如对话能力衰减）缺乏更深入的探讨。

🔗 开源详情

代码：论文明确提及“All code and checkpoints are publicly available here”，并提供了链接（here应为超链接，但当前文本中未显示具体URL）。因此，代码将开源。
模型权重：论文明确提及公开“checkpoints”，包括为基准训练的所有专家模型（VQA, Geometry, Chart, OCR, Grounding）在InternVL2.5和Qwen2-VL上的权重，以及模态合并实验中使用的视觉、音频、视频模型权重。
数据集：基准中使用的所有训练数据和评估数据均来自公开数据集（如Table 1所列），论文提供了详细的列表。评估使用VLMEvalKit和LMMs-Eval等公开工具。
Demo：论文中未提及提供在线演示。
复现材料：论文提供了详细的实现细节（附录C），包括微调参数、合并设置、优化器配置等。所有实验在8×V100 GPU上进行，提供了硬件参考。
引用的开源项目：论文依赖并引用了多个开源工具和模型，包括：
- 模型：InternVL2.5, Qwen2-VL, Vicuna, CLIP, BEATs, LanguageBind, LLaVA系列, CogVLM, InstructBLIP等。
- 评估工具：VLMEvalKit, LMMs-Eval。
- 合并工具：提到MergeKit。
- 框架：HuggingFace Transformers。

📌 核心摘要

要解决什么问题：现有模型合并研究缺乏针对多模态大语言模型（MLLM）的、能清晰划分其多种能力（如VQA、几何推理、图表理解等）并评估其模态融合效果的专用基准。同时，现有的数据驱动合并方法成本高昂，需要一种数据高效的后处理方法来统一不同专家模型的能力或不同模态。
方法核心是什么：本文提出了OptMerge基准，包含从VQA到Grounding五类能力的训练数据集和评估集，覆盖了InternVL2.5（全微调）和Qwen2-VL（LoRA）两种设置。同时，提出了OptMerge算法，通过对任务向量进行低秩近似去噪，并基于任务向量间的交互损失来鲁棒地优化合并向量，以应对全微调和LoRA微调模型参数特性不同的挑战。
与已有方法相比新在哪里：(1) 首次构建了细粒度划分MLLM能力并评估模态融合的专用模型合并基准。(2) 提出了针对MLLM特性的新合并算法OptMerge，通过SVD去噪和针对性的优化策略（全微调用Adam+中心化，LoRA用SGD+初始化为平均值）来提升稳定性与性能。(3) 首次在基准上系统性地探索了通过合并来融合视觉、音频、视频多种模态，构建“全模态”语言模型。
主要实验结果如何：
- 能力合并：OptMerge在基准上平均性能提升2.48%，在InternVL2.5（全微调）上达到57.44分（最佳），在Qwen2-VL（LoRA）上达到63.30分（最佳），超越了需要数据混合训练的基线（如InternVL2.5混合训练为57.66分）。
- 模态合并：合并视觉、音频、视频三个模态模型后，在Audio-VQA任务上平均得分66.88，显著高于单个模态模型（视觉63.16，音频37.75，视频64.11）。
- 消融实验：对LoRA合并，从WUDI Merging（58.65）逐步加入SGD（降至48.88）、初始化（升至63.08）、低秩近似（最终63.30）各组件，验证了各设计的有效性。
- 实际模型：合并从Hugging Face收集的4个不同专长模型（如GRPO数学模型、Pokemon模型），平均分达66.70，超过了最强单体模型（63.17）。
实际意义是什么：证明了模型合并是一种数据高效、计算成本低的构建增强版MLLM的有效路径。它不仅能融合同一基础模型的不同能力版本，还能通过“数据free”的方式整合不同模态的编码器，为快速集成社区开源模型、构建全模态模型提供了新思路。
主要局限性是什么：实验主要在中等规模模型（1B， 7B）上进行，对更大规模模型（如32B以上）的验证（虽然补充了32B实验但不深入）和计算效率的更全面评估有待加强。此外，基准所用的训练数据均为公开数据集，可能无法完全代表工业界复杂的私有数据场景。

🏗️ 模型架构

本文的核心贡献并非提出一个新的多模态模型架构，而是提出一种模型合并（Merging）的方法论，用于将多个已训练好的、具有不同能力或模态的多模态大语言模型（MLLM）融合成一个统一的模型。因此，其“架构”主要指合并后模型的构成方式。

合并目标：一个共享的、强大的大语言模型（LLM）骨干网络，例如Vicuna-7B-v1.5。
合并过程：
1. 能力合并：将基于同一基础模型（如InternVL2.5-1B-Instruct或Qwen2-VL-7B-Base）微调出的多个专家模型（如VQA专家、几何专家）的参数进行合并。每个专家模型结构相同，参数不同。
2. 模态合并：将使用不同模态编码器但共享同一LLM骨干的模型进行合并。例如，视觉语言模型（CLIP-ViT + MLP + LLM）、音频语言模型（BEATs + Q-Former + LLM）和视频语言模型（LanguageBind + MLP + LLM）共享Vicuna-7B-v1.5作为LLM。合并时，仅合并共享的LLM部分的参数，而保留各自独特的模态编码器和连接器。
数据流（以模态合并为例）：合并后的模型在推理时，可以同时接收视觉、音频或视频输入。具体模态的输入会通过其对应的编码器（CLIP、BEATs、LanguageBind）和连接器，转换成LLM能理解的token表示，然后送入合并后的、统一的LLM骨干网络中进行处理，生成文本响应。
关键设计选择：保留模态特定组件（编码器、连接器）而仅合并LLM参数，这一选择是合理的，因为不同模态的编码器架构和预训练目标差异巨大，直接合并权重意义不大；而LLM作为统一的语义理解和生成接口，其参数更易于通过数学操作进行融合。

图1：展示了通过模型合并来统一MLLM的能力（①将不同任务微调模型合并）或模态（②将视觉、音频、视频模型合并），从而构建一个更强的多任务或全模态模型，且此过程无需原始训练数据。

💡 核心创新点

构建首个针对MLLM的模型合并基准：
- 之前局限：缺乏标准基准，现有研究任务划分模糊，无法公平对比不同合并方法。
- 如何起作用：提出了包含VQA、几何、图表、OCR、Grounding五类能力的细粒度基准，为每类任务收集了至少10万条训练数据并划分了专门的评估集。同时涵盖了InternVL2.5（全微调）和Qwen2-VL（LoRA）两种主流微调范式。
- 收益：为社区提供了可复用的评测标准，使得模型合并研究有了清晰、公平的比较平台。
提出OptMerge优化合并方法：
- 之前局限：现有方法如WUDI Merging在优化合并向量时可能不稳定，尤其对LoRA模型的低秩特性考虑不足，易导致合并向量范数爆炸。
- 如何起作用：
  - 针对全微调模型：通过SVD分解任务向量，保留主要奇异成分进行低秩近似，实现去噪。优化目标基于合并向量与去噪任务向量的交互损失（公式3）。
  - 针对LoRA微调模型：观察到LoRA任务向量的低秩性，采用SGD优化器（具有隐式正则化）、对任务向量直接进行截断SVD去噪、并将合并向量初始化为任务向量平均值，以防止优化过程中合并向量范数过度增长（如图4所示）。
- 收益：显著提升了合并的稳定性和最终性能，在多个设置下取得了最优结果。
探索数据高效的模态融合路径：
- 之前局限：传统构建全模态（Omni）模型需要收集海量多模态指令数据进行联合训练，成本高昂。
- 如何起作用：利用模型合并技术，将独立训练好的视觉、音频、视频语言模型的LLM部分参数合并，无需任何新数据即可让模型具备处理多模态输入的能力。
- 收益：实验表明，合并后的模型在多模态问答任务上超过了单模态模型，证明了模态信息的互补性，为构建全模态模型提供了一条“数据free”的可扩展路径。

🔬 细节详述

训练数据：
- 能力合并基准：为五类任务收集了公开数据集，总规模约137万条。具体见Table 1，例如VQA包含GQA、VQAv2等共58万条；Geometry包含GeoQA+等19万条。数据被统一转换为ShareGPT指令微调格式。在训练Qwen2-VL-Base时，仅使用了英文数据集以避免性能下降。
- 模态合并：视觉模型使用LLaVA-mixed（66.5万），音频模型使用OpenAQA filtered（35万），视频模型使用Video-ChatGPT和LLaVA-mixed子集（共24万）。训练分为两阶段：首先只训练连接器进行对齐，然后全参数微调连接器和LLM（使用LoRA，rank=128）。
损失函数：OptMerge优化合并向量的核心损失定义于公式(3)。其本质是让合并后的模型在隐藏激活层面，尽可能接近每个专家模型的效果，即 (θ₀,l + τₘ,l) x ≈ (θ₀,l + τᵢ,l) x。具体形式为最小化合并向量与去噪任务向量在列空间（由Σ₁:kV⊤₁:k表示）上的投影差异。
训练策略：
- 专家模型微调：InternVL2.5采用全微调，学习率4e-5，warmup比例0.03，训练1个epoch。Qwen2-VL采用LoRA（rank=8），学习率1e-5，warmup比例0.1，训练1个epoch。均使用余弦学习率调度。
- OptMerge合并过程：合并系数λ在[0.1, 0.3, 0.5, 0.7, 1.0, 1.5]中搜索。对于优化过程，全微调模型（InternVL）使用Adam优化器，学习率1e-5；LoRA模型（QwenVL）使用SGD优化器，学习率1e-4。优化迭代次数为300步，仅对模型的线性层进行优化，其他层简单平均。
关键超参数：OptMerge中的关键超参数k（低秩近似的阶数）被简单设置为每个任务向量秩的1/5（任务数）。消融实验（Table 8）表明，k在任务向量秩的10%-30%范围内性能稳定。
训练硬件：所有实验使用8块NVIDIA V100 GPU进行。
推理细节：论文未提及特殊的解码策略（如温度、beam size），评估使用VLMEvalKit和LMMs-Eval库，确保公平对比。对于MathVista和MATH-Vision的评估，使用GPT-4o-mini API从模型输出中提取答案。
正则化/稳定训练技巧：在OptMerge中，对于LoRA模型合并，引入了SGD优化器（提供隐式正则化）和将合并向量初始化为任务向量平均值作为稳定训练的关键技巧，有效防止了合并向量范数爆炸（图4）。

📊 实验结果

主要实验分为能力合并、模态合并、实际模型验证和消融研究。

表2：在InternVL2.5（全微调）上的能力合并结果

方法	VizWiz	GQA	MathVista	MATH-Vision	ChartQA	TextVQA	OCRVQA	RefCOCO	RefCOCO+	RefCOCOg	平均
InternVL2.5-Instruct	29.15	54.62	46.80	18.42	69.48	72.51	41.08	71.69	65.41	67.40	53.66
Individual VQA	30.58	60.91	35.50	17.11	48.76	63.68	36.04	-	-	-	41.80
Task Arithmetic	30.67	56.34	45.36	21.05	72.88	76.26	43.39	74.90	68.15	72.75	56.18
OptMerge (Ours)	30.97	57.13	54.48	21.05	68.72	76.01	46.35	75.97	69.72	73.94	57.44
Mixture Training	29.79	61.33	52.83	23.68	70.32	72.96	60.25	72.06	65.93	67.46	57.66

��2：展示了基准中任务向量的分布。(a, b)显示任务向量幅值较小，全微调模型呈右偏分布，LoRA模型呈多峰分布。(c, d)显示不同任务在不同层的归一化Frobenius范数差异显著，带来了合并挑战。

表3：在Qwen2-VL（LoRA微调）上的能力合并结果

方法	VizWiz	GQA	MathVista	MATH-Vision	ChartQA	TextVQA	OCRVQA	RefCOCO	RefCOCO+	RefCOCOg	平均
Qwen2-VL-Base	5.52	5.39	47.85	23.68	0.36	20.22	1.07	45.32	37.55	31.26	21.82
Task Arithmetic	40.52	62.31	40.36	26.31	79.67	81.09	59.50	75.96	61.33	75.85	60.29
WUDI Merging	37.19	56.45	42.96	27.63	67.84	79.92	65.56	76.25	60.72	71.99	58.65
OptMerge (Ours)	41.61	61.16	48.66	40.79	74.08	81.54	60.06	80.92	65.90	78.24	63.30
Qwen2-VL-Instruct	44.09	62.18	46.02	19.73	70.04	78.38	65.42	82.89	77.87	75.63	62.23

表5：模态合并结果（零样本音视频问答）

数据集	Individual Modalities			Merging Methods (平均得分)							Online Composing
	视觉	音频	视频	Weight Average	Task Arithmetic	TIES Merging	TSV Merging	Iso-C	WUDI Merging	OptMerge (Ours)	NaiveMC	DAMC
MUSIC-AVQA	50.77	27.93	49.02	47.75	52.14	50.35	53.78	52.77	52.43	53.17	53.50	52.80
AVQA	75.55	47.57	79.20	69.39	78.62	75.84	80.90	77.51	76.86	80.82	80.26	80.78
平均	63.16	37.75	64.11	58.57	65.38	63.10	67.34	65.14	64.65	67.00	66.88	66.79

图3：展示LoRA模型合并时，优化合并向量容易因低秩约束而通过增大幅值来“走捷径”达到正交，导致问题。

图4：展示了OptMerge通过初始化与优化策略，在优化过程中能保持合并向量Frobenius范数的稳定，而WUDI Merging则会出现范数快速增长。

表4：消融实验（在Qwen2-VL LoRA合并和Vicuna-7B模态合并上）

方法	Qwen2-VL (平均)	Vicuna-7B (平均)
WUDI Merging	58.65	64.65
+ SGD	48.88 (-9.77%)	66.91 (+2.26%)
+ Initialization	63.08 (+4.43%)	67.07 (+2.42%)
+ Low-rank	63.30 (+4.65%)	67.00 (+2.35%)

表6：在Hugging Face实际微调模型上的合并结果

方法	VizWiz	GQA	MathVista	MATH-Vision	ChartQA	TextVQA	OCRVQA	RefCOCO	RefCOCO+	RefCOCOg	平均
Qwen2-VL-7B-GRPO-8k	44.13	62.04	46.74	22.37	69.20	78.58	68.85	84.13	79.12	76.54	63.17
Qwen2-VL-7B-Pokemon	42.51	60.96	43.69	19.74	63.20	76.75	67.64	70.11	68.80	68.64	58.20
olmOCR-7B-0225-preview	43.76	61.48	38.91	18.42	67.48	77.24	68.29	75.17	71.55	69.64	59.19
EraX-VL-7B-V1.0	36.09	54.36	38.58	25.00	56.00	70.70	65.59	41.89	40.99	43.26	47.25
OptMerge (Ours)	43.76	61.29	44.68	27.63	76.24	82.97	71.48	89.56	82.97	86.42	66.70

表10：合并模型在一般多模态QA基准上的涌现能力

模型/方法	MMMU	DocVQA	ScienceQA	AI2D	InfographicVQA	平均提升
Individual Geometry	33.67	64.29	73.25	62.27	29.79	-
Individual Grounding	34.22	65.64	76.54	63.24	33.82	-
…	…	…	…	…	…	-
OptMerge (Ours)	39.33	84.18	91.89	79.44	56.84	+10.85%

关键结论：

能力合并：OptMerge在多数基准上取得最佳平均分，且能匹配甚至超越基于数据混合训练的基线（Mixture Training / Qwen2-VL-Instruct），证明了合并的高效性。
模态合并：合并后的模型在音视频问答任务上显著超越了任何单模态模型，验证了模态融合的有效性。
泛化能力：将多个专家模型合并后，在需要综合能力的通用多模态基准（如MMMU, DocVQA）上，合并模型展现出超越任何单个专家模型的“涌现能力”（表10），平均提升达10.85%。
实用性：在合并来自HuggingFace的真实微调模型时，OptMerge依然表现优异（表6），证明了其现实应用价值。

⚖️ 评分理由

学术质量：6.0/7 - 创新性强，首次为MLLM模型合并建立系统基准并提出针对性优化算法（OptMerge）。理论分析（定理3.1）与实验设计严谨，覆盖全面，消融实验充分证明了各组件的有效性。结论可靠，揭示了“合并可能优于混合训练”、“模态合并可构建全模态模型”等有价值的观点。
选题价值：1.5/2 - 聚焦于降低多模态模型开发成本的核心需求，为模型复用和快速集成提供了创新方案，具有明确的应用前景。虽然不直接针对音频/语音任务，但其方法论（合并）和构建全模态模型的目标与音视频理解领域高度相关。
开源与复现加成：+0.5/1 - 论文明确承诺公开基准数据集、专家模型检查点和代码，这极大促进了社区的复现和进一步研究，是一个重要的加分项。

← 返回 ICLR 2026 论文分析