Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding

#多模态模型 #模型融合

7.6/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5

👥 作者与机构

作者：Shiyu Li, Zhiyuan Hu, Yifan Wang, Peiming Li, Zheng Wei, Yang Tang 机构：腾讯，清华大学

💡 毒舌点评

这篇工作像给一台精心调教的V8发动机（视觉专家）外挂了一套涡轮增压系统（音频专家），然后发现接口不匹配（投影器漂移），最后通过一套“打补丁”（投影器恢复）加“重新磨合”（平衡排练）的维修手册解决了问题。方法论框架清晰，问题定义（Projector Drift）有洞察力，实验验证了流程的必要性。然而，整个框架更像是一个工程上的“拼装修补”方案，而非从根本上理解或解决模态融合的理论困境。计算成本高昂（A100训练两周），且严重依赖特定基础模型（Qwen3-VL-8B）和经验参数（融合系数α），通用性存疑。开源不彻底（无代码、无权重），复现门槛极高。论文在音频领域（MAEB SOTA）有直接贡献，但作为“全模态”工作，其视觉部分并未超越同期专用模型，影响力受限。

📌 核心摘要

论文提出Conan-embedding-v3，一个用于全模态检索的“解耦-融合-恢复”框架。核心流程是：1）从同一个视觉-语言基础模型出发，独立训练图像、视频、文档和音频四个领域专家；2）通过任务向量融合（Task Arithmetic）将四个专家合并到一个密集骨干网络中；3）针对融合后出现的“投影器漂移”问题（即为音频专家训练的投影器与融合后骨干网络不匹配），采用“投影器恢复”（仅微调投影器）和“平衡排练”（轻量级多模态数据混合训练）来修复并平衡最终模型。最终模型在MMEB（图像/视频/文档）上达到74.96分，在MAEB（音频）上达到55.61分。

🔗 开源详情

代码：论文中未提供代码仓库链接（如GitHub、GitLab等）。
模型权重：论文中未提供预训练模型权重的下载链接（如HuggingFace Hub、ModelScope等）。
数据集：论文提及训练数据包括公开数据集：MSCOCO、VisualNews、LLaVA-Hound、ColPali、VisRAG、AudioCaps、AudioSetStrong。但未提供统一的数据集下载链接、处理脚本或开源协议说明。同时提及使用了内部合成数据，该部分未开源。
Demo：论文中未提及在线演示。
复现材料：论文提供了详细的训练配置与复现信息，包括：
- 基础模型：Qwen3-VL-8B。
- 音频路径实现：使用了来自Qwen3-Omni-30B-A3B-Instruct的音频编码器和一个约19M参数的两层MLP投影器，并添加了 <|audio_start|>、<|audio_end|>、hôtel和<|AUDIO|>特殊token。
- 训练配置：
  - 损失函数：InfoNCE对比损失，温度\(\tau=0.02\)。
  - 优化器：AdamW，使用余弦学习率调度。
  - 学习率：专家训练为\(1 \times 10^{-4}\)，平衡排练阶段为\(1 \times 10^{-5}\)。
  - 全局批量大小：8192。
  - 平衡排练步数：约2000步。
- 融合系数：视觉专家权重\(\alpha_I = \alpha_V = \alpha_D = 0.3\)，音频专家权重\(\alpha_A = 0.5\)。
- 评估基准：视觉使用MMEB-V2，音频使用MAEB（30任务）。
- 计算基础设施：在NVIDIA A100 (80GB) GPU上进行训练，总训练时长约两周（各专家可并行训练）。
- 训练数据量：约5000万检索样例，包括公开数据和内部合成数据。
论文中引用的开源项目：论文在相关工作和实验中提到了多个开源模型与工具，但未在文中提供其具体链接。

🏗️ 方法概述和架构

Conan-embedding-v3的方法分为三个明确阶段，旨在解决从独立模态专家构建单一全模态检索器过程中遇到的优化冲突和表示对齐问题。

解耦专家训练 (Decoupled Specialist Training)

基础模型：使用Qwen3-VL-8B作为初始化模型（\(\theta_0\)），该模型原生支持文本和视觉输入。
专家定义：为每个模态组（\(m \in \{I, V, D, A\}\)，分别对应图像、视频、视觉文档、音频）训练一个独立的专家模型（\(\theta_m\)）。
训练过程：每个专家\(\theta_m\)仅在其自身的模态特定检索数据\(\mathcal{D}_m\)上进行训练：\(\theta_{m} = \text{Train}(\theta_{0}, \mathcal{D}_{m})\)。训练采用InfoNCE对比损失，温度\(\tau=0.02\)，优化器为AdamW。
可训练模块：在专家训练阶段，对所有模块（语言骨干、视觉编码器、音频编码器、音频投影器）应用LoRA适配器。训练完成后，将所有LoRA适配器合并（merge）到密集权重中，得到完整的专家检查点。
模态特异性：
- 视觉专家（I, V, D）：直接适配基础模型的视觉-语言通路。
- 音频专家（A）：需要“移植”一个外部音频通路。具体实现为：从Qwen3-Omni-30B-A3B-Instruct中提取音频编码器（\(E_A\)），并添加一个约19M参数的两层MLP投影器（\(P_A\)）。该投影器将2048维的音频特征映射到骨干网络的4096维隐藏空间。同时，引入特殊token <|audio_start|>、<|audio_end|>、hôtel和<|AUDIO|>，并将投影后的音频特征替换<|AUDIO|> token的嵌入。训练时，音频专家学习对齐这个新通路与文本。

任务向量融合 (Task-Vector Fusion)

任务向量定义：对于每个专家\(\theta_m\)，其在共享参数（\(\mathcal{K}_{\text{shared}}\)）上的任务向量定义为与基础模型的差：\(\Delta_{m}[k] = \theta_{m}[k] - \theta_{0}[k]\)。
融合公式：统一骨干网络\(\theta_{\text{merge}}\)通过加权和融合所有专家的任务向量构成：\(\theta_{\text{merge}}[k] = \theta_{0}[k] + \sum_{m \in \{I,V,D,A\}} \alpha_{m} \Delta_{m}[k]\)。主实验采用“multiway-C”系数：\(\alpha_I = \alpha_V = \alpha_D = 0.3, \alpha_A = 0.5\)。
音频模块处理：由于音频编码器、投影器和特殊token条目在基础模型中不存在（属于\(\mathcal{K}_{\text{audio-only}}\)），无法形成任务向量，因此直接从音频专家检查点复制到融合模型中：\(\theta_{\text{merge}}[k] = \theta_{A}[k]\)。
结果与问题：此步骤产生了一个结构完整的全模态检查点。然而，直接复制的音频投影器\(P_A\)是在音频专家骨干\(B_A\)（\(\theta_A\)）上训练的，而推理时它面对的是融合后不同的骨干\(B_{\text{merge}}\)。这种接口不匹配被定义为“投影器漂移”（Projector Drift）。

对齐恢复 (Alignment Recovery)

阶段3a：投影器恢复 (Projector Recovery)：为修复漂移，执行一个后融合恢复阶段。具体操作是：冻结整个融合后的语言骨干网络和音频编码器，仅对约19M参数的音频投影器\(P_A\)进行全参数微调（\(\theta_{P_A} = \text{Train}(\theta_{P_A}, \mathcal{D}_A)\)）。此阶段旨在重新校准投影器与融合骨干网络的接口。
阶段3b：平衡排练 (Balanced Rehearsal)：从投影器恢复后的检查点出发，进行一个轻量级的多模态排练。此阶段在骨干网络和视觉编码器上应用LoRA适配器，以较低的学习率（\(1 \times 10^{-5}\)）和保守的更新预算（约2000步）混合训练音频、图像、视频和视觉文档检索数据。其目的是在保持已恢复音频能力的同时，提升模型在所有模态上的协调性，避免陷入仅擅长音频的极端。
整体流程：解耦专家训练避免了跨模态优化冲突；任务向量融合将各能力组合到一个检查点；投影器恢复和平衡排练则修复并优化了融合带来的接口问题和模态平衡。

💡 核心创新点

解耦专家融合（Decoupled Specialist Fusion）：提出了一种将不同模态专家（包括通过移植方式构建的音频专家）在参数空间中进行组合的范式，以避免直接联合训练中的“跷跷板效应”（seesaw effect）。
识别投影器漂移（Projector Drift）：首次明确指出并分析了当通过外部编码器和投影器引入的模态（如音频）在与融合骨干网络结合时，会出现投影器-骨干网络失配导致性能急剧下降的问题，并提供了可视化分析。
提出恢复框架：设计了“投影器恢复+平衡排练”的后融合修复流程，在仅微调投影器后进行轻量级多模态微调，有效恢复了全模态检索能力。

📊 实验结果

表1：MMEB基准对比（视觉相关模态）

模型	参数量	MMEB Overall	Image	Video	VisDoc
Qwen3-VL-Embedding-8B	8.14B	77.82	80.12	67.15	82.36
Conan-embedding-v3	8.8B	74.96	77.20	65.10	79.00
WeMM-Embedding-8B	8.77B	73.90	78.09	63.24	75.62
seed1.6-embedding-1215	–	76.97	77.99	67.74	82.38

表2：MAEB基准对比（音频模态）

模型	类型	参数量	MAEB	Task-type Avg.
jina-embeddings-v5-omni-small	omni embedding	1.63B	50.41	55.58
LCO-Embedding-Omni-7B	omni embedding	8.93B	53.54	57.06
Conan-embedding-v3	omni embedding	8.8B	55.61	59.32

表3：核心组件消融实验

变体	移除/改变的组件	Image	Video	VisDoc	MAEB
Joint Training (I+V+D)	无解耦专家/融合	80.3	67.2	82.0	–
Joint Training (I+V+D+A)	无解耦/融合，所有模态	69.2	43.0	74.9	48.01
Direct Fusion	无恢复	68.5	56.7	68.9	32.68
+ Audio-Only Recovery	无平衡排练	68.5	56.7	68.9	55.82
Conan-embedding-v3	完整解耦-融合-恢复	77.2	65.1	79.0	55.61

表4：恢复策略消融实验

模型	Image (36)	Video (18)	VisDoc (24)	MAEB Audio
Direct Fusion (pre-recovery)	68.5	56.7	68.9	32.68
+ Backbone + Projector LoRA	67.1	53.6	74.1	56.39
+ Projector-Only Tuning (Ours)	68.5	56.7	68.9	55.82
+ Joint Recovery (One-stage)	72.6	63.5	78.0	52.97
+ Balanced Rehearsal (Ours)	77.2	65.1	79.0	55.61

附录A表5：与多任务学习方法对比

方法	Image	Video	VisDoc	MMEB Overall
PCGrad MTL Baseline	72.3	57.7	70.4	68.3
Conan-embedding-v3 (ours)	77.2	65.1	79.0	74.96

附录B表6：不同融合方法对比

融合方法	Image	Video	VisDoc	MMEB Overall	MAEB (Pre-Recov.)	MAEB (Post-Recov.)
TIES-Merging (trim = 0.2)	76.5	64.3	78.2	74.12	28.45	54.92
TIES-Merging (trim = 0.5)	74.8	62.1	76.0	72.10	21.10	52.45
DARE (drop = 0.1)	76.9	64.7	78.6	74.52	30.12	55.20
Task Arithmetic (ours)	77.2	65.1	79.0	74.96	32.68	55.61

主要结论：Conan-embedding-v3在保持具有竞争力的视觉检索能力（MMEB 74.96）的同时，在MAEB音频基准上取得了SOTA结果（55.61）。消融实验表明，直接联合训练会导致严重性能下降，而“直接融合”会产生严重的投影器漂移（MAEB仅32.68）。所提出的两阶段恢复策略（先投影器恢复，后平衡排练）是性能恢复的关键。任务向量融合（Task Arithmetic）在视觉保持上优于TIES和DARE等高级融合方法。

⚖️ 评分理由

创新性 (1.6/2)：问题定义清晰，“投影器漂移”概念的识别有新意，将模型融合范式应用于多模态嵌入领域并提出了针对性的修复方案。但整体框架（专家训练-融合-修复）是组合式的，理论深度一般。
技术严谨性 (1.3/1.5)：消融实验设计完善，系统地验证了每个阶段的必要性。对“投影器漂移”提供了模型空间和输出空间的可视化分析。然而，缺乏对投影器漂移更深层机理的理论探讨，融合系数α的选择是经验性的网格搜索。
实验充分性 (1.4/2)：在MMEB和MAEB两个主流基准上进行了全面的对比和消融。但计算成本较高（两周A100训练），且基础模型（Qwen3-VL-8B）和音频编码器来源特定，限制了结果的普适性。未提供在不同规模基础模型上的验证。
清晰度 (1.3/1.5)：论文结构清晰，方法描述详细，图表（如图1，图2，图4，图5）有效辅助了概念阐述。部分技术细节（如“平衡排练”中LoRA的具体配置）可以更明确。
影响力 (0.4/1.5)：对音频-文本检索领域（MAEB）有直接贡献，提供了有效的多模态融合实践方案。但对于非音频领域的读者（如纯视觉或NLP研究者）直接受益有限。作为“全模态”工作，其视觉部分未超越同期专用模型，限制了其广泛影响力。
开源 (0.2/1.5)：论文未提供代码仓库链接、模型权重下载或完整的训练脚本。 “开源详情”中提及的训练配置信息不足以实现完全复现。
可复现性 (0.8/1)：论文提供了非常详细的训练超参数、数据配方和架构描述，理论上可根据描述实现。但由于核心代码和预训练权重未开源，且依赖未公开的内部合成数据，实际可复现性很低。
工程/实践价值 (1.2/1.5)：提供了一套清晰的、可扩展的“解耦-融合-修复”工程管线，对于构建多模态嵌入模型具有实用参考价值。但框架复杂度高（需训练四个专家+多次恢复阶段），部署和维护成本不低。

🚨 局限与问题

框架复杂性与成本：整个流程需要独立训练四个专家模型，进行参数空间融合，再执行两个恢复阶段。尽管声称专家可并行训练，但总计算开销（两周A100）显著高于单次联合训练，这在资源受限的场景下可能不实用。
对外部组件的强依赖：方法严重依赖特定的基础模型（Qwen3-VL-8B）和从其他模型中提取的音频编码器。其通用性和可移植性未经验证，例如，换成另一个视觉-语言模型或不同的音频编码器，整个“投影器漂移”现象和恢复策略是否依然有效未知。
评估的局限性：尽管在MMEB和MAEB上表现良好，但MMEB主要评估图像、视频和文档，未能评估与其他重要模态（如纯文本检索）的协同效果。MAEB虽然是音频SOTA，但具体任务性质未详述。论文声称“全模态”，但实际评估未覆盖所有模态间的交叉检索。
融合系数的脆弱性：融合权重α的选择依赖于在特定验证集上的经验搜索（网格搜索），且未提供自动化的选择机制。当添加新模态或更换基础数据时，这些系数可能需要重新调优，缺乏自适应性。
音频路径的“外挂”性质：音频通路是通过外部编码器和投影器“移植”进去的，而非从基础模型内生演化。这可能导致其与视觉-语言骨干网络的深层语义对齐不如原生模态，或许限制了其在更复杂多模态推理任务上的潜力。
恢复策��的“打补丁”本质：作者自己也承认，投影器恢复是一种“修复”（repair）而非完整解决方案。漂移被减轻但未完全消除。这意味着模型的最终性能可能仍受限于初始融合带来的结构性缺陷。
缺少泛化性分析：实验仅基于一个8.8B参数规模的模型。该方法在更小（如2B）或更大的模型上是否同样有效？不同规模下“投影器漂移”的程度和恢复的难度如何变化？这些未知。

📷 论文图片

← 返回 2026-06-09 语音/音乐/音频论文速递

📄 Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📷 论文图片#

📎 相关论文

📄 Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding