Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding
📄 Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding #多模态模型 #模型融合 7.6/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前25% | #音频检索 | #模型融合 | #多模态模型 | arxiv 👥 作者与机构 作者:Shiyu Li, Zhiyuan Hu, Yifan Wang, Peiming Li, Zheng Wei, Yang Tang 机构:腾讯,清华大学 💡 毒舌点评 这篇工作像给一台精心调教的V8发动机(视觉专家)外挂了一套涡轮增压系统(音频专家),然后发现接口不匹配(投影器漂移),最后通过一套“打补丁”(投影器恢复)加“重新磨合”(平衡排练)的维修手册解决了问题。方法论框架清晰,问题定义(Projector Drift)有洞察力,实验验证了流程的必要性。然而,整个框架更像是一个工程上的“拼装修补”方案,而非从根本上理解或解决模态融合的理论困境。计算成本高昂(A100训练两周),且严重依赖特定基础模型(Qwen3-VL-8B)和经验参数(融合系数α),通用性存疑。开源不彻底(无代码、无权重),复现门槛极高。论文在音频领域(MAEB SOTA)有直接贡献,但作为“全模态”工作,其视觉部分并未超越同期专用模型,影响力受限。 📌 核心摘要 论文提出Conan-embedding-v3,一个用于全模态检索的“解耦-融合-恢复”框架。核心流程是:1)从同一个视觉-语言基础模型出发,独立训练图像、视频、文档和音频四个领域专家;2)通过任务向量融合(Task Arithmetic)将四个专家合并到一个密集骨干网络中;3)针对融合后出现的“投影器漂移”问题(即为音频专家训练的投影器与融合后骨干网络不匹配),采用“投影器恢复”(仅微调投影器)和“平衡排练”(轻量级多模态数据混合训练)来修复并平衡最终模型。最终模型在MMEB(图像/视频/文档)上达到74.96分,在MAEB(音频)上达到55.61分。 ...