Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding

📄 Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding #多模态模型 #模型融合 7.6/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前25% | #音频检索 | #模型融合 | #多模态模型 | arxiv 👥 作者与机构 作者:Shiyu Li, Zhiyuan Hu, Yifan Wang, Peiming Li, Zheng Wei, Yang Tang 机构:腾讯,清华大学 💡 毒舌点评 这篇工作像给一台精心调教的V8发动机(视觉专家)外挂了一套涡轮增压系统(音频专家),然后发现接口不匹配(投影器漂移),最后通过一套“打补丁”(投影器恢复)加“重新磨合”(平衡排练)的维修手册解决了问题。方法论框架清晰,问题定义(Projector Drift)有洞察力,实验验证了流程的必要性。然而,整个框架更像是一个工程上的“拼装修补”方案,而非从根本上理解或解决模态融合的理论困境。计算成本高昂(A100训练两周),且严重依赖特定基础模型(Qwen3-VL-8B)和经验参数(融合系数α),通用性存疑。开源不彻底(无代码、无权重),复现门槛极高。论文在音频领域(MAEB SOTA)有直接贡献,但作为“全模态”工作,其视觉部分并未超越同期专用模型,影响力受限。 📌 核心摘要 论文提出Conan-embedding-v3,一个用于全模态检索的“解耦-融合-恢复”框架。核心流程是:1)从同一个视觉-语言基础模型出发,独立训练图像、视频、文档和音频四个领域专家;2)通过任务向量融合(Task Arithmetic)将四个专家合并到一个密集骨干网络中;3)针对融合后出现的“投影器漂移”问题(即为音频专家训练的投影器与融合后骨干网络不匹配),采用“投影器恢复”(仅微调投影器)和“平衡排练”(轻量级多模态数据混合训练)来修复并平衡最终模型。最终模型在MMEB(图像/视频/文档)上达到74.96分,在MAEB(音频)上达到55.61分。 ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 449 words

Parameter-efficient Dual-encoder Architecture with Differentiable Choquet Integral Fusion for Underwater Acoustic Classification

📄 Parameter-efficient Dual-encoder Architecture with Differentiable Choquet Integral Fusion for Underwater Acoustic Classification #参数高效微调 #模型融合 #音频分类 6.4/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 6.4/10 | 前25% | #音频分类 | #参数高效微调 | #模型融合 | arxiv 👥 作者与机构 Amirmohammad Mohammadi: 德克萨斯A&M大学,电气与计算机工程系博士生。 Joshua Peeples: 德克萨斯A&M大学,电气与计算机工程系助理教授。 Alexandra Van Dine: 麻省理工学院林肯实验室,先进水下系统与技术组助理组长。 💡 毒舌点评 这篇论文瞄准了一个实际且重要的领域(水下声学分类),并试图用一个听起来很“高级”的数学工具(Choquet积分)来解决多模态融合问题。然而,其核心贡献——那个所谓的“可微分Choquet积分融合层”——更像是一场精心包装的数学体操,而非一个稳健的工程解决方案。作者声称其能“动态路由”到“被最少腐蚀”的表示,但在实验中,当模型容量足够时(完全微调),这个复杂机制的“动态性”却消失了(权重恒为0.5),这恰恰暴露了其理论动机与工程实践之间的脱节。论文在解释“为什么这样工作”时用力过猛,但在证明“它确实这样工作”以及“它比简单方法好多少”上却显乏力。实验设计上,与简单基线(如Concatenation Fusion)的缺失对比是硬伤,让人怀疑其复杂性的必要性。此外,将水下声学分类——一个明确的音频信号处理任务——包装成与“Foundation Model”相关的工作,多少有些蹭热点之嫌,其核心创新与通用基础模型的发展关联甚微。 📌 核心摘要 本文针对水下声学分类中单一表示(波形或频谱图)信息不全的问题,提出了一种参数高效的双编码器架构。该架构使用冻结的预训练模型(AVES处理波形,AST处理频谱图)作为骨干,并集成参数高效微调(PEFT)模块(如LoRA、HPT)进行领域适配。核心创新在于引入了一个基于Choquet积分的可微分决策级融合机制。该机制通过一个基于sigmoid的“软排序门控”实现,能够根据两个编码器对各类别的置信度差异,动态调整融合时对波形或频谱图特征的依赖(通过可学习的模糊测度权重)。在DeepShip和ShipsEar数据集上的实验表明,该双编码器PEFT框架在仅训练少量参数(约10万)的情况下,分类准确率优于单编码器基线,并且通过分析学习到的模糊测度和梯度显著性图,提供了一定的决策可解释性,展示了模型在不同类别上对输入表示的动态依赖。 ...

2026-06-02 · 更新于 2026-06-12 · 3 min · 567 words

Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization

📄 Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization #模型融合 #多模态模型 #低资源 📝 5.5/10 | 前50% | #语音增强 | #模型融合 | #多模态模型 #低资源 | arxiv 学术质量 3.0/7 | 影响力 3.0/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 作者: Meshal Alamr, Hassan Alqaeri, Abdullah Aldahlawi 机构: Thaka, Advanced AI and Information Technology, Riyadh, Saudi Arabia 论文未提供作者主页、所属部门、资助信息或机构主页。 💡 毒舌点评 这篇论文是一篇典型的竞赛系统描述(“winning system description”),其核心价值在于工程技巧的组合与超参调优,而非提出新的学术思想或模型架构。作者诚实地将工作定位为在现有CATT-Whisper架构上,通过“正则化”这一“优化策略”来最大化有限数据下的性能。这本身没有错,但论文的学术贡献相当有限。创新性仅体现在将R-Drop、Focal Loss、Optuna调优和MC Dropout集成等已有技术“打包”应用到一个特定竞赛任务上,并报告了最优结果。技术细节描述尚可,但缺乏深度分析:消融实验仅做了累积添加,未真正分离每个正则化组件的独立贡献;对MC Dropout推理成本(200次前向传播)的讨论一笔带过,未提出任何效率优化方案。整体而言,这是一篇合格的“how we won”的竞赛报告,但作为一篇研究论文,其深度和启发性不足以在顶级会议中脱颖而出。 📌 核心摘要 本文描述了在KSAA-2026共享任务“阿拉伯语语音听写与自动消音化”Task 2中获胜的系统。任务要求在仅有2,327个训练样本且不允许使用外部数据的条件下,从语音音频和未加消音符的文本生成完全消音化的阿拉伯语文本。系统基于CATT-Whisper多模态模型进行微调,该模型结合了预训练的CATT文本编码器和冻结的Whisper语音编码器。工作的关键在于通过训练正则化(R-Drop一致性正则化、Optuna优化的超参数与高权重衰减、Focal Loss)来充分利用有限数据。在推理阶段,使用蒙特卡洛Dropout在四个模型检查点上进行200次随机前向传播,并在softmax概率层面进行平均。系统在主要排行榜指标(WER,含词尾,包含无消音符位置)上达到23.26%,在所有参与者中排名第一。 ...

2026-05-26 · 更新于 2026-06-12 · 2 min · 323 words

Diffusion Domain Expansion: Learning to Coordinate Pre-trained Diffusion Models

📄 Diffusion Domain Expansion: Learning to Coordinate Pre-trained Diffusion Models #扩散模型 #生成模型 #模型融合 #迁移学习 ✅ 7.4/10 | 前50% | #扩散模型 | #生成模型 | #模型融合 #迁移学习 | arxiv 学术质量 5.4/7 | 影响力 1.2/2 | 可复现性 0.8/2 👥 作者与机构 Egor Lifar, Semyon Savkin, Timur Garipov, Shangyuan Tong, Tommi Jaakkola. 💡 毒舌点评 这篇论文做了一件工程上很“讨巧”的事情:面对预训练扩散模型能力有限的痛点,它没有选择“炼更大力的丹”(训练更大模型),而是“雇了个小工”(轻量协调器)来指挥一堆“小模型”干活。想法直观,实验也算扎实,覆盖了音频和图像。但仔细一想,这个“协调器”本质上是在学一个“如何更好地做拼接”的策略。虽然它展示了从L_train泛化到L_test > L_train的能力,这确实是个亮点,但论文对“为什么能泛化”以及“泛化的边界在哪”缺乏理论层面的探讨,让人感觉有点知其然不知其所以然。此外,实验虽然跨领域,但核心场景(时间轴拼接、空间条件拼接)相对单一,未能展示在更复杂协调任务(如跨模态、异构模型协调)上的威力。开源情况约等于零,给复现带来了不必要的障碍。 📌 核心摘要 本文提出了扩散域扩展(DDE),一种通过训练一个轻量级、参数高效的协调器(基于ViT架构)来扩展预训练扩散模型生成能力的方法。该协调器学习协调多个预训练模型在重叠区域上的去噪输出,生成更大尺寸或更复杂条件的对象。论文的关键贡献在于展示了协调器可以泛化到训练时未见过的更大生成规模。实验在长音轨生成、多条件图像生成和卫星地图条件图像生成三个任务上进行,结果表明DDE在多项指标上优于MultiDiffusion等基线方法。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集: Slakh2100(音乐生成):论文引用了该数据集(Manilow et al., 2019),但未直接提供下载链接。 CLEVR(条件图像生成):论文引用了该数据集(Johnson et al., 2016),但未直接提供下载链接。 卫星图像数据集:论文中指出该数据集是作者使用 Google Maps API 收集并处理的(见 B.3.1 节),但未公开数据集链接或提供获取方式。 Demo:论文中未提及。 复现材料:论文的附录 B 详细提供了所有实验的配置、模型架���细节、超参数设置以及采样器信息,构成了完整的复现指南。 论文中引用的开源项目: denoising_diffusion_pytorch:论文在 B.2.3 节和 B.3.2 节中提及使用了该库的 UNet 架构(标注为“denoising_diffusion_pytorch (url)”),但未提供具体 URL。 EDM (Karras et al., 2022):论文在附录开头提及使用 EDM 框架进行训练和采样。其代码通常可在此仓库获取:https://github.com/NVlabs/edm。论文中提到“imported from the code provided by (Karras et al., 2022)”。 RoPE (Rotary Position Embedding, Su et al., 2023):论文在 3.2 节和 B.3.4 节中描述使用了 RoPE 进行位置编码。原始实现通常与 LLaMA 等模型相关,论文未提供具体代码链接。 🏗️ 方法概述和架构 DDE方法的核心思想是将一个大型生成任务分解为多个小任务,利用现有的预训练扩散模型处理每个小任务,然后通过一个可训练的协调器网络来整合这些独立模型的输出,以生成全局一致的结果。 ...

2026-05-25 · 更新于 2026-06-12 · 2 min · 423 words

Robust and Lightweight F0 Estimation Through Mid-Level Fusion of DSP-Informed Features

📄 Robust and Lightweight F0 Estimation Through Mid-Level Fusion of DSP-Informed Features #基频估计 #信号处理 #模型融合 #鲁棒性 🔥 8.0/10 | 前25% | #基频估计 | #信号处理 | #模型融合 #鲁棒性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Sebastian Strahl(International Audio Laboratories Erlangen) 通讯作者:未明确说明(论文未明确标注通讯作者,但通常由资深作者Meinard Müller负责) 作者列表:Sebastian Strahl(International Audio Laboratories Erlangen)、Meinard Müller(International Audio Laboratories Erlangen) 机构信息:International Audio Laboratories Erlangen(由Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) 与 Fraunhofer Institute for Integrated Circuits IIS 联合设立) 💡 毒舌点评 该论文巧妙地将几个“老派”DSP算法的软输出,像拼积木一样用一个超轻量网络融合起来,实现了1+1>2的效果,在噪声下甚至干翻了参数量是其数千倍的“黑盒”深度模型,堪称“四两拨千斤”的工程典范。然而,其核心创新更偏向于特征工程和架构设计的“整合艺术”,而非提出全新的理论或范式,本质上仍是对经典方法的现代化封装。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 332 words