跨模态检索

ICLR 2026 - 跨模态检索论文列表

ICLR 2026 - 跨模态检索共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Learning multimodal dictionary decompositions with group-spa 7.5分前25% 📋 论文详情 🥇 Learning multimodal dictionary decompositions with group-sparse autoencoders ✅ 7.5/10 | 前25% | #跨模态检索 | #自监督学习 | #多模态模型 #零样本 👥 作者与机构第一作者：Chiraag Kaushik（Georgia Institute of Technology, School of Electrical and Computer Engineering）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Chiraag Kaushik（Georgia Institute of Technology）、Davis Barch（Dolby Laboratories）、Andrea Fanelli（Dolby Laboratories） 💡 毒舌点评 ...

Learning multimodal dictionary decompositions with group-sparse autoencoders

📄 Learning multimodal dictionary decompositions with group-sparse autoencoders #多模态模型 #自监督学习 #跨模态检索 #零样本 #模型评估 ✅ 7.5/10 | 前25% | #跨模态检索 | #自监督学习 | #多模态模型 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Chiraag Kaushik（Georgia Institute of Technology, School of Electrical and Computer Engineering）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Chiraag Kaushik（Georgia Institute of Technology）、Davis Barch（Dolby Laboratories）、Andrea Fanelli（Dolby Laboratories） 💡 毒舌点评这篇论文理论与实践结合得不错，Theorem 1为“分裂字典”问题提供了理论保证，而提出的组稀疏+掩码方案在CLIP/CLAP上也确实有效提升了多模态概念的数量和语义性。但最大的短板是实验上缺乏代码开源，对于一篇方法论论文来说，这大大削弱了其即时影响力和社区复现验证的价值，使得“方法有效性”部分打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开训练好的SAE/GSAE/MGSAE模型权重。数据集：使用了公开数据集（CC3M, JamendoMaxCaps, MusicBench等），论文中未说明是否提供额外的处理脚本。 Demo：未提及在线演示。复现材料：论文在附录A.2中提供了较为详细的实验设置，包括数据集、超参数范围选择方法、训练步数等，有助于复现。论文中引用的开源项目：引用了dictionary_learning工具库（Marks et al., 2024）作为TopK SAE的实现基础。 📌 核心摘要这篇论文旨在解决稀疏自编码器（SAE）应用于多模态对齐嵌入（如CLIP）时产生的“分裂字典”问题，即学习到的稀疏特征大多只对单一模态激活，损害了跨模态对齐。核心方法包括：理论上证明了在对齐嵌入空间上，存在比分裂字典对齐性更好的非分裂字典；提出组稀疏自编码器（GSAE）和掩码组稀疏自编码器（MGSAE），通过组稀疏损失（鼓励配对样本的稀疏码具有相同支撑集）和跨模态随机掩码来引导学习多模态字典。与标准SAE相比，该方法显著增加了跨模态激活的神经元数量，减少了“死神经元”，并提升了跨模态零样本任务的性能。例如，在CLIP图像/文本任务上，MGSAE在CIFAR-10上的零样本分类准确率达到84.2%，比标准TopK SAE高出18.5个百分点；在CLAP音频/文本任务上，MGSAE在NSynth乐器分类上达到35.4%，远超SAE的26.5%。该工作的实际意义在于为多模态模型的可解释性分析和可控生成提供了更好的分解工具，其主要局限是依赖配对的多模态数据进行训练，且未提供开源代码。 ...

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #跨模态检索 #语音对话系统 #模型评估 🔥 8.0/10 | 前25% | #多模态模型 | #流匹配 | #跨模态检索 #语音对话系统学术质量 5.8/7 | 选题价值 1.7/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Run Luo (中国科学院深圳先进技术研究院、中国科学院大学) 通讯作者：未明确说明（论文中未以“Corresponding author”标注单独作者，但提供了多个联系邮箱）作者列表： Run Luo (中国科学院深圳先进技术研究院，中国科学院大学) Xiaobo Xia (新加坡国立大学，中国科学技术大学) * Lu Wang (Rtizz-AI) Longze Chen (中国科学院深圳先进技术研究院，中国科学院大学) Renke Shan (Rtizz-AI) Jing Luo (中国科学院深圳先进技术研究院，中国科学院大学) Min Yang (中国科学院深圳先进技术研究院，深圳大学) * Tat-Seng Chua (新加坡国立大学) 标注的作者在作者列表中被提及为通讯作者。 💡 毒舌点评亮点在于论文提出了一个干净利落的统一框架（DFM），避免了自回归范式在理解/生成任务间的先天矛盾，并且在跨模态检索这类需要深度融合表征的任务上展现了架构优势。短板在于其核心生成能力（如文本生成图像）的绝对质量与FLUX等专用模型的差距可能被“统一”的光环所掩盖，且论文中“动态长度生成策略”等优化的具体效果有待更细粒度的分析。 ...

CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content

📄 CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content #跨模态检索 #音视频 #多模态模型 #对比学习 #数据集 #基准测试 ✅ 6.5/10 | 前25% | #跨模态检索 | #多模态模型 | #音视频 #对比学习学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Gyuwon Han (Chung-Ang University) 通讯作者：Chanho Eom (Chung-Ang University) 作者列表：Gyuwon Han (Chung-Ang University)、Young Kyun Jang (Google DeepMind)、Chanho Eom (Chung-Ang University) 💡 毒舌点评论文最大的亮点是提出了一个非常实际且被忽视的问题——用户可能因为音频不同而对视觉相似的视频有不同需求，并为此构建了首个音视频组合变化的检索基准，填补了领域空白。短板在于其提出的AVT融合模块本质上是为多模态特征学习一个加权平均，技术复杂度较低，核心模型架构创新有限。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/perceptualai-lab/CoVA/ 模型权重：论文中未明确提及是否公开预训练或微调后的模型权重。数据集：论文中构建了AV-Comp基准数据集，并提供了在线演示页面，但未明确说明数据集的公开下载方式。数据集地址：https://perceptualai-lab.github.io/CoVA/ Demo：提供了在线演示：https://perceptualai-lab.github.io/CoVA/ 复现材料：论文提供了实验设置、关键超参数（学习率、批大小、轮数）和训练硬件信息。未提供训练日志、配置文件或检查点。论文中引用的开源项目： CLIP（视觉和文本编码器） AST（音频编码器） Qwen2.5-VL-32B-Instruct（用于生成视频描述） Gemini（用于生成修改文本） AudioCaps 2.0（提供人工标注的音频描述） 📌 核心摘要要解决什么问题：现有的组合视频检索（CoVR）方法仅考虑视觉内容的修改，忽略了音频对用户检索意图的关键影响，导致视觉相似但音频不同的视频被错误地视为语义等价。方法核心是什么：提出了CoVA任务和AV-Comp数据集。方法上，提出了AVT Compositional Fusion模块，该模块通过一个简单的MLP为来自参考视频、修改文本（拆分为对象、动作、属性、音频四个方面）的每个特征分量预测一个权重，然后进行加权融合，以动态适应查询语义。与已有方法相比新在哪里：首次将音频模态的变化作为组合检索的核心考量因素。构建了首个支持音视频对齐变化查询的数据集AV-Comp。提出的AVT模块相比简单的平均融合，能更有效地利用多模态信息。主要实验结果如何：在AV-Comp测试集上，CoVA（使用CLIP-L编码器）达到了35.9% R@1，显著优于LanguageBind（27.17%）和ImageBind（20.2%）。消融实验证明移除任何文本组件（对象、动作、属性、音频）都会导致性能下降，证实了四个组件的必要性。主要结果对比如下表：方法 R@1↑ R@5↑ R@10↑ MnR↓ ImageBind 20.2 50.5 65.4 14.6 LanguageBind 27.17 61.44 77.12 8.7 CoVA (Ours) 35.9 73.7 86.4 6.2 实际意义是什么：为音视频内容的精细检索提供了新的范式和评估基准，推动多模态检索模型更全面地理解人类的多感官意图。主要局限性是什么：AVT模块设计相对简单，其性能提升部分依赖于更换了更强的文本编码器（CLIP-L）。数据集构建过程依赖于现成的视觉/音频描述生成模型（Qwen2.5-VL, Gemini），可能引入偏差。方法的可扩展性和在更复杂场景下的鲁棒性有待验证。 🏗️ 模型架构 CoVA框架整体分为三个模块：特征提取、门控融合Transformer（GFT）和AVT组合融合。其完整流程如下： ...

ICASSP 2026 - 跨模态检索论文列表

ICASSP 2026 - 跨模态检索共 2 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seaml 7.0分前50% 🥈 CoVA: Text-Guided Composed Video Retrieval for Audio-Visual 6.5分前25% 📋 论文详情 🥇 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting ✅ 7.0/10 | 前50% | #跨模态检索 | #音频检索 | #视频检索 #跨模态 👥 作者与机构第一作者：Hongjie Chen (Dolby Laboratories) 通讯作者：未说明作者列表：Hongjie Chen (Dolby Laboratories), Hanyu Meng (The University of New South Wales), Gautam Bhattacharya (Dolby Laboratories), Lie Lu (Dolby Laboratories), Josh Kimball (Dolby Laboratories), Ryan Rossi (未说明) 💡 毒舌点评 ...