OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #音频检索 #多模态模型 #基准测试 #数据集 ✅ 7.0/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Junyang Ji(清华大学、南方科技大学、快手科技) 通讯作者:Zhihai He(南方科技大学)、Wenming Yang(清华大学) 作者列表:Junyang Ji(清华大学,南方科技大学,快手科技),Shengjun Zhang(快手科技),Da Li(快手科技,中国科学院大学),Yuxiao Luo(快手科技,北京大学),Yan Wang(快手科技),Di Xu(快手科技),Biao Yang(快手科技),Wei Yuan(快手科技,项目负责人),Fan Yang(快手科技,项目负责人),Zhihai He(南方科技大学,通讯作者),Wenming Yang(清华大学,通讯作者) 💡 毒舌点评 亮点:论文一针见血地指出了当前多模态模型“视觉-文本”偏科、严重忽视音频信息的普遍问题,并通过一个高质量、大规模的诊断基准(OmniCVR)将其量化,这比提出一个改进模型更有价值。短板:提出的解决方案“AudioVLM2Vec”本质上是把音频先转录/描述成文本再喂给视觉语言模型,这种“音频-文本化”的工程化方案虽然有效,但显得不够优雅,且引入了额外的延迟和潜在信息损失,算不上是最根本的端到端解决方案。 🔗 开源详情 代码:论文承诺将开源完整代码库,包括数据生成脚本、训练代码和评估协议。具体代码仓库链接在提供的论文全文中未直接显示,但提到数据将发布在HuggingFace(https://huggingface.co/datasets/Jun-Yang/OmniCVR),代码链接可能随发布同步公开。论文中未明确给出代码仓库的直接URL。 模型权重:论文承诺将公开AudioVLM2Vec模型权重。未提及具体模型权重的发布链接。 数据集:OmniCVR数据集(包括160K+片段、50K+三元组、5K测试集)将完全开源。获取方式为通过上述HuggingFace链接。 Demo:论文中未提及是否提供在线演示。 复现材料:论文在附录(Appendix G)中提供了用于数据生成(如生成视频描述、修改指令)的完整提示词模板,以及详细的双重验证协议说明,这对于复现数据生成管线至关重要。然而,关于模型训练的具体细节(学习率、优化器、批次大小等)论文中未提及。 论文中引用的开源项目/模型:论文明确使用了以下开源模型作为组件或基线: Qwen2.5-Omni:用于视频音频标注生成。 Gemini 2.5 Pro:用于数据验证。 Qwen2-Audio-7B-Instruct:用于AudioVLM2Vec中的音频描述生成。 Qwen2-VL:作为VLM2Vec和AudioVLM2Vec的视觉-语言骨干。 CLIP、BLIP、BLIP-2、ImageBind 等作为基线模型。 PySceneDetect:用于视频分割。 所有使用的数据集(HowTo100M, MSR-VTT, VATEX, YouTube8M, YouCook2, VALOR)均为公开数据集。 📌 核心摘要 本文旨在解决现有视频检索基准和模型普遍忽视音频模态的关键问题。论文提出了首个全模态组合视频检索基准OmniCVR,该基准将视觉、音频和文本视为同等重要的第一类模态。核心方法是构建了一个包含50,000个三元组(源视频、修改文本、目标视频)的大规模数据集,其中超过57%的查询需要同时修改视觉和音频(集成查询)。为此,作者设计了一个可扩展的自动化数据生成管线,并通过大模型与人类专家的双重验证确保数据质量。为验证基准,论文提出了AudioVLM2Vec模型,其核心创新是利用音频理解大模型(Qwen2-Audio)将音频转为细粒度描述文本,再与视觉信息一同输入VLM2Vec框架。主要实验结果表明,AudioVLM2Vec在OmniCVR基准上取得了最优性能,尤其是在音频中心查询上,相比基线VLM2Vec实现了巨大的性能提升(R@1从12.4提升到77.2)。这证明了显式注入音频语义对于跨模态检索的关键作用,并暴露了现有“全模态”模型在音频推理上的根本缺陷。该工作的实际意义在于为更真实的多模态视频理解设立了新标准,推动研究向听觉-视觉-语言融合迈进。主要局限性在于提出的“音频转文本”方案带来了额外的推理延迟(约1.77倍),且该方案可能无法完美捕捉音频的所有非语义信息(如音色、节奏等)。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 247 words

SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

📄 SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization #对比学习 #音频检索 #多语言 #零样本 #预训练 ✅ 7.0/10 | 前25% | #音频检索 | #对比学习 | #多语言 #零样本 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiehui Luo(中央音乐学院),Yuguo Yin(北京大学)(论文注明贡献相等) 通讯作者:Yuguo Yin(北京大学) 作者列表: Jiehui Luo(中央音乐学院) Yuguo Yin(北京大学) Yuxin Xie(北京大学) Jinghan Ru(北京大学) Xianwei Zhuang(北京大学) Minghua He(北京大学) Aofan Liu(北京大学) Zihan Xiong(电子科技大学) Dongchao Yang(香港中文大学) 💡 毒舌点评 这篇论文的亮点在于将对比学习中的“力分解”具象化,并精准指出垂直分量是“双刃剑”,由此设计的SVR正则化方法理论自洽且实验增益稳定。短板则是其创新核心(一个可学习的正则化项)相对朴素,且论文未开源代码,使得这篇发表在顶会上的工作在社区传播和快速迭代上打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及公开的预训练或微调后的模型权重。 数据集:使用了公开的AudioCaps和Clotho数据集。多语言翻译版本的数据集未提及是否公开。 Demo:未提及。 复现材料:论文提供了较为详细的实现细节(如编码器选择、优化器、学习率、批次大小、温度等),并在附录中补充了部分消融实验和统计显著性分析。 论文中引用的开源项目:CED-Base(音频编码器), SONAR-TE(文本编码器), Deepseek V3(用于翻译和回译分析)。 📌 核心摘要 本文针对音频-文本对比学习(CLAP)中标准InfoNCE损失存在的优化轨迹漂移问题展开研究。作者发现,来自负样本的推力可分解为与拉力方向平行和垂直的分量;其垂直分量虽包含丰富信息,但其不受控的特性会导致优化路径发生侧向偏移,影响训练稳定性和最终对齐质量。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 376 words

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM #多模态模型 #对比学习 #音频检索 #视频检索 #多任务学习 🔥 8.0/10 | 前25% | #音频检索 | #对比学习 | #多模态模型 #视频检索 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Changli Tang (清华大学) 通讯作者:Chao Zhang (清华大学) 作者列表:Changli Tang (清华大学), Qinfan Xiao (清华大学), Ke Mei (腾讯微信视觉), Tianyi Wang (腾讯微信视觉), Fengyun Rao (腾讯微信视觉), Chao Zhang (清华大学) 💡 毒舌点评 这篇论文最大的亮点在于“敢为人先”,首次将文本、音频、视频统一到同一个LLM嵌入空间,打破了传统双编码器的限制,其联合训练策略带来的跨模态性能提升也令人印象深刻。然而,其创新性更多体现在对现有技术(LLM backbone,分层融合,多任务训练)的精巧集成与验证,而非提出颠覆性的新概念,因此对于追求“首个”或“全新范式”的读者而言可能略显不足。 🔗 开源详情 代码:论文中提到代码和检查点将在 https://github.com/TCL606/WAVE 发布。但当前论文PDF中未提供该链接。 模型权重:论文承诺将发布模型检查点(checkpoints)。 数据集:论文使用了多个公开数据集(如Panda-70M, MSR-VTT, AudioCaps等),但未提及发布新的数据集。 Demo:论文中未提及在线演示。 复现材料:论文在Section 3.1, 3.2, 4.1, 4.2中详细描述了模型架构、训练流程、训练数据和超参数,提供了足够的复现信息。 论文中引用的开源项目: 基础模型:Qwen2.5-Omni (Xu et al., 2025) 音频编码器:BEATs (Chen et al., 2022b) 训练数据:WavCaps, AudioCaps, Clotho, Panda-70M等。 其他工具/模型:LoRA (Hu et al., 2022), InternVL-2.5-8B (Chen et al., 2024c) 用于重新标注。 📌 核心摘要 要解决的问题:现有的多模态嵌入模型多基于独立编码器,缺乏一个能同时处理文本、音频、视频,并将它们统一到同一语义空间的通用模型。这对于需要动态模态(如音视频)深度理解的跨模态检索和生成任务是一个瓶颈。 方法核心:提出了WAVE,一个基于Qwen2.5-Omni多模态大语言模型的统一音视频嵌入模型。其核心设计包括:1) 双音频编码器(语音+音频事件)全面捕获音频信息;2) 一种分层特征融合策略,聚合LLM多层隐藏状态以获得更鲁棒的表示;3) 联合多模态多任务训练策略,同时优化检索与问答任务。 与已有方法相比新在哪里:WAVE是首个能够为文本、静音视频、音频以及同步音视频输入生成统一嵌入的LLM-based模型。与现有双编码器模型(如CLIP系列)或专注图像的LLM嵌入模型(如VLM2Vec)不同,WAVE真正实现了对动态音视频模态的统一建模,并具备生成提示感知(prompt-aware)嵌入的能力。 主要实验结果: 视频理解:在MMEB-v2视频基准整体得分59.9%,全面超越LamRA、GME等开源模型,甚至优于工业级模型Seed-1.6-Embedding(55.3%)。 音频/音视频检索:在AudioCaps(文本到音频R@1: 44.2%)、Clotho(25.6%)、VGGSound(视频到音频R@1: 25.0%)等任务上达到SOTA。 提示感知能力:在视频问答任务中,使用单独问题作为提示时平均准确率达72.5%,远超使用通用提示(51.8%),显著优于其他嵌入模型。 消融实验:联合训练优于分别训练(7/8任务上提升);分层特征融合(All-layer MLP)优于单层池化(如在MSR-VTT上,视频检索R@1从54.7%提升至56.1%)。 主要实验结果见下表: 任务类别 基准 指标 WAVE 7B 最强基线/参考模型 参考值 视频嵌入 MMEB-v2-Video Overall Acc% 59.9 Seed-1.6-Embedding 55.3 MMEB-v2-Video RET R@1 72.5 Seed-1.6-Embedding 60.9 LoVR (theme-to-clip) R@25 66.0 LamRA 7B 60.2 音频检索 AudioCaps R@1 44.2 Reference Model 42.2 Clotho R@1 25.6 Reference Model 21.5 音视频检索 VGGSound R@1 25.0 encoder-only 10.3 音频问答 MMAU Acc% 76.6 Qwen2.5-Omni 7B 71.5 视频问答 MMEB-v2-Video QA (w/ questions) Acc% 72.5 Seed-1.6-Embedding 60.9 实际意义:WAVE提供了一个强大的基线模型,使得在单一模型中处理任意模态组合的检索、分类和问答成为可能,极大地推动了跨模态应用(如通用多模态搜索、内容理解)的发展。 主要局限性:论文未详细讨论模型在面对更复杂、更长或噪声更大的真实世界音视频场景下的鲁棒性。此外,其统一的嵌入空间是否能无缝支持所有下游生成任务(如图像生成)也未验证。 🏗️ 模型架构 WAVE的整体架构如图1所示,其核心是将多种模态的输入通过各自编码器转换为LLM可处理的token序列,再由LLM统一处理并生成统一的嵌入。 ...

2026-05-04 · 更新于 2026-06-12 · 3 min · 552 words

Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval

📄 Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval #音频检索 #最优传输 #对比学习 #鲁棒性 🔥 8.0/10 | 前25% | #音频检索 | #最优传输 | #对比学习 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wenqi Guo(上海交通大学) 通讯作者:Shikui Tu(上海交通大学),Lei Xu(上海交通大学,深圳人工智能与数字经济广东省实验室) 作者列表:Wenqi Guo(上海交通大学)、Shikui Tu(上海交通大学)、Lei Xu(上海交通大学,深圳人工智能与数字经济广东省实验室) 💡 毒舌点评 这篇论文的亮点在于它聪明地将最优传输(OT)从“实例级对齐”推广到“特征级正则化”,为解决小批量训练下的噪声敏感性问题提供了新颖且理论扎实的视角,实验结果在多个基准上确实很强。然而,其短板也很明显:提出的“可靠性感知边缘分布”计算依赖于批次统计量,在实际大规模分布式训练中的稳定性和计算开销可能成为落地隐患,且论文未提供代码,复现门槛较高。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:使用的AudioCaps, Clotho, ESC-50均为公开数据集,论文中给出了获取来源引用。 Demo:未提及在线演示。 复现材料:提供了极其详细的复现材料:完整的训练算法伪代码(算法1)、所有实验的超参数设置(表6)、可靠性分数计算的具体公式(附录B)、理论证明(附录C)、以及所有消融和敏感性实验(表5, 7-13)。 论文中引用的开源项目:引用了Sinkhorn算法(Cuturi, 2013),并使用了预训练的编码器(如BERT, Beats等)。 📌 核心摘要 问题:现有的跨模态检索(如音频文本检索)方法主要依赖实例级对齐(如对比损失),隐含假设所有特征维度贡献相等。在小批量训练和标签稀缺时,这种假设会放大噪声,导致对齐信号不稳定且有偏差。 方法核心:提出DART(Dual-level Alignment via Robust Transport)框架,在实例级对齐(基于逆最优传输IOT)的基础上,增加了基于非平衡Wasserstein距离(UWD)的特征级正则化。同时,设计了“可靠性感知边缘分布”,根据通道的跨模态一致性、方差和峰度统计量,自适应地为特征通道赋权,以抑制噪声通道。 创新点:首次将OT视角从样本对齐拓展到特征通道对齐;引入可靠性先验引导特征级运输计划;提供了理论分析,证明特征级目标比实例级目标具有更紧的集中界,对异常值和噪声更鲁棒。 实验结果:在AudioCaps、Clotho两个音频文本检索基准和ESC-50零样本声音事件检测任务上,DART均取得了SOTA性能。例如,在AudioCaps上,与最强基线相比,文本到音频R@1提升1.1%,音频到文本R@1提升4.5%。在小批量(k=32)和40%标签缺失的困难设定下,性能下降幅度显著小于基线方法(见表2)。 实际意义:为资源受限(小批量训练)或数据质量不高(标签噪声)场景下的跨模态检索提供了更鲁棒的解决方案,提升了模型在实际应用中的可靠性和泛化能力。 主要局限性:引入的特征级正则化和可靠性计算增加了训练时的计算复杂度(虽然论文分析内存开销可控)。可靠性估计依赖于小批量统计,其稳定性有待更广泛验证。此外,论文未开源代码。 🏗️ 模型架构 DART的整体架构是一个双层对齐框架,如图1所示。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 343 words

Learning multimodal dictionary decompositions with group-sparse autoencoders

📄 Learning multimodal dictionary decompositions with group-sparse autoencoders #跨模态 #音频检索 #稀疏自编码 #对比学习 #多模态模型 ✅ 7.5/10 | 前25% | #跨模态 | #稀疏自编码 | #音频检索 #对比学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Chiraag Kaushik (Georgia Institute of Technology, School of Electrical and Computer Engineering) 通讯作者:未说明 作者列表:Chiraag Kaushik (Georgia Institute of Technology, School of Electrical and Computer Engineering), Davis Barch (Dolby Laboratories), Andrea Fanelli (Dolby Laboratories) 💡 毒舌点评 本文精准地识别了稀疏自编码器(SAE)在多模态嵌入分解中的核心痛点——“字典分裂”,并通过一个直观的理论定理和一项巧妙的工程改进(群稀疏损失+交叉模态掩码)给出了系统性的解决方案,实验部分在图像-文本和音频-文本两个场景中均显示出稳健的增益。然而,其理论证明(定理1)的假设略显理想化,且对于“群稀疏损失”为何能如此有效地对抗SAE内置偏置的理论机制探讨尚浅,更像是一种经验性的成功,缺乏更深层的原理解释。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 317 words

MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment

📄 MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment #多模态模型 #音频检索 #对比学习 #自监督学习 🔥 8.5/10 | 前25% | #音频检索 | #多模态模型 | #对比学习 #自监督学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Rui Liu(香港理工大学) 通讯作者:Jibin Wu(香港理工大学) 作者列表:Rui Liu(香港理工大学)、Zhige Chen(香港理工大学)、Shu Peng(香港理工大学)、Wenlong You(香港理工大学)、Zhi-An Huang(香港城市大学(东莞))、Jibin Wu(香港理工大学)、Kay Chen Tan(香港理工大学) 💡 毒舌点评 本文的核心创新“跨模态低秩对齐”(CALRA)模块设计得颇为精巧,通过类型感知、双向注意力与低秩融合的协同,确实实现了EEG与音频深度对齐,实验上也展示了“碾压式”的性能优势。然而,论文将几乎所有功劳归于这个对齐模块和多模态预训练,却轻描淡写地忽略了其巨大的模型规模(97M参数,是多数EEG基线模型的数十倍)和对高质量配对数据的强依赖,这些在现实部署中都是沉重的负担。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/CookieMikeLiu/MindMix。 模型权重:论文中未明确提及是否公开预训练或微调后的模型权重。 数据集:所有使用的数据集均为公开数据集,论文详细列出了各数据集的名称和来源。 Demo:论文中未提及提供在线演示。 复现材料:提供了详尽的训练细节、超参数配置(Table A2)、分阶段的训练策略说明、评估指标定义以及数据预处理流程,复现材料非常充分。 论文中引用的开源项目:使用了预训练的Wav2Vec 2.0模型作为音频编码器,并引用了PyTorch等深度学习框架。 📌 核心摘要 解决的问题:现有EEG基础模型(如EEGPT, LaBraM)在听觉解码任务上表现不佳,因其为单模态预训练,缺乏与听觉刺激信息的深度耦合,导致泛化能力受限。 方法核心:提出MindMix,一个两阶段的多模态基础模型。第一阶段,在大规模EEG数据上预训练一个高容量的EEG编码器。第二阶段,利用一个新颖的“跨注意力低秩对齐”(CALRA)模块,在配对的EEG-音频数据上通过对比学习,学习深度对齐的神经-声学表示。 创新之处:这是首个专为学习精细对齐的神经-声学表示而设计的多模态基础模型。核心创新是CALRA模块,它超越了简单的投影对齐,通过类型特定对齐器、双向交叉注意力和共享低秩瓶颈融合,实现了模态间的深度交互。 实验结果:MindMix在多个听觉解码任务上大幅超越所有基线。在语音注意力解码(KUL数据集)上平衡准确率高达99.82%,最强基线DARNet为94.81%。在情感分析(HR-EEG4EMO数据集)上达到88.78%,比LaBraM高近16个百分点。关键对比数据如下表所示: 任务 数据集 方法 平衡准确率 加权F1分数 语音注意力解码 KUL DARNet 0.9481 ± 0.036 0.9567 ± 0.025 语音注意力解码 KUL MindMix 0.9982 ± 0.008 0.9991 ± 0.004 情感分析 HR-EEG4EMO LaBraM 0.7295 ± 0.082 0.7829 ± 0.081 情感分析 HR-EEG4EMO MindMix 0.8878 ± 0.045 0.8869 ± 0.046 音乐检索 MAD-EEG CBraMod 0.8011 (Duo Acc.) 0.7654 (Trio Acc.) 音乐检索 MAD-EEG MindMix 0.9475 (Duo Acc.) 0.8824 (Trio Acc.) 实际意义:为非侵入式听觉脑机接口和跨模态神经解码建立了强大的基准,推动了从“信号处理”到“神经-声学语义对齐”的研究范式转变。 主要局限性:论文明确指出,当前大规模配对EEG-音频数据的稀缺是制约该领域发展的首要瓶颈,也限制了对模型扩展规律的研究。 🏗️ 模型架构 MindMix采用双流架构,包含EEG编码器、音频编码器和跨模态对齐模块,最终通过对比学习目标进行端到端优化。 ...

2026-05-02 · 更新于 2026-06-12 · 3 min · 459 words

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #多模态模型 #音频检索 #基准测试 #跨模态 🔥 8.5/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #跨模态 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junyang Ji(清华大学、快手科技、南方科技大学) 通讯作者:Zhihai He(南方科技大学)、Wenming Yang(清华大学) 作者列表:Junyang Ji(清华大学、快手科技、南方科技大学)、Shengjun Zhang(快手科技)、Da Li(快手科技、中国科学院大学)、Yuxiao Luo(快手科技、北京大学)、Yan Wang(快手科技)、Di Xu(快手科技)、Biao Yang(快手科技)、Wei Yuan(快手科技)、Fan Yang(快手科技)、Zhihai He(南方科技大学)、Wenming Yang(清华大学) 💡 毒舌点评 本文核心贡献在于填补了组合视频检索基准中“音频模态缺失”的空白,并提出了一个扩展模型,其消融实验设计(如“盲目检索”、控制OmniEmbed骨干网络的音频表征方式)颇具巧思,有力地论证了“显式音频语义”的关键性。然而,其模型的核心创新“Audio-as-Text”在工程上略显“取巧”,完全依赖于现有大模型(Qwen2-Audio)的能力,并未在音频表征学习本身提出新方法,且额外的转录步骤带来了显著的延迟开销。 🔗 开源详情 代码:论文中提供了GitHub仓库链接:https://github.com/Kuaishou-Reasearch/OmniCVR,并声明将开源完整代码库。 模型权重:论文中声明将开源AudioVLM2Vec的模型权重。 数据集:论文中声明OmniCVR基准(包括160k+片段、50k+三元组和黄金测试集)将在发表后完全开源,数据集链接为:https://huggingface.co/datasets/Jun-Yang/OmniCVR。 Demo:论文中未提及。 复现材料:论文提供了详细的数据生成流程、所有使用的提示词(见附录G)、以及对训练设置(基于开源预训练权重)的描述,为复现提供了良好基础。但部分具体训练超参数未在文中说明。 论文中引用的开源项目/模型:Qwen2-Audio, Qwen2-VL, Qwen2.5-Omni, PySceneDetect, CLIP, CLAP, Gemini 2.5 Pro等。 📌 核心摘要 要解决什么问题:现有的组合视频检索(CoVR)基准和方法主要关注视觉与文本的对齐,系统性地忽略了音频模态(语音、音乐、环境声)在视频理解中的关键作用,导致无法评估模型在需要同时修改视觉和音频的复杂现实场景中的检索能力。 方法核心是什么:论文提出了OmniCVR基准,这是首个将视觉、音频和文本视为同等重要模态的大规模组合视频检索基准。同时,提出了一种名为AudioVLM2Vec的模型,该模型通过将音频轨道转录为细粒度文本描述,并将其与视觉信息和用户查询一同输入大语言模型骨干,从而显式地注入音频语义。 与已有方法相比新在哪里:1) 任务定义:首次定义了“全模态组合检索”,涵盖视觉中心、音频中心和集成型查询;2) 数据构建:设计了一套包含内容感知分割、全模态标注和由大模型与人类专家双重验证的自动化数据生成流程;3) 模型架构:提出了一种将原始音频转换为文本描述再与视觉信息融合的简单但有效的音频表征学习范式,区别于其他“全模态”模型(如ImageBind、OmniEmbed)直接处理原始音频token的方式。 主要实验结果如何:AudioVLM2Vec在OmniCVR基准上取得了全面的最佳性能。例如,在整体查询上R@1达到66.98%,比强基线VLM2Vec(38.44%)高出28.54个百分点;在音频中心查询上R@1达到77.2%,而VLM2Vec仅为12.4%。消融实验证明,移除源视频会导致性能暴跌,证实了任务对组合推理的严格要求;将OmniEmbed的骨干从原生音频token替换为Audio-as-Text机制,其R@1从13.6%大幅提升至32.7%。 实际意义是什么:该工作为评估和推动真正具备多模态理解能力的视频检索系统建立了新的标准,揭示了当前最先进模型在音频理解和组合推理上的重大缺陷,并证明了将音频转化为语义文本是提升相关性能的有效途径,对智能视频搜索、内容审核、跨模态生成等应用具有指导意义。 主要局限性是什么:1) 推理效率:引入的音频转录步骤显著增加了推理延迟(从1.72s增加到4.77s),限制了实时应用;2) 音频表征依赖:性能高度依赖于Qwen2-Audio的转录质量,可能引入偏差或错误;3) 任务范围:专注于检索任务,未探索音频修改指令的生成等更复杂的交互。 🏗️ 模型架构 本文主要提出AudioVLM2Vec模型,其架构是VLM2Vec的扩展。整体流程如下图所示: ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 300 words

SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

📄 SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization #对比学习 #音频检索 #多语言 #预训练 ✅ 7.5/10 | 前25% | #音频检索 | #对比学习 | #多语言 #预训练 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jiehui Luo(中央音乐学院,2∗) 通讯作者:Yuguo Yin(北京大学,1†) 作者列表: Jiehui Luo(中央音乐学院) Yuguo Yin(北京大学) Yuxin Xie(北京大学) Jinghan Ru(北京大学) Xianwei Zhuang(北京大学) Minghua He(北京大学) Aofan Liu(北京大学) Zihan Xiong(电子科技大学) Dongchao Yang(香港中文大学) 💡 毒舌点评 本文的亮点在于从优化动力学的角度(力分解)为对比学习中的“轨迹漂移”现象提供了新颖的理论解释,并据此设计出简洁有效的SVR正则化方法,理论自洽且实验证据扎实。短板在于其验证主要依赖于相对较小规模的数据集(AudioCaps, Clotho),且未与更多、更强的近期基线(如一些大规模的CLIP式音频-文本模型)进行对比,其实效性和普适性在更大规模场景下有待进一步证明。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及公开预训练模型权重。 数据集:使用了公开的AudioCaps和Clotho数据集,并自行构建了多语言翻译版本。多语言测试集的质量在附录E.9中进行了评估。 Demo:论文中未提及在线演示。 复现材料:论文在正文和附录中提供了较为详尽的训练设置(超参数、优化器、硬件)、模型架构细节(编码器型号、MLP结构)以及评估方法,为复现提供了基础。 引用的开源项目:论文依赖的编码器模型为CED(Dinkel et al., 2024)和SONAR-TE(Duquenne et al., 2023),均为公开可用模型。 总结:论文中未提及开源计划。 📌 核心摘要 本文针对音频-文本对比语言-音频预训练(CLAP)中优化轨迹漂移的问题,该问题源于负样本推力中不受控的垂直分量,导致训练不稳定和收敛缓慢。 方法核心是提出支持向量正则化(SVR),通过在原损失函数中添加一个辅助损失项,利用构造的文本“支持向量”来选择性地抑制推力的垂直分量,从而稳定优化轨迹。 与已有方法(如InfoNCE、SigLIP)相比,本文新在:(1) 首次从梯度力分解视角明确剖析了轨迹漂移问题;(2) 设计了SVR方法进行针对性干预,且无需额外数据和推理开销;(3) 提出了无监督的语义半径建模策略(StaticSVR 和 DynamicSVR)来控制干预强度。 主要实验结果:在AudioCaps和Clotho数据集上,bi-DynamicSVR 方法在单语和多语言文本-音频检索任务上均显著超越InfoNCE和SigLIP基线。例如,在AudioCaps的T2A R@1指标上,InfoNCE为41.87,而bi-DynamicSVR达到44.16(提升约2.3%);在零样本ESC-50分类上,InfoNCE为89.6,bi-DynamicSVR为92.1(提升2.5%)。 实际意义在于,该方法以极低的额外计算成本(训练开销可忽略),提升了对比学习的训练效率和最终对齐质量,可直接应用于各种基于对比学习的音频-文本模型训练流程中。 主要局限性包括:(1) 实验数据集规模相对较小;(2) 与更先进的、可能已包含复杂技巧的基线对比不完全;(3) DynamicSVR的性能依赖于预测半径的准确性,在极端噪声环境下可能不稳定(论文附录E.7对其鲁棒性有一定分析)。 🏗️ 模型架构 SupCLAP的架构并未提出全新的编码器模型,而是在标准的对称对比学习框架(由音频编码器和文本编码器组成)之上,修改了训练目标函数。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 422 words

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM #多模态模型 #音频检索 #视频检索 #对比学习 #多任务学习 🔥 8.5/10 | 前10% | #音频检索 #视频检索 | #对比学习 #多任务学习 | #多模态模型 #音频检索 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Changli Tang (清华大学) 通讯作者:Chao Zhang (清华大学) 作者列表:Changli Tang (清华大学), Qinfan Xiao (清华大学), Ke Mei (腾讯微信视觉), Tianyi Wang (腾讯微信视觉), Fengyun Rao (腾讯微信视觉), Chao Zhang (清华大学) 💡 毒舌点评 亮点:该工作勇敢地填补了基于LLM的统一音频-视觉嵌入的空白,其提出的分层特征融合与联合训练策略在多项检索和QA任务上取得了令人信服的SOTA结果,显示了强大的跨模态理解与对齐能力。 短板:模型的通用性在一定程度上受限于其基础架构(Qwen2.5-Omni),且论文中提出的“versatile audio-visual learning”新基准未在附录或实验部分详细说明其构成与评估方式,略显缺失。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 391 words

AUDIOCARDS: Structured Metadata Improves Audio Language Models for Sound Design

📄 AUDIOCARDS: Structured Metadata Improves Audio Language Models for Sound Design #音频检索 #对比学习 #音频分类 #数据集 ✅ 7.5/10 | 前50% | #音频检索 | #对比学习 | #音频分类 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Sripathi Sridhar(新泽西理工学院,Adobe Research) 通讯作者:未说明 作者列表:Sripathi Sridhar(新泽西理工学院,Adobe Research)、Prem Seetharaman(Adobe Research)、Oriol Nieto(Adobe Research)、Mark Cartwright(新泽西理工学院)、Justin Salamon(Adobe Research) 💡 毒舌点评 论文核心亮点是精准定位声音设计师的实际工作流,将通用大语言模型的知识“蒸馏”成针对性极强的结构化音频描述(AUDIOCARDS),而非追求通用的音频理解。短板在于其创新主要是任务适配与工程化整合,在模型架构和核心算法上缺乏根本性突破,且严重依赖一个未公开的、可能包含专有数据的大型内部数据集。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文将公开发布用于评估的ASFx eval数据集(包含500个经人工验证的音效文件及其音频卡)。核心的训练数据集(200万样本的混合集)未提及会公开。 Demo:未提及。 复现���料:论文提供了模型训练的关键超参数(如学习率、批大小、步数)和架构选择,但缺乏完整的训练代码、配置文件和检查点。 论文中引用的开源项目:依赖了Whisper(音频编码器)、RoBERTa(文本编码器)、HTSAT(音频编码器)、DistilBERT(分类器)、CREPE(音高估计)和LAION-CLAP(对比学习框架)等开源模型和工具。 📌 核心摘要 解决的问题:专业音效库的元数据(如声音类别、声学属性、使用场景)通常缺失或不完整,而现有音频描述模型生成的单句描述无法满足声音设计师的精确检索需求。 方法核心:提出“音频卡”(AUDIOCARDS),一种结构化的多字段音频元数据。利用大语言模型(LLM)的世界知识,以音频的声学描述符(响度、音高等)和少量元数据为输入,通过少样本提示生成包含名词、动词、UCS分类、视觉上下文、描述性标题等字段的JSON格式输出。 与已有方法的新颖之处:不同于训练通用的单句音频描述模型,AUDIOCARDS首先设计了一种面向特定领域(声音设计)的、细粒度的结构化描述格式。随后,将音频描述和检索任务重新定义为基于这种结构化表示的生成和对比学习任务,使模型训练与下游应用更匹配。 主要实验结果:在自行构建的专业音效评估集(ASFx eval)和通用数据集(Clotho)上进行了实验。关键结果包括: 结构化元数据生成:在生成音频卡字段任务上,所训练的Whisper-Cards模型全面优于作为基线的Audio Flamingo 3(AF3)模型。 描述生成:在ASFx eval上,Whisper-Cards生成的描述在SPIDEr和FENSE指标上显著优于基线模型和AF3等大型音频语言模型(如SPIDEr为19.36 vs. 9.61)。 检索:Cards-CLAP模型在零样本检索任务上,在内部专业数据集(ID)和Clotho上的R@10均优于仅使用描述性标题训练的Captions-CLAP模型(如ID上为75.40 vs. 73.45)。 表 1. 音频描述生成评估结果 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 257 words