OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text
📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #多模态模型 #音频检索 #基准测试 #跨模态 🔥 8.5/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #跨模态 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junyang Ji(清华大学、快手科技、南方科技大学) 通讯作者:Zhihai He(南方科技大学)、Wenming Yang(清华大学) 作者列表:Junyang Ji(清华大学、快手科技、南方科技大学)、Shengjun Zhang(快手科技)、Da Li(快手科技、中国科学院大学)、Yuxiao Luo(快手科技、北京大学)、Yan Wang(快手科技)、Di Xu(快手科技)、Biao Yang(快手科技)、Wei Yuan(快手科技)、Fan Yang(快手科技)、Zhihai He(南方科技大学)、Wenming Yang(清华大学) 💡 毒舌点评 本文核心贡献在于填补了组合视频检索基准中“音频模态缺失”的空白,并提出了一个扩展模型,其消融实验设计(如“盲目检索”、控制OmniEmbed骨干网络的音频表征方式)颇具巧思,有力地论证了“显式音频语义”的关键性。然而,其模型的核心创新“Audio-as-Text”在工程上略显“取巧”,完全依赖于现有大模型(Qwen2-Audio)的能力,并未在音频表征学习本身提出新方法,且额外的转录步骤带来了显著的延迟开销。 🔗 开源详情 代码:论文中提供了GitHub仓库链接:https://github.com/Kuaishou-Reasearch/OmniCVR,并声明将开源完整代码库。 模型权重:论文中声明将开源AudioVLM2Vec的模型权重。 数据集:论文中声明OmniCVR基准(包括160k+片段、50k+三元组和黄金测试集)将在发表后完全开源,数据集链接为:https://huggingface.co/datasets/Jun-Yang/OmniCVR。 Demo:论文中未提及。 复现材料:论文提供了详细的数据生成流程、所有使用的提示词(见附录G)、以及对训练设置(基于开源预训练权重)的描述,为复现提供了良好基础。但部分具体训练超参数未在文中说明。 论文中引用的开源项目/模型:Qwen2-Audio, Qwen2-VL, Qwen2.5-Omni, PySceneDetect, CLIP, CLAP, Gemini 2.5 Pro等。 📌 核心摘要 要解决什么问题:现有的组合视频检索(CoVR)基准和方法主要关注视觉与文本的对齐,系统性地忽略了音频模态(语音、音乐、环境声)在视频理解中的关键作用,导致无法评估模型在需要同时修改视觉和音频的复杂现实场景中的检索能力。 方法核心是什么:论文提出了OmniCVR基准,这是首个将视觉、音频和文本视为同等重要模态的大规模组合视频检索基准。同时,提出了一种名为AudioVLM2Vec的模型,该模型通过将音频轨道转录为细粒度文本描述,并将其与视觉信息和用户查询一同输入大语言模型骨干,从而显式地注入音频语义。 与已有方法相比新在哪里:1) 任务定义:首次定义了“全模态组合检索”,涵盖视觉中心、音频中心和集成型查询;2) 数据构建:设计了一套包含内容感知分割、全模态标注和由大模型与人类专家双重验证的自动化数据生成流程;3) 模型架构:提出了一种将原始音频转换为文本描述再与视觉信息融合的简单但有效的音频表征学习范式,区别于其他“全模态”模型(如ImageBind、OmniEmbed)直接处理原始音频token的方式。 主要实验结果如何:AudioVLM2Vec在OmniCVR基准上取得了全面的最佳性能。例如,在整体查询上R@1达到66.98%,比强基线VLM2Vec(38.44%)高出28.54个百分点;在音频中心查询上R@1达到77.2%,而VLM2Vec仅为12.4%。消融实验证明,移除源视频会导致性能暴跌,证实了任务对组合推理的严格要求;将OmniEmbed的骨干从原生音频token替换为Audio-as-Text机制,其R@1从13.6%大幅提升至32.7%。 实际意义是什么:该工作为评估和推动真正具备多模态理解能力的视频检索系统建立了新的标准,揭示了当前最先进模型在音频理解和组合推理上的重大缺陷,并证明了将音频转化为语义文本是提升相关性能的有效途径,对智能视频搜索、内容审核、跨模态生成等应用具有指导意义。 主要局限性是什么:1) 推理效率:引入的音频转录步骤显著增加了推理延迟(从1.72s增加到4.77s),限制了实时应用;2) 音频表征依赖:性能高度依赖于Qwen2-Audio的转录质量,可能引入偏差或错误;3) 任务范围:专注于检索任务,未探索音频修改指令的生成等更复杂的交互。 🏗️ 模型架构 本文主要提出AudioVLM2Vec模型,其架构是VLM2Vec的扩展。整体流程如下图所示: ...