📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text
#多模态模型 #音频检索 #基准测试 #跨模态
🔥 8.5/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #跨模态
学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Junyang Ji(清华大学、快手科技、南方科技大学)
- 通讯作者:Zhihai He(南方科技大学)、Wenming Yang(清华大学)
- 作者列表:Junyang Ji(清华大学、快手科技、南方科技大学)、Shengjun Zhang(快手科技)、Da Li(快手科技、中国科学院大学)、Yuxiao Luo(快手科技、北京大学)、Yan Wang(快手科技)、Di Xu(快手科技)、Biao Yang(快手科技)、Wei Yuan(快手科技)、Fan Yang(快手科技)、Zhihai He(南方科技大学)、Wenming Yang(清华大学)
💡 毒舌点评
本文核心贡献在于填补了组合视频检索基准中“音频模态缺失”的空白,并提出了一个扩展模型,其消融实验设计(如“盲目检索”、控制OmniEmbed骨干网络的音频表征方式)颇具巧思,有力地论证了“显式音频语义”的关键性。然而,其模型的核心创新“Audio-as-Text”在工程上略显“取巧”,完全依赖于现有大模型(Qwen2-Audio)的能力,并未在音频表征学习本身提出新方法,且额外的转录步骤带来了显著的延迟开销。
🔗 开源详情
- 代码:论文中提供了GitHub仓库链接:https://github.com/Kuaishou-Reasearch/OmniCVR,并声明将开源完整代码库。
- 模型权重:论文中声明将开源AudioVLM2Vec的模型权重。
- 数据集:论文中声明OmniCVR基准(包括160k+片段、50k+三元组和黄金测试集)将在发表后完全开源,数据集链接为:https://huggingface.co/datasets/Jun-Yang/OmniCVR。
- Demo:论文中未提及。
- 复现材料:论文提供了详细的数据生成流程、所有使用的提示词(见附录G)、以及对训练设置(基于开源预训练权重)的描述,为复现提供了良好基础。但部分具体训练超参数未在文中说明。
- 论文中引用的开源项目/模型:Qwen2-Audio, Qwen2-VL, Qwen2.5-Omni, PySceneDetect, CLIP, CLAP, Gemini 2.5 Pro等。
📌 核心摘要
- 要解决什么问题:现有的组合视频检索(CoVR)基准和方法主要关注视觉与文本的对齐,系统性地忽略了音频模态(语音、音乐、环境声)在视频理解中的关键作用,导致无法评估模型在需要同时修改视觉和音频的复杂现实场景中的检索能力。
- 方法核心是什么:论文提出了OmniCVR基准,这是首个将视觉、音频和文本视为同等重要模态的大规模组合视频检索基准。同时,提出了一种名为AudioVLM2Vec的模型,该模型通过将音频轨道转录为细粒度文本描述,并将其与视觉信息和用户查询一同输入大语言模型骨干,从而显式地注入音频语义。
- 与已有方法相比新在哪里:1) 任务定义:首次定义了“全模态组合检索”,涵盖视觉中心、音频中心和集成型查询;2) 数据构建:设计了一套包含内容感知分割、全模态标注和由大模型与人类专家双重验证的自动化数据生成流程;3) 模型架构:提出了一种将原始音频转换为文本描述再与视觉信息融合的简单但有效的音频表征学习范式,区别于其他“全模态”模型(如ImageBind、OmniEmbed)直接处理原始音频token的方式。
- 主要实验结果如何:AudioVLM2Vec在OmniCVR基准上取得了全面的最佳性能。例如,在整体查询上R@1达到66.98%,比强基线VLM2Vec(38.44%)高出28.54个百分点;在音频中心查询上R@1达到77.2%,而VLM2Vec仅为12.4%。消融实验证明,移除源视频会导致性能暴跌,证实了任务对组合推理的严格要求;将OmniEmbed的骨干从原生音频token替换为Audio-as-Text机制,其R@1从13.6%大幅提升至32.7%。
- 实际意义是什么:该工作为评估和推动真正具备多模态理解能力的视频检索系统建立了新的标准,揭示了当前最先进模型在音频理解和组合推理上的重大缺陷,并证明了将音频转化为语义文本是提升相关性能的有效途径,对智能视频搜索、内容审核、跨模态生成等应用具有指导意义。
- 主要局限性是什么:1) 推理效率:引入的音频转录步骤显著增加了推理延迟(从1.72s增加到4.77s),限制了实时应用;2) 音频表征依赖:性能高度依赖于Qwen2-Audio的转录质量,可能引入偏差或错误;3) 任务范围:专注于检索任务,未探索音频修改指令的生成等更复杂的交互。
🏗️ 模型架构
本文主要提出AudioVLM2Vec模型,其架构是VLM2Vec的扩展。整体流程如下图所示:
- 输入:源视频和修改文本。
- 视觉编码:视频帧被输入到一个预训练的图像编码器(如来自Qwen2-VL的)中,提取视觉token。之后,通过一个轻量级的投影层(Projection)将其映射到大语言模型(LLM)的输入空间。
- 音频编码(核心创新):视频的音频轨道被送入Qwen2-Audio-7B-Instruct模型。该模型生成一个关于音频内容的细粒度自然语言描述(Audio Description),涵盖语音内容、音乐类型、环境声等。这一步将原始的音频信号显式地转换为语义丰富的文本。
- 多模态融合:生成的音频描述文本与用户提供的修改文本(Modification Text)进行拼接(Concatenate),形成一个统一的、包含多模态语义的文本查询。
- 联合表征学习:拼接后的文本与上一步得到的视觉token一起,被输入到一个大语言模型骨干(如Qwen2-VL的LLM部分)的多头自注意力层中。通过这种方式,视觉信息与(由音频和指令转化而来的)文本信息在同一个高维语义空间中进行交互和对齐。
- 输出与训练:LLM的输出被用作最终的多模态嵌入向量。模型通过对比学习(Contrastive Learning)进行训练,使得“源视频+修改文本”组合的嵌入向量与“目标视频”的嵌入向量在向量空间中距离最近,而与其他候选视频距离较远。
关键设计选择:该架构选择不直接处理原始音频波形或使用原生的音频编码器,而是“绕道”将音频转化为文本。其动机在于:1) 能够利用现有大语言模型强大的文本理解和推理能力;2) 避免了设计和训练一个与视觉-文本模态对齐的全新音频编码器的复杂性;3) 提供了可解释的音频中间表征。
💡 核心创新点
- 首个全模态组合视频检索基准(OmniCVR):
- 是什么:定义了包含视觉、音频、文本三种一等模态的大规模基准,三元组为(源视频,修改文本,目标视频),并设计了以集成型查询为主导的任务分布。
- 之前局限:现有CoVR基准(如WebVid-CoVR, EgoCVR)完全忽略音频修改。
- 如何起作用:通过构建5万多个三元组和5千个黄金测试集,为模型评估提供了包含音频修改的复杂场景。
- 收益:为多模态检索研究设立了一个更全面、更接近现实的新标杆。
- 可扩展的自动化数据生成流水线:
- 是什么:一个包含视频分割与过滤、基于Qwen2.5-Omni的全模态标注、基于相似性度量的三元组挖掘,以及由大模型(Gemini 2.5 Pro)和人类专家双重验证的四阶段流程。
- 之前局限:组合检索数据通常依赖人工或简单的合成方法,难以平衡规模、质量和模态多样性。
- 如何起作用:利用现有多模态大模型进行高质量标注,并通过严格的“与”门控验证确保数据可靠性,实现了规模化生产。
- 收益:高效生成了高质量、多模态组合的训练和测试数据。
- AudioVLM2Vec模型与“音频转语义”表征策略:
- 是什么:提出将音频信息转化为详细的文本描述,再融入多模态大模型进行联合推理的范式。
- 之前局限:其他“全模态”模型(如ImageBind)的音频表征能力薄弱,或(如OmniEmbed)在融合时音频权重不足,无法有效处理音频中心查询。
- 如何起作用:通过Qwen2-Audio生成丰富的音频语义文本,使其能与指令文本一起参与LLM的注意力计算,从而被充分重视。
- 收益:在音频中心查询上实现了远超其他方法的性能(R@1 77.2% vs. 12.4%),并证明了该策略的普适性(控制实验中OmniEmbed修改版性能也大幅提升)。
- 系统性消融研究与失效模式分析:
- 是什么:设计了多项消融实验,如“盲目检索”(移除源视频视觉)、控制OmniEmbed的音频表征方式,以及分析不同“全模态”模型在音频中心查询上的性能差异原因。
- 之前局限:相关研究缺乏对音频模态在组合检索中失效原因的深入分析。
- 如何起作用:定量和定性地证明了源视频的必要性以及显式、语义丰富的音频表征的决定性作用。
- 收益:深刻揭示了当前模型的瓶颈,并为未来改进指明了方向(即需要更强的音频语义理解能力)。
🔬 细节详述
- 训练数据:
- 来源:HowTo100M, MSR-VTT, VATEX, YouTube8M-MusicTextClips, YouCook2, VALOR等公开数据集的长视频。
- 规模:从160k+短视频片段中生成了50k+三元组,其中约45k用于训练。
- 预处理:使用PySceneDetect进行分割(HSV阈值=36),并通过动作强度(光流)和场景丰富度(视觉特征方差)进行过滤。
- 数据增强:论文中未提及。
- 损失函数:论文中未明确说明具体损失函数,但指出模型优化使用了对比学习(Contrastive Learning)。
- 训练策略:
- 学习率、warmup、batch size、优化器:论文中未说明。
- 训练步数/轮数、调度策略:论文中未说明。
- 关键超参数:
- 模型大小:AudioVLM2Vec基于Qwen2-Audio-7B-Instruct和Qwen2-VL(参数量未明确说明,但Qwen2-VL-7B是常见版本)。
- 其他超参数:分割阈值(HSV τ=36)、音频相似度筛选阈值(CLAP余弦相似度<0.3)、视觉相似度筛选阈值(CLIP余弦相似度>0.9)等在数据生成流程中提及。
- 训练硬件:论文中未说明。
- 推理细节:
- 解码策略:未说明,但AudioVLM2Vec涉及Qwen2-Audio的生成过程。
- 评估策略:对每个查询,计算查询嵌入与候选视频嵌入的相似度并排序,报告Recall@K。候选池随机打乱5次取平均。对于音频中心查询,确保候选池包含视觉相似但音频不同的干扰项。
- 正则化或稳定训练技巧:论文中未说明。
📊 实验结果
主要基准结果: 论文在OmniCVR测试集(5k黄金标准三元组)上评估了模型,使用Recall@K作为主要指标。
表4:OmniCVR整体性能对比
| 模型 (骨干) | R@1 | R@3 | R@5 | R@10 |
|---|---|---|---|---|
| 轻量级/任务特定模型 | ||||
| CLIP (CLIP) | 27.54 | 50.46 | 56.70 | 62.62 |
| CoVR (BLIP2) | 11.46 | 22.88 | 28.08 | 35.18 |
| BLIP (BLIP) | 6.30 | 11.84 | 14.12 | 17.00 |
| ImageBind (CLIP) | 17.28 | 29.55 | 43.34 | 45.33 |
| 大型多模态嵌入模型 | ||||
| OmniEmbed-v0.1-multivent | 31.90 | 51.50 | 57.04 | 64.00 |
| VLM2Vec (Qwen2-VL) | 38.44 | 55.48 | 60.44 | 66.60 |
| AudioVLM2Vec (Ours) | 66.98 | 77.84 | 80.86 | 84.40 |
表5:音频中心查询性能(大型模型)
| 模型 (骨干) | R@1 | R@3 | R@5 | R@10 |
|---|---|---|---|---|
| OmniEmbed-v0.1-multivent | 13.6 | 28.5 | 35.8 | 47.0 |
| VLM2Vec (Qwen2-VL) | 12.4 | 23.3 | 30.4 | 42.3 |
| AudioVLM2Vec (Ours) | 77.2 | 87.3 | 90.7 | 94.2 |
关键结论:AudioVLM2Vec在所有类别和所有K值上均显著优于所有基线,尤其是在音频中心查询上取得了压倒性优势,验证了其音频感知能力。
消融实验与分析: 表7:源视频重要性消融(AudioVLM2Vec在音频中心查询上)
| 指标 | 带源视频 | 无源视频 | 性能下降 |
|---|---|---|---|
| R@1 | 77.20% | 28.10% | -49.10% |
| R@3 | 87.30% | 33.20% | -54.10% |
| R@5 | 90.70% | 42.50% | -48.20% |
| R@10 | 94.20% | 57.80% | -36.40% |
| 结论:移除源视频的视觉信息后性能暴跌,证明了任务是真正的“组合检索”而非“文本检索”,源视频提供了不可或缺的上下文。 |
表8:OmniEmbed控制消融:原生音频token vs. 音频转文本
| 模型设置 | 音频机制 | R@1 | R@3 | R@5 | R@10 |
|---|---|---|---|---|---|
| OmniEmbed (原始) | 原生音频token | 13.6 | 28.5 | 35.8 | 47.0 |
| OmniEmbed (修改) | 音频转文本 (Ours) | 32.7 | 48.0 | 58.9 | 69.1 |
| 结论:在相同骨干下,仅将音频表征方式从原生token替换为文本描述,性能就获得了大幅提升,证明了该策略的有效性。 |
跨领域泛化:在MSR-VTT数据集上的零样本文本到视频检索任务中,AudioVLM2Vec也优于VLM2Vec,表明其学到的多模态表征具有泛化能力。
⚖️ 评分理由
- 学术质量:6.5/7:论文具有明确的创新性(新基准+新模型范式),技术路线合理(利用现有强大组件构建新系统),实验设计非常充分且有说服力(多基线对比、多项控制消融、深入分析),证据可信度高。扣分点在于模型核心创新“音频转文本”本质上是应用层面的策略,而非提出新的音频表示学习算法,且部分训练细节缺失。
- 选题价值:1.5/2:选题非常前沿,直接针对多模态检索领域当前最大的短板(音频理解),所提出的基准和模型对推动领域发展有明确的价值和影响力,与音频/语音读者高度相关。应用场景广泛。但任务本身(组合检索)目前相对垂直,可能未达到“大众应用”级别的影响力。
- 开源与复现加成:0.5/1:论文承诺将数据集、代码和模型权重全部开源,并提供了详细的附录(提示词、数据集描述)。这极大地便利了复现和后续研究。扣0.5分是因为部分关键训练细节(如优化器、学习率)在文中未明确说明,虽然可能随代码开源,但论文本身信息不完整。