📄 CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content
#跨模态检索 #音视频 #多模态模型 #对比学习 #数据集 #基准测试
✅ 6.5/10 | 前25% | #跨模态检索 | #多模态模型 | #音视频 #对比学习
学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高
👥 作者与机构
- 第一作者:Gyuwon Han (Chung-Ang University)
- 通讯作者:Chanho Eom (Chung-Ang University)
- 作者列表:Gyuwon Han (Chung-Ang University)、Young Kyun Jang (Google DeepMind)、Chanho Eom (Chung-Ang University)
💡 毒舌点评
论文最大的亮点是提出了一个非常实际且被忽视的问题——用户可能因为音频不同而对视觉相似的视频有不同需求,并为此构建了首个音视频组合变化的检索基准,填补了领域空白。短板在于其提出的AVT融合模块本质上是为多模态特征学习一个加权平均,技术复杂度较低,核心模型架构创新有限。
📌 核心摘要
- 要解决什么问题:现有的组合视频检索(CoVR)方法仅考虑视觉内容的修改,忽略了音频对用户检索意图的关键影响,导致视觉相似但音频不同的视频被错误地视为语义等价。
- 方法核心是什么:提出了CoVA任务和AV-Comp数据集。方法上,提出了AVT Compositional Fusion模块,该模块通过一个简单的MLP为来自参考视频、修改文本(拆分为对象、动作、属性、音频四个方面)的每个特征分量预测一个权重,然后进行加权融合,以动态适应查询语义。
- 与已有方法相比新在哪里:首次将音频模态的变化作为组合检索的核心考量因素。构建了首个支持音视频对齐变化查询的数据集AV-Comp。提出的AVT模块相比简单的平均融合,能更有效地利用多模态信息。
- 主要实验结果如何:在AV-Comp测试集上,CoVA(使用CLIP-L编码器)达到了35.9% R@1,显著优于LanguageBind(27.17%)和ImageBind(20.2%)。消融实验证明移除任何文本组件(对象、动作、属性、音频)都会导致性能下降,证实了四个组件的必要性。主要结果对比如下表:
| 方法 | R@1↑ | R@5↑ | R@10↑ | MnR↓ |
|---|---|---|---|---|
| ImageBind | 20.2 | 50.5 | 65.4 | 14.6 |
| LanguageBind | 27.17 | 61.44 | 77.12 | 8.7 |
| CoVA (Ours) | 35.9 | 73.7 | 86.4 | 6.2 |
- 实际意义是什么:为音视频内容的精细检索提供了新的范式和评估基准,推动多模态检索模型更全面地理解人类的多感官意图。
- 主要局限性是什么:AVT模块设计相对简单,其性能提升部分依赖于更换了更强的文本编码器(CLIP-L)。数据集构建过程依赖于现成的视觉/音频描述生成模型(Qwen2.5-VL, Gemini),可能引入偏差。方法的可扩展性和在更复杂场景下的鲁棒性有待验证。
🏗️ 模型架构
CoVA框架整体分为三个模块:特征提取、门控融合Transformer(GFT)和AVT组合融合。其完整流程如下:

特征提取:
- 视觉特征:从参考视频中均匀采样N帧,通过CLIP图像编码器提取每帧的[CLS]特征,得到帧特征序列
f。 - 音频特征:将参考视频的音频转为梅尔频谱图,通过AST音频编码器处理,再经过一个基于查询的重采样器(Audio Resampler)将序列长度缩减为M,得到音频特征序列
a。 - 文本特征:将修改查询文本拆分为四个语义方面:对象(tobj)、动作(tact)、属性(tatt)、音频(taudm)。每个方面使用CLIP文本编码器独立编码,得到四个特征向量。
- 视觉特征:从参考视频中均匀采样N帧,通过CLIP图像编码器提取每帧的[CLS]特征,得到帧特征序列
门控融合Transformer (GFT):
- 功能:将视觉特征
f和音频特征a进行深度跨模态融合,生成统一的音视频特征fav。 - 结构:包含L层交叉注意力层。视觉特征
f作为Query,音频特征a作为Key/Value,通过交叉注意力机制,让视觉特征能根据内容选择性地“关注”相关的音频信息。 - 输出:经过L层处理后的视觉特征序列
f(L),再通过平均池化得到固定长度的音视频融合特征fav。
- 功能:将视觉特征
AVT组合融合:
- 功能:将融合后的音视频特征
fav与四个文本特征(tobj, tact, tatt, taudm)结合,生成最终的查询表示favt。 - 核心设计:不同于简单的平均或拼接,AVT是一个自适应加权融合模块。它将五个特征分量(
fav,tobj,tact,tatt,taudm)拼接后,输入一个简单的多层感知机(MLP),预测五个归一化的权重w_i。最终表示为各特征按权重的加权和:favt = Σ w_i * f_i。这使得模型能根据查询文本的具体内容,动态决定更依赖视觉参考、还是文本中的某个特定方面(如音频描述)。
- 功能:将融合后的音视频特征
训练与检索:
- 训练目标:采用对称的InfoNCE损失。将查询表示
favt和目标视频的音视频特征fav分别作为q_i和t_i,在批次内进行对比学习,拉近匹配对,推远不匹配对。 - 检索:在推理阶段,使用查询的
favt与候选库中所有视频的fav计算相似度(如余弦相似度),进行排序检索。
- 训练目标:采用对称的InfoNCE损失。将查询表示
💡 核心创新点
- 定义新任务与构建首个基准:明确提出CoVA任务,将音频模态的变化纳入组合视频检索的范畴,并构建了第一个包含高质量音视频对齐变化和自然语言描述的基准数据集AV-Comp。这填补了现有评估基准的重大空白。
- 提出查询感知的融合模块AVT:设计了一种简单有效的AVT组合融合方法。其创新在于将复杂的多模态特征融合问题转化为一个轻量级的动态加权问题,使模型能够根据输入的修改文本语义,自适应地调整对视觉参考、文本各部分信息的依赖程度。
- 验证音频作为互补模态的有效性:通过系统的实验证明,虽然单独使用音频检索效果差,但将音频信息与视觉或文本信息融合后,能显著提升检索性能,证实了音频在细粒度多模态检索中的互补价值。
🔬 细节详述
- 训练数据:
- 数据集:AV-Comp训练集,包含8,357个三元组(参考视频,修改文本,目标视频)。
- 数据来源与构建:从原始视频数据集出发,经过冗余去除、候选对挖掘(基于CLIP视觉相似度和AST音频嵌入相似度阈值)、使用Qwen2.5-VL-32B生成视频描述、使用人工标注的AudioCaps 2.0获取音频描述、最后用Gemini模型根据少样本示例生成结构化的修改文本(分为对象、动作、属性、音频四个方面)。测试集经过人工验证确保质量。
- 额外数据:构建了一个包含1,000个额外视频的图库(Gallery),以增加检索难度。
- 损失函数:对称InfoNCE损失(公式2)。其中
τ是一个可学习的温度参数。 - 训练策略:
- 优化器:未明确说明,但根据学习率和常见设置,推测为AdamW。
- 学习率:1 × 10^-4。
- Batch Size:64。
- 训练轮数:10个epoch。
- 其他:未提及warmup策略。
- 关键超参数:
- 编码器:视觉和文本编码器使用CLIP (ViT-B/32),但在主实验中与LanguageBind对比时使用了CLIP-L以匹配模型规模。音频编码器使用AST(预训练于ImageNet和AudioSet)。
- 训练参数:仅训练GFT和AVT模块,所有预训练编码器保持冻结。
- GFT层数(L)、重采样器查询数量(M):论文中未具体说明。
- 训练硬件:四块NVIDIA RTX 4090 GPU。训练时长未说明。
- 推理细节:未说明解码策略、温度或beam size,因为这是检索任务,主要依赖向量相似度排序。
📊 实验结果
主要对比实验: 表1:不同模态组合与融合策略在AV-Comp基准上的检索性能
输入 融合策略 R@1↑ R@5↑ R@10↑ MnR↓ T - 19.7 44.9 60.5 19.9 V - 21.5 49.7 65.3 21.4 A - 1.0 1.8 3.9 542.8 V, A GFT 22.3 52.3 68.9 16.2 V, T Avg 28.8 64.3 78.8 10.8 A, T Avg 22.2 53.5 69.4 13.1 T, V, A Avg + Avg 25.9 60.7 75.2 11.1 T, V, A Avg + AVT 28.1 63 77 9.4 T, V, A GFT + Avg 30.4 65.7 80.0 10.5 T, V, A GFT + AVT 31.4 66.0 80.5 9.3 结论:(1) 单独音频(A)检索极差,但作为互补模态加入(V+T)后能提升性能。(2) 对于V+T和A+T,简单平均(Avg)融合即可。(3) 对于三模态融合,AVT优于平均融合(Avg),而GFT优于简单平均用于音视频融合。最佳组合是GFT+AVT。
与现有大模型对比: 表2:在AV-Comp上与基线模型的性能对比
方法 R@1↑ R@5↑ R@10↑ MnR↓ ImageBind 20.2 50.5 65.4 14.6 LanguageBind 27.17 61.44 77.12 8.7 CoVA (Ours) 35.9 73.7 86.4 6.2 结论:使用相同融合模块(GFT+AVT)和更强文本编码器(CLIP-L)的CoVA,在所有指标上均大幅领先ImageBind和LanguageBind,证明其整体框架的有效性。
消融实验: 表3:各文本查询组件贡献的消融研究
设置 R@1↑ R@5↑ R@10↑ MnR↓ w/o tobj 26.8 62.2 75.8 9.7 w/o tact 30.9 64.6 78.7 10.8 w/o tatt 28.8 63.3 77.5 10.9 w/o taudm 30.7 66.7 80.3 9.6 CoVA (Ours) 31.4 66.0 80.5 9.3 结论:移除任何一个文本组件(对象、动作、属性、音频)都会导致R@1下降(从31.4%降至26.8%-30.9%),表明每个组件都提供了不可替代的互补信息。
⚖️ 评分理由
学术质量:5.0/7 创新性:提出了新的任务和首个基准,具有领域开创性;AVT模块设计巧妙但技术复杂度不高。 技术正确性:方法设计合理,实验对比公平(冻结编码器,只训练融合模块)。 实验充分性:实验全面,包含基线对比、消融研究和与大模型的对比,提供了充分的证据支持其主张。 证据可信度:数据集构建过程描述详细,并经过人工验证;实验数据支持结论。
选题价值:1.5/2 前沿性:高,直指当前多模态检索中音频模态被忽视的痛点。 潜在影响:中等,为更符合人类感知的多模态检索铺平了道路,但任务本身垂直。 应用空间:中等,在视频搜索引擎、内容创作工具等领域有潜在应用。
开源与复现加成:0.0/1 论文明确提供了数据集(AV-Comp)、代码和在线演示(perceptualai-lab.github.io/CoVA/)的链接,复现基础优秀。但部分训练细节(如GFT的具体层数、AST重采样器参数)未公开,略有不足。综合来看,属于“可复现但细节未完全公开”。
🔗 开源详情
- 代码:论文中提供了代码仓库链接:https://github.com/perceptualai-lab/CoVA/
- 模型权重:论文中未明确提及是否公开预训练或微调后的模型权重。
- 数据集:论文中构建了AV-Comp基准数据集,并提供了在线演示页面,但未明确说明数据集的公开下载方式。数据集地址:https://perceptualai-lab.github.io/CoVA/
- Demo:提供了在线演示:https://perceptualai-lab.github.io/CoVA/
- 复现材料:论文提供了实验设置、关键超参数(学习率、批大小、轮数)和训练硬件信息。未提供训练日志、配置文件或检查点。
- 论文中引用的开源项目:
- CLIP(视觉和文本编码器)
- AST(音频编码器)
- Qwen2.5-VL-32B-Instruct(用于生成视频描述)
- Gemini(用于生成修改文本)
- AudioCaps 2.0(提供人工标注的音频描述)