📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

#多模态模型 #音频检索 #视频检索 #对比学习 #多任务学习

🔥 8.5/10 | 前10% | #音频检索 #视频检索 | #对比学习 #多任务学习 | #多模态模型 #音频检索

学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Changli Tang (清华大学)
  • 通讯作者:Chao Zhang (清华大学)
  • 作者列表:Changli Tang (清华大学), Qinfan Xiao (清华大学), Ke Mei (腾讯微信视觉), Tianyi Wang (腾讯微信视觉), Fengyun Rao (腾讯微信视觉), Chao Zhang (清华大学)

💡 毒舌点评

亮点:该工作勇敢地填补了基于LLM的统一音频-视觉嵌入的空白,其提出的分层特征融合与联合训练策略在多项检索和QA任务上取得了令人信服的SOTA结果,显示了强大的跨模态理解与对齐能力。 短板:模型的通用性在一定程度上受限于其基础架构(Qwen2.5-Omni),且论文中提出的“versatile audio-visual learning”新基准未在附录或实验部分详细说明其构成与评估方式,略显缺失。

🔗 开源详情

  • 代码:提供GitHub链接:https://github.com/TCL606/WAVE。
  • 模型权重:论文明确提到将发布模型检查点(Checkpoints)。
  • 数据集:论文详细列出了训练所用数据集名称和规模,但未说明是否会开源这些整合后的数据集(特别是重标注后的Panda-70M子集)。
  • Demo:未提及。
  • 复现材料:提供了详尽的模型架构说明、训练规格(学习率、批次大小、硬件、时长)、关键超参数和完整的消融实验设置,复现指南清晰。
  • 论文中引用的开源项目:Qwen2.5-Omni(基础模型)、BEATs(音频编码器)、LoRA(微调技术)、以及多个公开数据集(WavCaps, AudioCaps, Clotho, Panda-70M等)。

📌 核心摘要

  1. 问题:现有基于LLM的多模态嵌入模型大多局限于视觉(尤其是静态图像),未能有效处理动态的音频和音视频模态,难以实现真正通用的跨模态表征空间。
  2. 方法核心:提出WAVE,首个基于多模态LLM(Qwen2.5-Omni)的统一音频-视觉嵌入模型。核心包括:(1) 设计了双音频编码器(语音+环境声)和分层特征融合模块(聚合多层LLM隐藏状态);(2) 采用联合多模态、多任务对比学习策略进行训练。
  3. 新颖性:WAVE首次实现了文本、音频、静音视频和同步音视频到统一语义空间的映射,不仅能进行任意到任意的跨模态检索,还能生成依赖于用户指令的“提示感知”嵌入。
  4. 主要实验结果:在MMEB-v2视频基准上取得SOTA,整体性能超越工业级模型Seed-1.6-Embedding;在音频检索(AudioCaps/Clotho)、音视频检索(VGGSound/MusicCaps)和音频问答(MMAU/MMAR)任务上均显著优于基线模型。关键消融实验显示,联合训练和分层特征融合均能带来稳定性能提升。
  5. 实际意义:为跨模态任何到任何的应用(如统一音视频搜索、多模态问答)提供了强大的基础模型,展示了利用LLM构建通用多模态嵌入的巨大潜力。
  6. 主要局限性:模型性能依赖于高质量的基础LLM(Qwen2.5-Omni);论文中提及的“versatile audio-visual learning”新基准未提供详细信息;主要在英文数据集上评估,多语言能力未验证。

实验结果关键数据表:

表1:视频嵌入基准测试结果

模型MMEB-v2-Video OverallCLSQARETMRETLoVR text-to-cliptheme-to-clip
LamRA 7B35.039.342.624.332.862.960.2
GME 7B38.437.450.428.437.051.243.9
CAFe 7B42.435.858.734.439.5--
Seed-1.6-Embedding55.355.060.951.353.5--
WAVE 7B59.957.872.554.750.862.966.0

表2:音频与音视频嵌入基准测试结果

方法A-RET (AudioCaps)A-RET (Clotho)AV-RET (VGGSound)AV-RET (MusicCaps)A-QA (MMAU)A-QA (MMAR)
参考模型 (各领域最优)42.221.510.38.671.556.7
encoder-only retrieval model (ours)------
Qwen2.5-Omni 7B------
WAVE 7B44.225.625.020.476.668.1

表3:提示感知嵌入对视频问答的影响

模型MMEB-v2-Video QA Average
Seed-1.6-Embedding60.9
WAVE 7B, w/ a common prompt51.8
WAVE 7B, w/ separate questions72.5

🏗️ 模型架构

WAVE的架构(见下图)旨在将多种模态的输入统一到一个共享的语义嵌入空间中。

完整输入输出流程:模型接受文本、视频帧、音频波形或同步音视频对作为输入,最终输出一个统一的多模态嵌入向量,用于检索、分类或问答等下游任务。

主要组件及功能:

  1. 视觉编码器:采用预训练的视觉编码器(来自Qwen2.5-Omni)处理视频帧,将其转换为视觉token。
  2. 双音频编码器:这是针对音频输入的关键设计。
    • 语音编码器:来自Qwen2.5-Omni(基于Whisper),专门建模语音内容。
    • 音频事件编码器:采用预训练的BEATs编码器,并添加一个两层MLP对齐器,用于理解环境声等非语音音频事件。两个编码器输出频率相同,其token在时间上对齐。
  3. 文本嵌入层:使用LLM自带的原始词嵌入层处理文本提示词。
  4. 输入交错策略:
    • 音频-only:语音token和音频事件token按1:1交错。
    • 音视频:视觉token序列和音频token序列被分成若干段,然后交错排列。
    • 文本提示词token总是追加到序列末尾。
  5. 时间对齐位置编码:采用TMRoPE(时间对齐的多模态旋转位置编码),确保来自同一时间点的不同模态token共享相同位置编码,实现精确时序对齐。
  6. LLM骨干网络:处理交错的多模态token序列。对于非文本输入,采用创新的分层特征融合:从LLM的所有层提取最后一个token的隐藏状态,将其拼接后输入一个轻量级融合模块(两层MLP+GELU),生成最终嵌入。对于纯文本输入,则直接使用标准的最后一token池化。
  7. 融合模块:一个两层MLP,用于将来自不同LLM层的特征融合并压缩为最终的多模态嵌入。

数据流与交互:异构输入首先经过各自模态的编码器转化为token序列,按特定规则交错并附加文本提示词后,送入LLM进行联合处理。LLM内部各层输出的“最后一token”信息被收集并融合,形成最终的表征。这种设计使得模型能同时捕获低层感知特征和高层语义抽象。

关键设计选择及动机:

  • 双音频编码器:动机是语音编码器(源自Whisper)对非语音音频事件建模不足,而BEATs擅长此道,两者互补。
  • 分层特征融合:动机是观察到LLM不同层对视频理解贡献不同信息(低层感知,高层语义),简单使用最后一层可能丢失信息。
  • 联合多任务训练:动机是让模型在多样的跨模态任务(检索、QA)中学习更通用、模态无关的语义空间。

💡 核心创新点

  1. 首个统一音频-视觉嵌入的多模态LLM:这是本文最核心的创新。之前的工作(如VLM2Vec)主要统一了文本和图像/视频,WAVE首次将动态的音频模态(包括语音和环境声)以及音视频对统一到同一个基于LLM的嵌入空间中。

    • 局限:之前的嵌入模型在音频和同步音视频的统一处理上存在空白。
    • 如何起作用:通过双音频编码器处理音频,并设计有效的token交错策略将其与视觉、文本token一起输入LLM。
    • 收益:实现了真正任意到任意的跨模态检索(如视频到音频、音频到文本),并在多个相关基准上取得SOTA。
  2. 提示感知的嵌入生成:利用LLM骨干网络的指令遵循能力,WAVE能生成依赖于用户文本提示的嵌入。这不同于传统产生任务无关嵌入的模型。

    • 局限:传统嵌入模型生成固定语义的表示,无法根据具体查询(如QA中的具体问题)调整嵌入焦点。
    • 如何起作用:将文本提示(如“视频中有什么动物?”)作为指令输入LLM,LLM生成的嵌入会动态偏向与提示相关的语义维度。
    • 收益:在基于嵌入的多模态问答任务中表现卓越(见表5),例如在MMEB-v2 Video QA上平均准确率比使用通用提示提升20.7个百分点。
  3. 有效的分层特征融合架构:提出从LLM所有层提取最后一token特征并用MLP融合的策略。

    • 局限:常用的最后一层池化可能丢失多层互补信息。
    • 如何起作用:收集从底层到顶层的丰富特征,通过一个轻量级学习模块进行非线性融合。
    • 收益:在视频检索任务上(表7)稳定优于仅使用最后一层或其他单层的基线。

🔬 细节详述

  • 训练数据:

    • 预训练阶段(BEATs对齐器):使用WavCaps、AudioCaps、Clotho数据集中的音频,训练目标为根据音频生成描述性标题。
    • 主训练阶段(联合对比学习):数据集及规模见下表。值得注意的是,作者使用InternVL-2.5-8B对Panda-70M中的100万视频进行了重新标注。对于有多个文本描述的视频,构造了共享视频但文本不同的样本对。
      任务数据源模态(s,t)样本数
      视频-文本检索Panda-70M(视觉, 文本)1.0M
      MSVD, DiDeMo, ActivityNet(视觉, 文本)42K
      MSR-VTT, VATEX, YouCook2, Shot2Story(音视频, 文本)980K
      视频-QALLaVA-Video-178k(视觉, 文本)100K
      视频-音频检索AudioSet, VGGSound(音频, 视觉)1.9M
      音频-文本检索AudioCaps, AudioSet-SL, Clotho(音频, 文本)176K
      总计4.9M
  • 损失函数:

    1. 检索任务损失:采用对称的InfoNCE对比损失(公式1-3),以双向方式拉近匹配对、推远不匹配对,使用余弦相似度和温度参数τ(设为0.01)。
    2. 问答任务损失:采用交叉熵损失(公式4-5),从正确答案和n个干扰答案��区分出正确答案的嵌入。
  • 训练策略:

    • 优化器:未明确说明,但根据学习率设置和常见实践,推测为AdamW。
    • 学习率:2 × 10⁻⁵。
    • Batch Size:总batch size为192(每设备1,共192张H20 GPU)。
    • 训练轮数/步数:主训练阶段为1个epoch。
    • 调度策略:未说明,可能使用了恒定学习率或线性衰减。
    • 硬件:主训练使用192张H20 GPU,耗时约36小时。消融实验使用128张H20 GPU。
    • 任务感知采样:数据采样器确保每个mini-batch内的样本属于同一任务类型和数据源。
    • 可训练参数:视觉对齐器和施加在LLM上的LoRA模块(rank=128, scaling=2.0, dropout=0.05)。
  • 关键超参数:

    • LLM骨干:Qwen2.5-Omni (7B参数),共28层。
    • 温度τ:0.01。
    • 视频采样:2 FPS,最大128帧。
    • 音频采样率:16,000 Hz。
  • 正则化技巧:在LoRA模块中应用了dropout(0.05)以防止过拟合。

📊 实验结果

主要基准测试结果: 论文在视频、音频、音视频检索以及QA任务上进行了全面评估。核心结果见上文“实验结果关键数据表”。

与最强基线对比:

  • 视频嵌入:在MMEB-v2-Video基准上,WAVE的整体分数(59.9)超过了强大的工业基线Seed-1.6-Embedding(55.3),尤其是在检索(RET)和QA子任务上优势明显。
  • 音频嵌入:在AudioCaps(44.2 vs 42.2)和Clotho(25.6 vs 21.5)的文本到音频检索上,超越了此前基于独立编码器的SOTA模型。
  • 音视频嵌入:在视频到音频检索任务VGGSound(25.0)和MusicCaps(20.4)上,大幅超越了基线(10.3和8.6)。
  • 音频QA:在MMAU和MMAR基准上,WAVE(76.6, 68.1)甚至超过了其基础模型Qwen2.5-Omni(71.5, 56.7)。

关键消融实验:

  1. 联合训练 vs. 单独训练(表6):在8个任务中,联合训练在7个任务上优于专门训练的模型,证明了跨模态知识迁移的益处。
  2. 嵌入提取策略(表7):所有层特征融合(MLP)在视频检索上(50.5)优于仅用最后一层(49.6)和加权求和(48.3)。在音视频设置下,优势延续(56.1 vs 54.7)。
  3. 双编码器 vs. 单编码器(附录表9):在音频检索和音视频检索上,双编码器配置(音频+语音)始终优于仅使用语音编码器。

提示感知嵌入分析(表5与图2): 当为视频问答提供具体问题作为提示时(w/ separate questions),WAVE的平均准确率达到72.5%,远高于使用通用描述提示(w/ a common prompt)的51.8%。附录中的热力图(图2)直观展示了对于同一视频,针对不同问题生成的嵌入在语义上确实偏向了问题所关注的概念。

图表引用: 图2: 提示感知嵌入相似性热力图 (该热力图显示,针对“视频中有什么动物?”(V2)、“背景有什么声音?”(V3)、“谁在说话?”(V4)等具体问题生成的视频嵌入,与对应概念文本(“狗”T2、“风”T3、“男人”T4)的余弦相似度,高于与其他概念文本的相似度,证明了嵌入的提示感知能力。)

⚖️ 评分理由

  • 学术质量:6.5/7
    • 创新性:提出首个统一音频-视觉嵌入LLM,填补了重要空白。
    • 技术正确性:架构(双编码器、分层融合)和训练方法(联合对比学习)设计合理,有充分理论依据。
    • 实验充分性:在多个主流基准上评估,并进行了深入的消融研究(联合训练、特征融合、编码器设计),实验设计严谨。
    • 证据可信度:实验结果显著,且消融结果一致支持主要假设,说服力强。
  • 选题价值:2.0/2
    • 前沿性:直击当前多模态LLM表示学习中动态模态统一的前沿问题。
    • 潜在影响:为跨模态理解和检索提供了新的强大基础模型,影响广泛。
    • 应用空间:适用于智能搜索、内容理解、人机交互等多个领域。
    • 读者相关性:对关注音频、视频及其融合表征的学者和工程师极具参考价值。
  • 开源与复现加成:+0.5/1
    • 论文提供了代码仓库链接,并承诺开源模型权重。
    • 详细列出了模型配置、训练超参数、数据来源及规模、硬件需求等关键复现信息。
    • 扣分点在于训练数据的具体整合与重标注方式未完全公开,且新提出的“versatile audio-visual learning”基准细节缺失。

← 返回 ICLR 2026 论文分析