📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

#多模态模型 #音频检索 #视频检索 #对比学习 #多任务学习

🔥 8.5/10 | 前10% | #音频检索 #视频检索 | #对比学习 #多任务学习 | #多模态模型 #音频检索

学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Changli Tang (清华大学)
通讯作者：Chao Zhang (清华大学)
作者列表：Changli Tang (清华大学)， Qinfan Xiao (清华大学)， Ke Mei (腾讯微信视觉)， Tianyi Wang (腾讯微信视觉)， Fengyun Rao (腾讯微信视觉)， Chao Zhang (清华大学)

💡 毒舌点评

亮点：该工作勇敢地填补了基于LLM的统一音频-视觉嵌入的空白，其提出的分层特征融合与联合训练策略在多项检索和QA任务上取得了令人信服的SOTA结果，显示了强大的跨模态理解与对齐能力。短板：模型的通用性在一定程度上受限于其基础架构（Qwen2.5-Omni），且论文中提出的“versatile audio-visual learning”新基准未在附录或实验部分详细说明其构成与评估方式，略显缺失。

🔗 开源详情

代码：提供GitHub链接：https://github.com/TCL606/WAVE。
模型权重：论文明确提到将发布模型检查点（Checkpoints）。
数据集：论文详细列出了训练所用数据集名称和规模，但未说明是否会开源这些整合后的数据集（特别是重标注后的Panda-70M子集）。
Demo：未提及。
复现材料：提供了详尽的模型架构说明、训练规格（学习率、批次大小、硬件、时长）、关键超参数和完整的消融实验设置，复现指南清晰。
论文中引用的开源项目：Qwen2.5-Omni（基础模型）、BEATs（音频编码器）、LoRA（微调技术）、以及多个公开数据集（WavCaps， AudioCaps， Clotho， Panda-70M等）。

📌 核心摘要

问题：现有基于LLM的多模态嵌入模型大多局限于视觉（尤其是静态图像），未能有效处理动态的音频和音视频模态，难以实现真正通用的跨模态表征空间。
方法核心：提出WAVE，首个基于多模态LLM（Qwen2.5-Omni）的统一音频-视觉嵌入模型。核心包括：(1) 设计了双音频编码器（语音+环境声）和分层特征融合模块（聚合多层LLM隐藏状态）；(2) 采用联合多模态、多任务对比学习策略进行训练。
新颖性：WAVE首次实现了文本、音频、静音视频和同步音视频到统一语义空间的映射，不仅能进行任意到任意的跨模态检索，还能生成依赖于用户指令的“提示感知”嵌入。
主要实验结果：在MMEB-v2视频基准上取得SOTA，整体性能超越工业级模型Seed-1.6-Embedding；在音频检索（AudioCaps/Clotho）、音视频检索（VGGSound/MusicCaps）和音频问答（MMAU/MMAR）任务上均显著优于基线模型。关键消融实验显示，联合训练和分层特征融合均能带来稳定性能提升。
实际意义：为跨模态任何到任何的应用（如统一音视频搜索、多模态问答）提供了强大的基础模型，展示了利用LLM构建通用多模态嵌入的巨大潜力。
主要局限性：模型性能依赖于高质量的基础LLM（Qwen2.5-Omni）；论文中提及的“versatile audio-visual learning”新基准未提供详细信息；主要在英文数据集上评估，多语言能力未验证。

实验结果关键数据表：

表1：视频嵌入基准测试结果

模型	MMEB-v2-Video Overall	CLS	QA	RET	MRET	LoVR text-to-clip	theme-to-clip
LamRA 7B	35.0	39.3	42.6	24.3	32.8	62.9	60.2
GME 7B	38.4	37.4	50.4	28.4	37.0	51.2	43.9
CAFe 7B	42.4	35.8	58.7	34.4	39.5	-	-
Seed-1.6-Embedding	55.3	55.0	60.9	51.3	53.5	-	-
WAVE 7B	59.9	57.8	72.5	54.7	50.8	62.9	66.0

表2：音频与音视频嵌入基准测试结果

方法	A-RET (AudioCaps)	A-RET (Clotho)	AV-RET (VGGSound)	AV-RET (MusicCaps)	A-QA (MMAU)	A-QA (MMAR)
参考模型 (各领域最优)	42.2	21.5	10.3	8.6	71.5	56.7
encoder-only retrieval model (ours)	-	-	-	-	-	-
Qwen2.5-Omni 7B	-	-	-	-	-	-
WAVE 7B	44.2	25.6	25.0	20.4	76.6	68.1

表3：提示感知嵌入对视频问答的影响

模型	MMEB-v2-Video QA Average
Seed-1.6-Embedding	60.9
WAVE 7B, w/ a common prompt	51.8
WAVE 7B, w/ separate questions	72.5

🏗️ 模型架构

WAVE的架构（见下图）旨在将多种模态的输入统一到一个共享的语义嵌入空间中。

完整输入输出流程：模型接受文本、视频帧、音频波形或同步音视频对作为输入，最终输出一个统一的多模态嵌入向量，用于检索、分类或问答等下游任务。

主要组件及功能：

视觉编码器：采用预训练的视觉编码器（来自Qwen2.5-Omni）处理视频帧，将其转换为视觉token。
双音频编码器：这是针对音频输入的关键设计。
- 语音编码器：来自Qwen2.5-Omni（基于Whisper），专门建模语音内容。
- 音频事件编码器：采用预训练的BEATs编码器，并添加一个两层MLP对齐器，用于理解环境声等非语音音频事件。两个编码器输出频率相同，其token在时间上对齐。
文本嵌入层：使用LLM自带的原始词嵌入层处理文本提示词。
输入交错策略：
- 音频-only：语音token和音频事件token按1:1交错。
- 音视频：视觉token序列和音频token序列被分成若干段，然后交错排列。
- 文本提示词token总是追加到序列末尾。
时间对齐位置编码：采用TMRoPE（时间对齐的多模态旋转位置编码），确保来自同一时间点的不同模态token共享相同位置编码，实现精确时序对齐。
LLM骨干网络：处理交错的多模态token序列。对于非文本输入，采用创新的分层特征融合：从LLM的所有层提取最后一个token的隐藏状态，将其拼接后输入一个轻量级融合模块（两层MLP+GELU），生成最终嵌入。对于纯文本输入，则直接使用标准的最后一token池化。
融合模块：一个两层MLP，用于将来自不同LLM层的特征融合并压缩为最终的多模态嵌入。

数据流与交互：异构输入首先经过各自模态的编码器转化为token序列，按特定规则交错并附加文本提示词后，送入LLM进行联合处理。LLM内部各层输出的“最后一token”信息被收集并融合，形成最终的表征。这种设计使得模型能同时捕获低层感知特征和高层语义抽象。

关键设计选择及动机：

双音频编码器：动机是语音编码器（源自Whisper）对非语音音频事件建模不足，而BEATs擅长此道，两者互补。
分层特征融合：动机是观察到LLM不同层对视频理解贡献不同信息（低层感知，高层语义），简单使用最后一层可能丢失信息。
联合多任务训练：动机是让模型在多样的跨模态任务（检索、QA）中学习更通用、模态无关的语义空间。

💡 核心创新点

首个统一音频-视觉嵌入的多模态LLM：这是本文最核心的创新。之前的工作（如VLM2Vec）主要统一了文本和图像/视频，WAVE首次将动态的音频模态（包括语音和环境声）以及音视频对统一到同一个基于LLM的嵌入空间中。
- 局限：之前的嵌入模型在音频和同步音视频的统一处理上存在空白。
- 如何起作用：通过双音频编码器处理音频，并设计有效的token交错策略将其与视觉、文本token一起输入LLM。
- 收益：实现了真正任意到任意的跨模态检索（如视频到音频、音频到文本），并在多个相关基准上取得SOTA。
提示感知的嵌入生成：利用LLM骨干网络的指令遵循能力，WAVE能生成依赖于用户文本提示的嵌入。这不同于传统产生任务无关嵌入的模型。
- 局限：传统嵌入模型生成固定语义的表示，无法根据具体查询（如QA中的具体问题）调整嵌入焦点。
- 如何起作用：将文本提示（如“视频中有什么动物？”）作为指令输入LLM，LLM生成的嵌入会动态偏向与提示相关的语义维度。
- 收益：在基于嵌入的多模态问答任务中表现卓越（见表5），例如在MMEB-v2 Video QA上平均准确率比使用通用提示提升20.7个百分点。
有效的分层特征融合架构：提出从LLM所有层提取最后一token特征并用MLP融合的策略。
- 局限：常用的最后一层池化可能丢失多层互补信息。
- 如何起作用：收集从底层到顶层的丰富特征，通过一个轻量级学习模块进行非线性融合。
- 收益：在视频检索任务上（表7）稳定优于仅使用最后一层或其他单层的基线。

🔬 细节详述

训练数据：

预训练阶段（BEATs对齐器）：使用WavCaps、AudioCaps、Clotho数据集中的音频，训练目标为根据音频生成描述性标题。

主训练阶段（联合对比学习）：数据集及规模见下表。值得注意的是，作者使用InternVL-2.5-8B对Panda-70M中的100万视频进行了重新标注。对于有多个文本描述的视频，构造了共享视频但文本不同的样本对。

任务	数据源	模态(s,t)	样本数
视频-文本检索	Panda-70M	(视觉, 文本)	1.0M
	MSVD, DiDeMo, ActivityNet	(视觉, 文本)	42K
	MSR-VTT, VATEX, YouCook2, Shot2Story	(音视频, 文本)	980K
视频-QA	LLaVA-Video-178k	(视觉, 文本)	100K
视频-音频检索	AudioSet, VGGSound	(音频, 视觉)	1.9M
音频-文本检索	AudioCaps, AudioSet-SL, Clotho	(音频, 文本)	176K
总计			4.9M

损失函数：
1. 检索任务损失：采用对称的InfoNCE对比损失（公式1-3），以双向方式拉近匹配对、推远不匹配对，使用余弦相似度和温度参数τ（设为0.01）。
2. 问答任务损失：采用交叉熵损失（公式4-5），从正确答案和n个干扰答案��区分出正确答案的嵌入。
训练策略：
- 优化器：未明确说明，但根据学习率设置和常见实践，推测为AdamW。
- 学习率：2 × 10⁻⁵。
- Batch Size：总batch size为192（每设备1，共192张H20 GPU）。
- 训练轮数/步数：主训练阶段为1个epoch。
- 调度策略：未说明，可能使用了恒定学习率或线性衰减。
- 硬件：主训练使用192张H20 GPU，耗时约36小时。消融实验使用128张H20 GPU。
- 任务感知采样：数据采样器确保每个mini-batch内的样本属于同一任务类型和数据源。
- 可训练参数：视觉对齐器和施加在LLM上的LoRA模块（rank=128， scaling=2.0， dropout=0.05）。
关键超参数：
- LLM骨干：Qwen2.5-Omni (7B参数)，共28层。
- 温度τ：0.01。
- 视频采样：2 FPS，最大128帧。
- 音频采样率：16,000 Hz。
正则化技巧：在LoRA模块中应用了dropout（0.05）以防止过拟合。

📊 实验结果

主要基准测试结果：论文在视频、音频、音视频检索以及QA任务上进行了全面评估。核心结果见上文“实验结果关键数据表”。

与最强基线对比：

视频嵌入：在MMEB-v2-Video基准上，WAVE的整体分数（59.9）超过了强大的工业基线Seed-1.6-Embedding（55.3），尤其是在检索（RET）和QA子任务上优势明显。
音频嵌入：在AudioCaps（44.2 vs 42.2）和Clotho（25.6 vs 21.5）的文本到音频检索上，超越了此前基于独立编码器的SOTA模型。
音视频嵌入：在视频到音频检索任务VGGSound（25.0）和MusicCaps（20.4）上，大幅超越了基线（10.3和8.6）。
音频QA：在MMAU和MMAR基准上，WAVE（76.6, 68.1）甚至超过了其基础模型Qwen2.5-Omni（71.5, 56.7）。

关键消融实验：

联合训练 vs. 单独训练（表6）：在8个任务中，联合训练在7个任务上优于专门训练的模型，证明了跨模态知识迁移的益处。
嵌入提取策略（表7）：所有层特征融合（MLP）在视频检索上（50.5）优于仅用最后一层（49.6）和加权求和（48.3）。在音视频设置下，优势延续（56.1 vs 54.7）。
双编码器 vs. 单编码器（附录表9）：在音频检索和音视频检索上，双编码器配置（音频+语音）始终优于仅使用语音编码器。

提示感知嵌入分析（表5与图2）：当为视频问答提供具体问题作为提示时（w/ separate questions），WAVE的平均准确率达到72.5%，远高于使用通用描述提示（w/ a common prompt）的51.8%。附录中的热力图（图2）直观展示了对于同一视频，针对不同问题生成的嵌入在语义上确实偏向了问题所关注的概念。

图表引用：图2: 提示感知嵌入相似性热力图（该热力图显示，针对“视频中有什么动物？”（V2）、“背景有什么声音？”（V3）、“谁在说话？”（V4）等具体问题生成的视频嵌入，与对应概念文本（“狗”T2、“风”T3、“男人”T4）的余弦相似度，高于与其他概念文本的相似度，证明了嵌入的提示感知能力。）

⚖️ 评分理由

学术质量：6.5/7
- 创新性：提出首个统一音频-视觉嵌入LLM，填补了重要空白。
- 技术正确性：架构（双编码器、分层融合）和训练方法（联合对比学习）设计合理，有充分理论依据。
- 实验充分性：在多个主流基准上评估，并进行了深入的消融研究（联合训练、特征融合、编码器设计），实验设计严谨。
- 证据可信度：实验结果显著，且消融结果一致支持主要假设，说服力强。
选题价值：2.0/2
- 前沿性：直击当前多模态LLM表示学习中动态模态统一的前沿问题。
- 潜在影响：为跨模态理解和检索提供了新的强大基础模型，影响广泛。
- 应用空间：适用于智能搜索、内容理解、人机交互等多个领域。
- 读者相关性：对关注音频、视频及其融合表征的学者和工程师极具参考价值。
开源与复现加成：+0.5/1
- 论文提供了代码仓库链接，并承诺开源模型权重。
- 详细列出了模型配置、训练超参数、数据来源及规模、硬件需求等关键复现信息。
- 扣分点在于训练数据的具体整合与重标注方式未完全公开，且新提出的“versatile audio-visual learning”基准细节缺失。

← 返回 ICLR 2026 论文分析

📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

实验结果关键数据表：#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文