WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM
📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM #多模态模型 #对比学习 #音频检索 #视频检索 #多任务学习 🔥 8.0/10 | 前25% | #音频检索 | #对比学习 | #多模态模型 #视频检索 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Changli Tang (清华大学) 通讯作者:Chao Zhang (清华大学) 作者列表:Changli Tang (清华大学), Qinfan Xiao (清华大学), Ke Mei (腾讯微信视觉), Tianyi Wang (腾讯微信视觉), Fengyun Rao (腾讯微信视觉), Chao Zhang (清华大学) 💡 毒舌点评 这篇论文最大的亮点在于“敢为人先”,首次将文本、音频、视频统一到同一个LLM嵌入空间,打破了传统双编码器的限制,其联合训练策略带来的跨模态性能提升也令人印象深刻。然而,其创新性更多体现在对现有技术(LLM backbone,分层融合,多任务训练)的精巧集成与验证,而非提出颠覆性的新概念,因此对于追求“首个”或“全新范式”的读者而言可能略显不足。 🔗 开源详情 代码:论文中提到代码和检查点将在 https://github.com/TCL606/WAVE 发布。但当前论文PDF中未提供该链接。 模型权重:论文承诺将发布模型检查点(checkpoints)。 数据集:论文使用了多个公开数据集(如Panda-70M, MSR-VTT, AudioCaps等),但未提及发布新的数据集。 Demo:论文中未提及在线演示。 复现材料:论文在Section 3.1, 3.2, 4.1, 4.2中详细描述了模型架构、训练流程、训练数据和超参数,提供了足够的复现信息。 论文中引用的开源项目: 基础模型:Qwen2.5-Omni (Xu et al., 2025) 音频编码器:BEATs (Chen et al., 2022b) 训练数据:WavCaps, AudioCaps, Clotho, Panda-70M等。 其他工具/模型:LoRA (Hu et al., 2022), InternVL-2.5-8B (Chen et al., 2024c) 用于重新标注。 📌 核心摘要 要解决的问题:现有的多模态嵌入模型多基于独立编码器,缺乏一个能同时处理文本、音频、视频,并将它们统一到同一语义空间的通用模型。这对于需要动态模态(如音视频)深度理解的跨模态检索和生成任务是一个瓶颈。 方法核心:提出了WAVE,一个基于Qwen2.5-Omni多模态大语言模型的统一音视频嵌入模型。其核心设计包括:1) 双音频编码器(语音+音频事件)全面捕获音频信息;2) 一种分层特征融合策略,聚合LLM多层隐藏状态以获得更鲁棒的表示;3) 联合多模态多任务训练策略,同时优化检索与问答任务。 与已有方法相比新在哪里:WAVE是首个能够为文本、静音视频、音频以及同步音视频输入生成统一嵌入的LLM-based模型。与现有双编码器模型(如CLIP系列)或专注图像的LLM嵌入模型(如VLM2Vec)不同,WAVE真正实现了对动态音视频模态的统一建模,并具备生成提示感知(prompt-aware)嵌入的能力。 主要实验结果: 视频理解:在MMEB-v2视频基准整体得分59.9%,全面超越LamRA、GME等开源模型,甚至优于工业级模型Seed-1.6-Embedding(55.3%)。 音频/音视频检索:在AudioCaps(文本到音频R@1: 44.2%)、Clotho(25.6%)、VGGSound(视频到音频R@1: 25.0%)等任务上达到SOTA。 提示感知能力:在视频问答任务中,使用单独问题作为提示时平均准确率达72.5%,远超使用通用提示(51.8%),显著优于其他嵌入模型。 消融实验:联合训练优于分别训练(7/8任务上提升);分层特征融合(All-layer MLP)优于单层池化(如在MSR-VTT上,视频检索R@1从54.7%提升至56.1%)。 主要实验结果见下表: 任务类别 基准 指标 WAVE 7B 最强基线/参考模型 参考值 视频嵌入 MMEB-v2-Video Overall Acc% 59.9 Seed-1.6-Embedding 55.3 MMEB-v2-Video RET R@1 72.5 Seed-1.6-Embedding 60.9 LoVR (theme-to-clip) R@25 66.0 LamRA 7B 60.2 音频检索 AudioCaps R@1 44.2 Reference Model 42.2 Clotho R@1 25.6 Reference Model 21.5 音视频检索 VGGSound R@1 25.0 encoder-only 10.3 音频问答 MMAU Acc% 76.6 Qwen2.5-Omni 7B 71.5 视频问答 MMEB-v2-Video QA (w/ questions) Acc% 72.5 Seed-1.6-Embedding 60.9 实际意义:WAVE提供了一个强大的基线模型,使得在单一模型中处理任意模态组合的检索、分类和问答成为可能,极大地推动了跨模态应用(如通用多模态搜索、内容理解)的发展。 主要局限性:论文未详细讨论模型在面对更复杂、更长或噪声更大的真实世界音视频场景下的鲁棒性。此外,其统一的嵌入空间是否能无缝支持所有下游生成任务(如图像生成)也未验证。 🏗️ 模型架构 WAVE的整体架构如图1所示,其核心是将多种模态的输入通过各自编码器转换为LLM可处理的token序列,再由LLM统一处理并生成统一的嵌入。 ...