WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM #多模态模型 #对比学习 #音频检索 #视频检索 #多任务学习 🔥 8.0/10 | 前25% | #音频检索 | #对比学习 | #多模态模型 #视频检索 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Changli Tang (清华大学) 通讯作者:Chao Zhang (清华大学) 作者列表:Changli Tang (清华大学), Qinfan Xiao (清华大学), Ke Mei (腾讯微信视觉), Tianyi Wang (腾讯微信视觉), Fengyun Rao (腾讯微信视觉), Chao Zhang (清华大学) 💡 毒舌点评 这篇论文最大的亮点在于“敢为人先”,首次将文本、音频、视频统一到同一个LLM嵌入空间,打破了传统双编码器的限制,其联合训练策略带来的跨模态性能提升也令人印象深刻。然而,其创新性更多体现在对现有技术(LLM backbone,分层融合,多任务训练)的精巧集成与验证,而非提出颠覆性的新概念,因此对于追求“首个”或“全新范式”的读者而言可能略显不足。 🔗 开源详情 代码:论文中提到代码和检查点将在 https://github.com/TCL606/WAVE 发布。但当前论文PDF中未提供该链接。 模型权重:论文承诺将发布模型检查点(checkpoints)。 数据集:论文使用了多个公开数据集(如Panda-70M, MSR-VTT, AudioCaps等),但未提及发布新的数据集。 Demo:论文中未提及在线演示。 复现材料:论文在Section 3.1, 3.2, 4.1, 4.2中详细描述了模型架构、训练流程、训练数据和超参数,提供了足够的复现信息。 论文中引用的开源项目: 基础模型:Qwen2.5-Omni (Xu et al., 2025) 音频编码器:BEATs (Chen et al., 2022b) 训练数据:WavCaps, AudioCaps, Clotho, Panda-70M等。 其他工具/模型:LoRA (Hu et al., 2022), InternVL-2.5-8B (Chen et al., 2024c) 用于重新标注。 📌 核心摘要 要解决的问题:现有的多模态嵌入模型多基于独立编码器,缺乏一个能同时处理文本、音频、视频,并将它们统一到同一语义空间的通用模型。这对于需要动态模态(如音视频)深度理解的跨模态检索和生成任务是一个瓶颈。 方法核心:提出了WAVE,一个基于Qwen2.5-Omni多模态大语言模型的统一音视频嵌入模型。其核心设计包括:1) 双音频编码器(语音+音频事件)全面捕获音频信息;2) 一种分层特征融合策略,聚合LLM多层隐藏状态以获得更鲁棒的表示;3) 联合多模态多任务训练策略,同时优化检索与问答任务。 与已有方法相比新在哪里:WAVE是首个能够为文本、静音视频、音频以及同步音视频输入生成统一嵌入的LLM-based模型。与现有双编码器模型(如CLIP系列)或专注图像的LLM嵌入模型(如VLM2Vec)不同,WAVE真正实现了对动态音视频模态的统一建模,并具备生成提示感知(prompt-aware)嵌入的能力。 主要实验结果: 视频理解:在MMEB-v2视频基准整体得分59.9%,全面超越LamRA、GME等开源模型,甚至优于工业级模型Seed-1.6-Embedding(55.3%)。 音频/音视频检索:在AudioCaps(文本到音频R@1: 44.2%)、Clotho(25.6%)、VGGSound(视频到音频R@1: 25.0%)等任务上达到SOTA。 提示感知能力:在视频问答任务中,使用单独问题作为提示时平均准确率达72.5%,远超使用通用提示(51.8%),显著优于其他嵌入模型。 消融实验:联合训练优于分别训练(7/8任务上提升);分层特征融合(All-layer MLP)优于单层池化(如在MSR-VTT上,视频检索R@1从54.7%提升至56.1%)。 主要实验结果见下表: 任务类别 基准 指标 WAVE 7B 最强基线/参考模型 参考值 视频嵌入 MMEB-v2-Video Overall Acc% 59.9 Seed-1.6-Embedding 55.3 MMEB-v2-Video RET R@1 72.5 Seed-1.6-Embedding 60.9 LoVR (theme-to-clip) R@25 66.0 LamRA 7B 60.2 音频检索 AudioCaps R@1 44.2 Reference Model 42.2 Clotho R@1 25.6 Reference Model 21.5 音视频检索 VGGSound R@1 25.0 encoder-only 10.3 音频问答 MMAU Acc% 76.6 Qwen2.5-Omni 7B 71.5 视频问答 MMEB-v2-Video QA (w/ questions) Acc% 72.5 Seed-1.6-Embedding 60.9 实际意义:WAVE提供了一个强大的基线模型,使得在单一模型中处理任意模态组合的检索、分类和问答成为可能,极大地推动了跨模态应用(如通用多模态搜索、内容理解)的发展。 主要局限性:论文未详细讨论模型在面对更复杂、更长或噪声更大的真实世界音视频场景下的鲁棒性。此外,其统一的嵌入空间是否能无缝支持所有下游生成任务(如图像生成)也未验证。 🏗️ 模型架构 WAVE的整体架构如图1所示,其核心是将多种模态的输入通过各自编码器转换为LLM可处理的token序列,再由LLM统一处理并生成统一的嵌入。 ...

2026-05-04 · 更新于 2026-05-19 · 3 min · 552 words

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM #多模态模型 #音频检索 #视频检索 #对比学习 #多任务学习 🔥 8.5/10 | 前10% | #音频检索 #视频检索 | #对比学习 #多任务学习 | #多模态模型 #音频检索 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Changli Tang (清华大学) 通讯作者:Chao Zhang (清华大学) 作者列表:Changli Tang (清华大学), Qinfan Xiao (清华大学), Ke Mei (腾讯微信视觉), Tianyi Wang (腾讯微信视觉), Fengyun Rao (腾讯微信视觉), Chao Zhang (清华大学) 💡 毒舌点评 亮点:该工作勇敢地填补了基于LLM的统一音频-视觉嵌入的空白,其提出的分层特征融合与联合训练策略在多项检索和QA任务上取得了令人信服的SOTA结果,显示了强大的跨模态理解与对齐能力。 短板:模型的通用性在一定程度上受限于其基础架构(Qwen2.5-Omni),且论文中提出的“versatile audio-visual learning”新基准未在附录或实验部分详细说明其构成与评估方式,略显缺失。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 391 words

Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting

📄 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting #音频检索 #视频检索 #跨模态 ✅ 7.0/10 | 前50% | #跨模态检索 | #音频检索 | #视频检索 #跨模态 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Hongjie Chen (Dolby Laboratories) 通讯作者:未说明 作者列表:Hongjie Chen (Dolby Laboratories), Hanyu Meng (The University of New South Wales), Gautam Bhattacharya (Dolby Laboratories), Lie Lu (Dolby Laboratories), Josh Kimball (Dolby Laboratories), Ryan Rossi (未说明) 💡 毒舌点评 亮点:框架设计巧妙,通过独立控制音频和视觉距离参数(τ_a, τ_v),为用户提供了在“平滑”与“创意对比”之间灵活调节的杠杆,这是对现有单一模态方法的一个有意义扩展。 短板:评估方法过于依赖主观打分(人类和LLM),缺乏如剪切点帧级精确度、跨视频语义连贯性等客观、可量化的指标,使得“超过60%平滑”的结论说服力打折扣;且整个系统严重依赖所选编码器(CLAP/CLIP)的性能,未探讨其边界与失效情况。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 361 words

Caption and Audio-Guided Video Representation Learning with Gated Attention for Partially Relevant Video Retrieval

📄 Caption and Audio-Guided Video Representation Learning with Gated Attention for Partially Relevant Video Retrieval #视频检索 #多模态模型 #注意力机制 #视觉语言模型 #对比学习 ✅ 7.0/10 | 前25% | #视频检索 | #多模态模型 | #注意力机制 #视觉语言模型 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dan Jiang(湖南大学计算机科学与电子工程学院) 通讯作者:Bin Jiang(湖南大学计算机科学与电子工程学院,标注可能为通讯作者) 作者列表:Dan Jiang(湖南大学计算机科学与电子工程学院),Bin Jiang*(湖南大学计算机科学与电子工程学院),Chao Yang(湖南大学计算机科学与电子工程学院),Jianbo Zheng(湖南大学计算机科学与电子工程学院) 💡 毒舌点评 论文的亮点在于将视觉大语言模型(VLLM)生成的帧级字幕作为一种“语义高亮”工具,并与音频信号一起,通过一个精心设计的门控融合模块整合进视频表示学习,思路清晰且有效。短板在于,其核心创新——利用现成VLLM生成字幕作为辅助模态——更像是一种巧妙的工程应用,而非根本性的方法论突破,且在音频模态的利用上相对浅层,未能深入挖掘其时序动态特性。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/LexingtonJd/CAVIGATE 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用的是公开数据集(ActivityNet Captions, TVR),未提供自制数据集。 Demo:未提及在线演示。 复现材料:论文给出了主要超参数(推理时的α, β)、使用的VLLM(BLIP)和硬件信息(NVIDIA 4070 Ti Super),但未提供完整的训练脚本、配置文件或检查点。 引用的开源项目:主要依赖的开源工具/模型包括:CLIP, Wav2Vec2, BLIP(作为VLLM),以及相关的基线方法代码(如GMMFormer等)。 📌 核心摘要 问题:部分相关视频检索(PRVR)中,长视频包含大量冗余的视觉和听觉语义,而只有与查询相关的显著子集决定了相关性。现有方法平等对待所有视觉内容,且忽略音频线索,导致视频表示冗余且不全面。 核心方法:提出了CAVIGATE框架,包含两个对称分支:视频-字幕(VC)分支和视频-音频(VA)分支。每个分支通过一个模态门控融合(MGF)Transformer,利用可学习的门控函数动态调节字幕或音频特征对视频帧特征的贡献,以突出显著视觉语义并融合互补音频信息,同时抑制噪声。此外,引入了一种衰减的查询多样化损失,防止同一视频的不同查询在嵌入空间中过度聚集。 新意:首次将VLLM生成的帧级描述性字幕作为指导信号,显式地用于突出视频帧中的显著语义;设计了MGF模块自适应融合多模态信息;提出的衰减查询损失旨在缓解语义坍塌,鼓励模型捕获时序演变的语义。 实验结果:在ActivityNet Captions和TVR两个基准测试上,CAVIGATE在大多数指标上达到了当时的最先进水平。例如,使用CLIP-ViT-B/32骨干网络时,在ActivityNet Captions上取得了R@1=15.0, SumR=184.5;在TVR上取得了R@1=26.4, SumR=231.2,显著超越了AMDNet等基线方法。消融实验验证了每个组件(VC/VA分支、MGF、查询损失)的有效性。 实际意义:为从长、无剪辑视频中进行精准文本检索提供了更鲁棒的视频表示学习方案,可应用于视频内容理解、视频数据库搜索等场景。 主要局限性:方法的性能部分依赖于VLLM(如BLIP)生成字幕的质量,引入了额外的计算开销;对音频的利用相对直接(Wav2Vec2编码+简单融合),未充分探索更复杂的音视频交互建模。 🏗️ 模型架构 CAVIGATE是一个双分支(VC和VA)的多模态视频表示学习框架,整体流程如图2左所示。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 344 words

ICASSP 2026 - 视频检索 论文列表

ICASSP 2026 - 视频检索 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Caption and Audio-Guided Video Representation Learning with 7.0分 前25% 📋 论文详情 🥇 Caption and Audio-Guided Video Representation Learning with Gated Attention for Partially Relevant Video Retrieval ✅ 7.0/10 | 前25% | #视频检索 | #多模态模型 | #注意力机制 #视觉语言模型 👥 作者与机构 第一作者:Dan Jiang(湖南大学计算机科学与电子工程学院) 通讯作者:Bin Jiang(湖南大学计算机科学与电子工程学院,标注可能为通讯作者) 作者列表:Dan Jiang(湖南大学计算机科学与电子工程学院),Bin Jiang*(湖南大学计算机科学与电子工程学院),Chao Yang(湖南大学计算机科学与电子工程学院),Jianbo Zheng(湖南大学计算机科学与电子工程学院) 💡 毒舌点评 论文的亮点在于将视觉大语言模型(VLLM)生成的帧级字幕作为一种“语义高亮”工具,并与音频信号一起,通过一个精心设计的门控融合模块整合进视频表示学习,思路清晰且有效。短板在于,其核心创新——利用现成VLLM生成字幕作为辅助模态——更像是一种巧妙的工程应用,而非根本性的方法论突破,且在音频模态的利用上相对浅层,未能深入挖掘其时序动态特性。 🔗 开源详情 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 96 words