WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM
📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM #多模态模型 #音频检索 #视频检索 #对比学习 #多任务学习 🔥 8.5/10 | 前10% | #音频检索 #视频检索 | #对比学习 #多任务学习 | #多模态模型 #音频检索 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Changli Tang (清华大学) 通讯作者:Chao Zhang (清华大学) 作者列表:Changli Tang (清华大学), Qinfan Xiao (清华大学), Ke Mei (腾讯微信视觉), Tianyi Wang (腾讯微信视觉), Fengyun Rao (腾讯微信视觉), Chao Zhang (清华大学) 💡 毒舌点评 亮点:该工作勇敢地填补了基于LLM的统一音频-视觉嵌入的空白,其提出的分层特征融合与联合训练策略在多项检索和QA任务上取得了令人信服的SOTA结果,显示了强大的跨模态理解与对齐能力。 短板:模型的通用性在一定程度上受限于其基础架构(Qwen2.5-Omni),且论文中提出的“versatile audio-visual learning”新基准未在附录或实验部分详细说明其构成与评估方式,略显缺失。 ...