📄 MVEB: Massive Video Embedding Benchmark
#基准测试
6.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5
✅ 6.5/10 | 前50% | #基准测试 | #基准测试 | arxiv
👥 作者与机构
Adnan El Assadi (哈佛大学), Roman Solomatin (SaluteDevices, MIRAI), Isaac Chung (Zendesk), Chenghao Xiao (上海财经大学), Deep Shah (Google LLC), Manan Dey (Salesforce), Shriya Sudhakar (康奈尔大学), Zacharie Bugaud (Astera Institute), Wissam Siblini (独立贡献者), Ayush Sunil Munot (印度理工学院克勒格布尔分校), Yashwanth Devavarapu (巴克莱银行), Rakshitha Ireddi (巴克莱银行), Michelle Yang (独立贡献者), Márton Kardos (奥胡斯大学), Niklas Muennighoff (斯坦福大学), Kenneth Enevoldsen (奥胡斯大学)。
💡 毒舌点评
这篇论文本质上是一个“跑分工程”。其核心工作是将MTEB的评估框架从文本/图像扩展到视频,并为此收集了大量任务和数据。论文声称解决了视频嵌入基准测试的碎片化问题,但其自身贡献更多是规模和系统性上的,而非方法论上的创新。最大的亮点是那个“音频在V-grounded任务上反而有害”的发现,但这更像是一个数据集标注特性的观察,而非模型能力的深刻洞见。论文的局限性部分写得相当坦诚,比如承认分数受模型自身采样配置影响、存在数据污染风险等,这比很多只报分数不谈问题的论文要好。但对于音频领域的读者来说,这就像看了一场隔壁赛道的比赛——方法、模型、任务都和核心音频处理(如语音识别、音乐生成)相去甚远,除了那个作为输入模态之一的“音频”概念。
📌 核心摘要
本文介绍了“大规模视频嵌入基准”(MVEB),一个包含23个任务、涵盖6大类(分类、零样本分类、聚类、配对分类、检索、视频问答)的视频嵌入评估框架。MVEB从包含184个任务的MVEB+池中精选而来,旨在平衡任务多样性与评估成本。研究评估了来自6种范式的33个模型,发现没有单一模型能全面领先:MLLM基嵌入模型在分类、聚类、配对分类和问答上表现突出;多模态绑定模型(如eBind)在检索和零样本分类上占优;未经对比学习适配的生成式MLLM在跨模态任务上性能骤降。一个关键发现是,音频轨道的贡献高度依赖于数据集的标注来源:在标签由音视频共同产生的(AV-grounded)数据集上,音频能提升性能;而在标签仅由视频产生的(V-grounded)数据集上,音频反而会损害性能。MVEB已集成到MTEB生态系统中,提供了版本化和社区驱动的维护机制。
🔗 开源详情
- 代码:https://github.com/embeddings-benchmark/mteb (论文明确指出代码和排行榜发布于此)
- 模型权重:论文中未提及。论文评估了33个公开可用的模型检查点(如LCO-Embedding-Omni, eBind, Qwen3-VL-Embedding等),但未提供这些模型的直接下载链接或发布地址。这些模型的权重由其原始发布者提供。
- 数据集:论文发布了MVEB和MVEB+数据集,但未提供独立的下载链接。论文指出,评估工件(解码帧样本、16kHz单声道音频和任务包装器)通过HuggingFace(mteb/命名空间)分发。获取方式需通过上述GitHub代码仓库。
- Demo:论文中未提及。
- 复现材料:论文提供了详细的评估结果、模型配置和附录材料用于复现评估。具体包括:1. 模型的采样配置(附录表34);2. 逐任务、逐模型的详细评分结果(附录D);3. 数据污染分析(附录E);4. 任务相关性分析(附录H)。所有复现材料均包含在论文及其附录中。
- 论文中引用的开源项目:
- MTEB (Massive Text Embedding Benchmark): https://github.com/embeddings-benchmark/mteb
- MMTEB (Massive Multilingual Text Embedding Benchmark): 论文引用自 arXiv:2502.13595,未提供独立代码链接。
- MIEB (Massive Image Embedding Benchmark): 论文引用自 CVPR 2025,未提供独立代码链接。
- MAEB (Massive Audio Embedding Benchmark): 论文引用自 arXiv:2602.16008,未提供独立代码链接。
- MMEB-V2/V3: 论文引用自 arXiv:2507.04590 和 arXiv:2604.23321,未提供独立代码链接。
- Tevatron OmniEmbed: 论文引用自 arXiv:2505.02466,未提供独立代码链接。
🏗️ 方法概述和架构
MVEB的核心是一个精心构建的评估流水线,其架构和设计细节如下:
基准构建与数据集选择:
- 候选池(MVEB+):基准源于一个包含184个任务的大型池。这些任务覆盖了动作识别、社交媒体理解、情感识别、音乐、场景理解和教学内容等多个领域。
- 筛选原则:数据集选择遵循四项原则:1)领域多样性;2)任务多样性(对应六大类任务);3)模态覆盖(视频-only、视频+文本、视频+音频变体);4)可获取性与许可证。
- 任务精选(MVEB):为降低评估成本,从MVEB+中精选出23个任务组成MVEB。筛选方法包括五条标准:1)有效性(优先选择语义更合理的检索方向);2)独特覆盖(保留覆盖独特领域或能力的任务);3)语言广度;4)冗余移除(计算任务间基于模型排序的Spearman相关性,移除与已保留任务相关性高于0.85的任务);5)运行效率(在等效任务中选择计算成本更低的)。论文证明MVEB的评估结果与MVEB+保持高度相关(Pearson \(r=0.996\), Spearman \(\rho=0.944\)),同时评估时间缩短了约7-10倍。
- 模态变体配对:对于MVEB+中每一个包含音频轨道的源视频,论文都将其配对成两个评估变体:1)仅视频(v);2)视频+音频(va)。这种配对设计允许直接量化音频模态对视频理解任务的贡献。对于检索任务,则通过八个不同的模态方向(如 \(T \rightarrow V\), \(A \rightarrow V\), \(AT \rightarrow V\) 等)来系统评估。
模型评估协议:
- 模型覆盖:评估了33个公开可用的模型检查点,参数量从约200M到10.7B不等,涵盖六大范式:自监督视频编码器(如V-JEPA-2)、视频-文本对比编码器(如X-CLIP)、音视频对比编码器(如Perception Encoder)、多模态绑定模型(如eBind)、基于MLLM的嵌入模型(如LCO-Embedding-Omni)、以及用作嵌入器的生成式MLLM(如Qwen2.5-Omni)。
- 采样配置:论文尊重每个模型的原始配置,而非强制使用统一的基准设置。视频采样分为两组:1)变长模型(多数MLLM基模型、PE-AV的变长版本)采用
fps=2和max_frames=64的硬上限以控制显存峰值;2)定长模型(如X-CLIP、eBind、V-JEPA-2)使用其训练时固定的精确帧数。音频采样同样遵循每个模型声明的采样率、单声道转换和时长上限(例如PE-AV限制为30秒,而LCO-Embedding-Omni则无显式上限)。这种“尊重原配置”的设计是为了避免将模型推离其训练分布。 - 零样本评估:所有评估均为零样本进行,不进行任何微调或特定层/池化策略的调整。对于需要指令的模型(如“Represent this video for retrieval:”),只在该模型训练时使用指令格式时才提供。
任务与评估指标:
- 分类:使用冻结视频嵌入训练逻辑回归分类器,采用few-shot线性探针(每类8个样本),主要指标为准确率。
- 零样本分类:将视频嵌入与类别标签的文本嵌入匹配,主要指标为准确率。
- 聚类:在视频嵌入上使用MiniBatchKMeans,主要指标为V-measure。
- 检索:评估八个跨模态方向的相关性排序,主要指标为nDCG@10。多模态查询/目标由模型自身的路径处理(原生多模态编码器或后期融合)。
- 配对分类:预测两个视频是否满足二元标准(如同一活动),主要指标为最大平均精度。
- 视频问答:给定视频和文本问题,从候选答案中选择最相关的,作为检索任务实现,主要指标为准确率。
- 排名:采用Borda计数法对模型进行综合排名,同时报告算术平均分。
分析组件:
- 音频贡献分析:通过配对\(v\)和\(va\)变体,计算音频增量 \(\Delta = score_{va} - score_{v}\),并根据数据集标注来源(AV-grounded vs. V-grounded)进行分组分析。
- 测试时帧缩放分析:在子集任务上,扫描测试时采样的帧数 \(N \in \{1, 8, 16, 32, 64\}\),研究性能如何随时间上下文长度变化。
- 检索方向相关性分析:计算八个检索方向在模型间排序的成对Spearman相关性,揭示它们背后的能力结构。
生态系统集成:
- 模态受限排行榜:除主MVEB排行榜(23任务,需全模态)外,还提供了两个子排行榜:MVEB(text, video)(19任务,适用于无音频编码器的文本-视频模型)和MVEB(video)(9任务,适用于仅视频编码器)。
- 可复现性:基准建立在MTEB生态系统之上,支持任务和模型版本化、命名实验作用域、丰富的模型元数据、增量结果记录和运行时跟踪,旨在促进社区贡献和长期维护。
💡 核心创新点
- 系统性音频-视频配对评估框架:这是与现有视频基准(如MMEB-V2/V3)最显著的区别。MVEB对所有包含音频的源数据,都提供“仅视频”和“视频+音频”两个评估变体,从而能够系统地量化音频模态的贡献。论文发现音频的作用高度依赖于数据集标注来源(AV-grounded vs. V-grounded),这一洞察对于设计多模态模型和构建评估基准具有指导意义。
- 大规模、多任务、多模态的综合基准:从包含184个任务的MVEB+中精选出23个任务的MVEB,覆盖了六大任务家族和视频相关的多种模态组合。其规模和多样性旨在提供对视频嵌入模型更全面、更稳健的评估。
- 对MTEB生态系统的视频扩展与完善:MVEB将MTEB的评估范式(标准化指标、最小化接口、版本化、社区驱动)扩展到视频领域,完成了MTEB家族(文本、图像、音频、视频)的最后一块拼图,并引入了更精细的模型元数据(如
active_parameters)和运行时跟踪功能。
📊 实验结果
论文对33个模型在MVEB及其变体上进行了全面评估,核心结果如下:
- 主榜(MVEB)排名: 论文报告了能运行全部23个任务的16个模型的排名(基于Borda计数)。表3(论文第6页)是核心结果表,此处列出关键数据:
| Rank | Model | Type | Params | MVEB Mean | MVEB(text, video) Mean | MVEB(video) Mean |
|---|---|---|---|---|---|---|
| 1 | LCO-Embedding-Omni-7B | MLLM-based embedding | 8.9B | 57.6 | 56.8 | 61.7 |
| 2 | e5-omni-7B | MLLM-based embedding | 8.9B | 55.0 | 54.1 | 55.7 |
| 3= | ebind-full | Multimodal binding | 1.8B | 55.5 | 53.8 | 55.8 |
| 3= | ebind-audio-vision | Multimodal binding | 764M | 55.5 | 53.8 | 55.8 |
| 5 | LCO-Embedding-Omni-3B | MLLM-based embedding | 4.7B | 54.6 | 54.8 | 61.6 |
| 9 | BidirLM-Omni-2.5B-Embedding | MLLM-based embedding | 2.4B | 51.2 | 52.0 | 58.0 |
| 15 | Qwen2.5-Omni-7B | Generative MLLM | 10.7B | 12.8 | 10.4 | 30.7 |
| 16 | Qwen2.5-Omni-3B | Generative MLLM | 5.5B | 11.4 | 7.8 | 30.1 |
- 主要发现:LCO-Embedding-Omni-7B以57.6的平均分在Borda计数上排名第一,但在不同任务类别上,eBind在检索和零样本分类上领先,BidirLM-Omni-2.5B在分类上领先,LCO-Embedding-Omni-3B在配对分类上领先。生成式MLLM(Qwen2.5-Omni)作为嵌入器使用时性能崩塌(12.8 vs. 其MLLM-嵌入版本e5-omni-7B的55.0)。
- 参数效率:图3(论文第7页)显示,在MVEB上,Pareto前沿由eBind-AV(764M,55.5分)到LCO-Omni-7B(8.9B,57.6分)构成,表明增加12倍参数仅带来2.1分提升。
- 模态受限排行榜:
- MVEB(text, video)(19任务):在该榜单上,Qwen3-VL-Embedding-8B(60.9)和-2B(58.1)占据前两位,领先于所有音视频文本模型(如LCO-Omni-7B的56.8)。这表明文本-视频专家模型在无音频任务上可能更优。
- MVEB(video)(9任务):在该榜单上,LCO-Embedding-Omni-3B(61.6)、-7B(61.7)和Qwen3-VL-Embedding-2B(62.3)、-8B(63.5)竞争激烈。
- 音频贡献分析:
- 核心结论:表4(论文第7页)总结,音频对AV-grounded数据集平均贡献为+0.016分,而对V-grounded数据集平均贡献为-0.046分,形成一个约6分的差距。这表明音频的益处取决于标注是否基于音频。
- 模型差异:多模态绑定模型(如eBind)在考虑音频时平均损失0.023分,而MLLM-嵌入模型内部差异巨大(从e5-omni-3B的-0.039到BidirLM-Omni-2.5B的+0.023),表明音频处理是模型特定的。
- 测试时帧缩放分析:
- 核心结论:图4(论文第8页)显示,平均性能随帧数\(N\)对数增长。从\(N=1\)到\(N=8\)有43.7%的相对提升,但从\(N=32\)到\(N=64\)仅增加2.2%绝对值。32帧被认为是合理的上限。
- 任务差异:收益高度依赖于任务。例如Breakfast分类从\(N=1\)的15.88分提升到\(N=64\)的45.35分,而WorldSense1Min QA仅从28.42提升到30.60分。
- 检索方向结构分析:
- 核心结论:图5(论文第8页)和表38(附录J)显示,八个检索方向聚类为三个能力组:文本作为目标(\(V \rightarrow T\), \(VA \rightarrow T\),\(\rho=0.96\))、音频作为查询或目标的部分(\(A \rightarrow V\), \(AT \rightarrow V\), \(V \rightarrow A\),\(\rho \ge 0.87\))、文本作为查询(\(T \rightarrow V\), \(T \rightarrow VA\), \(VT \rightarrow A\),\(\rho \ge 0.77\))。最不相关的方向对是\(T \rightarrow VA\)和\(A \rightarrow V\)(\(\rho=0.38\))。
- 部分分类任务详情: 以分类任务部分数据为例(表22,论文第35页):
| Model | AVEDataset | av | AVEDataset | v | AVMeme | av | Kinetics700 | v | Kinetics700 | av | MELD | av | MELD | v |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| LCO-Embedding-Omni-7B | 60.00 | 59.38 | 62.44 | 49.22 | 59.33 | 4.56 | 66.26 | 60.36 | 56.07 | 25.10 | 15.77 | |||
| e5-omni-7B | 58.66 | 57.11 | 59.67 | 48.67 | 40.63 | 3.72 | 59.03 | 49.33 | 48.67 | 17.58 | 15.33 | |||
| ebind-audio-vision | 59.20 | 58.53 | 60.67 | 44.78 | 38.09 | 5.07 | 61.92 | 54.44 | 33.69 | 16.21 | 15.48 | |||
| Qwen3-VL-Embedding-8B | – | 58.71 | – | 49.89 | 70.90 | 4.02 | 70.75 | 60.87 | – | – | – |
- 可以看到Qwen3-VL-Embedding-8B在许多分类任务上很强(如Kinetics700 v: 70.75),但由于缺乏音频通道,无法在音视频变体上得分。MLLM-嵌入模型在音视频变体上通常得分更高。
⚖️ 评分理由
- 创新性 (1.5/2):论文的主要创新在于构建了一个大规模、系统化的视频嵌入基准测试平台,并引入了创新的音频贡献分析方法(配对评估与标注来源关联)。然而,核心方法(构建基准、评估现有模型)更侧重于系统工程和实证分析,而非提出新颖的算法或理论。
- 技术严谨性 (1.3/1.5):论文技术细节描述清晰,评估协议设计合理(如尊重模型原始配置、零样本评估)。任务筛选和排名方法有依据(基于相关性)。但“基准”本身的技术含量有限,更多是对现有任务和模型的组织与测试。
- 实验充分性 (1.0/1.5):实验设计全面,覆盖了多范式、多规模的模型,并进行了深入的分析(音频贡献、帧缩放、检索结构)。但所有模型均为公开检查点,论文未提出或训练新的嵌入模型,实验本质是对现有技术的横断面比较。部分分析仅在子集上进行(如帧缩放分析仅用5个模型和7个任务)。
- 清晰度 (1.2/1.5):论文结构清晰,对基准构建、模型选择、评估协议的描述详尽。图表和附录提供了丰富的数据。但44页的篇幅略显冗长,部分内容(如184个任务的详细列表)可更精炼。
- 影响力 (0.5/1.0):作为MTEB家族的新成员,MVEB为视频嵌入领域提供了统一的评估标准,有助于推动该领域发展。然而,对于语音/音乐/音频领域的读者而言,其直接影响有限。音频在此仅作为视频的一个辅助模态被简要分析,并未涉及核心音频处理任务(如语音识别、音乐理解)。音频相关的发现(如标注来源影响)虽有趣,但依赖于特定数据集。
- 开源 (1.5/1.5):论文提供了完整的开源材料:1)代码:明确给出GitHub仓库(https://github.com/embeddings-benchmark/mteb);2)数据集:发布了MVEB和MVEB+数据集,并通过HuggingFace分发评估工件;3)评估结果:提供了所有模型、所有任务的详细评分。开源程度高。
- 可复现性 (1.5/1.5):基于开源的代码、数据集和详细的附录信息(模型配置、逐任务结果),论文的可复现性非常高。评估基于MTEB生态系统,具有良好的版本管理和社区协作潜力。
- 工程/实践价值 (0.7/1.0):对于视频表示学习社区,这是一个非常有价值的标准化评估工具,有助于公平比较模型。但对于音频/语音处理的实践者,其直接工程价值不高,因为评估的任务和模型与音频核心应用脱节。
🚨 局限与问题
- 模型覆盖的快照性:论文坦承评估的是“快照”模型,字段进展迅速,新模型需通过MTEB注册表滚动添加。这降低了基准结论的持久有效性。
- 评估分数的条件依赖性:论文明确指出,绝对分数部分反映了每个模型在训练时被设定的帧和音频预算。虽然提供了帧缩放分析,但在主排行榜上,不同模型使用不同配置进行评估,使得分数的直接对比需谨慎。
- 数据污染风险:许多MVEB任务使用的数据集(如Kinetics, MSR-VTT)是大型视频-文本预训练集的常见来源。论文进行了交叉引用审计,但部分模型(如Qwen系列、Jina系列)未在数据集粒度上披露训练数据,无法认证其零样本状态。这可能导致高估这些模型的真实泛化能力。
- 标注质量问题:论文在附录L中详细讨论了情感识别等数据集存在的标注歧义问题(如单标签覆盖多情感、讽刺语境)。虽然论文选择保留原始标签以保持与先前结果的可比性,但这意味着在这些任务上的分数可能包含噪声,不能完全反映模型的嵌入质量。
- 任务覆盖的偏差:尽管MVEB+有184个任务,但仍缺乏对长视频(讲座、纪录片)、低资源语言、特定领域(体育、科学、医学、手语)的充分覆盖。这些薄弱点限制了基准评估的全面性。
- 对音频领域的有限相关性:这是一个关键局限。MVEB对音频的处理是“附属性”的——音频仅作为视频输入的可能补充模态被评估,且评估任务完全服务于视频理解(如带音频的视频分类、检索)。论文没有设计任何专门评估音频表示本身质量的任务(如音频事件分类、语音识别、音乐流派分类)。因此,其结论和发现难以直接指导音频领域的研究。
- 分析结论的强度:关于“音频贡献取决于标注来源”的结论很强,但其普适性受限于所选的14个模型和48个配对任务组。论文也观察到模型内部差异大于范式间差异,这表明音频处理能力高度实现相关,一个简单的“有益/有害”结论可能过于简化。