📄 ViMU: Benchmarking Video Metaphorical Understanding
#基准测试 #多模态模型 #视频理解 #模型评估
🔥 8.1/10 | 未提及 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv
学术质量 6.8/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度 高
👥 作者与机构
- 第一作者:Qi Li(新加坡国立大学)
- 通讯作者:Xinchao Wang(新加坡国立大学)
- 作者列表:Qi Li(新加坡国立大学)、Xinchao Wang(新加坡国立大学)
💡 毒舌点评
该论文精准地瞄准了多模态视频理解领域的一个高阶评估空白——对“潜台词”和“社会隐喻”的系统性理解。其提出的ViMU基准设计精巧,覆盖全面,任务定义(尤其是强制无提示)具有启发性。然而,作为一项评估工作,其核心贡献是提供了一个“考卷”,而非解决该问题的“答案”。基准构建高度依赖前沿闭源模型(GPT-5.4)进行核心生成与验证,这既引发了关于其自身偏差和“原创性”的疑问,也使得完全复现其构建过程变得困难。实验分析虽然深入,但主要揭示了现有模型的不足,缺乏对基准本身局限性的充分量化验证。
📌 核心摘要
解决的问题:现有视频理解模型主要关注字面视觉内容,缺乏对视频中隐含的隐喻、讽刺、社会意义等“潜台词”进行系统性理解与评估的能力。这是一个重要的研究缺口。
方法核心:提出了ViMU(视频隐喻理解)基准,包含588个视频和2352个问题,覆盖四大任务:开放解释(OE)、证据定位(EG)、修辞机制识别(RM)和社会价值信号识别(SV)。基准构建采用多阶段、迭代优化的流水线,结合前沿LLM(GPT-5.4)生成与人工专家审核。
与已有方法相比的新颖性:不同于聚焦于隐含物理关系或单一现象(如幽默)的现有基准,ViMU专注于社会文化语境下的广义“潜台词”理解,并强制采用“无提示”(hint-free)的评估方式,要求模型在不被告知具体线索的情况下进行推断。
主要实验结果:对16个前沿多模态大模型(MLLMMs)的评估显示,即便是最强的闭源模型,其整体平均性能也低于50%。这暴露了模型在从字面感知到深层含义推断上的巨大差距。具体结果见下表。
模型 日期 OE (%) EG (%) RM (%) SV (%) SSU-Avg (%) All-Avg (%) 开源模型 Ministral-8B 2024-10 48.25 48.60 31.87 10.45 21.16 34.79 Ministral-14B 2025-12 52.19 55.73 27.29 6.57 16.93 35.45 Gemma-3-4B-it 2025-03 39.43 25.41 21.10 7.17 14.13 23.28 Gemma-3-27B-it 2025-03 55.90 49.38 32.47 7.95 20.21 36.43 Qwen3-VL-32B-Instruct 2025-10 64.09 59.64 27.65 15.17 21.41 41.64 Qwen3.5-27B 2026-02 62.80 60.28 38.18 22.40 30.29 45.91 闭源/API模型 Claude-3-Haiku 2024-03 50.41 34.55 2.99 3.64 3.32 22.90 GLM-4.5v 2025-08 62.52 23.11 8.87 9.26 9.06 25.94 Grok-4.1-Fast 2025-09 57.62 63.84 34.91 28.73 31.82 46.28 Gemini-3-Flash-Preview 2025-12 62.54 52.80 33.63 28.26 30.94 44.31 Mimo-V2-Omni 2026-03 64.07 48.94 21.04 18.52 19.78 38.14 Seed-2.0-Lite 2026-03 60.84 66.16 18.75 16.73 17.74 40.62 o4-mini 2025-04 65.27 59.63 33.21 29.51 31.36 46.91 GPT-4.1-nano 2025-04 50.12 22.31 2.32 9.02 5.67 20.94 GPT-5.2 2025-12 73.15 67.83 16.55 21.15 18.85 44.67 GPT-5.4-mini 2026-03 66.19 64.45 4.17 11.77 7.97 36.64 精细分析表明:1)模型普遍倾向于预测更通用、安全的类别,而低估更隐晦的社会编码类别;2)在传统视频理解任务上表现优异的模型,在隐喻理解上不一定领先。
实际意义:该基准为评估和提升MLLMs的社会文化理解能力提供了标准化工具,揭示了当前模型的关键短板,对内容审核、人机交互等应用具有指导意义。
主要局限性:1)隐喻和社会意义的解读具有主观性和文化特异性,基准无法完全涵盖所有语境;2)模型可能利用基准中的表面模式,强性能不一定等同于真实的鲁棒社会理解能力;3)作为评估基准,其本身并未提出解决该问题的新模型或新算法。
🔗 开源详情
代码:论文中提到将开源代码,但提供的版本中未包含具体的GitHub仓库URL。
模型权重:论文中未提及任何模型权重的下载链接。
数据集:数据集名称为ViMU。论文中明确提到已开源,但提供的版本中未给出具体获取链接。
Demo:论文中未提及任何在线演示链接。
复现材料:论文在附录中提供了详细的复现信息,包括数据集构建流程(附录A)、详细的提示词设计(附录A.1)、评估设置和评分规则(附录I)。论文中明确表示“we will release our project webpage, the code and dataset”(第5页),但未提供具体的复现指南或配置文件的链接。
论文中引用的开源项目:论文中引用了多个第三方开源项目(如VisualCOMET, Hateful Memes等),但未提供其具体链接。
补充链接(自动提取):
- 代码仓库:https://github.com/LiQiiiii/Video-Metaphorical-Understanding
- HuggingFace:https://huggingface.co/datasets/LIQIIIII/ViMU
🏗️ 方法概述和架构
本文的核心贡献是设计并构建了一个名为ViMU的视频隐喻理解基准。其方法本质是一个多阶段、人机协同的数据集构建与评估框架,而非一个端到端的预测模型。该框架的完整流程旨在确保评估任务的高难度、无提示特性和语义覆盖的广度。
- 整体流程概述 ViMU的构建是一个从视频源到结构化评测实例的端到端流水线。它始于从YouTube、Bilibili和TikTok等平台收集的原始视频,经过多模态证据提取、LLM驱动的语义标注与问题生成、迭代验证与优化,最终由人工专家审核,产出包含四种任务类型的高质量基准数据集。整个过程如附录A中的流程图所示。
图11:数据集构建流程示意图。数据流从原始视频开始,经过证据提取、LLM标注、问题生成、迭代验证,最终产出验证后的问答对。
- 主要组件/模块详解 基准构建流水线包含五个核心阶段,每个阶段服务于特定目标:
阶段1:多模态证据提取(Multimodal Evidence Extraction)
- 功能:为每个视频创建一个标准化的、基于可观测信号的表示,确保后续所有推理都基于视频本身,而非外部元数据。
- 内部结构/实现:对每个视频
v_i,均匀采样视频帧ℱ_i,并通过ASR(自动语音识别)获取音频转录文本t_i,形成证据集合ℰ_i = {ℱ_i, t_i}。 - 输入/输出:输入为原始视频;输出为结构化的视觉帧和文本转录集合。
阶段2:LLM驱动的语义标注(LLM-based Taxonomy Annotation)
- 功能:对视频进行深度语义分析,分离字面内容与意图内涵,并将“潜台词”分解到预定义的语义维度上。
- 内部结构/实现:调用前沿LLM(论文中为GPT-5.4),使用精心设计的提示(如附录A.1所示),分析输入的证据集合
ℰ_i。模型需要输出结构化的语义标注𝒯_i,涵盖修辞机制(如何传达隐喻)和社会价值信号(传达了何种社会立场)等多个轴向。提示强调仅使用视频提供的证据。 - 输入/输出:输入为视频证据
ℰ_i;输出为包含详细语义标签的JSON格式标注𝒯_i。
阶段3:LLM驱动的无提示问题生成(LLM-based Hint-Free Question Generation)
- 功能:基于语义标注,生成能够评测模型深度理解能力、且不泄露解题线索的问题。
- 内部结构/实现:同样调用LLM,输入为语义标注
𝒯_i,并施加严格的约束条件:生成的问题q_i必须是“无提示”的,即不能包含泄露目标语义领域(如“仇恨”、“讽刺”)的词汇,也不能预设视频含有隐藏含义。这迫使问题要求模型进行真正的隐式推理。问题-答案对(q_i, a_i)被生成。 - 输入/输出:输入为语义标注
𝒯_i;输出为问题和参考答案对。
阶段4:迭代LLM验证与优化(Iterative LLM-based Validation and Refinement)
- 功能:确保生成的问题质量,特别是其“无提示”特性和难度。
- 内部结构/实现:这是一个循环优化过程。在每一轮
k,验证LLM评估当前的问答实例𝒬_i^{(k)},并输出结构化反馈,指出是否泄露线索、能否仅凭字面回答、难度是否合适等问题。然后,生成LLM根据反馈改进问题,生成𝒬_i^{(k+1)}。论文中最多允许3轮(K=3)优化。只有通过验证或经小修后通过的样本才会被保留。 - 输入/输出:输入为当前问答实例和语义标注;输出为优化后的新问答实例或拒绝标记。
阶段5:证据与任务构建(Evidence and Task Construction)
- 功能:基于已验证的样本,构建四种具体评估任务的问题。
- 内部结构/实现:将语义标注中的细粒度标签(如具体的修辞手法)聚合为5个宏观类别(见附录C和D),用于构建多项选择题(修辞机制识别RM、社会价值信号识别SV、证据定位EG)。同时,为每个视频保留一个要求整体解释的开放性问题(OE)。评估协议包括:OE任务使用LLM-as-a-Judge进行语义评分;多项选择任务采用严格的集合评分(选错任何一项得0分,选对的部分按比例给分)。
- 输入/输出:输入为通过验证的问答实例库;输出为最终的多任务基准数据集。
组件间的数据流与交互 数据流是单向的管线式,但在阶段4存在内部循环。原始视频 →
ℰ_i→𝒯_i→(q_i, a_i)→ 迭代验证循环中的𝒬_i^{(k)}→ 最终验证通过的𝒬_i^{*}。各阶段紧密耦合,前一阶段的输出是后一阶段的输入。验证循环(阶段4)与生成(阶段3)形成一个局部的生成-评估反馈环。关键设计选择及动机
- 使用LLM作为核心生成与验证引擎:动机是利用其强大的语言理解和生成能力,以可控、可扩展的方式处理主观性较强的语义标注和问题设计任务。这是实现“覆盖广泛语义类别”和“无提示”约束的关键。
- 迭代验证机制:动机是弥补LLM生成结果可能存在的缺陷,通过“生成-验证-修正”循环,硬性保证问题的“无提示”质量和适当难度,这是基准有效性的基石。
- 分离“修辞机制”和“社会价值信号”两个维度:动机是提供更精细的分析框架,区分“如何说”(表达方式)和“说什么”(社会立场),使评估更具洞察力。
- 采用严格的集合评分:动机是避免模型通过“猜对部分答案”而获得不应有的高分,确保评估的严谨性。
- 采用引导与无引导提示进行消融研究:动机是探究提供详细的分类法定义(引导)是否能改善模型的结构化理解能力。实验表明引导提示主要引起局部调整,而非全局结构保真度的根本提升。
💡 核心创新点
- 首创针对视频社会文化潜台词的系统性基准:填补了现有视频理解评测在“字面内容之外”领域的空白。之前的基准要么聚焦于隐含物理关系,要么局限于幽默或迷因等特定现象,ViMU首次提供了一个覆盖多种修辞手法和社会价值信号的统一评测框架。
- 强制性“无提示”评估范式:基准中的问题被设计为不透露任何解读线索,要求模型必须像人类一样,从视频的多模态信号中自主发现并推理出隐含意义。这与许多提供选项或隐含提示的评估方式有本质区别,更能反映真实世界中的理解挑战。
- 多层次、细粒度的语义分解与任务设计:不仅评估模型“是否理解”,还通过四个任务(OE, EG, RM, SV)系统剖析模型“在哪个层面理解”(整体意图、证据关联、修辞识别、社会立场)。同时,对标签进行细粒度到宏观两级的划分,支持多粒度分析。
- 揭示前沿模型的关键行为偏差:通过实验不仅证明了任务的难度,还通过精细的偏差分析(如选项亲和力偏差、证据定位保守性)揭示了当前模型在理解社会隐喻时存在的系统性倾向(如偏好安全、通用的解读),这为未来模型改进指明了具体方向。
📊 实验结果
论文在16个模型上进行了全面评估,主要结果汇总于下表。
表1:ViMU基准主要实验结果(百分比分数)
| 模型 | 类别 | OE | EG | RM | SV | SSU-Avg | All-Avg |
|---|---|---|---|---|---|---|---|
| 开源模型 | |||||||
| Ministral-8B | 2024-10 | 48.25 | 48.60 | 31.87 | 10.45 | 21.16 | 34.79 |
| Ministral-14B | 2025-12 | 52.19 | 55.73 | 27.29 | 6.57 | 16.93 | 35.45 |
| Gemma-3-4B-it | 2025-03 | 39.43 | 25.41 | 21.10 | 7.17 | 14.13 | 23.28 |
| Gemma-3-27B-it | 2025-03 | 55.90 | 49.38 | 32.47 | 7.95 | 20.21 | 36.43 |
| Qwen3-VL-32B-Instruct | 2025-10 | 64.09 | 59.64 | 27.65 | 15.17 | 21.41 | 41.64 |
| Qwen3.5-27B | 2026-02 | 62.80 | 60.28 | 38.18 | 22.40 | 30.29 | 45.91 |
| 闭源/API模型 | |||||||
| Claude-3-Haiku | 2024-03 | 50.41 | 34.55 | 2.99 | 3.64 | 3.32 | 22.90 |
| GLM-4.5v | 2025-08 | 62.52 | 23.11 | 8.87 | 9.26 | 9.06 | 25.94 |
| Grok-4.1-Fast | 2025-09 | 57.62 | 63.84 | 34.91 | 28.73 | 31.82 | 46.28 |
| Gemini-3-Flash-Preview | 2025-12 | 62.54 | 52.80 | 33.63 | 28.26 | 30.94 | 44.31 |
| Mimo-V2-Omni | 2026-03 | 64.07 | 48.94 | 21.04 | 18.52 | 19.78 | 38.14 |
| Seed-2.0-Lite | 2026-03 | 60.84 | 66.16 | 18.75 | 16.73 | 17.74 | 40.62 |
| o4-mini | 2025-04 | 65.27 | 59.63 | 33.21 | 29.51 | 31.36 | 46.91 |
| GPT-4.1-nano | 2025-04 | 50.12 | 22.31 | 2.32 | 9.02 | 5.67 | 20.94 |
| GPT-5.2 | 2025-12 | 73.15 | 67.83 | 16.55 | 21.15 | 18.85 | 44.67 |
| GPT-5.4-mini | 2026-03 | 66.19 | 64.45 | 4.17 | 11.77 | 7.97 | 36.64 |
注:SSU-Avg为RM和SV的平均,All-Avg为四项任务平均。加粗为各项最高分。
关键结论与图表分析:
- 整体性能差距:所有模型平均性能均低于50%,最强闭源模型o4-mini的All-Avg也仅为46.91%,证实了任务的艰巨性。模型在传统视频任务上的优势并未完全迁移。
- 任务间性能分化:GPT-5.2在OE和EG上领先(>70%),但在RM和SV上大幅下降(~20%),表明其擅长整体解释但不擅长精确分类社会隐喻。相反,Grok-4.1和Gemini系列在RM和SV上更优(~30%),但OE/EG稍逊。
- 证据定位分析:
- 图6(a) 证据选择保守性与性能:多数模型位于x轴负侧,表现为“保守”(选择证据不足)。过度保守(最左侧点)会导致性能低下,表明漏选证据是主要错误源。
- 图6(b) 错误类型分解:“仅遗漏”和“混合错误”是主要非精确预测类型,进一步证实漏选是主要问题。
- 图6(c) 证据共现关系失真:模型普遍低估证据间的共现关系,尤其在“剪辑-帧”和“剪辑-文本”对上,表明模型难以捕捉结构化的多源证据模式。
图6:证据定位分析。(a)展示了模型选择证据的保守程度与性能的权衡;(b)分解了不同模型的错误构成;(c)展示了模型预测的证据共现矩阵与标准矩阵的差异。
- 分类任务偏差分析:
- 图7 错误特征PCA可视化:模型按家族(如OpenAI, Qwen, Mistral)在误差特征空间聚类,表明模型家族共享相似的偏差模式。
- 图9 选项亲和力偏差:在无提示情况下,许多模型在RM任务中过度预测“A. 字面/直接”类别,低估“E. 隐含/编码社会框架”;在SV任务中过度预测“B. 情感态度”,低估“E. 身份/意识形态信号”。这反映了模型倾向于安全、通用的解读。
图7:基于误差特征的模型相似性PCA可视化。每个点代表一个模型,距离反映其结构化误差模式的相似性,而非总体分数。
图9:无提示条件下的模型-选项亲和力偏差。正值表示相对于真实标签的过度预测,负值表示预测不足。
- 引导提示消融分析:
- 图8:研究分类法几何保真度,比较了模型在RM和SV任务上预测的选项共现结构与真实结构的差异。结果表明,模型只能部分恢复分类法结构,且引导提示主要引起局部关系调整,而非全局结构保真度的显著改善。
- 图10:分析了引导提示如何影响模型的假阳性行为。不同类别受引导影响的程度不同,部分类别(如修辞中的B类)表现出更大的方差,暗示不稳定性。
🔬 细节详述
- 训练数据:本文是基准测试工作,不涉及模型训练。数据集构建细节:
- 来源:从YouTube、Bilibili、TikTok等平台收集。
- 规模:最终包含588个视频,2352个问题。
- 预处理:均匀采样视频帧,使用ASR获取音频转录。
- 增强/筛选:通过多轮LLM验证和5位人工专家最终审核,过滤掉需要强外部上下文或语义模糊的视频,确保自包含性。
- 损失函数:不适用(基准测试)。
- 训练策略:不适用。但评估策略包括:
- 开放解释(OE)任务:使用LLM-as-a-Judge,评估核心意图、隐含信号、社会意义、并惩罚幻觉和字面回答。总分计算公式:
score_total = core_intent + implicit_signal + target_or_social_meaning - hallucination_penalty - literal_only_penalty,满分9分。 - 多项选择任务(EG, RM, SV):采用严格集合评分。预测选项集合
𝒫,标准答案集合𝒢。若𝒫中包含任何错误选项(𝒫 \ 𝒢 ≠ ∅),得分为0;否则得分为|𝒫 ∩ 𝒢| / |𝒢|。
- 开放解释(OE)任务:使用LLM-as-a-Judge,评估核心意图、隐含信号、社会意义、并惩罚幻觉和字面回答。总分计算公式:
- 关键超参数:基准构建中LLM的迭代验证最多进行K=3轮。
- 训练硬件:未说明(因不涉及模型训练)。
- 推理细节:所有16个模型均以零样本(zero-shot)方式评估,使用其官方实现或API。
- 正则化或稳定训练技巧:不适用。
- 评估提示设计:论文在附录A.1中详细提供了用于数据标注、问题生成和验证的提示模板;在附录G中提供了用于RM和SV任务的“无指导”和“有指导”提示模板。指导提示会包含对五个宏观类别的详细定义。
⚖️ 评分理由
创新性:2.5/3 论文的问题定义非常新颖且重要,首次系统性地瞄准了“视频社会隐喻理解”这一高阶认知任务的评估空白。其构建的基准(ViMU)在覆盖范围(多种修辞、社会信号)、评估范式(强制无提示)和任务分解(四个互补任务)上具有显著的原创性和完整性,与现有基准有清晰的区分度。主要扣分点在于,作为一项评估工作,其核心方法(基于LLM的流水线)在技术上并非全新,创新性更多体现在问题洞察和任务设计上。
技术严谨性:1.5/2 基准构建的流程设计严谨,逻辑清晰。多阶段流水线、迭代验证机制和严格的集合评分协议都体现了良好的方法论。对评估任务的设计(如无提示约束)考虑周到。然而,技术深度主要体现在评估框架的设计上,而非算法推导。此外,高度依赖GPT-5.4进行标注和验证,可能引入其自身偏差,尽管论文通过人工审核部分缓解了此问题,但未对LLM作为标注者的可靠性进行量化分析。LLM-as-a-Judge的评估本身也未经充分验证。
实验充分性:1.8/2 实验非常充分且具有启发性。评测了16个主流模型,覆盖开源和闭源,具有代表性。不仅报告了总体性能,还进行了深入的细粒度分析:证据定位的保守性与错误分解(图6)、模型误差模式的聚类(图7)、选项级别的偏差分析(图9)、引导提示的消融(图8,10),这些分析有力地支撑了核心结论。缺失部分:未提供标准差或误差棒来说明结果的稳定性;未提供基线人类表现作为参照。
清晰度:1.0/1 论文写作清晰,结构完整。从引言到实验分析逻辑流畅。图表设计精良,有效辅助了理解。附录提供了大量的补充细节(提示设计、标签定义、评估公式),透明度高。符号定义明确。
影响力:0.8/1 该工作为社区提供了一个评估模型社会文化理解能力的重要新工具,填补了关键空白。实验结论揭示了当前模型的根本性局限,指明了未来研究的方向(如需加强隐含推理和上下文建模)。基准的“无提示”设计理念可能会影响后续评估工作。影响力主要集中在评估和诊断领域,对直接提升模型能力的推动作用是间接的。
可复现性:0.5/1 论文承诺提供项目页面、GitHub和数据集链接(见正文),这为复现评估过程提供了基础。数据集本身是主要贡献物。然而,论文未明确说明代码仓库是否包含构建流水线的代码,也未详细说明所有模型评估的具体API调用参数和采样策略(仅说“均匀采样”)。仅提供数据集和评估协议,他人可以复现评估,但完全复现基准构建过程(尤其是使用LLM的流水线)可能存在困难。
🚨 局限与问题
论文明确承认的局限(见附录J):
- 隐喻和社会意义的解读具有内在主观性,残留的歧义和标注者偏差可能仍然存在。
- 模型可能利用基准中的表面模式或数据集特定规律,强性能不一定等同于真实的鲁棒社会理解能力。
- 这些反映了构建主观性基准的普遍挑战。
审稿人发现的潜在问题:
- 评估依赖性:整个基准的构建高度依赖GPT-5.4作为标注器、生成器和验证器。这可能导致基准本身隐含了该模型的偏见或理解局限。虽然有人工审核,但未量化LLM标注与人工标注的一致性,这是基准质量控制的一个重要缺失环节。
- “无提示”约束的边界:虽然问题被设计为不直接泄露线索,但某些视频的“潜台词”可能过于文化特异或小众,以至于即使对人类来说,没有上下文也极难解读。这可能导致部分问题对模型过于不公平,或其正确性本身存在争议。
- 评估协议的局限性:多项选择任务的选项设计是固定的(5个宏观类别),但实际的修辞和社会信号可能是连续谱或多标签的。硬性分类可能简化了复杂现实。开放解释任务使用的LLM评判标准虽好,但其自身的一致性和可靠性未被验证。
- 数据集覆盖度:视频主要来自特定平台(YouTube, Bilibili, TikTok),可能偏向特定的文化圈层和内容风格。对于其他文化或更正式的视频类型,基准的适用性未知。
- 未提供基线人类表现:论文未报告人类在这些任务上的表现,因此难以判断当前模型与人类水平的绝对差距有多大。
- 引导提示的潜在影响:论文在分析中引入了引导提示的消融,但引导提示本身可能无意中泄露了任务结构,从而改变了问题的性质。虽然分析表明其影响有限,但这引入了一个额外的变量。