ViMU: Benchmarking Video Metaphorical Understanding
📄 ViMU: Benchmarking Video Metaphorical Understanding #基准测试 #多模态模型 #视频理解 #模型评估 🔥 8.1/10 | 未提及 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv 学术质量 6.8/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Qi Li(新加坡国立大学) 通讯作者:Xinchao Wang(新加坡国立大学) 作者列表:Qi Li(新加坡国立大学)、Xinchao Wang(新加坡国立大学) 💡 毒舌点评 该论文精准地瞄准了多模态视频理解领域的一个高阶评估空白——对“潜台词”和“社会隐喻”的系统性理解。其提出的ViMU基准设计精巧,覆盖全面,任务定义(尤其是强制无提示)具有启发性。然而,作为一项评估工作,其核心贡献是提供了一个“考卷”,而非解决该问题的“答案”。基准构建高度依赖前沿闭源模型(GPT-5.4)进行核心生成与验证,这既引发了关于其自身偏差和“原创性”的疑问,也使得完全复现其构建过程变得困难。实验分析虽然深入,但主要揭示了现有模型的不足,缺乏对基准本身局限性的充分量化验证。 📌 核心摘要 解决的问题:现有视频理解模型主要关注字面视觉内容,缺乏对视频中隐含的隐喻、讽刺、社会意义等“潜台词”进行系统性理解与评估的能力。这是一个重要的研究缺口。 方法核心:提出了ViMU(视频隐喻理解)基准,包含588个视频和2352个问题,覆盖四大任务:开放解释(OE)、证据定位(EG)、修辞机制识别(RM)和社会价值信号识别(SV)。基准构建采用多阶段、迭代优化的流水线,结合前沿LLM(GPT-5.4)生成与人工专家审核。 与已有方法相比的新颖性:不同于聚焦于隐含物理关系或单一现象(如幽默)的现有基准,ViMU专注于社会文化语境下的广义“潜台词”理解,并强制采用“无提示”(hint-free)的评估方式,要求模型在不被告知具体线索的情况下进行推断。 主要实验结果:对16个前沿多模态大模型(MLLMMs)的评估显示,即便是最强的闭源模型,其整体平均性能也低于50%。这暴露了模型在从字面感知到深层含义推断上的巨大差距。具体结果见下表。 模型 日期 OE (%) EG (%) RM (%) SV (%) SSU-Avg (%) All-Avg (%) 开源模型 Ministral-8B 2024-10 48.25 48.60 31.87 10.45 21.16 34.79 Ministral-14B 2025-12 52.19 55.73 27.29 6.57 16.93 35.45 Gemma-3-4B-it 2025-03 39.43 25.41 21.10 7.17 14.13 23.28 Gemma-3-27B-it 2025-03 55.90 49.38 32.47 7.95 20.21 36.43 Qwen3-VL-32B-Instruct 2025-10 64.09 59.64 27.65 15.17 21.41 41.64 Qwen3.5-27B 2026-02 62.80 60.28 38.18 22.40 30.29 45.91 闭源/API模型 Claude-3-Haiku 2024-03 50.41 34.55 2.99 3.64 3.32 22.90 GLM-4.5v 2025-08 62.52 23.11 8.87 9.26 9.06 25.94 Grok-4.1-Fast 2025-09 57.62 63.84 34.91 28.73 31.82 46.28 Gemini-3-Flash-Preview 2025-12 62.54 52.80 33.63 28.26 30.94 44.31 Mimo-V2-Omni 2026-03 64.07 48.94 21.04 18.52 19.78 38.14 Seed-2.0-Lite 2026-03 60.84 66.16 18.75 16.73 17.74 40.62 o4-mini 2025-04 65.27 59.63 33.21 29.51 31.36 46.91 GPT-4.1-nano 2025-04 50.12 22.31 2.32 9.02 5.67 20.94 GPT-5.2 2025-12 73.15 67.83 16.55 21.15 18.85 44.67 GPT-5.4-mini 2026-03 66.19 64.45 4.17 11.77 7.97 36.64 精细分析表明:1)模型普遍倾向于预测更通用、安全的类别,而低估更隐晦的社会编码类别;2)在传统视频理解任务上表现优异的模型,在隐喻理解上不一定领先。 ...