📄 MuseBench: Benchmarking Intent-Level Audiovisual Arts Understanding in MLLMs

#多模态模型

7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5

7.9/10 | 前50% | #语音合成 | #多模态模型 | arxiv

👥 作者与机构

作者:Yuxuan Fan, Gyusik Seo, Jing Hao, Jaemin Cho, Mohit Bansal, Jaehong Yoon 机构:南洋理工大学(NTU Singapore),香港大学,约翰霍普金斯大学,艾伦人工智能研究所(AI2),北卡罗来纳大学教堂山分校

💡 毒舌点评

这篇论文的工作量扎实,构建了一个瞄准“艺术意图”理解的评估基准,方向不错,算是给当前主要关注事实性描述的视频理解评估补充了一个维度。但问题也很明显:首先,作为一篇评测论文,其“创新”更多是组合式的(视频论文+混合题型+评估指标),并非有突破性的方法洞察;其次,评估对象(MLLMs)的表现本身就在预期之中——差得远呢,这暴露的是整个领域在常识和文化先验上的短板,而非这篇基准独有的发现。论文花费大量篇幅描述构建流程,技术含量更多体现在流程设计的严谨性上,而非模型或算法。最大的硬伤是“开源”的模糊性,声称为社区做贡献,却不给代码和数据链接,这在如今顶会的评审环境下是重大扣分项。对于语音/音乐领域的读者来说,本文除了“评测”这个方法论思路外,具体贡献离我们的核心关切有点远。

📌 核心摘要

本文介绍了MuseBench,一个旨在评估多模态大语言模型(MLLMs)对视听艺术进行意图层面理解的新型基准。与现有主要评估感知识别的基准不同,MuseBench专注于测试模型是否理解创作选择背后的原因(如为什么使用某种镜头或构图)。该基准包含4,016个经专家验证的问题,覆盖电影、静态视觉艺术、舞台表演和游戏艺术四大类共11个子领域。问题从超过10,000个候选视频论文中提炼,通过一个四阶段流水线(片段分割、描述、问题生成、干扰项生成)构建,并采用迭代式人工审核保证质量。问题格式结合了单选和多选,选项数在4到8个之间变化。评估协议为单选题引入机会校正准确率(CAA),为多选题引入基于集合的F1值。对28个SOTA MLLMs的零样本评估表明,最强模型仅达48.29%准确率,远低于人类专家的87.18%,且模型在游戏艺术类别和多选题全面性上表现尤差。自适应关键帧选择提升有限,瓶颈在于艺术词汇和文化先验,而非时序定位。

🔗 开源详情

  • 代码:论文中未提及具体的代码仓库链接。虽然文中提到“未来将发布MuseBench代码”,但当前未提供可访问的GitHub等链接。
  • 模型权重:论文中未提及。本文为基准测试论文,未提出或发布新的模型权重。
  • 数据集:MuseBench 数据集。论文中声明将公开发布此基准测试集,但未提供具体的下载链接或托管平台地址(如HuggingFace/ModelScope链接)。
  • Demo:https://musebench.github.io (项目主页)。
  • 复现材料:论文中未提及。本文为评估基准论文,未提供训练配置、检查点等复现其评估流程所需的材料。
  • 论文中引用的开源项目:
    1. Whisper-Large-v3:用于视频转录。链接:https://github.com/openai/whisper
    2. GPT-5.4-mini(OpenAI模型):用于视频相关性过滤和数据生成。论文中未提供具体链接,此为根据模型名称推断的官方地址。
    3. Keye-VL-1.5:用于视频片段描述生成。论文中未提供具体链接。
    4. 其他在评估中使用的开源模型(论文未提供这些模型的链接,仅在基准测试结果表格中提及):包括Qwen3.5-397B-A17B、Qwen2.5-Omni-7B、InternVL3-8B/78B、LLaVA-OneVision-7B、MiniCPM-o、Gemma-4-E4B、VideoLLaMA2、VideoLLaMA3、Video-R1、LongVU、VideoRFT、VideoChat-R1、VideoChat2、Video-XL-2、AKS、Q-Frame、LongVT、Video-CCAM、TimeChat。

🏗️ 方法概述和架构

MuseBench的构建是一个系统性的、面向专家知识的工程过程,其架构可分解为四个核心部分:数据源与预处理、四阶段构建流水线、质量审核循环、评估协议。

  1. 数据源与预处理: 数据来源于YouTube、Bilibili和TikTok上的视频论文。视频论文被定义为分析性视听格式,其中专家通过与屏幕演示对齐的旁白进行艺术作品分析。选择视频论文是因为其具备三个关键属性:专家旁白密度高(解释“为什么”产生特定效果)、旁白与证据对齐(语音分析直接引用屏幕证据)、覆盖现有视频基准中代表性不足的艺术领域。预处理阶段,首先使用一个基于LLM的四阶段流程(关键词生成、相关性判断、变体扩展、人工审核)从海量视频中筛选出与艺术分析高度相关的视频。然后使用Whisper-Large-v3模型对筛选出的视频进行转录,生成带有时间戳的专家评论文本,作为后续问题生成的基础。

  2. 四阶段构建流水线: 这是一个逐级生成、条件约束的流水线。

  • 阶段A - 片段分割(Segment): 每个视频被分割成非重叠的10秒片段,建立统一的时序粒度。最大视频时长限制为1800秒。
  • 阶段B - 片段描述(Clip Captioning): 使用Keye-VL-1.5模型以1fps采样每个10秒片段,并基于对齐的旁白片段生成一个细粒度的视觉描述。描述覆盖颜色、构图、运动和场景上下文。这些描述仅作为构建资源,不会暴露给被评估的模型。模型在运行时会看到前面片段的描述以保持连贯性,且系统提示会根据艺术类别附加特定的指导块。
  • 阶段C - 问题生成(Select & Question Generate): 基于片段描述和完整转录,为每个视频生成3到5个候选问答对。约30%为多选题(2-4个正确答案),其余为单选题。生成过程遵循两个关键约束:(i) 问题必须仅根据去旁白后的评估片段可回答;(ii) 正确答案在干扰项之前生成,以减轻风格或词汇显著性偏差。生成后,通过一个独立的片段匹配过程为每个问题附加一个连续的relevant_clips范围。
  • 阶段D - 干扰项生成(Distract): 为每个正确答案生成3到7个看似合理但错误的干扰项。干扰项基于七种互补策略生成:技术误读、过度简化、概念混淆、因果倒置、范围错误、时间混淆和部分事实正确。每道题目的干扰项使用不同策略,且所有选项在未观看片段的读者看来应同样合理。生成的干扰项要求使用有效术语但分析错误、部分正确但遗漏核心、或混淆相关概念等。选项文本禁止包含专有名词,且打乱位置顺序。
  1. 质量审核循环: 这是一个迭代优化流程,针对每个艺术类别独立进行。每轮包含四个步骤:试点生成(使用当前提示生成一批候选QA对)、人工修订(领域专家按照共享的失败分类法对样本进行通过/失败标记)、失败案例总结(合并新观察到的失败类型)、更新(重写提示并添加排除规则,触发全量重新生成)。失败维度包括:仅依赖旁白的答案可回答性、题干模糊、干扰项薄弱或事实错误、片段引用错位。循环会持续直到连续几轮没有新的失败类型出现。最终,会邀请四位领域专家对最终基准的样本在四个质量维度(整体质量、视觉必要性、机制追踪、答案完整性)上进行0-5分的李克特量表评分,以验证质量。

  2. 评估协议: 为适应混合题型设计了两个核心指标。

  • 机会校正准确率(CAA): 用于单选题。由于选项数 \(K_i\) 在4到8之间变化,原始准确率受随机猜测基线影响。CAA通过公式 \(\mathrm{CAA}_{i}=\frac{a_{i}-1/K_{i}}{1-1/K_{i}}\) 进行归一化,使得随机猜测期望得分为0,完全正确得分为1,实现了不同选项数题目间的可比性。整体CAA是所有单选题CAA的平均值。
  • 基于集合的精确率、召回率与F1值: 用于多选题。对每个问题,根据预测的正确选项集与真实集计算TP、FP、FN,然后得到精确率 \(P_j\)、召回率 \(R_j\) 和F1值 \(F1_j\)。整体指标采用宏平均(\(F1_{macro}\))。此外,还报告精确匹配(EM)准确率作为辅助指标,用于诊断模型是否只选最显著的一个正确选项。 论文还报告了一个综合指标:总体准确率(Overall ACC),即每道题(无论单选/多选)预测是否与金标签集完全匹配(多选题要求精确匹配)的微平均。论文中Table 1和Table 7的“ACC”列即为此指标。

图1

图2

💡 核心创新点

  1. 定义并聚焦“意图层面理解”评估任务:明确指出现有视频理解基准主要评估对场景内容的识别,而忽略了对艺术创作背后意图(“为什么这样创作”)的推理,提出了一个新的、更高阶的评估维度。
  2. 利用视频论文作为专家知识源:将视频论文作为构建基准数据的独特而理想的来源,因为其旁白与视觉证据天然对齐,能自然地提供关于艺术意图的专家分析。
  3. 混合题型与异构评估协议设计:为捕捉艺术解读的多元性,设计了单选与多选混合的问题格式(选项数4-8)。针对这种异构设置,提出了机会校正准确率(CAA)和基于集合的F1值等原则性的评估指标,解决了传统固定选项数评估的局限性。

📊 实验结果

论文在MuseBench上对28个SOTA MLLMs进行了零样本评估。主要结果如下表所示(数据来自原文Table 1):

模型模态总体ACC单选CAA多选EM
人类专家-87.1890.9878.00
专有MLLMs
GPT-5.4V+A+T44.5850.2825.50
Claude-4.6-OpusV+T48.2955.1328.91
Gemini-3.1-pro-previewV+A+T36.8943.7714.88
Grok-4.1V+A+T20.5413.718.00
Qwen-3.5-PlusV+T47.2758.5223.21
Doubao-Seed-1.8-ProV+A+T46.1155.0024.22
GLM-4.5vV+T17.135.438.61
Kimi-K2.5V+T19.9118.332.07
开源通用MLLMs
Qwen3.5-397B-A17BV+T44.7653.4222.71
Qwen2.5-Omni-7BV+A+T32.7030.7118.18
InternVL3-8BV+T33.0729.4920.30
InternVL3-78BV+T37.8147.0313.53
LLaVA-OneVision-7BV+T20.4121.240.50
MiniCPM-oV+A+T31.3427.0518.90
Gemma-4-E4BV+A+T27.6128.679.06
开源视频专用MLLMs
VideoLLaMA2V+A+T20.3420.071.17
VideoLLaMA3V+A+T27.1826.829.90
Video-R1V+T26.7328.417.21
LongVUV+T14.878.211.01
VideoRFTV+T26.1326.178.17
VideoChat-R1V+T26.0826.497.77
VideoChat2V+T17.7815.270.34
Video-XL-2V+T24.1729.910.11
动态关键帧选择模型
AKSV+T19.3118.990.00
Q-FrameV+T18.769.658.05
LongVTV+T20.5117.144.64
Video-CCAMV+T17.5315.100.00
TimeChatV+T14.427.790.34

关键发现:

  • 发现1:音频视觉艺术推理远未饱和。无MLLM接近饱和。最强的专有系统(Claude-4.6-Opus)总体ACC为48.29%,远低于人类专家的87.18%。开源视频专用模型并未提供决定性优势,甚至被更小的通用模型匹配或超越。瓶颈在于艺术词汇、文化先验和基于证据的推理。
  • 发现2:游戏艺术是共同弱点,其他类别呈现不同能力谱。模型在游戏艺术上的表现普遍最差(例如Claude在游戏上的ACC为32.84%,而电影和舞台表演艺术分别为50.20%和57.77%),这可能与网络规模语料库中交互式视觉内容代表性不足有关。
  • 发现3:关键帧选择提升有限。五个具备动态关键帧选择能力的模型(AKS, Q-Frame, LongVT, Video-CCAM, TimeChat)表现均在14.42-20.51 ACC之间,未见明显优势。
  • 发现4:模型在多选题上选择最显著选项,但忽略其他。在多选题上,F1值远高于EM值,且对于大多数模型,精确率超过召回率。这表明模型能识别出最突出的正确选项,但无法枚举所有有效的分析视角。
  • 发现5:模态消融实验。对VideoLLaMA2和Qwen2.5-Omni-7B的消融实验表明,添加视频流带来最大提升,而仅添加音频带来边际收益,结合视频与音频能带来进一步小幅度增益。
  • 发现6:开源MLLM存在显著的首位置偏差。在选项数≥5的单选题上,模型预测的正确答案选项位置分布不均匀,倾向于选择靠前的位置(尤其是位置A),开源模型的这种偏差比专有模型更明显。

图3

图4

⚖️ 评分理由

  • 创新性 (1.5/2):问题定义清晰,瞄准了当前MLLM评估中被忽视的“意图理解”层面。利用视频论文构建基准是一个合理且新颖的思路。但组合式创新多于突破性方法创新。
  • 技术严谨性 (1.3/1.5):构建流程描述详尽,质量审核循环设计合理。评估指标(CAA, F1)的选择有理有据,解决了混合题型的评估难题。但在关键数据源(视频论文)的选择上未深入讨论其与真实艺术创作原始作品的差异及潜在偏差。
  • 实验充分性 (1.4/1.5):评估了大量(28个)有代表性的SOTA模型,包括不同规模、类型(通用/视频专用)和模态组合。提供了详细的消融实验(模态、关键帧)和深入的行为分析(多选行为、位置偏差)。缺少对不同采样率或提示设计进行更深入的消融研究。
  • 清晰度 (1.6/1.5):论文结构清晰,摘要、引言、方法、实验逻辑连贯。方法部分(构建流程、评估指标)阐述得非常详细。图表(如流程图、雷达图)有效辅助了理解。
  • 影响力 (0.7/1.5):对通用MLLM评估社区和视听艺术分析领域有明确贡献,提供了新的评测视角和基准。但其核心贡献(视听艺术意图评估)与语音/音乐/音频核心领域的直接关联较弱,对从事音频处理、语音合成、音乐生成等研究的读者来说,直接借鉴价值有限。影响力在该读者群中会显著降低。
  • 开源 (0.3/1.5):论文声明将发布MuseBench基准集,但未提供任何具体的代码仓库地址、数据集下载链接(如HuggingFace, ModelScope)。这严重影响了可复现性和社区贡献度,是重大扣分项。论文中未提及任何训练代码或模型权重的开源计划。
  • 可复现性 (0.8/1.5):尽管方法描述详细,但由于关键数据集(MuseBench)和构建代码均未实际开源,他人完全复现其基准构建和评估流程存在极大困难。仅能复现其评估部分(如果拥有测试集)。
  • 工程/实践价值 (1.2/1.5):为评估MLLM在专业领域的理解能力提供了一个有价值的工程化范例(数据源选择、流水线构建、质量审核)。其设计的评估协议(CAA, 混合F1)对其他非固定格式的评测任务有参考价值。

🚨 局限与问题

  1. 数据源代表性局限:基准完全依赖于视频论文,这是一种二次分析的产物,其视角、语言和覆盖范围可能无法代表艺术创作的原始多样性和深层意图。视频论文的可用性因艺术形式和语言而异,可能导致某些子领域覆盖不足。
  2. 评估形式的根本限制:虽然设计了多选题来捕捉多元解读,但其本质仍是在预设选项中选择,无法评估模型生成开放式、结构化艺术分析的能力。对于真正的艺术评论,选项本身可能就无法穷尽所有合理的解读维度。
  3. “视觉必要性”的验证边界:尽管论文强调问题需要视觉证据,且通过去旁白和人工审核来保证,但模型是否真的进行了深度视觉推理,还是通过视频转录文本或其他捷径(如选项中的文本线索)作答,缺乏更细粒度的诊断方法。仅靠人类评分(4个维度)可能不足以完全剥离文本依赖。
  4. 结论强度与证据匹配:论文得出的结论如“瓶颈在于艺术词汇和文化先验”是合理的推测,但缺乏直接的实证支持(例如,通过控制实验剥离词汇或文化知识的影响)。目前的证据(游戏艺术表现差、关键帧选择无效)更多指向“现有视觉特征提取或定位能力不足”或“训练数据分布偏差”。
  5. 跨文化偏差:尽管声明覆盖多语言源,但未在论文中详细说明不同语言视频论文的比例及可能带来的评估偏差。艺术意图的理解与文化语境紧密相关,评估集的文化分布可能影响结论的普适性。
  6. 对音频模态的利用不足:虽然基准涉及音频视觉艺术,且评估协议考虑了音频输入(对支持音频的模型喂入完整音频,不支持的则用文本转录代替),但论文中的深入分析(如消融实验)主要聚焦于视频和文本。音频在艺术意图传达中的独立作用(如音乐、音效设计)未被单独充分探究。

📷 论文图片

图5


← 返回 2026-07-01 语音/音乐/音频论文速递