📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

#基准测试 #模型评估 #多模态模型 #音频问答 #音视频

7.8/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #音频问答

学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高

👥 作者与机构

  • 第一作者:Caorui Li (南京大学, 东南大学)
  • 通讯作者:Jiaheng Liu (南京大学)
  • 作者列表:Caorui Li (南京大学, 东南大学), Yu Chen (南京大学, 东南大学), Yiyan Ji (南京大学), Jin Xu (阿里巴巴集团), Zhenyu Cui (东南大学), Shihao Li (南京大学), Yuanxing Zhang (快手科技), Zhenghao Song (M-A-P), Dingling Zhang (南京大学), Ying He (北京科技大学), Haoxiang Liu (北京科技大学), Yuxuan Wang (阿里巴巴集团), Qiufeng Wang (东南大学), Jiafu Tang (南京大学), Zhenhe Wu (M-A-P), Jiehui Luo (中央音乐学院), Zhiyu Pan (南京大学), Weihao Xie (华中科技大学), Chenchen Zhang (M-A-P), Zhaohui Wang (南京大学), Jiayi Tian (阿里巴巴集团), Yanghai Wang (南京大学), Zhe Cao (南京大学), Minxin Dai (南京大学), Ke Wang (M-A-P), Runzhe Wen (南京大学), Yinghao Ma (伦敦玛丽女王大学), Yaning Pan (复旦大学), Sungkyun Chang (伦敦玛丽女王大学), Termeh Taheri (伦敦玛丽女王大学), Haiwen Xia (北京大学), Christos Plachouras (伦敦玛丽女王大学), Emmanouil Benetos (伦敦玛丽女王大学), Yizhi Li (曼彻斯特大学), Ge Zhang (M-A-P), Jian Yang (M-A-P), Tianhao Peng (M-A-P), Zili Wang (M-A-P), Minghao Liu (2077AI), Junran Peng (北京科技大学), Zhaoxiang Zhang (中国科学院), Jiaheng Liu (南京大学)。

💡 毒舌点评

这篇论文的亮点在于其极其严谨和“反作弊”的基准设计理念(如强调音视频必须协同、设计原子推理链、多阶段质量过滤),为评估“真·多模态推理”设立了高标准。然而,短板在于其本质是一个“裁判”而非“运动员”——它精准地指出了当前模型的短板(音乐理解差、长视频融合弱),但并未提出任何解决这些问题的新模型或新方法,创新性停留在了评估体系的设计层面。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:未提及(本文不涉及新模型训练)。
  • 数据集:论文承诺将开源OmniVideoBench数据集(1000个QA对及源视频),但具体获取方式(如GitHub仓库链接)在提供的文本中未明确给出。GitHub仓库地址为 https://github.com/NJU-LINK/OmniVideoBench
  • Demo:未提及。
  • 复现材料:论文提供了详细的视频收集原则(附录B)、完整的视频分类体系(表5)、评测用的Prompt模板(附录C),这些构成了重要的复现材料。未提及训练细节、配置、检查点(因不涉及训练)。
  • 论文中引用的开源项目:引用了Gemini-2.0-Flash和DeepSeek-V3.1用于数据过滤;引用了Voxtral-Mini-3B用于生成ASR文本进行实验。

📌 核心摘要

  1. 要解决什么问题:现有针对多模态大语言模型(MLLMs)的视频理解基准普遍存在缺陷,要么忽略音频,要么音视频整合逻辑不一致,无法有效评估模型的协同推理能力。
  2. 方法核心是什么:构建了一个名为OmniVideoBench的大规模、高质量评估基准。核心方法是精心设计1000个需要音视频信息协同才能正确回答的问题-答案对,并为每个对提供逐步推理链,明确标注每一步依赖的模态和证据。数据集包含628个来自YouTube/Bilibili的多样视频(8大类,68子类,时长3秒至30分钟)。
  3. 与已有方法相比新在哪里:(a) 强调模态互补性:通过设计迫使模型必须同时理解音频和视觉信息,禁止单模态作答。(b) 提供推理链标注:不仅提供最终答案,还提供原子级的推理步骤,用于分析模型错误根源。(c) 覆盖更广的任务和时长:涵盖13种任务类型(如时序推理、因果推理、音乐理解等),并包含长视频(>10分钟)。
  4. 主要实验结果如何:评估了十余个主流MLLMs。最佳闭源模型Gemini-2.0-Pro准确率仅为58.90%,开源模型普遍接近随机猜测(~30%)。模型在音乐理解(Gemini-2.5-Pro仅38.46%)、长视频(多数模型性能下降)和多模态��合方面表现尤其薄弱。人类测试者准确率为82.69%。关键实验结果如下表:
模型总体准确率音乐准确率声音准确率语音准确率短视频(0,1]min长视频(10,30]min
Gemini-3.0-Pro61.80%52.81%55.17%64.13%62.42%59.76%
Gemini-2.5-Pro58.90%38.46%57.72%61.66%57.83%55.94%
Qwen3-Omni-30B-A3B38.40%37.36%34.67%39.26%45.78%35.11%
Qwen2.5-Omni-7B29.30%23.07%25.33%30.70%41.57%26.72%
人类82.69%/////

图4:OmniVideoBench与Daily-Omni上模型性能对比

图5:部分模型在13类任务上的表现

  1. 实际意义是什么:为社区提供了一个更严格、更贴近真实多模态理解需求的评估标尺,能更有效地诊断和推动MLLMs在音视频协同推理方面的进步,尤其是在长程时序建模、非语音音频理解和跨模态融合等关键能力上的提升。
  2. 主要局限性是什么:(a) 未提出新模型:作为评估基准,论文本身未提出解决所发现问题的新算法或架构。(b) 数据集未完全开源:论文承诺开源,但当前文本未提供具体链接,可能影响即时复现。(c) 评估范围:基准主要针对英文视频和QA任务,对其他语言和任务形式的覆盖未说明。

🏗️ 模型架构

未提供。本文是关于评估基准(Benchmark)的工作,而非提出一个新的可训练模型。其核心是“评估方法”和“数据集设计”,不涉及具体的模型架构创新。因此,该部分不适用。

💡 核心创新点

  1. 强调音视频协同的评估设计:通过精心设计的QA对,强制要求模型必须综合视觉和听觉(包括语音、声音、音乐)信息才能正确作答,从而有效区分真正的多模态理解与单模态投机取巧。这弥补了现有基准常将音频视为可选或补充的缺陷。
  2. 提供原子级推理链标注:为每个QA对提供详细的、分步骤的推理链,每一步明确标注所依赖的模态(V/A)和具体证据。这超越了仅评估最终答案准确率的模式,使得对模型错误根源(是听不懂、看不清还是融合失败)的分析成为可能。
  3. 全面且具挑战性的评估体系:构建了涵盖13种认知任务类型(从感知到推理)、8大视频类别、以及长达30分钟视频的基准。通过多阶段质量过滤(包括使用强模型进行单模态、文本依赖性过滤),确保了问题的高难度和音视频协同的必要性。

🔬 细节详述

  • 训练数据:论文未说明训练数据(因为这是一个评估基准,不涉及训练)。基准数据集本身包含628个视频,来源是YouTube和Bilibili,经过严格筛选(如发布于2024年6月后以避免与训练集重叠、无字幕、高分辨率、音视频有效且相关)。
  • 损失函数:未说明(不涉及模型训练)。
  • 训练策略:未说明(不涉及模型训练)。
  • 关键超参数:未说明(不涉及模型训练)。
  • 训练硬件:未说明(不涉及模型训练)。
  • 推理细节:评测时,使用固定的提示模板(见附录C.1),要求模型直接输出选项字母。论文未披露评测时的解码策略(如温度、beam size)具体参数。
  • 正则化或稳定训练技巧:未说明(不涉及模型训练)。

📊 实验结果

论文的核心实验是评估多个MLLMs在OmniVideoBench上的性能。

主要结果(Table 3):如“核心摘要”部分表格所示,所有模型表现均未达到及格线(60%)。Gemini系列闭源模型领先,但开源模型(如Qwen3-Omni, Qwen2.5-Omni)性能接近随机。

图6:模型在不同音频类型和输入条件下的表现 (图6a)模型在不同输入(纯视觉、视觉+ASR文本、视觉+音频)下的准确率对比。关键结论:对于开源模型,输入ASR文本比输入原始音频更能提升性能,说明其音视频融合能力弱于文本理解能力。 (图6b)Gemini-2.0-Flash在处理不同音频类型视频时,在纯视觉、视觉+ASR、视觉+音频三种输入下的表现。关键结论:ASR对语音类任务有帮助,但对音乐和声音类任务几乎无效,凸显了原始音频理解的不可替代性。

图7:模型在不同帧数输入下的表现 (图7a)两个模型在32、64、128、256帧输入下的准确率。关键结论:增加采样帧数能稳定提升性能。 (图7b)Qwen3-Omni在不同视频时长和帧数下的准确率变化。关键结论:增加帧数对长视频性能的提升更为明显。

与基线差距:论文明确指出,当前最强模型(Gemini-2.0-Pro)与人类(82.69%)仍有超过20个百分点的差距。开源模型与闭源模型存在显著鸿沟。

消融/分析实验:

  • 任务类型分析(Figure 5):揭示了模型在“背景与音乐理解”上最弱(<50%),在“关系推理”和“总结”上相对较强(>80%)。
  • 错误类型分析(Table 6, Figure 12-13):通过将模型错误与标准推理链对比,将其分为6大类。开源模型的主要瓶颈在于“多模态融合错误”、“时序推理错误”和“音频理解错误”。闭源模型(如Gemini)则在“多模态融合错误”上比例很高。

图12:三个代表性模型的错误类型分布 图12展示了Gemini-2.0-Flash、Qwen2.5-Omni和Qwen3-Omni的错误分布。关键结论:开源模型的核心瓶颈是多模态融合、时序推理和音频理解。

细分结果(Table 7, Table 8):论文提供了不同模型在不同视频时长和音频类型下的详细错误分布,进一步证实了上述发现。

⚖️ 评分理由

  • 学术质量:6.3/7:论文在基准构建的方法学上非常严谨(视频收集标准、多阶段QA过滤、推理链设计),实验设计全面且具有洞察力(多维度分析、错误类型剖析),证据链完整可信。主要创新在于评估范式的改进(强调协同与可解释性),但未涉及新模型或算法的提出,因此在“技术创新性”上有所限制。
  • 选题价值:1.5/2:选题直击当前多模态大模型发展的核心痛点——如何真正融合并推理音视频信息。其成果(一个高质量的评估基准)对整个社区具有直接的指导和推动作用,潜在影响力高,与关注音频/视频理解的读者高度相关。
  • 开源与复现加成:0.0/1:论文承诺将开源数据集,但当前提交的版本中未提供可立即访问的代码、模型或数据集链接。详细的数据构建流程描述有助于理解,但缺乏即时可操作的资源,因此无法获得加成。

← 返回 ICLR 2026 论文分析