📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

#基准测试 #模型评估 #多模态模型 #音频问答 #音视频

✅ 7.8/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #音频问答

学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高

👥 作者与机构

第一作者：Caorui Li (南京大学, 东南大学)
通讯作者：Jiaheng Liu (南京大学)
作者列表：Caorui Li (南京大学, 东南大学), Yu Chen (南京大学, 东南大学), Yiyan Ji (南京大学), Jin Xu (阿里巴巴集团), Zhenyu Cui (东南大学), Shihao Li (南京大学), Yuanxing Zhang (快手科技), Zhenghao Song (M-A-P), Dingling Zhang (南京大学), Ying He (北京科技大学), Haoxiang Liu (北京科技大学), Yuxuan Wang (阿里巴巴集团), Qiufeng Wang (东南大学), Jiafu Tang (南京大学), Zhenhe Wu (M-A-P), Jiehui Luo (中央音乐学院), Zhiyu Pan (南京大学), Weihao Xie (华中科技大学), Chenchen Zhang (M-A-P), Zhaohui Wang (南京大学), Jiayi Tian (阿里巴巴集团), Yanghai Wang (南京大学), Zhe Cao (南京大学), Minxin Dai (南京大学), Ke Wang (M-A-P), Runzhe Wen (南京大学), Yinghao Ma (伦敦玛丽女王大学), Yaning Pan (复旦大学), Sungkyun Chang (伦敦玛丽女王大学), Termeh Taheri (伦敦玛丽女王大学), Haiwen Xia (北京大学), Christos Plachouras (伦敦玛丽女王大学), Emmanouil Benetos (伦敦玛丽女王大学), Yizhi Li (曼彻斯特大学), Ge Zhang (M-A-P), Jian Yang (M-A-P), Tianhao Peng (M-A-P), Zili Wang (M-A-P), Minghao Liu (2077AI), Junran Peng (北京科技大学), Zhaoxiang Zhang (中国科学院), Jiaheng Liu (南京大学)。

💡 毒舌点评

这篇论文的亮点在于其极其严谨和“反作弊”的基准设计理念（如强调音视频必须协同、设计原子推理链、多阶段质量过滤），为评估“真·多模态推理”设立了高标准。然而，短板在于其本质是一个“裁判”而非“运动员”——它精准地指出了当前模型的短板（音乐理解差、长视频融合弱），但并未提出任何解决这些问题的新模型或新方法，创新性停留在了评估体系的设计层面。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及（本文不涉及新模型训练）。
数据集：论文承诺将开源OmniVideoBench数据集（1000个QA对及源视频），但具体获取方式（如GitHub仓库链接）在提供的文本中未明确给出。GitHub仓库地址为 https://github.com/NJU-LINK/OmniVideoBench。
Demo：未提及。
复现材料：论文提供了详细的视频收集原则（附录B）、完整的视频分类体系（表5）、评测用的Prompt模板（附录C），这些构成了重要的复现材料。未提及训练细节、配置、检查点（因不涉及训练）。
论文中引用的开源项目：引用了Gemini-2.0-Flash和DeepSeek-V3.1用于数据过滤；引用了Voxtral-Mini-3B用于生成ASR文本进行实验。

📌 核心摘要

要解决什么问题：现有针对多模态大语言模型（MLLMs）的视频理解基准普遍存在缺陷，要么忽略音频，要么音视频整合逻辑不一致，无法有效评估模型的协同推理能力。
方法核心是什么：构建了一个名为OmniVideoBench的大规模、高质量评估基准。核心方法是精心设计1000个需要音视频信息协同才能正确回答的问题-答案对，并为每个对提供逐步推理链，明确标注每一步依赖的模态和证据。数据集包含628个来自YouTube/Bilibili的多样视频（8大类，68子类，时长3秒至30分钟）。
与已有方法相比新在哪里：(a) 强调模态互补性：通过设计迫使模型必须同时理解音频和视觉信息，禁止单模态作答。(b) 提供推理链标注：不仅提供最终答案，还提供原子级的推理步骤，用于分析模型错误根源。(c) 覆盖更广的任务和时长：涵盖13种任务类型（如时序推理、因果推理、音乐理解等），并包含长视频（>10分钟）。
主要实验结果如何：评估了十余个主流MLLMs。最佳闭源模型Gemini-2.0-Pro准确率仅为58.90%，开源模型普遍接近随机猜测（~30%）。模型在音乐理解（Gemini-2.5-Pro仅38.46%）、长视频（多数模型性能下降）和多模态��合方面表现尤其薄弱。人类测试者准确率为82.69%。关键实验结果如下表：

模型	总体准确率	音乐准确率	声音准确率	语音准确率	短视频(0,1]min	长视频(10,30]min
Gemini-3.0-Pro	61.80%	52.81%	55.17%	64.13%	62.42%	59.76%
Gemini-2.5-Pro	58.90%	38.46%	57.72%	61.66%	57.83%	55.94%
Qwen3-Omni-30B-A3B	38.40%	37.36%	34.67%	39.26%	45.78%	35.11%
Qwen2.5-Omni-7B	29.30%	23.07%	25.33%	30.70%	41.57%	26.72%
人类	82.69%	/	/	/	/	/

图4：OmniVideoBench与Daily-Omni上模型性能对比

图5：部分模型在13类任务上的表现

实际意义是什么：为社区提供了一个更严格、更贴近真实多模态理解需求的评估标尺，能更有效地诊断和推动MLLMs在音视频协同推理方面的进步，尤其是在长程时序建模、非语音音频理解和跨模态融合等关键能力上的提升。
主要局限性是什么：(a) 未提出新模型：作为评估基准，论文本身未提出解决所发现问题的新算法或架构。(b) 数据集未完全开源：论文承诺开源，但当前文本未提供具体链接，可能影响即时复现。(c) 评估范围：基准主要针对英文视频和QA任务，对其他语言和任务形式的覆盖未说明。

🏗️ 模型架构

未提供。本文是关于评估基准（Benchmark）的工作，而非提出一个新的可训练模型。其核心是“评估方法”和“数据集设计”，不涉及具体的模型架构创新。因此，该部分不适用。

💡 核心创新点

强调音视频协同的评估设计：通过精心设计的QA对，强制要求模型必须综合视觉和听觉（包括语音、声音、音乐）信息才能正确作答，从而有效区分真正的多模态理解与单模态投机取巧。这弥补了现有基准常将音频视为可选或补充的缺陷。
提供原子级推理链标注：为每个QA对提供详细的、分步骤的推理链，每一步明确标注所依赖的模态（V/A）和具体证据。这超越了仅评估最终答案准确率的模式，使得对模型错误根源（是听不懂、看不清还是融合失败）的分析成为可能。
全面且具挑战性的评估体系：构建了涵盖13种认知任务类型（从感知到推理）、8大视频类别、以及长达30分钟视频的基准。通过多阶段质量过滤（包括使用强模型进行单模态、文本依赖性过滤），确保了问题的高难度和音视频协同的必要性。

🔬 细节详述

训练数据：论文未说明训练数据（因为这是一个评估基准，不涉及训练）。基准数据集本身包含628个视频，来源是YouTube和Bilibili，经过严格筛选（如发布于2024年6月后以避免与训练集重叠、无字幕、高分辨率、音视频有效且相关）。
损失函数：未说明（不涉及模型训练）。
训练策略：未说明（不涉及模型训练）。
关键超参数：未说明（不涉及模型训练）。
训练硬件：未说明（不涉及模型训练）。
推理细节：评测时，使用固定的提示模板（见附录C.1），要求模型直接输出选项字母。论文未披露评测时的解码策略（如温度、beam size）具体参数。
正则化或稳定训练技巧：未说明（不涉及模型训练）。

📊 实验结果

论文的核心实验是评估多个MLLMs在OmniVideoBench上的性能。

主要结果（Table 3）：如“核心摘要”部分表格所示，所有模型表现均未达到及格线（60%）。Gemini系列闭源模型领先，但开源模型（如Qwen3-Omni, Qwen2.5-Omni）性能接近随机。

图6：模型在不同音频类型和输入条件下的表现（图6a）模型在不同输入（纯视觉、视觉+ASR文本、视觉+音频）下的准确率对比。关键结论：对于开源模型，输入ASR文本比输入原始音频更能提升性能，说明其音视频融合能力弱于文本理解能力。（图6b）Gemini-2.0-Flash在处理不同音频类型视频时，在纯视觉、视觉+ASR、视觉+音频三种输入下的表现。关键结论：ASR对语音类任务有帮助，但对音乐和声音类任务几乎无效，凸显了原始音频理解的不可替代性。

图7：模型在不同帧数输入下的表现（图7a）两个模型在32、64、128、256帧输入下的准确率。关键结论：增加采样帧数能稳定提升性能。（图7b）Qwen3-Omni在不同视频时长和帧数下的准确率变化。关键结论：增加帧数对长视频性能的提升更为明显。

与基线差距：论文明确指出，当前最强模型（Gemini-2.0-Pro）与人类（82.69%）仍有超过20个百分点的差距。开源模型与闭源模型存在显著鸿沟。

消融/分析实验：

任务类型分析（Figure 5）：揭示了模型在“背景与音乐理解”上最弱（<50%），在“关系推理”和“总结”上相对较强（>80%）。
错误类型分析（Table 6, Figure 12-13）：通过将模型错误与标准推理链对比，将其分为6大类。开源模型的主要瓶颈在于“多模态融合错误”、“时序推理错误”和“音频理解错误”。闭源模型（如Gemini）则在“多模态融合错误”上比例很高。

图12：三个代表性模型的错误类型分布图12展示了Gemini-2.0-Flash、Qwen2.5-Omni和Qwen3-Omni的错误分布。关键结论：开源模型的核心瓶颈是多模态融合、时序推理和音频理解。

细分结果（Table 7, Table 8）：论文提供了不同模型在不同视频时长和音频类型下的详细错误分布，进一步证实了上述发现。

⚖️ 评分理由

学术质量：6.3/7：论文在基准构建的方法学上非常严谨（视频收集标准、多阶段QA过滤、推理链设计），实验设计全面且具有洞察力（多维度分析、错误类型剖析），证据链完整可信。主要创新在于评估范式的改进（强调协同与可解释性），但未涉及新模型或算法的提出，因此在“技术创新性”上有所限制。
选题价值：1.5/2：选题直击当前多模态大模型发展的核心痛点——如何真正融合并推理音视频信息。其成果（一个高质量的评估基准）对整个社区具有直接的指导和推动作用，潜在影响力高，与关注音频/视频理解的读者高度相关。
开源与复现加成：0.0/1：论文承诺将开源数据集，但当前提交的版本中未提供可立即访问的代码、模型或数据集链接。详细的数据构建流程描述有助于理解，但缺乏即时可操作的资源，因此无法获得加成。

← 返回 ICLR 2026 论文分析

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文