📄 OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding

#Benchmark #StreamingVideoUnderstanding #ProactiveResponse #Multimodal

7.3/10 | 前50% | #音视频 | #数据集 | #Benchmark #StreamingVideoUnderstanding | arxiv

学术质量 5.0/7 | 影响力 1.0/2 | 可复现性 1.3/2 | 置信度 0.9

👥 作者与机构

  • 第一作者: Ruixiang Zhao
  • 作者列表: Ruixiang Zhao, Jie Yang, Zijie Xin, Tianyi Wang, Fengyun Rao, Jing LYU, Xirong Li
  • 机构: Renmin University of China, WeChat Vision, Tencent Inc.
  • 通讯作者: Xirong Li (xirong@ruc.edu.cn), Jie Yang (cvjieyang@tencent.com)

💡 毒舌点评

这篇论文像一个装修精良的“多模态能力考场”,把现有“学生”(模型)都拉来考了一遍,然后发榜说“你看,大家都不及格”。问题是,出卷老师(作者)的考题(OmniPro)虽然号称“综合”,但其核心创新点——一个新数据集和一个评估协议——在顶会标准下略显单薄。它更像是一次系统性的能力普查报告,而非一项提出突破性方法的技术研究。最“毒”的一点在于,它揭示了开源社区在长时序和非语音音频理解上的集体短板,但并未提供任何解决这些短板的“钥匙”,只留下一个“欢迎大家来刷榜”的测试集。对于追求方法创新的审稿人来说,这可能会被视为“增量贡献”。

📌 核心摘要

本文提出了OmniPro,一个用于评估“全模态主动流式视频理解”能力的综合基准测试。该基准旨在解决现有评估体系在三个方面的不足:1) 模态依赖单一(主要依赖视觉);2) 评估协议非主动(采用轮询或固定时间戳);3) 任务覆盖有限。OmniPro包含2,700个人工验证样本,覆盖9个子任务和3个认知层次(感知、理解、推理)。84%的样本依赖音频信号(语音或非语音)。论文设计了双模式评估协议:Probe模式(评估内容理解,兼容任意VLM)和Online模式(评估模型自主决定响应时机的完整主动能力)。通过对11个代表性模型的评估,揭示了当前模型的关键挑战:音频利用存在异质性、性能随时间推移显著退化、非语音音频感知是最薄弱的环节。专有模型(如Gemini-3-Flash)与开源模型之间存在显著能力差距。

🔗 开源详情

  • 代码:论文正文提及评估代码采用MIT许可证发布,但未给出具体GitHub仓库链接。需访问项目主页获取。
  • 模型权重:未提供任何模型权重的下载链接。论文评估的11个模型(如Qwen2.5-Omni, MiniCPM-o 4.5等)均为现有模型,其权重需从原始出处获取。
  • 数据集
    • OmniPro 基准:开源许可证为 CC BY-NC 4.0。论文未提供数据集的直接下载链接(如HuggingFace链接),需通过项目主页获取。
    • 源视频数据集
      1. LongVALE [8]:根据引用推断,链接可能为 https://github.com/lyu-xm/LongVALE
      2. COIN [17]:根据引用推断,链接可能为 https://github.com/zyli0621/COIN
  • Demo:未提及在线演示链接。
  • 复现材料:未提供训练配置、检查点等。附录B提供了用于数据生成的提示模板(Dense Captioning Prompt和各子任务的QA Generation Prompts),这对复现数据构建流程至关重要。
  • 论文中引用的开源项目
    • Gemini 3 Flash & Gemini 2.5 Flash:Google的多模态模型,用于数据生成和评估,但为闭源商业模型,未提供开源链接。
    • LongVALE [8]:公开音视频数据集,链接同上。
    • COIN [17]:公开视频数据集,链接同上。

🏗️ 方法概述和架构

OmniPro的构建和评估方法可分为两个核心部分:基准数据集构建与双模式评估协议。

1. 基准数据集构建 构建流程是一个多阶段、人机协作的流水线,旨在生成高质量、多样化的评测样本。

  • 任务分类法设计:基于认知能力将任务分为三层九类。感知层(Perception)包括即时事件警报(Event-Alert)、实时状态监控(State-Monitor)、瞬时计数(Snap.-Count)、显式目标定位(Target-Ground)。理解层(Comprehension)包括事件叙述(Event-Narr.)、累积计数(Cum.-Count)、语义条件警报(Cond.-Alert)。推理层(Reasoning)包括去重计数(Dedup.-Count)、顺序步骤指导(Step-Inst.)。这九个子任务共同覆盖了六种基础视频理解能力:警报、监控、定位、计数、叙述和预测。
  • 源视频收集:从两个公开数据集的测试集中获取:LongVALE(1,171个视频,提供多样化长视频)和COIN(600个视频,补充教学类视频),总计1,771个源视频。
  • 自动问答生成流水线: a. 稠密描述生成:使用Gemini 3 Flash为每个源视频生成时间对齐的多模态稠密描述。每个片段包含四个字段:caption(事件全摘要)、visual(场景细节)、audio(环境声与音乐)、speech(转录的语音内容)。 b. 问答对合成:将原始视频和稠密描述输入Gemini 3 Flash,配合任务特定的提示模板(见附录B.2),合成结构化问答样本。每个样本包含五个关键字段:question(用户在视频开始的自然语言指令)、trigger time(模型应响应的精确时间戳)、response(期望的主动输出)、trigger modality(触发所需模态,如视觉/声音/语音及其组合)、audio dependency(音频是必需、有益还是非必需)。 c. 生成原则:遵循“音频优先”策略(优先选择音频和语音事件)、“流式约束”(响应只能使用触发时间点之前的信息)和“时间戳准确性”(以视频本身为基准验证)。 d. 人工质量控制:自动数据经两轮人工审核。第一轮,9名标注员审核一个子任务,验证问题自然度、触发时间准确性、响应真实性和模态标注正确性。第二轮,标注员交叉审核不同任务以保证标准一致。最终约30%的样本被保留,形成2,700个样本。

2. 双模式评估协议

  • Probe模式:适用于任意视觉语言模型,无需流式能力。对于每个真实触发点,评估器在触发前(-5至-2秒)和触发后(0至+3秒)分别查询模型一次。模型接收截至查询时间的所有累积视频帧并返回单一响应。前置查询期望否定答案,后置查询期望正确的任务特定答案。对于所有子任务,使用专用提示模板将输出约束为结构化格式(如是/否、整数、状态名、字母选项)。对于开放式生成任务(如Event-Narr.和Step-Inst.),则转化为多选题。正确性通过精确匹配判定。最终报告的指标是准确性(Accuracy),即预探针和后探针都回答正确的触发点比例。
  • Online模式:针对流式模型。模型在视频开始时接收用户指令,然后逐帧处理输入,连同自身的对话历史,自主决定何时产生响应。过程中不发出额外查询。对于大多数子任务,通过结构化输出的精确匹配验证正确性。对于无法约束为固定格式的开放生成任务(Event-Narr., Step-Inst.),使用Gemini-3-Flash作为LLM裁判,对预测进行1-5分的评分,分数≥3视为正确。
    • 匹配与指标:模型响应通过贪婪时间对齐(容忍度±3秒)与真实触发点匹配。一个匹配被视为有效,仅当响应内容也正确。精确率(Precision)是有效匹配的模型响应比例,召回率(Recall)是被有效匹配的真实触发点比例,F1值是二者的调和平均数。

3. 模型适用性:Probe模式可评估任何VLM。Online模式要求模型具备原生流式处理能力(如MiniCPM-o 4.5)。支持两种范式的模型(如MiniCPM-o 4.5)可在两种模式下评估,而仅支持非流式的模型(如InternVL3.5, Qwen3-VL)则仅在Probe模式下评估。

💡 核心创新点

  1. 首个综合基准:OmniPro是首个同时评估全模态感知、主动响应和多样化视频理解任务的基准测试。其独特性在于将三个关键维度(模态全面性、评估主动性、任务多样性)统一在一个框架下进行评估。
  2. 分层任务分类法:设计了一个涵盖三层认知能力(感知、理解、推理)和九个子任务的分类法,映射到六种基础视频理解能力,为该领域提供了结构化的评估框架。
  3. 双模式评估协议:提出了Probe模式和Online模式互补的评估方法。Probe模式用于评估基础的内容理解能力,兼容现有非流式模型;Online模式则严格评估模型在流式输入中自主决策响应时机的完整主动能力,并引入了对过度触发的惩罚机制。
  4. 详尽的分析洞察:通过对11个模型的系统评估,识别出当前技术的关键瓶颈:1) 音频利用的异质性;2) 长时程性能显著退化;3) 非语音音频感知能力普遍薄弱;4) 专有与开源模型间存在显著能力差距。

📊 实验结果

论文在OmniPro上评估了11个代表性模型,涵盖了开源/专有、多模态/纯视觉、不同参数规模等对比维度。

表2:主实验结果(Probe模式:准确性%;Online模式:F1%)

模型参数量Event-AlertTarget-GroundState-MonitorSnap.-CountCond.-AlertCum.-CountEvent-Narr.Dedup.-CountStep-Inst.均值
Probe模式评估
InternVL3.5 [19]8B4.82.47.26.09.35.333.021.320.012.1
VideoLLaMA2.1-AV [5]7B21.81.55.62.324.14.127.89.314.012.3
Phi-4-multimodal [1]14B13.75.111.56.013.82.031.016.116.912.9
Qwen3-VL [3]8B7.52.818.213.19.011.255.831.825.819.5
Qwen2.5-Omni [24]7B35.48.58.618.018.59.049.115.318.220.1
video-SALMONN 2+ [16]7B37.218.112.324.717.611.541.320.315.622.1
Qwen3-Omni [25]30B21.510.418.319.39.915.346.830.031.622.6
MiniCPM-o 4.5 [6]9B18.216.428.228.09.827.945.932.525.825.8
Gemini-3-Flash38.212.135.021.012.842.786.439.676.340.4
Online模式评估
LiveStar [27]8B9.70.80.00.014.70.01.60.06.03.6
MMDuet2 [20]3B12.55.314.911.221.45.33.712.714.711.3
MiniCPM-o 4.5 [6]9B44.213.924.321.233.116.46.920.57.920.9

关键发现:

  1. 整体性能与模型差距:当前模型表现尚不成熟,证实该任务的开放性。专有模型Gemini-3-Flash在Probe模式下达到40.4%的平均准确性,几乎是最佳开源模型(video-SALMONN 2+,22.1%)的两倍,揭示了巨大能力鸿沟。
  2. 模态贡献消融:对五个全模态模型在音频-only (A)、视频-only (V) 和音视频 (A+V) 输入下的评估显示,A+V配置始终优于单模态,增益幅度从+2.4(Qwen3-Omni)到+11.1(video-SALMONN 2+)不等,证明了模态互补性。模态优势高度依赖任务(如Event-Alert中A主导,Dedup.-Count中V主导)。模型间存在迥异的模态利用模式。
  3. 长时程性能退化:按触发点位置分组评估(短期0-60s,中期60-180s,长期180s+)发现,所有模型性能均随触发点延后而显著下降。在长期部分,模型平均仅保留37%的短期性能。Online模式的MiniCPM-o 4.5在长期部分几乎完全失效(从29.1降至0.3),表明当前流式模型难以维持长时间感知。
  4. 模态瓶颈分析:按触发所需模态(纯视觉、语音、视觉+语音、视觉+非语音音频)分解性能显示,所有模型在视觉+非语音音频触发上的表现最差(15.3-22.3),证实非语音音频感知是共同瓶颈。Gemini-3-Flash的优势主要体现在语音理解上,而非纯视觉感知。

🔬 细节详述

  • 子任务与能力覆盖:论文详细定义了9个子任务。感知层任务侧重低延迟信号匹配或状态转换检测(Event-Alert, State-Monitor)。理解层任务涉及持续语义理解(Event-Narr.)或累积信息跟踪(Cum.-Count)。推理层任务需要跨时间逻辑判断(Dedup.-Count, 涉及重识别)或结合领域知识的预测(Step-Inst.)。
  • 数据集统计:图2展示了数据集特性。图2a显示不同子任务的音频依赖性;图2b显示触发模态构成,视觉+语音为主,近半数触发具有跨模态特性;图2c为触发事件词云;图2d显示首次触发平均在54.1秒,末次在126.2秒,跨度达72.1秒,要求模型维持长时间注意力。
  • 评估指标细节:Probe模式下,一个触发点正确需同时答对预探针(否定)和后探针(肯定)。Online模式使用F1值,并采用贪婪时间对齐(±3秒容忍度),且匹配的有效性依赖于内容正确性。对于开放生成任务,使用LLM裁判(Gemini-3-Flash)进行1-5分评分。
  • 评估模型选择:Probe模式评估了9个模型,包括5个开源全模态、2个开源纯视觉、1个专有全模态和1个在Online模式表现最佳的MiniCPM-o 4.5进行跨模式对比。Online模式评估了3个流式模型。选择覆盖了全模态/纯视觉、开源/专有、3B到30B参数规模。
  • 实现细节:所有模型统一以1 fps采样输入视频。开源模型推理在NVIDIA A800 80GB GPU上进行,使用贪心解码,最大生成长度512 tokens。
  • 容差窗口消融:附录图5展示了Online模式下时间匹配容差(±1秒至±5秒)对联合F1值的影响,论文选择±3秒作为默认值。

⚖️ 评分理由

  • 创新性 (1.8/3):贡献在于整合现有概念(主动评估、多模态)构建一个新基准,并提出分类法和双模式协议。缺乏提出新颖模型架构或核心算法的原创性,属于“应用/基准”类工作,创新性有限。
  • 技术严谨性 (1.2/1.5):基准构建流程设计合理,包含自动标注与人工审核。评估协议设计(尤其是Online模式的F1计算和LLM裁判的使用)有一定说服力。但Probe模式依赖精确匹配可能过于严格,且LLM裁判本身的可靠性未得到充分验证。方法描述清晰。
  • 实验充分性 (1.2/1.5):评估了11个具有代表性的模型,进行了模态消融和长时程分析,覆盖较全面。实验结果明确支持了作者的主要论点。但缺少对评估协议自身稳健性的深入分析(如不同LLM裁判的影响),且对模型在Online模式下失败原因的剖析不够深入。
  • 清晰度 (0.8/1):论文结构清晰,图表(尤其是图1和图2)有效地传达了关键信息。部分表格(如表1)的列较多,可读性可进一步提升��方法部分描述详尽。
  • 影响力 (1.0/2):该基准为评估新兴的“全模态主动流式理解”能力提供了标准化平台,有助于推动该领域研究,对多模态社区有明确价值。然而,其核心贡献(一个新数据集和评估框架)对语音/音频领域的直接影响有限,更多是作为下游应用的测试工具,而非解决语音/音频处理中的核心方法问题。 因此,根据领域相关性约束,在此维度扣分。
  • 开源 (1.0/1.5):论文明确将评估代码(MIT)和数据集(CC BY-NC 4.0)开源,符合良好实践。但数据集的具体下载链接(如HuggingFace)在正文中未明确给出,依赖于项目页面。部分源数据集链接需推断。
  • 可复现性 (0.3/0.5):提供了详细的评估协议、提示模板(附录)和模型列表,理论可复现性高。但核心评估依赖闭源模型(Gemini-3-Flash)作为数据生成器和LLM裁判,且未提供其具体使用细节,这限制了完全独立复现的可能性。

🚨 局限与问题

  1. 基准的代表性偏差:数据源来自两个特定数据集(LongVALE和COIN),其视频内容和风格可能无法完全代表“真实世界”所有流式视频场景(如监控、直播、vlog)。这可能导致基准的泛化能力受限。
  2. LLM裁判的引入:对于开放式生成任务(Event-Narr., Step-Inst.),评估正确性依赖另一个LLM(Gemini-3-Flash)打分。这引入了评估的主观性和不确定性,且未分析该裁判的评分一致性或其偏见对最终模型排名的影响。评测的“金标准”本身存在噪声。
  3. Online模式的苛刻性:Online模式要求模型精确决定响应时机,但F1计算中使用±3秒的固定容差窗口可能过于宽松或苛刻,且未充分讨论该超参数选择的影响。模型可能在时机上“大致正确”但被判为错误。
  4. 对“主动”定义的简化:将“主动”等同于“在正确时间点输出正确内容”。然而,真实的主动助手可能需要更复杂的交互,如多轮对话、澄清提问、或根据用户反馈调整行为。当前评估尚未涵盖此类高阶主动性。
  5. 开源模型评估的公平性:评估使用了不同参数规模(3B到30B)和架构的开源模型,但未探讨参数规模、架构差异与性能之间的具体关系。将不同规模的模型直接比较可能不公平。
  6. 任务设计的潜在重叠:部分子任务(如Event-Alert与State-Monitor, Snap.-Count与Cum.-Count)在概念和评估指标上存在相似性,可能影响任务独立性和评估效率。

📷 论文图片

图1

图2

图3

图4

图5


← 返回 2026-05-22 语音/音乐/音频论文速递