📄 OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding

#视频理解 #基准测试 #多模态模型 #流式处理 #大语言模型

7.3/10 | 前25% | #视频理解 | #基准测试 | #多模态模型 #流式处理 | arxiv

学术质量 6/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度 高

👥 作者与机构

  • 第一作者:Ruixiang Zhao(中国人民大学)
  • 通讯作者:Xirong Li(中国人民大学),Jie Yang(腾讯微信视觉)
  • 作者列表:Ruixiang Zhao(中国人民大学)、Jie Yang(腾讯微信视觉)、Zijie Xin(中国人民大学)、Tianyi Wang(腾讯微信视觉)、Fengyun Rao(腾讯微信视觉)、Jing LYU(腾讯微信视觉)、Xirong Li(中国人民大学)

💡 毒舌点评

该工作系统性地指出了现有主动流式视频理解基准在全模态、主动性和任务多样性上的不足,并提出了一个整合性的评估框架(任务分类法、双模式协议)。其核心贡献在于定义了“好的全模态主动流式模型”的三个标准,并将它们放入统一的评估标尺中,对社区具有明确的指引价值。然而,作为一项基准测试工作,其自身价值高度依赖于数据质量与评估设计的严谨性。数据完全由单一大模型(Gemini)生成且无人工标注的多样性,这一关键决策可能引入系统性偏差,严重影响基准的长期可靠性。此外,在线评估仅涵盖三个模型,且其F1指标的具体实现细节(如开放任务由LLM裁判评分)的稳定性与公平性有待更深入的验证。

📌 核心摘要

  1. 问题:现有流式视频理解基准存在三大缺陷:主要依赖视觉信号、采用轮询或固定时间戳的被动评估方式、覆盖任务有限,无法可靠地区分和评估具备“主动”能力的全模态大模型。
  2. 方法核心:提出首个联合评估全模态感知、主动响应和多样化任务能力的基准 OmniPro。核心包括一个包含3级认知水平、9个子任务的任务分类法;一个结合密集描述、大模型生成和两轮人工审核的数据构建流程;以及一个包含Probe(评估内容理解)和Online(评估流式主动能力)的双模式评估协议。
  3. 新意:首次在统一框架下,系统性地评估模型在全模态感知(音频至关重要)、主动决策何时响应以及广泛任务理解这三方面的能力。特别强调了非语音音频的作用,并设计了支持多次响应和惩罚误触发的在线评估F1指标。
  4. 主要实验结果:评估了11个代表性模型。主要发现:(1) 音频带来一致性增益但模型利用率差异巨大(AV输入比V输入平均提升+2.4至+11.1分);(2) 性能随触发时间推后严重衰减,模型仅能保持早期性能的37%;(3) 非语音音频感知是所有模型的共同短板。最强闭源模型(Gemini-3-Flash,Probe模式40.4%准确率)与最强开源模型(Qwen3-Omni,22.6%)存在巨大差距。
  5. 实际意义:为快速发展的全模态主动流式大模型提供了首个全面的评估标准和测试平台,明确了当前模型在长期感知、音频理解等方面的具体短板,指导未来模型研发方向。
  6. 主要局限性:所有问答和标注均为英文,限制了多语言评估;在线评估仅测试了3个模型,对流式架构能力的揭示可能不足;数据构建完全依赖单一大模型生成,可能引入分布偏差且无人工标注的多样性。

🔗 开源详情

  • 代码:论文中承诺开源评估代码和数据生成提示模板,并在附录中提供了完整示例。项目主页为 https://ruixiangzhao.github.io/OmniPro ,但论文中未直接给出代码仓库的具体URL(如GitHub链接)。
  • 模型权重:论文中未提及模型权重的具体下载链接。论文评估了多个开源模型(如Qwen2.5-Omni、Qwen3-Omni、video-SALMONN 2+、VideoLLaMA2.1-AV、Phi-4-multimodal、InternVL3.5、Qwen3-VL、MiniCPM-o 4.5、MMDuet2、LiveStar),但未提供OmniPro基准或评估用模型的权重链接。
  • 数据集:
    • 数据集名称:OmniPro
    • 开源协议:CC BY-NC 4.0(见附录C.3)
    • 获取链接:论文中未提及具体下载链接。项目主页可能包含数据访问方式。
    • 数据来源:视频来自 LongVALE (CC-BY-NC-SA-4.0) 和 COIN (CC BY-NC 4.0) 数据集的测试集(见附录C.3)。
  • Demo:论文中未提及在线演示链接。
  • 复现材料:论文附录提供了用于数据生成的提示词模板(Dense Captioning Prompt和各子任务的QA Generation Prompts)。评估代码承诺开源但未提供链接。未提供训练配置或检查点(因本工作不涉及模型训练)。
  • 论文中引用的开源项目:论文中评估了多个开源模型及其各自资源,但未明确引用除评估模型外的其他特定开源项目或工具。

🏗️ 方法概述和架构

本论文是一项基准测试构建工作,其核心“方法”是定义了一个全新的评估框架和数据集,而非一个可训练的模型架构。其流程是:源视频收集 → 自动化密集描述与QA生成 → 人工质量控制 → 双模式评估协议执行。

  1. 整体流程概述:这是一个从数据构建到评估执行的多阶段流水线。首先从公开数据集(LongVALE, COIN)的测试集收集包含音视频的源视频(共1,771个);接着利用大模型(Gemini 3 Flash)生成密集时间戳描述并合成初版问答对;然后经过两轮严格的人工审核和修订得到高质量标注样本(最终保留2,700个,涉及1,262个视频);最终设计并执行两种互补的评估模式(Probe和Online)来全方位测试目标模型。

  2. 主要组件/模块详解:

    • 任务分类法(Task Taxonomy):
      • 功能:为评估提供结构化框架,定义了“什么是好的全模态主动流式模型”的三个维度(全模态感知、主动响应、多样化任务)。
      • 内部结构:采用三级认知层次(感知、理解、推理)组织9个子任务。
        • 感知层 (Perception):包括即时事件警报(Event-Alert)、实时状态监控(State-Monitor)、快照计数(Snap.-Count)和显式目标定位(Target-Ground)。核心挑战是低延迟的信号级模式匹配、持续感知结合短期记忆、事件检测与即时计数耦合、以及主动检测与空间定位结合。
        • 理解层 (Comprehension):包括事件叙述(Event-Narr.)、累积计数(Cum.-Count)和语义条件警报(Cond.-Alert)。要求持续的语义理解与输出时机和粒度决策、跨时间的持久跟踪与计数更新、以及对抽象概念的语义推理触发。
        • 推理层 (Reasoning):包括去重计数(Dedup.-Count)和序列步骤指导(Step-Inst.)。需要跨时间的重识别来确定目标是否为新目标,以及联合时序理解、视觉状态估计和基于知识的推理来提供下一步指导。
      • 输入/输出:输入是长时音频视频流和一条用户指令(在视频开始时给出);输出是在一个或多个“触发时间”点的模型响应。
    • 自动化QA生成管道(Automated QA Generation Pipeline):
      • 功能:大规模生产初始的问答样本。
      • 内部结构:分为两步:
        1. 密集描述 (Dense Captioning):使用Gemini 3 Flash为每个视频生成包含时间戳的JSON格式描述,分为caption(多模态摘要)、visual(场景细节)、audio(环境声与音乐)、speech(转录语音内容)四个字段。生成过程要求将视频划分为5-30秒的片段,覆盖整个视频无间隙。
        2. QA合成 (QA Pair Synthesis):将原视频、密集描述与特定任务的提示模板一起输入Gemini(使用了Gemini 3 Flash和Gemini 2.5 Flash),生成结构化样本,包含question(用户指令)、trigger_time(触发时间)、response(期望响应)、trigger_modality(触发模态:视觉/声音/语音及其组合)、audio_dependency(音频依赖度:required/helpful/none)等字段。生成遵循三个原则:(a) 问题设计采用“音频优先”策略;(b) 响应生成强制“流式约束”,即响应只能基于触发前信息;(c) 触发时间以视频为真值,密集描述为参考。
      • 输入/输出:输入是源视频和对应的密集描述;输出是近似每任务1,000个原始QA样本,共约9,000个。
    • 人工质量控制(Human Quality Control):
      • 功能:确保数据质量,消除自动化生成的错误和偏差。
      • 内部结构:两轮人工审核。第一轮:9位标注员各自负责一个子任务,使用专用工具验证四个维度:问题自然性、触发时间准确性(事件完全发生的精确时刻)、响应真实性(无幻觉)和模态标注正确性。标注员修订或删除低质量样本。第二轮:标注员交换子任务进行交叉验证,以保证不同任务间评估标准的一致性。
      • 输入/输出:输入是自动化生成的约9,000个原始样本;输出是经过两轮审核保留下来的2,700个高质量样本(保留率约30%)。
    • 双模式评估协议(Dual-mode Evaluation Protocol):
      • 功能:分别评估模型的内容理解能力和流式主动能力。
      • 内部结构:
        • Probe模式:对每个真实触发点,评估器在触发前(-5s至-2s)和触发后(0至+3s)分别查询模型一次。模型输入累积视频帧[0, t],输出单一回答。预期触发前回答为否定(事件未发生),触发后回答为正确任务答案。对于开放式生成任务(如Event-Narr.和Step-Inst.),通过提示模板将其转化为多选题进行评估。指标为Accuracy(两个探测均正确才计为正确触发)。
        • Online模式:模型在视频开始时接收用户指令,然后逐帧处理视频流和自身对话历史,自主决定何时响应,无额外查询。对于大多数子任务,通过精确匹配结构化输出(如整数计数、YES/NO)验证正确性。对于开放式生成任务(Event-Narr.和Step-Inst.),使用Gemini-3-Flash作为LLM裁判进行1-5分评分,分数≥3视为正确。指标为F1:通过贪婪时间对齐(±3s容差)将模型响应与真实触发点匹配,且响应内容正确,才视为有效匹配。计算精确率、召回率及调和平均。
      • 模型适用性:Probe模式适用于任何VLM,不要求流式能力。Online模式需要模型具有原生流式能力(逐帧处理并自主发起响应)。支持双模式的模型(如MiniCPM-o 4.5)可被两种模式评估,非流式模型(如InternVL3.5)仅在Probe模式下评估。
      • 输入/输出:输入是视频流和用户指令;Probe模式输出每个探测点的回答;Online模式输出模型在流式处理过程中自主产生的一系列响应。
  3. 组件间的数据流与交互:数据流是单向的:源视频进入自动化管道生成候选QA -> 人工审核筛选出高质量样本集 -> 该样本集被用于驱动Probe和Online两种模式的评估。任务分类法贯穿始终,指导了QA的生成(通过特定提示模板)和最终结果的细分分析。双模式评估协议分别从离线理解能力和在线流式能力两个角度对同一套数据进行评估,提供了互补的视图。

  4. 关键设计选择及动机:

    • 选择双模式评估:动机是分离两个核心能力。Probe模式消除了流式处理的复杂性,纯粹测试模型在给定信息下对“何时”与“何事”关联的理解;Online模式则测试端到端的“感知-决策-生成”能力,更贴近真实部署场景。
    • 选择F1作为Online模式指标:动机是同时惩罚“漏报”(低召回)和“误报”(低精确率),这比简单的准确率更适用于需要多次主动响应的场景。
    • 设计含非语音音频的任务:动机是区分全模态模型和视觉模型,并暴露当前模型在理解环境声等方面的弱点。
    • 采用两轮人工审核:动机是最大程度保证这个即将作为“标准尺子”的基准的数据质量,减轻自动化生成的偏差。
    • 音频优先的生成策略:动机是确保基准能有效评估全模态能力,避免视觉通道的绝对主导。
  5. 架构图/流程图: 论文图1(Overview of OmniPro)直观展示了基准的构成。图顶部展示了三级认知层次(Perception, Comprehension, Reasoning)和9个子任务的层级关系。每个子任务下方都有一个示例面板,包含视频帧序列、用红色三角形标记的真实触发时间点(trigger time)、用户指令(Q)和期望的主动响应(A)。例如,“Event-Alert”示例显示在特定帧(如哨声响起时)需要触发警报;“Step-Inst.”示例显示在教学视频的不同步骤节点需要提供下一步指导。该图清晰地传达了每个任务对多模态感知(视觉+听觉)和主动决策的要求。

💡 核心创新点

  1. 首个联合评估框架:首次在一个统一基准中,同时系统性评估“全模态感知”、“主动响应”和“多样化任务理解”这三个关键标准,填补了现有基准的重大空白。
  2. 三级认知任务分类法:提出了一个层级化的任务分类体系(感知、理解、推理),涵盖了6项基本视频理解能力(警报、监控、定位、计数、叙述、预测),提供了更结构化、更全面的评估视角。
  3. 双模式评估协议:设计了Probe(内容理解)和Online(流式主动能力)两种互补的评估模式,既能隔离测试理解能力,又能端到端测试完整的主动流式处理能力,评估结果更具诊断价值。
  4. 大规模音频依赖性与细粒度标注:在数据层面,强调音频的重要性(84%样本依赖音频),并为每个样本提供了模态隔离标签(视觉/语音/声音/组合),支持深入的跨模态分析。

📊 实验结果

表2:主实验结果

模型参数量感知理解推理平均
事件警报目标定位状态监控快照计数条件警报累积计数事件叙述去重计数步骤指导
Probe模式评估 (准确率 %)
InternVL3.58B4.82.47.26.09.35.333.021.320.012.1
VideoLLaMA2.1-AV7B21.81.55.62.324.14.127.89.314.012.3
Phi-4-multimodal14B13.75.111.56.013.82.031.016.116.912.9
Qwen3-VL8B7.52.818.213.19.011.255.831.825.819.5
Qwen2.5-Omni7B35.48.58.618.018.59.049.115.318.220.1
video-SALMONN 2+7B37.218.112.324.717.611.541.320.315.622.1
Qwen3-Omni30B21.510.418.319.39.915.346.830.031.622.6
MiniCPM-o 4.59B18.216.428.228.09.827.945.932.525.825.8
Gemini-3-Flash-38.212.135.021.012.842.786.439.676.340.4
在线模式评估 (F1分数 %)
LiveStar8B9.70.80.00.014.70.01.60.06.03.6
MMDuet23B12.55.314.911.221.45.33.712.714.711.3
MiniCPM-o 4.59B44.213.924.321.233.116.46.920.57.920.9

关键结论:当前模型整体表现不佳,全模态主动流式理解仍是难题。闭源模型Gemini-3-Flash(40.4%)远超最强开源模型Qwen3-Omni(22.6%),尤其在需要复杂推理的任务(如步骤指导:76.3 vs 31.6)上差距悬殊。在线模式(MiniCPM-o 4.5仅20.9%)比Probe模式更难,暴露了“决定何时说”与“生成正确内容”耦合带来的挑战。此外,在音频依赖任务(如事件警报)上,全模态模型显著优于纯视觉模型(差距超30分),证实了音频感知的关键性。

模态消融实验表格

表3:模态贡献分析(Probe模式,准确率 %)

模型输入事件警报目标定位状态监控快照计数条件警报累积计数事件叙述去重计数步骤指导平均Δ↑ (A+V vs V)
Qwen2.5-OmniA33.35.57.32.016.62.735.90.015.113.2
V9.14.16.410.08.45.440.916.719.913.4
A+V35.48.58.618.018.59.049.115.318.220.1+6.7
video-SALMONN 2+A42.416.43.610.014.714.240.01.514.417.5
V3.03.65.08.08.06.932.716.814.811.0
A+V37.218.112.324.717.611.541.320.315.622.1+11.1
Qwen3-OmniA19.71.85.00.07.48.225.04.116.89.8
V13.38.415.416.87.68.548.930.033.320.2
A+V21.510.418.319.39.915.346.830.031.622.6+2.4
Gemini-3-FlashA27.31.815.02.08.023.756.88.158.722.4
V18.29.132.324.07.524.776.837.180.234.4
A+V38.212.135.021.012.842.786.439.676.340.4+6.0
MiniCPM-o 4.5A42.611.56.67.118.13.93.81.72.710.9
V14.98.723.316.015.77.63.527.37.513.8
A+V44.213.924.321.233.116.46.920.57.920.9+7.1

关键结论:音频+视觉(A+V)输入在所有模型上都优于纯视觉(V)输入,增益从+2.4到+11.1不等,证实两种模态提供互补线索。任务的主导模态不同:如“事件警报”强依赖音频(A远超V),“去重计数”和“步骤指导”则主要依赖视觉(V远超A)。模型间模态利用模式差异巨大,如video-SALMONN 2+重度依赖音频(A: 17.5, V: 11.0),而Qwen3-Omni主要依赖视觉(V: 20.2, A: 9.8),揭示了音频编码和多模态融合能力的根本差异。

性能随时间衰减图

图3:性能随真实触发事件在视频中出现时间(短期0-60s,中期60-180s,长期180s+)的变化。所有模型在长期触发上的性能相比短期都急剧下降,平均仅保留37%的性能。在线模式的MiniCPM-o 4.5在长期阶段几乎失效(F1从29.1降至0.3)。最强离线模型Gemini-3-Flash在长期阶段也仅保留46%的性能(38.5%降至17.9%)。这揭示了当前模型在长期时序依赖建模和持续感知方面的严重不足。

模态瓶颈分析图

图4:模型在不同类型触发模态下的性能(视觉、语音、视觉+语音、视觉+声音)。Gemini-3-Flash在语音和视觉+语音触发上表现最强(32.6和39.1),但在纯视觉触发上被Qwen3-Omni超越(23.4 vs 31.1),表明其优势主要源于语音理解。所有模型在视觉+声音(非语音环境声)触发上的表现最差(15.3-22.3),证实了对非语音音频的感知是当前所有模型的共同弱点。

🔬 细节详述

  • 数据构建:
    • 来源:LongVALE(1,171个视频)和COIN(600个视频)的测试集,共1,771个源视频。
    • 生成工具:密集描述使用Gemini 3 Flash;QA合成使用Gemini 3 Flash和Gemini 2.5 Flash(具体见附录B提示模板)。
    • 规模:自动化生成约9,000个原始QA样本,经两轮人工审核后保留2,700个样本,涉及1,262个视频。
    • 人工审核:两轮,9位标注员参与。第一轮专项审核,第二轮交叉验证。审核维度:问题自然性、触发时间准确性、响应真实性、模态标注正确性。
  • 损失函数:未提及(本工作为基准测试,不涉及模型训练)。
  • 训练策略:未提及。
  • 关键超参数:未提及。
  • 训练硬件:未提及。
  • 推理细节:
    • 输入采样:所有模型统一对输入视频以1 FPS进行采样。
    • 解码策略:所有开源模型使用贪婪解码,最大生成长度512 tokens。
    • 硬件:开源模型推理在NVIDIA A800 80GB GPU上进行。
    • 流式设置(Online模式):模型逐帧处理视频流,并维护自身对话历史。
    • 评估指标:Probe模式为Accuracy(触发前探测和触发后探测均正确);Online模式为F1,通过贪婪时间对齐(默认±3s容差,消融见附录图5)计算。
    • 人工标注细节:未详细说明标注员背景、培训过程或一致性度量(如Kappa系数)。

⚖️ 评分理由

创新性:2.0/3 问题定义清晰且重要,系统性地指出了现有基准的缺陷。但作为一项基准测试工作,其创新更多体现在整合与系统化定义(任务分类法、双模式协议),而非提出全新的方法或模型。任务分类法和评估协议的设计具有原创性,但并非突破性贡献。

技术严谨性:1.6/2 数据构建流程(自动化生成+两轮人工审核)和评估协议(双模式、F1计算)设计合理,考虑了误报惩罚和时间容差。数学表述(如F1计算)清晰。主要技术风险在于数据生成完全依赖单一大模型(Gemini),尽管有人工审核,但无法保证生成数据的分布与真实用户指令的分布一致,且缺少对生成数据多样性的定量分析,这削弱了基准作为“标准尺子”的可靠性。Probe模式将生成任务转为多选题是合理简化,但也降低了评估的真实性。

实验充分性:1.6/2 评估了11个模型,覆盖了开源/闭源、不同参数规模、全模态/视觉-only,对比维度较全。进行了关键的消融实验(模态、触发时间、触发模态),结果有力地支撑了主要发现。然而,Online模式仅评估了3个模型,对于揭示当前流式模型的整体生态和架构差异严重不足。此外,缺少对评测指标本身(如LLM裁判评分)的稳定性验证。

清晰度:0.8/1 论文结构逻辑清晰。任务分类法和评估协议用图表(图1,表1)清晰展示。技术细节(如数据生成提示模板)在附录中充分公开。写作流畅,术语定义明确,易于理解。

影响力:0.8/1 该基准直接回应了社区对标准化评估主动流式大模型的需求。其明确的任务框架和实验结论为后续改进提供了清晰方向。项目页面和开源承诺有助于被采纳。但其影响力高度依赖于社区对数据生成偏差问题的接受程度。

可复现性:0.5/1 论文承诺开源评估代码、数据集和提示模板,并提供了详细的实验设置(1fps采样、±3s容差、F1计算)。然而,项目主页和论文中均未提供代码仓库的具体URL,也未提供数据集的直接下载链接,这严重影响了当前的可复现性。评估依赖闭源模型(Gemini)和特定硬件(A800 GPU)也增加了完全复现的门槛。

🚨 局限与问题

  1. 论文明确承认的局限:

    • 语言局限性:所有问答和标注均为英文,限制了对多语言模型的评估(Section 5 & C.1)。
    • 更广泛的影响:论文讨论了潜在风险及缓解措施(CC BY-NC 4.0许可证)。
  2. 审稿人发现的潜在问题与深度批评:

    • 数据生成的核心风险:整个基准的数据完全由Gemini模型生成,这是最大的方法学风险。尽管有人工审核,但无法根本解决:(a) 生成数据的分布可能强烈反映Gemini模型的偏好和知识,而非真实、多样化的用户需求;(b) 人工审核可能过滤掉明显错误,但难以发现更深层次的系统性偏差;(c) 缺少对生成数据与真实世界查询分布差异的定量分析。这动摇了基准作为公平、中立“标准尺子”的基础。
    • 在线评估的代表性不足:Online模式仅评估了3个模型(MMDuet2、LiveStar、MiniCPM-o 4.5),且两个为视觉模型。这严重限制了结论关于“流式模型”整体水平的普遍性。例如,无法评估其他全模态流式模型(如某些token-driven模型)的性能,也无法比较不同流式架构(如分类头、信号驱动)的表现差异。
    • 评估协议的内在矛盾:Probe模式通过多选题简化了生成任务,虽然便于准确率计算,但剥离了模型生成开放式描述、解释或步骤指导的真实能力。而Online模式虽然评估生成能力,但其正确性由另一个LLM(Gemini)裁判评判,可能引入新的偏差(例如,裁判模型可能与被评估模型有相似的偏好或盲点),且论文未验证该裁判的可靠性(如人工一致性)。
    • “主动”定义的边界模糊:基准主要评估“当特定触发事件发生时响应”的能力,但更广泛、更自主的“主动”行为,如模型主动总结上下文、主动提问澄清、或主动转移话题以提供更相关信息,并未被覆盖。因此,其结论应被限定在当前定义的“响应式主动”能力内。
    • 结论的过度推断:论文将Gemini-3-Flash的优势主要归因于语音理解(图4),但未排除其他因素(如模型参数量、训练数据规模、基础架构等)。在对比不同模型(如全模态 vs. 视觉模型)时,控制变量不足(如参数规模、训练数据差异巨大),使得归因分析不够严谨。
    • 缺少失败案例分析:论文详细报告了性能数字和趋势,但缺乏对典型失败模式的定性分析。例如,在Online模式下,模型“误报”(在无触发事件时响应)和“漏报”(错过触发事件)的具体原因是什么?是感知失败、时机判断错误还是内容生成错误?这类分析对指导模型改进至关重要。

📷 论文图片

图1

图2

图3

图4

图5


← 返回 2026-05-20 语音/音乐/音频论文速递