📄 AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks?

#基准测试 #多模态模型

7.0/10 | 前50% | #基准测试 | #多模态模型 | arxiv

👥 作者与机构

作者:Zongheng Cao, Yi Zheng, Rui Song, Xinyu Hu 机构:Philo Labs Research (research@philolabs.ai)

💡 毒舌点评

这篇论文做了一个视频后期制作的AI智能体评测基准,这事儿挺有意思,因为之前的评测要么是问答,要么是写代码,没人认真搞过这种“从剪辑到成片”的全流程活儿。作者拉了20个行业专家来设计任务,看起来挺像那么回事。但是,顶会审稿人会一眼看穿:这本质上是一个工程驱动的评测集构建工作,而非方法创新。论文最大的价值在于“发现”和“定义”了当前AI智能体在视频制作领域的无能——最佳模型组合得分才31%,人类能到90%左右,这差距大得令人尴尬。然而,这种发现本身并不令人意外,更像是对现状的一次确认。论文在框架(harness)上的分析(如图4)是亮点,指出了“框架作为一等公民变量”这个被忽视的点。但分析深度有限,更多是现象描述而非机制挖掘。最大的槽点在于,作为一个评测基准,其可复现性和生态构建严重不足——没有公开的代码、模型权重、数据集包,只有一个官网链接。这在2025年的顶会是难以接受的。此外,对“过程智能”评估的缺失,使得这个基准更像一个“黑箱输出评分器”,而非理解AI行为的透镜。总结:一篇合格但不出彩的系统工作,适合作为行业参考,但离顶会追求的“深刻洞见”或“可复用框架”尚有距离。

📌 核心摘要

本文提出了AgenticVBench,一个用于评估AI智能体在真实世界视频后期制作工作流中能力的基准测试。该基准包含100个任务,涵盖组装(Assembly)、修复(Repair)、排序(Sequencing)和再利用(Repurpose)四个任务家族,任务由20位平均拥有6年专业经验的行业专家设计并提供评估标准。对7个前沿视觉语言模型(VLM)和5种工具框架(harness)的评估表明,当前最先进的智能体系统在这些复杂、长时程的多模态任务上表现远未达到人类专家水平,最佳智能体组合的平均得分仅为31%,而人类专家得分在81%-95%之间,存在43-65个百分点的差距。研究进一步揭示,智能体框架的设计对最终性能有显著影响,甚至能决定模型能力的发挥程度。

🔗 开源详情

  • 代码:论文中未提及 AgenticVBench 基准测试代码本身的具体仓库链接(如 GitHub)。论文仅提供了一个项目主页:https://agenticvbench.com。
  • 模型权重:论文中未提及。论文评估的模型(如 Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro, Qwen3-VL-235B-A22B-Instruct)均为商业模型或通过 API 访问的开源模型,未提供其权重文件的直接下载链接。
  • 数据集:论文中未提及独立的可下载数据集包链接。论文说明任务构建所用的源视频均来自公开渠道(例如:2025 Runway AI Film Festival 提交作品、电影、动画、新闻、YouTube 内容等),但未提供这些原始素材或处理后的基准测试数据的打包下载地址(如 HuggingFace 数据集页面)。论文声称在发布时提供源视频、任务提示和评估脚本,但未指明具体托管位置。
  • Demo:论文中未提及在线演示链接。仅提供了项目主页:https://agenticvbench.com。
  • 复现材料:论文中未提及单独的复现材料包(如检查点、配置文件)。论文在附录中详细描述了实验设置(模型、硬件、工具链版本、评估配置等),但未提供复现所需的代码和数据。
  • 论文中引用的开源项目:
    • OpenClaw:论文中评估的开源 harness,未给出具体 URL。
    • OpenCode:论文中评估的开源 harness,未给出具体 URL。
    • Claude Code CLI:Anthropic 提供的原生 CLI 工具,未给出具体 URL。
    • Codex CLI:OpenAI 提供的原生 CLI 工具,未给出具体 URL。
    • Gemini CLI:Google 提供的原生 CLI 工具,未给出具体 URL。
    • ffmpeg/ffprobe:用于视频/音频处理的知名开源工具,官网链接:https://ffmpeg.org/。
    • Whisper:OpenAI 开源的语音识别模型,GitHub 链接:https://github.com/openai/whisper。
    • gTTS (Google Text-to-Speech):Python 文本转语音库,PyPI 链接:https://pypi.org/project/gTTS/。
    • Nano Banana Pro:用于生成干扰项的图像生成模型,论文中未给出具体链接。
    • Seedance 2.0:用于生成干扰项的视频生成模型,论文中未给出具体链接。

🏗️ 方法概述和架构

本文提出的方法是一个基于专家经验的视频后期制作智能体评测基准(Benchmark)的构建与评估流程,而非一个新的AI模型或算法。其核心架构是构建一个能系统测试AI智能体在多步骤、多模态生产任务中表现的标准化环境。

  1. 任务构建框架:

    • 自底向上的任务家族定义:与20位来自传统影视工作室、AI影视工作室、独立创作者和视频AI公司的行业专家合作。专家基于日常工作流程独立起草端到端的任务简报。项目团队与专家共同评审,筛选出那些对应长时程生产任务、且可验证评估(通过程序化测试或原子化是/否评分)的任务类型,最终确定了四个任务家族。这一流程确保了任务的生态效度。
    • 两类任务创建路径:
      • 程序化任务家族(组装、修复、排序):这些任务有系统化结构。
        • 组装(Assembly):任务包含一个包含33-66个槽位的故事板(每个槽位有镜头描述和四个电影变量:景别、角度、焦距、运动)。智能体接收一组打乱的候选片段(每个槽位有一个黄金片段和两个AI生成的干扰项),需选择匹配的片段并组装成视频。干扰项通过沿单一电影维度修改原始片段生成。
        • 修复(Repair):任务输入包含一个注入了缺陷的视频和一个修复提示(提示描述问题但不指明精确时间戳)。缺陷分三类:音频缺陷(背景噪声、回声等)、视觉缺陷(色彩偏移、模糊等)和时间线缺陷(镜头顺序错误、填充词等)。智能体需定位缺陷、提交修复视频并生成报告。
        • 排序(Sequencing):任务给定一个简短故事概述和一组从源视频中分割并打乱的片段(7-20个),智能体需恢复正确的叙事顺序,输出排序后的视频和预测的片段顺序。
      • 专家创作任务家族(再利用,Repurpose):任务开放,无单一正确答案。专家创作完整的任务简报,包括源视频(4分钟至3小时)和创意简报(说明受众、平台、交付物、基调、节奏、格式等)。智能体需制作一个独立的短视频(如回顾片、预告片、花絮、社交剪辑)。
    • 源视频选择:程序化任务的源视频来自公开渠道,如2025 Runway AI电影节提交作品、电影、动画、新闻、YouTube内容等。选择标准考虑了视觉风格的多样性和使用AI生成视频以减少干扰项的“泄露”线索。再利用任务的源视频涵盖谈话、叙事短片、体育赛事、音乐表演等不同编辑挑战的类型。
  2. 评估体系:

    • 混合评估方法:结合了确定性程序化验证器和基于二元是/否的专家评分标准。
      • 程序化验证器:用于组装、修复、排序以及再利用的“格式”检查。
        • 组装:计算得分 \(\mathrm{score}=\frac{r-1/k}{1-1/k}\),其中 \(r\) 是正确选择的槽位比例,\(k\) 是每个槽位的候选片段数。
        • 修复:验证器为每个任务给出一个0到1之间的奖励。奖励公式综合衡量缺陷窗口内的修复程度(权重0.9)和对窗口外干净区域的改动惩罚(权重0.1)。具体度量因缺陷类型而异(音频使用感知质量、可懂度、保真度;视觉使用PSNR和SSIM;时间线缺陷检查报告范围的匹配度、诚实检查和音频检查)。
        • 排序:最终得分是三个指标的乘积:\(\mathrm{score}=(1-\mathrm{ND})\cdot\mathrm{LIS}\cdot\mathrm{ADJ}\)。归一化距离(ND)衡量整体位移;最长递增子序列(LIS)衡量正确顺序的骨干;相邻保真度(ADJ)衡量局部过渡的正确性。
      • 专家评分标准:用于再利用任务的视觉、叙事、声音支柱。所有评分项均为二元(是/否),每项约30个,总计约36分。标准由专家制定,团队进行格式化和原子性审查。评估包含校准和一致性检验(如图5所示,视觉、叙事、声音支柱的一致性率分别为96.9%, 96.4%, 98.2%)。
    • 质量控制:每个候选任务需通过四道关卡:创作质量控制、资产质量控制、专家质量控制、验证器质量控制。
  3. 实验与分析:

    • 评估矩阵:评估7个前沿VLM(Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.5, GPT-5.4-mini, Gemini 3.1 Pro, Gemini 3 Flash, Qwen3-VL-235B-A22B-Instruct)与5种工具框架(OpenClaw, OpenCode, Claude Code CLI, Codex CLI, Gemini CLI)的20种组合。每个(模型,框架,任务)单元格在固定工具模式、相同输入下运行\(K=3\)次。
    • 分析维度:
      • 模型行为:通过分析工具调用轨迹,识别出三种行为原型:“智能并行者”(如GPT-5.5)、“极致细节派”(如Claude Opus 4.7)、“直接执行者”(如Gemini 3.1 Pro)。
      • 失败模式分析:总结了再利用和修复任务中的主要失败原因,如长上下文信息丢失(再利用占83%)、时间推理错误(修复占65%)等。
      • 框架作为关键变量:深入分析了框架设计对性能的影响。例如,固定GPT-5.5模型,仅更换框架就能导致高达20个百分点的得分差异(图4a)。分析指出当前框架在动作层并非多模态原生(除OpenClaw外),框架的工具封装、规划节奏、多模态原语设计等是关键差异来源。
      • 消融实验:对每个任务家族进行了干预实验(添加预言机提示或剥离指令字段),以探查性能瓶颈。例如,为修复任务提供预言机缺陷位置可将分数提升13个百分点;为排序任务提供叙事描述可提升22个百分点;剥离组装任务中的描述字段会导致27个百分点的性能下降,而剥离电影变量字段影响甚微,揭示了智能体与人类专家解决任务方式的差异。

图1

图2

💡 核心创新点

  1. 填补评估空白:首次系统性地提出了一个专注于视频后期制作工作流的智能体评测基准,覆盖了从粗剪到最终交付的四个核心任务家族(组装、修复、排序、再利用),整合了多模态感知、推理、长时程规划和工具使用能力,弥补了现有基准测试在这一复合场景下的缺失。
  2. 高生态效度的任务构建:任务并非人工合成,而是通过与20位来自不同生产背景(传统影视、AI影视、独立创作者、视频AI公司)的行业专家深度合作,基于真实工作流程设计。这确保了任务的相关性、复杂性和现实挑战性。
  3. 混合与校准的评估体系:设计了结合程序化验证器(客观、确定性)和专家评分标准(主观、原子化二元判断)的混合评估方法。特别对再利用任务的主观标准进行了校准和一致性检验,提升了评估的可靠性。
  4. 对“框架”重要性的揭示与分析:超越简单的性能排名,深入探究了智能体框架(harness)作为影响性能的关键变量。通过控制变量实验(固定模型更换框架)和行为分析,揭示了框架设计(如规划节奏、工具封装、多模态原语)如何显著影响模型行为、得分和失败模式,为未来智能体框架设计提供了实证依据。
  5. 详尽的消融实验与瓶颈诊断:对每个任务家族进行了针对性的消融实验,定量地揭示了各任务的性能瓶颈(如修复任务的定位能力、排序任务的视觉时序推理、组装任务对描述的依赖、再利用任务的长视频理解),为改进指明了具体方向。

📊 实验结果

本文在100个任务上对20种模型-框架组合进行了评估,每个组合运行\(K=3\)次。以下结果基于归一化到\([0, 1]\)的分数。

主要结果(图2数据重建): 下表总结了各模型-框架组合在四个任务家族上的平均得分,以及与人类专家基线的对比。

模型框架组装 (Assembly)修复 (Repair)排序 (Sequencing)再利用 (Repurpose)备注
GPT-5.5Codex0.380.300.250.30最佳组合
GPT-5.5OpenCode0.37---
GPT-5.5OpenClaw0.18-0.27-排序任务最高
Claude Opus 4.7Claude Code0.300.260.240.26
Claude Sonnet 4.6Claude Code0.270.230.230.24
Gemini 3.1 ProGemini CLI0.200.250.240.25
Gemini 3.1 ProOpenCode--0.12-
Gemini 3.1 ProOpenClaw--0.25-
Qwen3-VL-235BOpenClaw0.073---
Qwen3-VL-235BOpenCode0.009---与OpenClaw组合差8倍
人类专家-0.810.890.880.95基线参考

关键发现:

  1. 巨大的人机差距:最佳智能体组合(GPT-5.5 + Codex)在所有任务家族上的平均得分仅约0.31,而人类专家得分在0.81-0.95之间。差距在43个百分点(组装)到65个百分点(再利用)之间。
  2. 框架的决定性影响:固定模型,仅更换框架即可导致显著性能波动。例如,GPT-5.5在组装任务上,使用Codex得分为0.38,使用OpenCode为0.37,而使用OpenClaw仅为0.18(差距20个百分点)。同样,Qwen3-VL模型在组装任务上,使用OpenClaw得分(0.073)是使用OpenCode(0.009)的8倍以上。
  3. 任务依赖的失败模式:失败原因高度依赖任务类型。再利用任务的主要失败原因是长上下文信息丢失(占83%),而修复任务的主要失败原因是时间推理错误(占65%)。
  4. 行为原型:模型-框架组合表现出三种行为原型:“智能并行者”(如GPT-5.5,工具调用集中度低,善于组合操作)、“极致细节派”(如Claude系列,工具调用次数多,会自查错误)、“直接执行者”(如Gemini 3.1 Pro、Qwen3-VL,工具调用集中度高,执行前上下文阅读不足)。
  5. 消融实验揭示的瓶颈:
    • 修复:定位能力和工具使用是共同瓶颈。提供缺陷位置预言机可使分数提升+13 pp。
    • 排序:视觉时序推理是瓶颈。提供叙事描述可提升+22 pp。
    • 组装:智能体严重依赖文字描述而非电影专业字段。剥离描述字段导致分数下降-27 pp,而剥离电影变量字段影响甚微。
    • 再利用:长视频理解是核心挑战。为复杂的非线性叙事电影提供编辑参考文档可显著提升表现(如在comedy_knead任务上提升+23 pp)。

图3

图4

🔬 细节详述

  • 干扰项生成细节(组装):干扰项通过沿单一电影维度(景别、角度、焦距、运动)修改原始黄金片段生成。具体流程是:使用Nano Banana Pro从修改后的初始帧重新生成初始帧,然后使用Seedance 2.0进行图像到视频的生成。丢弃音频以避免智能体利用音频线索绕过视觉分析。
  • 修复奖励计算细节:奖励公式为 \(\mathrm{reward} = 0.9 \cdot s_{\text{in}} + 0.1 \cdot s_{\text{out}}\),其中\(s_{\text{in}}\)是缺陷窗口内的修复得分,\(s_{\text{out}}\)是对窗口外区域改动的惩罚得分。对于音频缺陷,\(s_{\text{in}}\)结合了感知质量、可懂度和保真度;对于视觉缺陷,\(s_{\text{in}}\)基于黄金参考帧计算PSNR和SSIM;对于时间线缺陷,\(s_{\text{in}}\)基于范围匹配、诚实检查和音频检查。在评分前,会进行一系列“硬门”检查(如输出缺失、格式错误、是原始损坏视频的拷贝等),不通过则奖励为0。
  • 排序评分公式细节:最终得分是三个指标的乘积:\(\mathrm{score}=(1-\mathrm{ND})\cdot\mathrm{LIS}\cdot\mathrm{ADJ}\)。归一化距离(ND)的计算公式为 \(\mathrm{ND}=\frac{\sum_{c}\left|\mathrm{pred\_rank}(c)-\mathrm{true\_rank}(c)\right|}{\left\lfloor n^{2}/2\right\rfloor}\),其中分母是最大可能位移。最长递增子序列(LIS)分数为 \(\mathrm{LIS}=\frac{\mathrm{length}\!\left(\mathrm{longest\ increasing\ subsequence}(q)\right)}{n}\)。相邻保真度(ADJ)衡量预测顺序中相邻对在真实顺序中也相邻的比例。这种乘积形式对随机排序惩罚严厉。
  • 人类基线设置细节:人类基线由从大学影视制作项目招募的编辑者完成。他们使用标准的非智能体制作工具(如非线性编辑软件),接收与智能体相同的源材料、简报和交付要求,但任务格式为PDF。每个任务由三位编辑者独立完成,取中位数分数作为该任务的基线。评分流程与智能体完全相同。论文强调这是一个“可比任务的参考”,而非无约束的上界。
  • 框架分析细节:论文指出,框架的差异体现在多个方面:规划节奏(如Codex交替进行推理块和工具调用,而Gemini CLI几乎无规划产物)、工具封装(如OpenClaw提供图像、TTS、音乐生成、视频生成的类型化原语,并路由到子模型,而其他框架主要暴露通用shell和文件工具)、状态管理(如Claude Code的Plan和TodoWrite工具强制代理编写和修改计划)、缓存策略(如OpenCode是缓存优先的,在长循环中保持输入令牌成本低)。
  • 案例研究细节:附录B提供了三个端到端轨迹案例:
    • 排序:OpenCode + Gemini 3.1 Pro 完美排序九个片段,通过结合视觉帧网格检查、Whisper音频转录和OpenCV检测烧录字幕三种信号进行三角定位。
    • 修复:Claude Code + Opus 4.7 诊断出F1广播中交换的片段,通过推理赛道排行榜的圈数和位置列表的非单调性(而非像素级异常)来定位语义错误。
    • 再利用:Gemini CLI + Gemini 3.1 Pro 制作了一个60秒的旁白回顾片。该轨迹展示了“端到端程序化”策略,所有模态(TTS旁白、正弦波音乐床、源片段提取、FFmpeg混音)都在代理循环内合成,且代理从未读取源视频帧像素,仅根据任务简报创作脚本。

⚖️ 评分理由

  1. 创新性 (3分中的1.5分):论文的核心贡献在于构建了一个新的、针对特定领域的评测基准,这本身是一项重要的系统性工作。它填补了视频生产工作流智能体评估的空白。然而,从算法或模型层面看,缺乏根本性的方法创新。工作更侧重于评测体系的设计和工程实现,而非提出新的智能体架构或学习范式。因此,创新性得分中等。
  2. 技术严谨性 (1.5分中的1.2分):论文在方法设计上较为严谨。任务构建有专家参与和严格质控流程;评估体系结合了程序化验证和校准后的专家评分;实验设置了重复运行(\(K=3\))和固定变量;提供了详细的附录说明设置、成本和验证器设计。扣分点在于:1)部分评估标准(如再利用的主观项)虽经校准,但其对创意多样性的捕捉仍有局限;2)人类基线设置与智能体环境存在固有差异,可能影响对比的绝对公平性。
  3. 实验充分性 (1.5分中的1.1分):实验覆盖了7个模型和5种框架的20种组合,在100个任务上进行了评估,并进行了\(K=3\)次重复。提供了丰富的分析维度(行为、失败模式、消融)。实验设计合理,分析深入。扣分点在于:1)基准总任务数(100)和每个家族的任务数(18-36)相对有限,可能影响统计结论的稳健性;2)未测试更多样化的模型(如开源VLM)或框架。
  4. 清晰度 (1分中的0.8分):论文结构清晰,对基准构建流程、任务定义、评估方法和实验结果的阐述较为明确。图表(如图1、2、3、4)有效辅助了理解。扣分点在于:1)部分复杂概念(如再利用评分标准、消融实验设计)需要仔细阅读附录才能完全理解;2)框架分析部分的现象描述较多,深层机制解释略显不足。
  5. 影响力 (2分中的1.0分):本研究对视频智能体、多模态智能体和基准测试社区有直接且明确的影响,提供了一个重要的评测工具和失败模式分析。其发现(如框架的重要性、当前能力的巨大差距)将指导未来的研究方向。然而,论文的核心贡献(评测基准)与语音/音乐/音频领域的直接关联性较弱。虽然视频包含音频,但论文重点在视频生产工作流和视觉主导的任务(组装、排序),对纯音频处理、语音识别/合成、音乐生成等领域的直接推动有限。因此,考虑到目标读者领域的相关性,影响力维度得分需显著扣分。
  6. 开源 (1.5分中的0.4分):论文提供了项目主页(https://agenticvbench.com),并承诺在论文发布时提供源视频、任务提示和评估脚本。然而,未提供具体的代码仓库(如GitHub)、模型权重、可下载的数据集包或复现材料包的链接。在2025年的顶会标准下,缺乏开源代码和数据集是重大缺陷,严重阻碍了复现和后续研究。因此,开源维度得分很低。
  7. 可复现性 (0.5分中的0.3分):附录提供了极其详尽的实验设置、硬件配置、工具链版本、成本估算等信息,理论上具备良好的可复现性。然而,关键复现材料(代码、数据集)的缺失使得在实际中复现论文结果变得极其困难或不可能。这是一个致命的弱点,尽管论文本身描述得很详细。

🚨 局限与问题

  1. 基准的覆盖范围与生态效度局限:论文承认任务覆盖受限于专家池背景和公开素材。更深层的问题是,尽管任务源于真实工作流,但构建过程依赖专家提供的“工作流知识”而非“实际项目”,这可能导致任务在复杂性、约束条件和意外性上仍简化于真实生产。例如,真实的后期制作涉及更复杂的团队协作、版本控制、客户反馈迭代和严格的版权与合规检查,这些在基准中未被充分模拟。
  2. 评估对“过程”的忽视:当前评估完全基于最终交付物的质量(视频、报告),是典型的“黑箱评估”。它无法区分一个高分结果是来自智能体深思熟虑的规划,还是偶然的正确操作序列。对于旨在诊断和改进智能体的研究,缺乏对规划质量、工具调用效率、中间状态管理和错误恢复能力的评估,是一个重大缺陷。这使得基准在指导“如何改进智能体”方面的作用受限。
  3. 框架分析的深度不足:论文正确指出框架是关键变量,但分析多停留在“哪个框架在哪个任务上得分高”的现象关联层面。对于为什么某种框架设计(如OpenClaw的子模型路由、Claude Code的计划工具)会导致特定行为或性能差异,缺乏更深入的机制性分析(如信息流分析、注意力机制影响)。这削弱了结论的指导深度。
  4. 人类-智能体对比的公平性质疑:论文在附录C中详细说明了人类基线设置,但承认人类使用“非智能体”标准编辑环境,而智能体通过API和框架在沙箱中工作。这造成了根本的环境不对称。人类专家拥有直观的图形界面和丰富的编辑经验,而智能体依赖有限的API和文本规划。因此,“43-65个百分点的差距”不能简单归因为“模型能力不足”,其中包含了任务环境差异带来的归因混淆。更公平的对比需要在受控条件下(如为人类提供等效的命令行工具,或为智能体提供图形界面模拟)进行。
  5. 再利用任务评估的潜在偏差:再利用任务的评分依赖专家制定的二元标准和校准后的VLM评分器。然而,创意工作的“正确性”本身是多样的。二元标准可能隐含了特定的、传统的编辑美学或叙事偏好,可能抑制或无法公平评价具有创新性、非传统结构的输出。VLM评分器的校准基于人类标签,但若人类标签本身存在偏见,该偏见将被放大并固化。
  6. 对当前智能体系统能力的结论可能过强:论文得出“当前智能体远未达到人类水平”的结论基于在特定基准上的表现。然而,这个基准本身(100个任务,特定类型源视频)可能系统性地高估了任务的难度,或者未能覆盖智能体可能已经擅长的其他类型视频生产子任务。结论应更谨慎地限定于“在AgenticVBench所代表的特定任务集上”。
  7. 开源与可复现性承诺与执行的落差:论文在摘要和结论中强调“开源完整评分标准”,并在附录中详述设置。然而,如前所述,缺乏可操作的开源材料(代码、数据集)使得可复现性几乎为零。这不仅是技术局限,也反映了研究实践中的一个严重问题:论文提出了一个优秀的基准概念,却未能为其建立可持续、可复用的开源生态,削弱了其作为“基础”的长期价值。

📷 论文图片

图5


← 返回 2026-05-28 语音/音乐/音频论文速递