📄 CapRiCorn-1K: A Comprehensive Benchmark for Video Captioning and Subject Referential Consistency Across Temporal Scales

#数据集

8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5

🔥 8.6/10 | 前50% | #语音识别 | #数据集 | arxiv

👥 作者与机构

Xinlong Chen (NLPR, CASIA; UCAS; Kling Team), Jiafu Tang (NJU), Yue Ding (NLPR, CASIA; UCAS), Yizhuo Jia (FDU), Bozhou Li (PKU), Bohan Zeng (PKU), Yang Shi (PKU), Shihao Li (NJU), Yiyan Ji (NJU), Qiang Liu (NLPR, CASIA; UCAS; 通讯作者), Weihong Lin (Kling Team), Yuanxing Zhang (Kling Team), Pengfei Wan (Kling Team), Liang Wang (NLPR, CASIA; UCAS), Tieniu Tan (NLPR, CASIA; UCAS; NJU)。

💡 毒舌点评

这篇工作提出了一个解决视频描述评估中真实痛点(长视频、场景转换、主体一致性)的基准,动机扎实,构建也颇具匠心。然而,它在作为一篇“顶会”工作时,其创新性的天花板受限于其“基准”定位本身——它并非提出新算法,而是提出了新的“尺子”。因此,其主要价值在于实验揭示的发现(如现有模型在长视频主体一致性上的崩溃)和这套评估协议的有效性验证,而非技术上的突破。论文写得清晰,实验充分,但影响力(对语音/音乐/音频领域)有限。评分7.5是对其作为一项扎实的基础设施工作的认可,但不足以冲击顶会核心贡献。

📌 核心摘要

本文提出了CapRiCorn-1K,一个用于全面评估视频描述质量和主体引用一致性的新基准。针对现有基准在视频时长、内容多样性和场景转换上的不足,该基准收集了1000个包含动态场景转换的长视频(15秒至10分钟),覆盖八大类别。其核心创新在于提出了基于视频关键点的评估协议,通过准确性(Acc)、覆盖率(Cov)和基于关键点引用一致性的(Ref)三个指标,综合评估描述质量,并支持音视频与纯视觉两种评估模式。大量实验表明,当前模型在长视频上,尤其是保持主体引用一致性方面表现显著下降,且闭源模型整体优于开源模型。此外,论文通过将描述应用于下游LLM推理和视频重建任务,验证了其评估指标与下游性能的高度相关性,证明了基准的有效性和实用价值。

🔗 开源详情

  • 代码:https://github.com/xlchen0205/CapRiCorn-1K
  • 模型权重:论文中未提及提供基准自身的模型权重,被评估的模型权重引用自原论文。
  • 数据集:CapRiCorn-1K。论文及代码仓库表明数据集将开源,但采用高度限制性许可,仅限学术研究。
  • Demo:论文中未提及。
  • 复现材料:论文提供了详细的复现与评估材料,包含在附录中:
    • 实现细节:附录D详细列出了所有被评估模型的评估设置(如最大分辨率、采样帧率、最大帧数等),见Table 6。
    • 评估提示词:附录E提供了用于评估提及状态、提取主体描述、聚类描述的详细提示词(Figures 10, 11, 12),以及用于评估音视频和纯视觉模型的提示词列表(Figures 13, 14)。
    • 标注系统:附录B包含了标注系统界面的截图(Figure 5)。
    • 分析:附录C提供了关于标题长度、帧数与分辨率权衡的进一步分析(Figure 6)。
  • 论文中引用的开源项目:
    1. LTX-2.3-22B-dev:用于视频重建的扩散模型。论文在“4.4 Correlation with Downstream Tasks”部分提及,但未提供具体链接。引用文献为 (HaCohen et al., 2025)。
    2. SciPy:版本1.14.1,用于统计分析。论文在“Appendix D Implementation Details”末尾提及,但未提供具体链接。 (注:论文中用于评估的模型(如video-SALMONN-2, Qwen系列, Tarsier2等)均为被评估的对象,论文未提供其具体的开源权重链接,仅引用了相关论文。)

🏗️ 方法概述和架构

CapRiCorn-1K的评估方法是一个多阶段的、以关键点为锚点的流程,其核心思想是将视频内容结构化为离散的关键点,然后利用一个强大的判断模型(GPT-4.1)来评估模型生成的描述与这些关键点的匹配情况。该流程可概括为以下核心组件与交互:

  1. 关键点定义与分类:这是评估的基石。对于每个视频,人工标注一组主体 S 和一组关键点 K。关键点被严格分为五类:主体间交互(K_inter)、独立主体事件(K_indep)、背景细节(K_bg)、转场(K_trans)、非主体信息(K_non)。这种分类旨在全面覆盖视频内容的各个方面,并为后续评估提供细粒度锚点。

  2. 整体描述质量评估(Acc & Cov):判断模型(GPT-4.1)接收视频描述和单个关键点,为每个关键点分配提及状态:correct(正确提及)、partial(部分提及或含错误)、none(未提及)。基于这些状态,计算两个指标:

    • 准确性(Acc):正确提及的关键点数占总关键点数的比例,衡量描述的精确性。
    • 覆盖率(Cov):(正确提及 + 部分提及)的关键点数占总关键点数的比例,衡量描述的全面性。 公式为:Acc = |K_correct| / |K|, Cov = (|K_correct| + |K_partial|) / |K|。其中 K_correctK_partial 分别是状态为 correctpartial 的关键点集合。
  3. 主体引用一致性评估(Ref):这是本文的核心创新。其目标是评估模型在长上下文中对同一主体是否保持一致的指代。过程如下:

    • 主体描述提取:对于每个主体 s_j,找出所有与之相关的关键点集合 K_sj(属于 K_interK_indep)。对于该集合中每一个被判断为 correctpartial 的关键点,从模型生成的描述中提取对应的“局部主体描述”。这样就得到了属于该主体的描述集合 D_sj
    • 上下文感知的共指消解聚类:关键在于,主体外观(如服装)可能在不同场景中变化。评估不能仅基于孤立描述的语义。判断模型被指示结合整个视频描述的上下文,对 D_sj 中的描述进行聚类。如果描述在上下文中可以合理推断为指向同一个真实主体(即使外观有变),则归为同一类。聚类结果得到分区 P_sj
    • 一致性分数计算:使用一种基于兰德指数的度量来量化一致性。对于主体 s_j,其一致性分数 Ref_j 计算为:所有聚类内部配对数之和,除以主体相关关键点总数的总配对数。公式为:Ref_j = [Σ_c (|P_j,c| choose 2)] / (|K_sj| choose 2)。分母使用 |K_sj|(而非 |D_sj|)是为了惩罚那些通过生成过于简短的描述来虚高一致性分数的模型。最终视频级 Ref 是所有主体 Ref_j 的平均值。
  4. 评估流程与数据流:如论文Figure 2所示,评估流程是串行的。输入模型生成的描述,先经过整体质量评估模块(步骤2),产出每个关键点的状态和提取的主体描述。然后,这些主体描述输入到引用一致性评估模块(步骤3),进行聚类和分数计算。两个评估阶段共享来自同一个判断模型(GPT-4.1)的能力。

该架构设计的核心优势在于其可解释性(通过关键点和聚类过程追溯错误)和对真实场景复杂性的建模(通过要求上下文感知的聚类来处理主体外观变化)。它通过将复杂的视频理解分解为关键点级别的判断任务,利用LLM的推理能力来完成精细的评估。

图1

图2

💡 核心创新点

  1. 首个聚焦主体引用一致性的长视频描述基准:现有基准(如DREAM-1K, VDC)多关注短视频且忽略场景转换,CapRiCorn-1K首次系统性地将“主体引用一致性”作为核心评估维度,并与长视频、动态场景转换的挑战紧密结合。
  2. 基于关键点与上下文感知聚类的评估协议:提出了一套新颖的评估指标(Acc, Cov, Ref)和对应的实现协议。特别是Ref指标,通过关键点锚定、主体描述提取与上下文感知的共指消解聚类,有效量化了模型在长上下文中维持同一主体指代一致性的能力,这是此前评估中的空白。
  3. 验证评估指标与下游任务的强相关性:通过将生成的描述作为LLM记忆用于推理(理解任务)和作为中间表示用于视频重建(生成任务),定量证明了所提出的Acc/Cov/Ref指标与下游任务性能存在极强的正相关(Pearson系数 > 0.92),从而确立了该基准作为“实用工具”的有效性,而非仅仅是一个排行榜。

📊 实验结果

论文在CapRiCorn-1K及其视觉子集CapRiCorn-1K-V上评估了多款闭源和开源音视频及纯视觉描述模型。主要结果如下表所示(摘自论文Table 2和Table 3):

表2:音频视觉模型在CapRiCorn-1K上的评估结果

模型参数量Overall(0, 2] min(2, 5] min(5, 8] min(8, 10] min
AccCovRefAccCovRefAccCovRefAccCovRefAccCovRef
Gemini-3.1-Pro-42.553.339.140.953.442.444.754.840.442.452.735.342.251.635.4
Gemini-3-Flash-41.552.839.642.855.946.342.152.938.141.151.336.638.548.332.3
Qwen2.5-Omni3B4.111.60.55.815.91.24.111.50.22.68.40.12.37.10.1
video-SALMONN-2+3B9.419.01.111.823.51.99.118.10.88.116.80.66.514.10.4
UGC-VideoCaptioner3B11.821.83.617.430.67.411.020.12.18.317.01.46.513.20.9
ASID-Captioner3B12.823.27.021.737.214.911.921.35.26.313.91.74.59.80.7
ARC-Qwen-Video-Narrator7B2.33.20.64.66.71.51.50.20.21.01.20.10.60.80.0
Qwen2.5-Omni7B5.113.20.66.717.41.25.913.70.53.410.00.32.68.50.1
OmniVinci9B5.913.31.29.921.22.55.312.00.63.28.30.42.56.20.5
ARC-Qwen-Video7B6.910.92.09.215.33.47.211.01.85.89.01.42.84.40.4
video-SALMONN-2+7B9.318.71.412.124.02.39.117.51.07.215.60.66.713.81.0
ASID-Captioner7B18.931.112.930.247.326.318.630.410.310.519.33.87.714.91.9
video-SALMONN-27B22.537.611.327.646.018.223.237.610.619.933.27.114.326.24.0
DiaDem7B24.635.814.540.054.731.323.133.210.213.623.03.310.318.32.0
AVoCaDO7B28.841.918.443.760.636.629.842.415.817.027.55.212.922.33.1
Qwen3-Omni-Instruct30B-A3B10.320.21.613.324.62.510.620.31.68.017.60.96.514.50.7
Qwen3-Omni-Captioner30B-A3B14.327.54.118.133.57.014.427.43.411.423.02.310.221.41.9
video-SALMONN-2+72B11.521.51.914.626.83.010.920.11.49.618.81.38.616.51.1

表3:纯视觉模型���CapRiCorn-1K-V上的评估结果

模型参数量Overall(0, 2] min(2, 5] min(5, 8] min(8, 10] min
AccCovRefAccCovRefAccCovRefAccCovRefAccCovRef
Tarsier27B7.518.84.69.223.67.07.518.74.36.815.93.65.112.91.8
MiMo-VL7B11.723.71.515.630.22.811.924.41.49.619.90.56.214.60.3
Qwen3.59B10.724.73.115.231.96.310.525.02.57.319.21.46.216.50.2
InternVL3.58B13.228.25.418.435.39.812.427.84.110.123.33.08.320.71.7
Qwen3-VL8B15.830.25.123.340.610.814.328.73.011.223.71.99.020.11.1
Qwen3.627B13.427.83.119.036.56.712.326.91.89.922.11.18.119.00.8
Qwen3.635B-A3B11.725.82.916.232.65.211.125.52.68.621.51.17.818.31.1
Qwen3.5122B-A10B11.725.62.615.231.95.212.125.61.79.021.11.27.718.60.5

主要发现:

  1. 性能差距与长视频稳健性:现有模型普遍难以生成准确、全面且主体一致的描述。闭源Gemini系列显著优于开源模型,且性能随视频时长增加下降缓慢。开源模型在长视频上性能(尤其是Ref指标)严重衰减。
  2. 现有基准的局限性:某些专用开源模型(如AVoCaDO, DiaDem)在短视频上整体质量可与Gemini比肩,但在主体一致性和长视频稳健性上差距巨大。这表明它们可能主要针对现有基准(强调短时质量)优化,而忽视了真实世界更关键的长时和一致性要求。
  3. 模型能力由多重因素决定:增大参数量在特定系列内能带来提升,但大模型不等于好性能。例如,7B参数的AVoCaDO远超72B的video-SALMONN-2+,表明架构设计、训练数据分布和优化策略至关重要。
  4. 评估指标有效性验证:如Figure 4所示,Acc/Cov与LLM推理任务(M3-Bench-web)得分强相关(Pearson=0.925),Ref与“人物理解”子任务得分几乎完美相关(Pearson=0.995)。在视频重建任务中,指标与人工评估的视频相似度和主体一致性得分相关系数均达0.987,证明了指标的实用价值。

图3

图4

⚖️ 评分理由

  • 创新性 (1.5/2):在视频描述评估领域提出了明确的空白(主体一致性、长视频、场景转换),并设计了针对性的新基准和评估协议。创新性扎实,但作为基准工作,其方法论的原创性深度有限。
  • 技术严谨性 (1.2/1.5):评估协议设计合理,关键点分类清晰,Ref指标考虑了簇大小分布(借鉴兰德指数)和描述长度偏差(分母用|K_sj|)。消融实验验证了不同判断模型下排名的稳定性(相关系数>0.998)。但评估强依赖GPT-4.1的判断能力,其绝对偏差未充分讨论。
  • 实验充分性 (1.3/1.5):实验设计全面,评估了从3B到72B、闭源到开源的多款代表性模型,包含音视频和纯视觉设置。进行了判断模型消融、下游任务相关性验证、以及关于帧数/分辨率/字长的进一步分析(Appendix C)。表格数据完整呈现。不足在于未提供与其它视频描述基准在相同模型上的直接对比结果,以更直观地体现其评估的区分度。
  • 清晰度 (1.3/1.5):论文结构清晰,对评估流程(Figure 2)、指标公式(1-3)和实验设置(Table 6)的描述非常详细。附录提供了大量复现细节(提示词、实现参数)。但在解释为何选择这五类关键点,或为何Ref分母使用|K_sj|而非|D_sj|时,动机阐述可更充分。
  • 影响力 (0.3/1.5):作为视频理解领域的基准,对语音/音乐/音频领域的读者无直接技术贡献,因此按规则在影响力维度显著扣分。在视频领域内,其作为新评估工具的价值有潜力,但需时间检验。
  • 开源 (1.5/1.5):论文明确承诺开源代码和数据集,并提供了GitHub仓库链接(https://github.com/xlchen0205/CapRiCorn-1K),开源程度高。
  • 可复现性 (1.5/1.5):论文提供了极为详尽的复现材料:所有被评估模型的评估设置(Table 6)、完整的评估提示词(Figures 10-14)、标注系统截图(Figure 5)、以及复现相关分析的代码。结合开源承诺,可复现性极高。
  • 工程/实践价值 (1.3/1.5):构建了一个设计精良、标注严谨、评估协议完备的基准,直接服务于模型开发与评估实践。其指标与下游任务的强相关性增强了其实用价值。主要限制是基准规模(1K视频)和视频时长上限(10分钟)。

🚨 局限与问题

  1. 评估指标的依赖性:整个评估流程强依赖一个强大的判断模型(GPT-4.1)来完成关键点判断、描述提取和聚类。尽管消融实验表明Qwen3-235B能保持排名,但绝对分数存在偏差(如Gemini的Acc从42.5降至27.2)。这意味着基准的“绝对分数”会随判断模型的不同而波动,其“可移植性”受限。论文应更深入讨论如何标准化或缓解这种依赖。
  2. 视频时长与任务范围的局限性:作者在局限性中提到视频限于10分钟内,这可能无法完全反映极长视频(如电影、纪录片)中的挑战。但更根本的是,当前评估完全聚焦于“描述生成”,未考虑“时间定位”或“分段描述”等可能更适合长视频的范式,这限定了基准的适用范围。
  3. 类别偏差与主体定义:八大类别(如“奇幻”、“悬疑”)的具体内容分布未知。某些类别(如“关系”、“家庭”)可能天然包含更多人类主体交互,而“历史”、“生活方式”则可能不同,这可能导致模型在不同类别上的表现存在偏差,而论文未对此进行分析。此外,“主体”的定义(“主动推动故事线的角色”)带有一定的主观性,可能影响标注一致性。
  4. 评估的保守性与全面性权衡:要求模型生成一个“综合性描述”来同时满足Acc、Cov和Ref,可能与实际应用中更常见的“分段描述”或“问答式描述”存在差异。某些模型(如专门优化摘要的模型)可能在这种设置下不占优势,但这不一定是其真实能力不足。
  5. 与现有工作的对比缺失:Table 1很好对比了数据集特性,但实验部分缺乏在相同模型上,同时报告本基准和现有基准(如DREAM-1K)分数的对比。这使得读者难以直观判断本基准是否真的能更好地揭示模型短板(如长视频一致性)。

📷 论文图片

图5


← 返回 2026-06-23 语音/音乐/音频论文速递