📄 CapRiCorn-1K: A Comprehensive Benchmark for Video Captioning and Subject Referential Consistency Across Temporal Scales
#数据集
8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5
🔥 8.6/10 | 前50% | #语音识别 | #数据集 | arxiv
👥 作者与机构
Xinlong Chen (NLPR, CASIA; UCAS; Kling Team), Jiafu Tang (NJU), Yue Ding (NLPR, CASIA; UCAS), Yizhuo Jia (FDU), Bozhou Li (PKU), Bohan Zeng (PKU), Yang Shi (PKU), Shihao Li (NJU), Yiyan Ji (NJU), Qiang Liu (NLPR, CASIA; UCAS; 通讯作者), Weihong Lin (Kling Team), Yuanxing Zhang (Kling Team), Pengfei Wan (Kling Team), Liang Wang (NLPR, CASIA; UCAS), Tieniu Tan (NLPR, CASIA; UCAS; NJU)。
💡 毒舌点评
这篇工作提出了一个解决视频描述评估中真实痛点(长视频、场景转换、主体一致性)的基准,动机扎实,构建也颇具匠心。然而,它在作为一篇“顶会”工作时,其创新性的天花板受限于其“基准”定位本身——它并非提出新算法,而是提出了新的“尺子”。因此,其主要价值在于实验揭示的发现(如现有模型在长视频主体一致性上的崩溃)和这套评估协议的有效性验证,而非技术上的突破。论文写得清晰,实验充分,但影响力(对语音/音乐/音频领域)有限。评分7.5是对其作为一项扎实的基础设施工作的认可,但不足以冲击顶会核心贡献。
📌 核心摘要
本文提出了CapRiCorn-1K,一个用于全面评估视频描述质量和主体引用一致性的新基准。针对现有基准在视频时长、内容多样性和场景转换上的不足,该基准收集了1000个包含动态场景转换的长视频(15秒至10分钟),覆盖八大类别。其核心创新在于提出了基于视频关键点的评估协议,通过准确性(Acc)、覆盖率(Cov)和基于关键点引用一致性的(Ref)三个指标,综合评估描述质量,并支持音视频与纯视觉两种评估模式。大量实验表明,当前模型在长视频上,尤其是保持主体引用一致性方面表现显著下降,且闭源模型整体优于开源模型。此外,论文通过将描述应用于下游LLM推理和视频重建任务,验证了其评估指标与下游性能的高度相关性,证明了基准的有效性和实用价值。
🔗 开源详情
- 代码:https://github.com/xlchen0205/CapRiCorn-1K
- 模型权重:论文中未提及提供基准自身的模型权重,被评估的模型权重引用自原论文。
- 数据集:CapRiCorn-1K。论文及代码仓库表明数据集将开源,但采用高度限制性许可,仅限学术研究。
- Demo:论文中未提及。
- 复现材料:论文提供了详细的复现与评估材料,包含在附录中:
- 实现细节:附录D详细列出了所有被评估模型的评估设置(如最大分辨率、采样帧率、最大帧数等),见Table 6。
- 评估提示词:附录E提供了用于评估提及状态、提取主体描述、聚类描述的详细提示词(Figures 10, 11, 12),以及用于评估音视频和纯视觉模型的提示词列表(Figures 13, 14)。
- 标注系统:附录B包含了标注系统界面的截图(Figure 5)。
- 分析:附录C提供了关于标题长度、帧数与分辨率权衡的进一步分析(Figure 6)。
- 论文中引用的开源项目:
- LTX-2.3-22B-dev:用于视频重建的扩散模型。论文在“4.4 Correlation with Downstream Tasks”部分提及,但未提供具体链接。引用文献为 (HaCohen et al., 2025)。
- SciPy:版本1.14.1,用于统计分析。论文在“Appendix D Implementation Details”末尾提及,但未提供具体链接。 (注:论文中用于评估的模型(如video-SALMONN-2, Qwen系列, Tarsier2等)均为被评估的对象,论文未提供其具体的开源权重链接,仅引用了相关论文。)
🏗️ 方法概述和架构
CapRiCorn-1K的评估方法是一个多阶段的、以关键点为锚点的流程,其核心思想是将视频内容结构化为离散的关键点,然后利用一个强大的判断模型(GPT-4.1)来评估模型生成的描述与这些关键点的匹配情况。该流程可概括为以下核心组件与交互:
关键点定义与分类:这是评估的基石。对于每个视频,人工标注一组主体
S和一组关键点K。关键点被严格分为五类:主体间交互(K_inter)、独立主体事件(K_indep)、背景细节(K_bg)、转场(K_trans)、非主体信息(K_non)。这种分类旨在全面覆盖视频内容的各个方面,并为后续评估提供细粒度锚点。整体描述质量评估(Acc & Cov):判断模型(GPT-4.1)接收视频描述和单个关键点,为每个关键点分配提及状态:
correct(正确提及)、partial(部分提及或含错误)、none(未提及)。基于这些状态,计算两个指标:- 准确性(Acc):正确提及的关键点数占总关键点数的比例,衡量描述的精确性。
- 覆盖率(Cov):(正确提及 + 部分提及)的关键点数占总关键点数的比例,衡量描述的全面性。
公式为:
Acc = |K_correct| / |K|,Cov = (|K_correct| + |K_partial|) / |K|。其中K_correct和K_partial分别是状态为correct和partial的关键点集合。
主体引用一致性评估(Ref):这是本文的核心创新。其目标是评估模型在长上下文中对同一主体是否保持一致的指代。过程如下:
- 主体描述提取:对于每个主体
s_j,找出所有与之相关的关键点集合K_sj(属于K_inter或K_indep)。对于该集合中每一个被判断为correct或partial的关键点,从模型生成的描述中提取对应的“局部主体描述”。这样就得到了属于该主体的描述集合D_sj。 - 上下文感知的共指消解聚类:关键在于,主体外观(如服装)可能在不同场景中变化。评估不能仅基于孤立描述的语义。判断模型被指示结合整个视频描述的上下文,对
D_sj中的描述进行聚类。如果描述在上下文中可以合理推断为指向同一个真实主体(即使外观有变),则归为同一类。聚类结果得到分区P_sj。 - 一致性分数计算:使用一种基于兰德指数的度量来量化一致性。对于主体
s_j,其一致性分数Ref_j计算为:所有聚类内部配对数之和,除以主体相关关键点总数的总配对数。公式为:Ref_j = [Σ_c (|P_j,c| choose 2)] / (|K_sj| choose 2)。分母使用|K_sj|(而非|D_sj|)是为了惩罚那些通过生成过于简短的描述来虚高一致性分数的模型。最终视频级Ref是所有主体Ref_j的平均值。
- 主体描述提取:对于每个主体
评估流程与数据流:如论文Figure 2所示,评估流程是串行的。输入模型生成的描述,先经过整体质量评估模块(步骤2),产出每个关键点的状态和提取的主体描述。然后,这些主体描述输入到引用一致性评估模块(步骤3),进行聚类和分数计算。两个评估阶段共享来自同一个判断模型(GPT-4.1)的能力。
该架构设计的核心优势在于其可解释性(通过关键点和聚类过程追溯错误)和对真实场景复杂性的建模(通过要求上下文感知的聚类来处理主体外观变化)。它通过将复杂的视频理解分解为关键点级别的判断任务,利用LLM的推理能力来完成精细的评估。


💡 核心创新点
- 首个聚焦主体引用一致性的长视频描述基准:现有基准(如DREAM-1K, VDC)多关注短视频且忽略场景转换,CapRiCorn-1K首次系统性地将“主体引用一致性”作为核心评估维度,并与长视频、动态场景转换的挑战紧密结合。
- 基于关键点与上下文感知聚类的评估协议:提出了一套新颖的评估指标(Acc, Cov, Ref)和对应的实现协议。特别是Ref指标,通过关键点锚定、主体描述提取与上下文感知的共指消解聚类,有效量化了模型在长上下文中维持同一主体指代一致性的能力,这是此前评估中的空白。
- 验证评估指标与下游任务的强相关性:通过将生成的描述作为LLM记忆用于推理(理解任务)和作为中间表示用于视频重建(生成任务),定量证明了所提出的Acc/Cov/Ref指标与下游任务性能存在极强的正相关(Pearson系数 > 0.92),从而确立了该基准作为“实用工具”的有效性,而非仅仅是一个排行榜。
📊 实验结果
论文在CapRiCorn-1K及其视觉子集CapRiCorn-1K-V上评估了多款闭源和开源音视频及纯视觉描述模型。主要结果如下表所示(摘自论文Table 2和Table 3):
表2:音频视觉模型在CapRiCorn-1K上的评估结果
| 模型 | 参数量 | Overall | (0, 2] min | (2, 5] min | (5, 8] min | (8, 10] min | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Acc | Cov | Ref | Acc | Cov | Ref | Acc | Cov | Ref | Acc | Cov | Ref | Acc | Cov | Ref | ||
| Gemini-3.1-Pro | - | 42.5 | 53.3 | 39.1 | 40.9 | 53.4 | 42.4 | 44.7 | 54.8 | 40.4 | 42.4 | 52.7 | 35.3 | 42.2 | 51.6 | 35.4 |
| Gemini-3-Flash | - | 41.5 | 52.8 | 39.6 | 42.8 | 55.9 | 46.3 | 42.1 | 52.9 | 38.1 | 41.1 | 51.3 | 36.6 | 38.5 | 48.3 | 32.3 |
| Qwen2.5-Omni | 3B | 4.1 | 11.6 | 0.5 | 5.8 | 15.9 | 1.2 | 4.1 | 11.5 | 0.2 | 2.6 | 8.4 | 0.1 | 2.3 | 7.1 | 0.1 |
| video-SALMONN-2+ | 3B | 9.4 | 19.0 | 1.1 | 11.8 | 23.5 | 1.9 | 9.1 | 18.1 | 0.8 | 8.1 | 16.8 | 0.6 | 6.5 | 14.1 | 0.4 |
| UGC-VideoCaptioner | 3B | 11.8 | 21.8 | 3.6 | 17.4 | 30.6 | 7.4 | 11.0 | 20.1 | 2.1 | 8.3 | 17.0 | 1.4 | 6.5 | 13.2 | 0.9 |
| ASID-Captioner | 3B | 12.8 | 23.2 | 7.0 | 21.7 | 37.2 | 14.9 | 11.9 | 21.3 | 5.2 | 6.3 | 13.9 | 1.7 | 4.5 | 9.8 | 0.7 |
| ARC-Qwen-Video-Narrator | 7B | 2.3 | 3.2 | 0.6 | 4.6 | 6.7 | 1.5 | 1.5 | 0.2 | 0.2 | 1.0 | 1.2 | 0.1 | 0.6 | 0.8 | 0.0 |
| Qwen2.5-Omni | 7B | 5.1 | 13.2 | 0.6 | 6.7 | 17.4 | 1.2 | 5.9 | 13.7 | 0.5 | 3.4 | 10.0 | 0.3 | 2.6 | 8.5 | 0.1 |
| OmniVinci | 9B | 5.9 | 13.3 | 1.2 | 9.9 | 21.2 | 2.5 | 5.3 | 12.0 | 0.6 | 3.2 | 8.3 | 0.4 | 2.5 | 6.2 | 0.5 |
| ARC-Qwen-Video | 7B | 6.9 | 10.9 | 2.0 | 9.2 | 15.3 | 3.4 | 7.2 | 11.0 | 1.8 | 5.8 | 9.0 | 1.4 | 2.8 | 4.4 | 0.4 |
| video-SALMONN-2+ | 7B | 9.3 | 18.7 | 1.4 | 12.1 | 24.0 | 2.3 | 9.1 | 17.5 | 1.0 | 7.2 | 15.6 | 0.6 | 6.7 | 13.8 | 1.0 |
| ASID-Captioner | 7B | 18.9 | 31.1 | 12.9 | 30.2 | 47.3 | 26.3 | 18.6 | 30.4 | 10.3 | 10.5 | 19.3 | 3.8 | 7.7 | 14.9 | 1.9 |
| video-SALMONN-2 | 7B | 22.5 | 37.6 | 11.3 | 27.6 | 46.0 | 18.2 | 23.2 | 37.6 | 10.6 | 19.9 | 33.2 | 7.1 | 14.3 | 26.2 | 4.0 |
| DiaDem | 7B | 24.6 | 35.8 | 14.5 | 40.0 | 54.7 | 31.3 | 23.1 | 33.2 | 10.2 | 13.6 | 23.0 | 3.3 | 10.3 | 18.3 | 2.0 |
| AVoCaDO | 7B | 28.8 | 41.9 | 18.4 | 43.7 | 60.6 | 36.6 | 29.8 | 42.4 | 15.8 | 17.0 | 27.5 | 5.2 | 12.9 | 22.3 | 3.1 |
| Qwen3-Omni-Instruct | 30B-A3B | 10.3 | 20.2 | 1.6 | 13.3 | 24.6 | 2.5 | 10.6 | 20.3 | 1.6 | 8.0 | 17.6 | 0.9 | 6.5 | 14.5 | 0.7 |
| Qwen3-Omni-Captioner | 30B-A3B | 14.3 | 27.5 | 4.1 | 18.1 | 33.5 | 7.0 | 14.4 | 27.4 | 3.4 | 11.4 | 23.0 | 2.3 | 10.2 | 21.4 | 1.9 |
| video-SALMONN-2+ | 72B | 11.5 | 21.5 | 1.9 | 14.6 | 26.8 | 3.0 | 10.9 | 20.1 | 1.4 | 9.6 | 18.8 | 1.3 | 8.6 | 16.5 | 1.1 |
表3:纯视觉模型���CapRiCorn-1K-V上的评估结果
| 模型 | 参数量 | Overall | (0, 2] min | (2, 5] min | (5, 8] min | (8, 10] min | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Acc | Cov | Ref | Acc | Cov | Ref | Acc | Cov | Ref | Acc | Cov | Ref | Acc | Cov | Ref | ||
| Tarsier2 | 7B | 7.5 | 18.8 | 4.6 | 9.2 | 23.6 | 7.0 | 7.5 | 18.7 | 4.3 | 6.8 | 15.9 | 3.6 | 5.1 | 12.9 | 1.8 |
| MiMo-VL | 7B | 11.7 | 23.7 | 1.5 | 15.6 | 30.2 | 2.8 | 11.9 | 24.4 | 1.4 | 9.6 | 19.9 | 0.5 | 6.2 | 14.6 | 0.3 |
| Qwen3.5 | 9B | 10.7 | 24.7 | 3.1 | 15.2 | 31.9 | 6.3 | 10.5 | 25.0 | 2.5 | 7.3 | 19.2 | 1.4 | 6.2 | 16.5 | 0.2 |
| InternVL3.5 | 8B | 13.2 | 28.2 | 5.4 | 18.4 | 35.3 | 9.8 | 12.4 | 27.8 | 4.1 | 10.1 | 23.3 | 3.0 | 8.3 | 20.7 | 1.7 |
| Qwen3-VL | 8B | 15.8 | 30.2 | 5.1 | 23.3 | 40.6 | 10.8 | 14.3 | 28.7 | 3.0 | 11.2 | 23.7 | 1.9 | 9.0 | 20.1 | 1.1 |
| Qwen3.6 | 27B | 13.4 | 27.8 | 3.1 | 19.0 | 36.5 | 6.7 | 12.3 | 26.9 | 1.8 | 9.9 | 22.1 | 1.1 | 8.1 | 19.0 | 0.8 |
| Qwen3.6 | 35B-A3B | 11.7 | 25.8 | 2.9 | 16.2 | 32.6 | 5.2 | 11.1 | 25.5 | 2.6 | 8.6 | 21.5 | 1.1 | 7.8 | 18.3 | 1.1 |
| Qwen3.5 | 122B-A10B | 11.7 | 25.6 | 2.6 | 15.2 | 31.9 | 5.2 | 12.1 | 25.6 | 1.7 | 9.0 | 21.1 | 1.2 | 7.7 | 18.6 | 0.5 |
主要发现:
- 性能差距与长视频稳健性:现有模型普遍难以生成准确、全面且主体一致的描述。闭源Gemini系列显著优于开源模型,且性能随视频时长增加下降缓慢。开源模型在长视频上性能(尤其是Ref指标)严重衰减。
- 现有基准的局限性:某些专用开源模型(如AVoCaDO, DiaDem)在短视频上整体质量可与Gemini比肩,但在主体一致性和长视频稳健性上差距巨大。这表明它们可能主要针对现有基准(强调短时质量)优化,而忽视了真实世界更关键的长时和一致性要求。
- 模型能力由多重因素决定:增大参数量在特定系列内能带来提升,但大模型不等于好性能。例如,7B参数的AVoCaDO远超72B的video-SALMONN-2+,表明架构设计、训练数据分布和优化策略至关重要。
- 评估指标有效性验证:如Figure 4所示,Acc/Cov与LLM推理任务(M3-Bench-web)得分强相关(Pearson=0.925),Ref与“人物理解”子任务得分几乎完美相关(Pearson=0.995)。在视频重建任务中,指标与人工评估的视频相似度和主体一致性得分相关系数均达0.987,证明了指标的实用价值。


⚖️ 评分理由
- 创新性 (1.5/2):在视频描述评估领域提出了明确的空白(主体一致性、长视频、场景转换),并设计了针对性的新基准和评估协议。创新性扎实,但作为基准工作,其方法论的原创性深度有限。
- 技术严谨性 (1.2/1.5):评估协议设计合理,关键点分类清晰,Ref指标考虑了簇大小分布(借鉴兰德指数)和描述长度偏差(分母用
|K_sj|)。消融实验验证了不同判断模型下排名的稳定性(相关系数>0.998)。但评估强依赖GPT-4.1的判断能力,其绝对偏差未充分讨论。 - 实验充分性 (1.3/1.5):实验设计全面,评估了从3B到72B、闭源到开源的多款代表性模型,包含音视频和纯视觉设置。进行了判断模型消融、下游任务相关性验证、以及关于帧数/分辨率/字长的进一步分析(Appendix C)。表格数据完整呈现。不足在于未提供与其它视频描述基准在相同模型上的直接对比结果,以更直观地体现其评估的区分度。
- 清晰度 (1.3/1.5):论文结构清晰,对评估流程(Figure 2)、指标公式(1-3)和实验设置(Table 6)的描述非常详细。附录提供了大量复现细节(提示词、实现参数)。但在解释为何选择这五类关键点,或为何Ref分母使用
|K_sj|而非|D_sj|时,动机阐述可更充分。 - 影响力 (0.3/1.5):作为视频理解领域的基准,对语音/音乐/音频领域的读者无直接技术贡献,因此按规则在影响力维度显著扣分。在视频领域内,其作为新评估工具的价值有潜力,但需时间检验。
- 开源 (1.5/1.5):论文明确承诺开源代码和数据集,并提供了GitHub仓库链接(https://github.com/xlchen0205/CapRiCorn-1K),开源程度高。
- 可复现性 (1.5/1.5):论文提供了极为详尽的复现材料:所有被评估模型的评估设置(Table 6)、完整的评估提示词(Figures 10-14)、标注系统截图(Figure 5)、以及复现相关分析的代码。结合开源承诺,可复现性极高。
- 工程/实践价值 (1.3/1.5):构建了一个设计精良、标注严谨、评估协议完备的基准,直接服务于模型开发与评估实践。其指标与下游任务的强相关性增强了其实用价值。主要限制是基准规模(1K视频)和视频时长上限(10分钟)。
🚨 局限与问题
- 评估指标的依赖性:整个评估流程强依赖一个强大的判断模型(GPT-4.1)来完成关键点判断、描述提取和聚类。尽管消融实验表明Qwen3-235B能保持排名,但绝对分数存在偏差(如Gemini的Acc从42.5降至27.2)。这意味着基准的“绝对分数”会随判断模型的不同而波动,其“可移植性”受限。论文应更深入讨论如何标准化或缓解这种依赖。
- 视频时长与任务范围的局限性:作者在局限性中提到视频限于10分钟内,这可能无法完全反映极长视频(如电影、纪录片)中的挑战。但更根本的是,当前评估完全聚焦于“描述生成”,未考虑“时间定位”或“分段描述”等可能更适合长视频的范式,这限定了基准的适用范围。
- 类别偏差与主体定义:八大类别(如“奇幻”、“悬疑”)的具体内容分布未知。某些类别(如“关系”、“家庭”)可能天然包含更多人类主体交互,而“历史”、“生活方式”则可能不同,这可能导致模型在不同类别上的表现存在偏差,而论文未对此进行分析。此外,“主体”的定义(“主动推动故事线的角色”)带有一定的主观性,可能影响标注一致性。
- 评估的保守性与全面性权衡:要求模型生成一个“综合性描述”来同时满足Acc、Cov和Ref,可能与实际应用中更常见的“分段描述”或“问答式描述”存在差异。某些模型(如专门优化摘要的模型)可能在这种设置下不占优势,但这不一定是其真实能力不足。
- 与现有工作的对比缺失:Table 1很好对比了数据集特性,但实验部分缺乏在相同模型上,同时报告本基准和现有基准(如DREAM-1K)分数的对比。这使得读者难以直观判断本基准是否真的能更好地揭示模型短板(如长视频一致性)。
📷 论文图片
