📄 CapRiCorn-1K: A Comprehensive Benchmark for Video Captioning and Subject Referential Consistency Across Temporal Scales

#数据集

8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5

🔥 8.6/10 | 前50% | #语音识别 | #数据集 | arxiv

👥 作者与机构

Xinlong Chen (NLPR, CASIA; UCAS; Kling Team), Jiafu Tang (NJU), Yue Ding (NLPR, CASIA; UCAS), Yizhuo Jia (FDU), Bozhou Li (PKU), Bohan Zeng (PKU), Yang Shi (PKU), Shihao Li (NJU), Yiyan Ji (NJU), Qiang Liu (NLPR, CASIA; UCAS; 通讯作者), Weihong Lin (Kling Team), Yuanxing Zhang (Kling Team), Pengfei Wan (Kling Team), Liang Wang (NLPR, CASIA; UCAS), Tieniu Tan (NLPR, CASIA; UCAS; NJU)。

💡 毒舌点评

这篇工作提出了一个解决视频描述评估中真实痛点（长视频、场景转换、主体一致性）的基准，动机扎实，构建也颇具匠心。然而，它在作为一篇“顶会”工作时，其创新性的天花板受限于其“基准”定位本身——它并非提出新算法，而是提出了新的“尺子”。因此，其主要价值在于实验揭示的发现（如现有模型在长视频主体一致性上的崩溃）和这套评估协议的有效性验证，而非技术上的突破。论文写得清晰，实验充分，但影响力（对语音/音乐/音频领域）有限。评分7.5是对其作为一项扎实的基础设施工作的认可，但不足以冲击顶会核心贡献。

📌 核心摘要

本文提出了CapRiCorn-1K，一个用于全面评估视频描述质量和主体引用一致性的新基准。针对现有基准在视频时长、内容多样性和场景转换上的不足，该基准收集了1000个包含动态场景转换的长视频（15秒至10分钟），覆盖八大类别。其核心创新在于提出了基于视频关键点的评估协议，通过准确性（Acc）、覆盖率（Cov）和基于关键点引用一致性的（Ref）三个指标，综合评估描述质量，并支持音视频与纯视觉两种评估模式。大量实验表明，当前模型在长视频上，尤其是保持主体引用一致性方面表现显著下降，且闭源模型整体优于开源模型。此外，论文通过将描述应用于下游LLM推理和视频重建任务，验证了其评估指标与下游性能的高度相关性，证明了基准的有效性和实用价值。

🔗 开源详情

代码：https://github.com/xlchen0205/CapRiCorn-1K
模型权重：论文中未提及提供基准自身的模型权重，被评估的模型权重引用自原论文。
数据集：CapRiCorn-1K。论文及代码仓库表明数据集将开源，但采用高度限制性许可，仅限学术研究。
Demo：论文中未提及。
复现材料：论文提供了详细的复现与评估材料，包含在附录中：
- 实现细节：附录D详细列出了所有被评估模型的评估设置（如最大分辨率、采样帧率、最大帧数等），见Table 6。
- 评估提示词：附录E提供了用于评估提及状态、提取主体描述、聚类描述的详细提示词（Figures 10, 11, 12），以及用于评估音视频和纯视觉模型的提示词列表（Figures 13, 14）。
- 标注系统：附录B包含了标注系统界面的截图（Figure 5）。
- 分析：附录C提供了关于标题长度、帧数与分辨率权衡的进一步分析（Figure 6）。
论文中引用的开源项目：
1. LTX-2.3-22B-dev：用于视频重建的扩散模型。论文在“4.4 Correlation with Downstream Tasks”部分提及，但未提供具体链接。引用文献为 (HaCohen et al., 2025)。
2. SciPy：版本1.14.1，用于统计分析。论文在“Appendix D Implementation Details”末尾提及，但未提供具体链接。（注：论文中用于评估的模型（如video-SALMONN-2, Qwen系列, Tarsier2等）均为被评估的对象，论文未提供其具体的开源权重链接，仅引用了相关论文。）

🏗️ 方法概述和架构

CapRiCorn-1K的评估方法是一个多阶段的、以关键点为锚点的流程，其核心思想是将视频内容结构化为离散的关键点，然后利用一个强大的判断模型（GPT-4.1）来评估模型生成的描述与这些关键点的匹配情况。该流程可概括为以下核心组件与交互：

关键点定义与分类：这是评估的基石。对于每个视频，人工标注一组主体 S 和一组关键点 K。关键点被严格分为五类：主体间交互（K_inter）、独立主体事件（K_indep）、背景细节（K_bg）、转场（K_trans）、非主体信息（K_non）。这种分类旨在全面覆盖视频内容的各个方面，并为后续评估提供细粒度锚点。
整体描述质量评估（Acc & Cov）：判断模型（GPT-4.1）接收视频描述和单个关键点，为每个关键点分配提及状态：correct（正确提及）、partial（部分提及或含错误）、none（未提及）。基于这些状态，计算两个指标：
- 准确性（Acc）：正确提及的关键点数占总关键点数的比例，衡量描述的精确性。
- 覆盖率（Cov）：（正确提及 + 部分提及）的关键点数占总关键点数的比例，衡量描述的全面性。公式为：Acc = |K_correct| / |K|, Cov = (|K_correct| + |K_partial|) / |K|。其中 K_correct 和 K_partial 分别是状态为 correct 和 partial 的关键点集合。
主体引用一致性评估（Ref）：这是本文的核心创新。其目标是评估模型在长上下文中对同一主体是否保持一致的指代。过程如下：
- 主体描述提取：对于每个主体 s_j，找出所有与之相关的关键点集合 K_sj（属于 K_inter 或 K_indep）。对于该集合中每一个被判断为 correct 或 partial 的关键点，从模型生成的描述中提取对应的“局部主体描述”。这样就得到了属于该主体的描述集合 D_sj。
- 上下文感知的共指消解聚类：关键在于，主体外观（如服装）可能在不同场景中变化。评估不能仅基于孤立描述的语义。判断模型被指示结合整个视频描述的上下文，对 D_sj 中的描述进行聚类。如果描述在上下文中可以合理推断为指向同一个真实主体（即使外观有变），则归为同一类。聚类结果得到分区 P_sj。
- 一致性分数计算：使用一种基于兰德指数的度量来量化一致性。对于主体 s_j，其一致性分数 Ref_j 计算为：所有聚类内部配对数之和，除以主体相关关键点总数的总配对数。公式为：Ref_j = [Σ_c (|P_j,c| choose 2)] / (|K_sj| choose 2)。分母使用 |K_sj|（而非 |D_sj|）是为了惩罚那些通过生成过于简短的描述来虚高一致性分数的模型。最终视频级 Ref 是所有主体 Ref_j 的平均值。
评估流程与数据流：如论文Figure 2所示，评估流程是串行的。输入模型生成的描述，先经过整体质量评估模块（步骤2），产出每个关键点的状态和提取的主体描述。然后，这些主体描述输入到引用一致性评估模块（步骤3），进行聚类和分数计算。两个评估阶段共享来自同一个判断模型（GPT-4.1）的能力。

该架构设计的核心优势在于其可解释性（通过关键点和聚类过程追溯错误）和对真实场景复杂性的建模（通过要求上下文感知的聚类来处理主体外观变化）。它通过将复杂的视频理解分解为关键点级别的判断任务，利用LLM的推理能力来完成精细的评估。

💡 核心创新点

首个聚焦主体引用一致性的长视频描述基准：现有基准（如DREAM-1K， VDC）多关注短视频且忽略场景转换，CapRiCorn-1K首次系统性地将“主体引用一致性”作为核心评估维度，并与长视频、动态场景转换的挑战紧密结合。
基于关键点与上下文感知聚类的评估协议：提出了一套新颖的评估指标（Acc, Cov, Ref）和对应的实现协议。特别是Ref指标，通过关键点锚定、主体描述提取与上下文感知的共指消解聚类，有效量化了模型在长上下文中维持同一主体指代一致性的能力，这是此前评估中的空白。
验证评估指标与下游任务的强相关性：通过将生成的描述作为LLM记忆用于推理（理解任务）和作为中间表示用于视频重建（生成任务），定量证明了所提出的Acc/Cov/Ref指标与下游任务性能存在极强的正相关（Pearson系数 > 0.92），从而确立了该基准作为“实用工具”的有效性，而非仅仅是一个排行榜。

📊 实验结果

论文在CapRiCorn-1K及其视觉子集CapRiCorn-1K-V上评估了多款闭源和开源音视频及纯视觉描述模型。主要结果如下表所示（摘自论文Table 2和Table 3）：

表2：音频视觉模型在CapRiCorn-1K上的评估结果

模型	参数量	Overall			(0, 2] min			(2, 5] min			(5, 8] min			(8, 10] min
		Acc	Cov	Ref	Acc	Cov	Ref	Acc	Cov	Ref	Acc	Cov	Ref	Acc	Cov	Ref
Gemini-3.1-Pro	-	42.5	53.3	39.1	40.9	53.4	42.4	44.7	54.8	40.4	42.4	52.7	35.3	42.2	51.6	35.4
Gemini-3-Flash	-	41.5	52.8	39.6	42.8	55.9	46.3	42.1	52.9	38.1	41.1	51.3	36.6	38.5	48.3	32.3
Qwen2.5-Omni	3B	4.1	11.6	0.5	5.8	15.9	1.2	4.1	11.5	0.2	2.6	8.4	0.1	2.3	7.1	0.1
video-SALMONN-2+	3B	9.4	19.0	1.1	11.8	23.5	1.9	9.1	18.1	0.8	8.1	16.8	0.6	6.5	14.1	0.4
UGC-VideoCaptioner	3B	11.8	21.8	3.6	17.4	30.6	7.4	11.0	20.1	2.1	8.3	17.0	1.4	6.5	13.2	0.9
ASID-Captioner	3B	12.8	23.2	7.0	21.7	37.2	14.9	11.9	21.3	5.2	6.3	13.9	1.7	4.5	9.8	0.7
ARC-Qwen-Video-Narrator	7B	2.3	3.2	0.6	4.6	6.7	1.5	1.5	0.2	0.2	1.0	1.2	0.1	0.6	0.8	0.0
Qwen2.5-Omni	7B	5.1	13.2	0.6	6.7	17.4	1.2	5.9	13.7	0.5	3.4	10.0	0.3	2.6	8.5	0.1
OmniVinci	9B	5.9	13.3	1.2	9.9	21.2	2.5	5.3	12.0	0.6	3.2	8.3	0.4	2.5	6.2	0.5
ARC-Qwen-Video	7B	6.9	10.9	2.0	9.2	15.3	3.4	7.2	11.0	1.8	5.8	9.0	1.4	2.8	4.4	0.4
video-SALMONN-2+	7B	9.3	18.7	1.4	12.1	24.0	2.3	9.1	17.5	1.0	7.2	15.6	0.6	6.7	13.8	1.0
ASID-Captioner	7B	18.9	31.1	12.9	30.2	47.3	26.3	18.6	30.4	10.3	10.5	19.3	3.8	7.7	14.9	1.9
video-SALMONN-2	7B	22.5	37.6	11.3	27.6	46.0	18.2	23.2	37.6	10.6	19.9	33.2	7.1	14.3	26.2	4.0
DiaDem	7B	24.6	35.8	14.5	40.0	54.7	31.3	23.1	33.2	10.2	13.6	23.0	3.3	10.3	18.3	2.0
AVoCaDO	7B	28.8	41.9	18.4	43.7	60.6	36.6	29.8	42.4	15.8	17.0	27.5	5.2	12.9	22.3	3.1
Qwen3-Omni-Instruct	30B-A3B	10.3	20.2	1.6	13.3	24.6	2.5	10.6	20.3	1.6	8.0	17.6	0.9	6.5	14.5	0.7
Qwen3-Omni-Captioner	30B-A3B	14.3	27.5	4.1	18.1	33.5	7.0	14.4	27.4	3.4	11.4	23.0	2.3	10.2	21.4	1.9
video-SALMONN-2+	72B	11.5	21.5	1.9	14.6	26.8	3.0	10.9	20.1	1.4	9.6	18.8	1.3	8.6	16.5	1.1

表3：纯视觉模型��CapRiCorn-1K-V上的评估结果

模型	参数量	Overall			(0, 2] min			(2, 5] min			(5, 8] min			(8, 10] min
		Acc	Cov	Ref	Acc	Cov	Ref	Acc	Cov	Ref	Acc	Cov	Ref	Acc	Cov	Ref
Tarsier2	7B	7.5	18.8	4.6	9.2	23.6	7.0	7.5	18.7	4.3	6.8	15.9	3.6	5.1	12.9	1.8
MiMo-VL	7B	11.7	23.7	1.5	15.6	30.2	2.8	11.9	24.4	1.4	9.6	19.9	0.5	6.2	14.6	0.3
Qwen3.5	9B	10.7	24.7	3.1	15.2	31.9	6.3	10.5	25.0	2.5	7.3	19.2	1.4	6.2	16.5	0.2
InternVL3.5	8B	13.2	28.2	5.4	18.4	35.3	9.8	12.4	27.8	4.1	10.1	23.3	3.0	8.3	20.7	1.7
Qwen3-VL	8B	15.8	30.2	5.1	23.3	40.6	10.8	14.3	28.7	3.0	11.2	23.7	1.9	9.0	20.1	1.1
Qwen3.6	27B	13.4	27.8	3.1	19.0	36.5	6.7	12.3	26.9	1.8	9.9	22.1	1.1	8.1	19.0	0.8
Qwen3.6	35B-A3B	11.7	25.8	2.9	16.2	32.6	5.2	11.1	25.5	2.6	8.6	21.5	1.1	7.8	18.3	1.1
Qwen3.5	122B-A10B	11.7	25.6	2.6	15.2	31.9	5.2	12.1	25.6	1.7	9.0	21.1	1.2	7.7	18.6	0.5

主要发现：

性能差距与长视频稳健性：现有模型普遍难以生成准确、全面且主体一致的描述。闭源Gemini系列显著优于开源模型，且性能随视频时长增加下降缓慢。开源模型在长视频上性能（尤其是Ref指标）严重衰减。
现有基准的局限性：某些专用开源模型（如AVoCaDO， DiaDem）在短视频上整体质量可与Gemini比肩，但在主体一致性和长视频稳健性上差距巨大。这表明它们可能主要针对现有基准（强调短时质量）优化，而忽视了真实世界更关键的长时和一致性要求。
模型能力由多重因素决定：增大参数量在特定系列内能带来提升，但大模型不等于好性能。例如，7B参数的AVoCaDO远超72B的video-SALMONN-2+，表明架构设计、训练数据分布和优化策略至关重要。
评估指标有效性验证：如Figure 4所示，Acc/Cov与LLM推理任务（M3-Bench-web）得分强相关（Pearson=0.925），Ref与“人物理解”子任务得分几乎完美相关（Pearson=0.995）。在视频重建任务中，指标与人工评估的视频相似度和主体一致性得分相关系数均达0.987，证明了指标的实用价值。

⚖️ 评分理由

创新性 (1.5/2)：在视频描述评估领域提出了明确的空白（主体一致性、长视频、场景转换），并设计了针对性的新基准和评估协议。创新性扎实，但作为基准工作，其方法论的原创性深度有限。
技术严谨性 (1.2/1.5)：评估协议设计合理，关键点分类清晰，Ref指标考虑了簇大小分布（借鉴兰德指数）和描述长度偏差（分母用|K_sj|）。消融实验验证了不同判断模型下排名的稳定性（相关系数>0.998）。但评估强依赖GPT-4.1的判断能力，其绝对偏差未充分讨论。
实验充分性 (1.3/1.5)：实验设计全面，评估了从3B到72B、闭源到开源的多款代表性模型，包含音视频和纯视觉设置。进行了判断模型消融、下游任务相关性验证、以及关于帧数/分辨率/字长的进一步分析（Appendix C）。表格数据完整呈现。不足在于未提供与其它视频描述基准在相同模型上的直接对比结果，以更直观地体现其评估的区分度。
清晰度 (1.3/1.5)：论文结构清晰，对评估流程（Figure 2）、指标公式（1-3）和实验设置（Table 6）的描述非常详细。附录提供了大量复现细节（提示词、实现参数）。但在解释为何选择这五类关键点，或为何Ref分母使用|K_sj|而非|D_sj|时，动机阐述可更充分。
影响力 (0.3/1.5)：作为视频理解领域的基准，对语音/音乐/音频领域的读者无直接技术贡献，因此按规则在影响力维度显著扣分。在视频领域内，其作为新评估工具的价值有潜力，但需时间检验。
开源 (1.5/1.5)：论文明确承诺开源代码和数据集，并提供了GitHub仓库链接（https://github.com/xlchen0205/CapRiCorn-1K），开源程度高。
可复现性 (1.5/1.5)：论文提供了极为详尽的复现材料：所有被评估模型的评估设置（Table 6）、完整的评估提示词（Figures 10-14）、标注系统截图（Figure 5）、以及复现相关分析的代码。结合开源承诺，可复现性极高。
工程/实践价值 (1.3/1.5)：构建了一个设计精良、标注严谨、评估协议完备的基准，直接服务于模型开发与评估实践。其指标与下游任务的强相关性增强了其实用价值。主要限制是基准规模（1K视频）和视频时长上限（10分钟）。

🚨 局限与问题

评估指标的依赖性：整个评估流程强依赖一个强大的判断模型（GPT-4.1）来完成关键点判断、描述提取和聚类。尽管消融实验表明Qwen3-235B能保持排名，但绝对分数存在偏差（如Gemini的Acc从42.5降至27.2）。这意味着基准的“绝对分数”会随判断模型的不同而波动，其“可移植性”受限。论文应更深入讨论如何标准化或缓解这种依赖。
视频时长与任务范围的局限性：作者在局限性中提到视频限于10分钟内，这可能无法完全反映极长视频（如电影、纪录片）中的挑战。但更根本的是，当前评估完全聚焦于“描述生成”，未考虑“时间定位”或“分段描述”等可能更适合长视频的范式，这限定了基准的适用范围。
类别偏差与主体定义：八大类别（如“奇幻”、“悬疑”）的具体内容分布未知。某些类别（如“关系”、“家庭”）可能天然包含更多人类主体交互，而“历史”、“生活方式”则可能不同，这可能导致模型在不同类别上的表现存在偏差，而论文未对此进行分析。此外，“主体”的定义（“主动推动故事线的角色”）带有一定的主观性，可能影响标注一致性。
评估的保守性与全面性权衡：要求模型生成一个“综合性描述”来同时满足Acc、Cov和Ref，可能与实际应用中更常见的“分段描述”或“问答式描述”存在差异。某些模型（如专门优化摘要的模型）可能在这种设置下不占优势，但这不一定是其真实能力不足。
与现有工作的对比缺失：Table 1很好对比了数据集特性，但实验部分缺乏在相同模型上，同时报告本基准和现有基准（如DREAM-1K）分数的对比。这使得读者难以直观判断本基准是否真的能更好地揭示模型短板（如长视频一致性）。

📷 论文图片

← 返回 2026-06-23 语音/音乐/音频论文速递

📄 CapRiCorn-1K: A Comprehensive Benchmark for Video Captioning and Subject Referential Consistency Across Temporal Scales#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📷 论文图片#

📎 相关论文