SVHighlights: Towards Extremely Long Sport Video Highlight Detection
📄 SVHighlights: Towards Extremely Long Sport Video Highlight Detection #多模态模型 7/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7/10 | 前50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构 作者:Donggyu Lee, Youngbin Ki, Jeonghun Kang, Taehwan Kim 机构:Ulsan National Institute of Science and Technology (UNIST), Ulsan, Republic of Korea 💡 毒舌点评 这是一篇典型的“数据集驱动”工作,核心贡献是搭台(SVHighlights数据集)和给出一个免训练的强基线(TF-SELECTOR)。优点是问题定义清晰,直指当前长视频理解的一个空白点,数据集构建流程考虑周全,消融实验也比较扎实。然而,作为一篇顶会论文,其技术深度略显不足。TF-SELECTOR本质上是一个工程化的Pipeline(分割-描述-打分),创新点主要在于组合策略和如何适应长视频,而非提出新的算法模型。数据集的“免人工标注”依赖官方高光视频,这在一定程度上限制了其泛化到非体育领域的能力。实验结果中,TF-SELECTOR在HIT@1等指标上显著领先,但在mAP上不及TRACE,论文对此的解释有说服力(TRACE的稀疏预测策略)。总体而言,这是一篇扎实的系统性工作,为长视频高光检测领域提供了一个急需的基础设施和强力基线,但若期望看到颠覆性的算法创新可能会有些失望。 📌 核心摘要 本文致力于解决视频高光检测领域向小时级长视频扩展的挑战。现有研究因缺乏合适基准而主要局限于短视频。为此,作者构建了首个超长体育视频高光检测基准SVHighlights,包含320个平均时长2小时的视频,总时长超过640小时。该基准通过创新的数据集生成流水线构建,利用官方高光视频与完整比赛视频进行对齐,自动生成标注,避免了昂贵的人工逐片段标注。为在长视频上提供有效基线,作者提出了TF-SELECTOR,一个免训练的框架。其核心思想是将长视频分割为基于转写文本的上下文感知语义片段,利用VLM为每个片段生成文字描述,再结合转写文本和音频音量,由LLM预测片段的高光显著性分数。在SVHighlights基准上的实验表明,TF-SELECTOR在HIT@1、HIT@K和IoU等关键指标上显著优于在短视频数据集上微调的视频时序定位模型。消融研究证实了多模态输入(尤其是转写文本)的重要性。该工作为长视频高光检测领域建立了首个标准化评测平台和强基线。 ...