📄 SceneRAG: Scene-Level Retrieval-Augmented Generation for Video Understanding

#长视频理解 #检索增强生成 #场景分割 #知识图谱

7.5/10 | 前25% | #视频理解 | #检索增强生成 | #长视频理解 #场景分割

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高

👥 作者与机构

  • 第一作者:Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院)
  • 通讯作者:Si Shi(广东人工智能与数字经济实验室(SZ),深圳)
  • 作者列表:
    • Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院)
    • Haowen Hou(广东人工智能与数字经济实验室(SZ),深圳)
    • F. Richard Yu(卡尔顿大学信息技术学院)
    • Si Shi(广东人工智能与数字经济实验室(SZ),深圳)
    • Ying Tiffany He(深圳大学计算机科学与软件工程学院)

💡 毒舌点评

亮点:它将视频理解从机械的“分块切割”提升到了拟人的“场景感知”,并通过动态知识图谱串联起碎片化的证据,在134小时的长视频测试中取得了最高达70.8%的胜率,证明了场景级单元对于长程推理的关键价值。短板:整个框架高度依赖LLM/VLM进行场景划分与描述,其准确性是上限,而论文对这一核心环节的误差传播与鲁棒性讨论略显不足;另外,未提供代码和模型权重,大大削弱了其可复现性。

📌 核心摘要

本文针对长视频理解中现有RAG方法采用固定长度分块导致语境断裂、忽略真实场景边界的问题,提出了SceneRAG框架。其核心是模仿人类认知,利用LLM结合ASR文本与时间元数据,将视频分割成语义一致的“场景”,并通过启发式规则进行细化。然后,为每个场景构建融合视觉与文本信息的动态知识图谱,支持跨场景的多跳检索与长程推理。实验在134小时的LongerVideos基准和Video-MME数据集上进行,结果显示,SceneRAG在生成任务上的胜率从基线的53.26%提升至65.5%,在特定领域最高达70.8%(如图1所示);在Video-MME的长视频子集上准确率达到62.7%,超越了GPT-4V(56.9%)。该工作的实际意义在于提供了一种更符合人类观看习惯的长视频处理范式,能够更好地捕捉叙事连续性和长程依赖。主要局限性在于其对LLM进行场景分割和VLM进行场景描述的质量高度敏感,且框架的计算开销未做深入分析。

🏗️ 模型架构

SceneRAG的整体架构(如图2所示)是一个包含离线构建与在线检索两个阶段的多阶段流水线。

图2: SceneRAG架构

第一阶段:场景分割与知识图谱构建

  1. 输入与分块:输入长视频V,首先被分割成重叠的时间片段Chunks(公式1)。
  2. ASR转写:每个片段由Distil-Whisper进行语音识别,得到带时间戳的转录文本Tk
  3. LLM驱动场景分割:对每个片段,构建包含全局摘要(Summarize(T))、片段文本Tk和约束条件(如最小/最大场景长度)的提示Pk。一个LLM(具体模型未说明)扮演Planner角色,提议场景边界和描述,生成ΠVerifier会检查Π是否满足覆盖完整、无重叠、时间单调等条件。如果不满足,Debugger会根据诊断结果修改提示并迭代(最多rmax轮)。若迭代失败,则使用基于静音或等宽的备选方案(FallbackProposal)。最终通过AlignAndMerge操作得到该片段的场景集S_k
  4. 场景合并与图谱构建:将所有片段的结果合并得到全局场景集S。对每个场景j,均匀采样关键帧,将关键帧与场景转录文本Tj输入VLM(如MiniCPM-V),生成视觉-文本描述Cj(公式4)。从CjTj中提取实体和关系,并通过LLM辅助的融合过程(公式5),得到统一的场景知识集(Nj, Ej)。这些知识被增量式地插入一个图数据库,构建动态知识图谱G = (N, E),节点N代表场景和实体,边E编码共现、时间相邻等关系。

第二阶段:场景检索与生成 5. 编码与检索:对于用户查询q,分别计算查询嵌入eq和所有场景嵌入ej = TEnc([Cj; Tj])。系统在全局token预算τ约束下,通过最大化相似度(公式6)选择一组候选场景R*。 6. 上下文组装与生成:对于每个选中的场景,生成查询相关的视觉描述,并检索其在知识图谱中的局部邻域。所有检索到的片段和图谱信息被拼接成紧凑上下文,输入LLM生成最终答案。

关键设计选择:

  • 场景作为基本单元:这是相对于固定分块的核心改进,旨在保证每个检索单元的语义完整性。
  • LLM+启发式规则分割:利用LLM的语义理解能力提出边界,再用确定性规则(静音检测、标点对齐、小场景合并)进行修正,平衡了灵活性与鲁棒性。
  • 增量式图谱构建:随着视频流处理逐步更新图谱,而非一次性构建,更适合长视频。

💡 核心创新点

  1. LLM引导的语义场景分割:针对固定分块破坏叙事的问题,提出利用LLM融合ASR文本和时间信号进行场景边界划分,并通过多轮验证-调试机制和轻量级启发式规则进行精细化。这直接提升了下游检索单元的语义质量,实验证明仅此改进就能带来性能提升(表4中+LLM)。
  2. 场景级动态多模态知识图谱:不同于传统RAG或静态知识图谱,SceneRAG为每个场景构建融合视觉和文本信息的知识,并维护跨场景的共现和时间边。这使得系统能够进行多跳推理,连接远距离的、可能有共同人物或主题的场景,解决了长程依赖问题。
  3. 预算约束的图引导检索:设计了在严格token预算τ下,基于场景嵌入与查询嵌入的余弦相似度进行检索,并结合局部图谱信息进行上下文组装。这确保了在有限上下文窗口内,能最高效地聚合跨场景的连贯证据,平衡了信息量与处理效率。

🔬 细节详述

  • 训练数据:
    • 评估数据集:LongerVideos(134小时,涵盖讲座、纪录片、娱乐视频)和Video-MME。
    • 训练数据:论文中未明确说明。方法描述中提到了LLM和VLM,但未说明这些模型在SceneRAG框架中是否需要针对视频场景进行微调,以及使用何种训练数据。从描述看,可能更侧重于利用现有LLM/VLM的零样本或少样本能力进行场景描述和分割。
  • 损失函数:论文中未提及。SceneRAG似乎是一个由预训练LLM和VLM驱动的推理框架,而非一个需要端到端训练的模型,因此未提及特定的训练损失函数。
  • 训练策略:论文中未说明。未提及如何训练或微调框架内的任何组件。
  • 关键超参数:
    • 场景长度约束:τmin, τmax(最小和最大场景时长)。
    • 迭代次数上限:rmax
    • 检索token预算:τ(实验中测试了400-3200 token)。
    • 关键帧采样间隔:在LongerVideos上为6秒/帧,在Video-MME上为2秒/帧。
  • 训练硬件:所有实验在单张NVIDIA 3090 GPU上进行。
  • 推理细节:
    • ASR模型:Distil-Whisper。
    • 视觉语言模型:MiniCPM-V。
    • 多模态编码器:ImageBind(用于视觉和文本特征)。
    • 实体/片段检索嵌入:text-embedding-3-small。
    • 生成模型:在评估中使用了GPT-4o-mini, GPT-4.1-mini, GPT-4.1-nano三种模型以保证鲁棒性。
    • 解码策略、温度、beam size等:论文中未说明。
  • 正则化或稳定训练技巧:论文中未提及。

📊 实验结果

主要对比实验结果: 在LongerVideos基准上,SceneRAG与现有RAG方法的胜率对比如表2所示:

方法综合胜率 (Over.)各维度胜率(Comp./Emp./Trust./Depth./Dens.)
NaiveRAG vs SceneRAG34.5% / 65.5%34.8/65.2, 32.8/67.2, 35.4/64.6, 33.6/66.4, 50.0/50.0
GraphRAG-l vs SceneRAG31.6% / 68.4%35.0/65.0, 30.7/69.3, 32.6/67.4, 30.9/69.1, 39.1/60.9
GraphRAG-g vs SceneRAG29.2% / 70.8%32.9/67.1, 29.4/70.6, 27.5/72.5, 28.3/71.7, 41.2/58.8
LightRAG vs SceneRAG30.0% / 70.0%32.5/67.5, 29.2/70.8, 31.0/69.0, 28.7/71.3, 44.1/55.9
VideoRAG vs SceneRAG42.0% / 58.0%43.1/56.9, 41.9/58.1, 41.0/59.0, 38.1/58.3, 48.2/51.8

在Video-MME数据集上,SceneRAG与视频MLLMs的准确率对比如表3所示:

方法短视频 (<2分钟)中视频 (4-15分钟)长视频 (30-60分钟)总体 (Overall)
闭源MLLMs
GPT-4V73.259.756.963.3
GPT-4o82.876.672.177.1
SceneRAG73.866.362.767.6
开源视频MLLMs
Qwen2-VL-7B70.265.359.665.0
MiniCPM-V2.6-8B68.159.652.460.0

关键消融实验: 如表4所示,通过累积添加组件验证了各部分贡献:

策略总体分 (Over.)各维度得分 (Comp./Emp./Trust./Depth./Dens.)
/ (无结构化)3.833.88, 3.76, 3.87, 3.86, 3.87
+Graph4.014.02, 4.05, 3.93, 4.00, 3.98
+LLM4.054.07, 4.13, 4.09, 4.06, 3.99
+Rules4.184.16, 4.19, 4.20, 4.11, 4.12

其他分析:

  • 图3(a)展示了token预算(400-3200)对性能的影响,表明在预算达到2400 token后性能趋于平稳,说明SceneRAG具有较高的信息密度。
  • 图3(b)展示了关键帧采样间隔(2-10秒/帧)对性能的影响,最优值在6秒/帧左右,表明场景结构而非帧密度是主要性能驱动因素。
  • 图1直观展示了固定30秒分块与场景级分块在叙事连贯性和最终胜率上的差异(53.26% vs 65.5%)。

图1: 分块方式对比 图3: 消融分析图

⚖️ 评分理由

  • 学术质量:6.0/7。论文动机清晰,针对视频RAG的痛点提出了一个系统性的解决方案。技术设计合理,融合了LLM的语义能力、启发式规则的鲁棒性以及知识图谱的推理能力。实验充分,在两个代表性基准上进行了全面对比和消融研究,数据详实,结论可信。主要扣分点在于核心组件(场景分割LLM、VLM)多为调用现有模型,自身算法层面的突破性创新有限。
  • 选题价值:1.5/2。长视频理解是当前多模态AI的核心挑战之一,具有重要的学术和应用价值。场景作为视频理解的基本单元,符合人类认知,该框架为处理海量视频数据提供了一种新范式,潜在影响力较大。
  • 开源与复现加成:0.0/1。论文明确提到了多个开源工具(如Distil-Whisper, MiniCPM-V),这降低了复现门槛。然而,对于其核心的场景分割流程、图谱构建和检索算法,并未提供代码、模型权重或详细的实现说明,使得完全复现其系统存在困难。

🔗 开源详情

  • 代码:论文中未提及提供SceneRAG框架本身的代码仓库链接。
  • 模型权重:未提及公开SceneRAG框架下训练或微调的任何模型权重。
  • 数据集:论文使用了公开基准LongerVideos和Video-MME,但未提及是否提供其处理后的场景分割标注或场景知识图谱数据。
  • Demo:未提及提供在线演示。
  • 复现材料:论文给出了详细的算法描述(算法1)和方法流程,但缺乏具体的实现细节、超参数配置文件、训练日志等。硬件环境已说明(单卡3090)。
  • 论文中引用的开源项目:
    • ASR: Distil-Whisper [12]
    • VLM: MiniCPM-V [14]
    • 多模态编码器: ImageBind [24]
    • 实体/片段检索嵌入: text-embedding-3-small (OpenAI)
    • 图RAG基线: GraphRAG [18], LightRAG [19]
  • 论文中未提及开源计划。

← 返回 ICASSP 2026 论文分析