SceneRAG: Scene-Level Retrieval-Augmented Generation for Video Understanding

📄 SceneRAG: Scene-Level Retrieval-Augmented Generation for Video Understanding #长视频理解 #检索增强生成 #场景分割 #知识图谱 ✅ 7.5/10 | 前25% | #视频理解 | #检索增强生成 | #长视频理解 #场景分割 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院) 通讯作者:Si Shi(广东人工智能与数字经济实验室(SZ),深圳) 作者列表: Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院) Haowen Hou(广东人工智能与数字经济实验室(SZ),深圳) F. Richard Yu(卡尔顿大学信息技术学院) Si Shi(广东人工智能与数字经济实验室(SZ),深圳) Ying Tiffany He(深圳大学计算机科学与软件工程学院) 💡 毒舌点评 亮点:它将视频理解从机械的“分块切割”提升到了拟人的“场景感知”,并通过动态知识图谱串联起碎片化的证据,在134小时的长视频测试中取得了最高达70.8%的胜率,证明了场景级单元对于长程推理的关键价值。短板:整个框架高度依赖LLM/VLM进行场景划分与描述,其准确性是上限,而论文对这一核心环节的误差传播与鲁棒性讨论略显不足;另外,未提供代码和模型权重,大大削弱了其可复现性。 📌 核心摘要 本文针对长视频理解中现有RAG方法采用固定长度分块导致语境断裂、忽略真实场景边界的问题,提出了SceneRAG框架。其核心是模仿人类认知,利用LLM结合ASR文本与时间元数据,将视频分割成语义一致的“场景”,并通过启发式规则进行细化。然后,为每个场景构建融合视觉与文本信息的动态知识图谱,支持跨场景的多跳检索与长程推理。实验在134小时的LongerVideos基准和Video-MME数据集上进行,结果显示,SceneRAG在生成任务上的胜率从基线的53.26%提升至65.5%,在特定领域最高达70.8%(如图1所示);在Video-MME的长视频子集上准确率达到62.7%,超越了GPT-4V(56.9%)。该工作的实际意义在于提供了一种更符合人类观看习惯的长视频处理范式,能够更好地捕捉叙事连续性和长程依赖。主要局限性在于其对LLM进行场景分割和VLM进行场景描述的质量高度敏感,且框架的计算开销未做深入分析。 🏗️ 模型架构 SceneRAG的整体架构(如图2所示)是一个包含离线构建与在线检索两个阶段的多阶段流水线。 第一阶段:场景分割与知识图谱构建 输入与分块:输入长视频V,首先被分割成重叠的时间片段Chunks(公式1)。 ASR转写:每个片段由Distil-Whisper进行语音识别,得到带时间戳的转录文本Tk。 LLM驱动场景分割:对每个片段,构建包含全局摘要(Summarize(T))、片段文本Tk和约束条件(如最小/最大场景长度)的提示Pk。一个LLM(具体模型未说明)扮演Planner角色,提议场景边界和描述,生成Π。Verifier会检查Π是否满足覆盖完整、无重叠、时间单调等条件。如果不满足,Debugger会根据诊断结果修改提示并迭代(最多rmax轮)。若迭代失败,则使用基于静音或等宽的备选方案(FallbackProposal)。最终通过AlignAndMerge操作得到该片段的场景集S_k。 场景合并与图谱构建:将所有片段的结果合并得到全局场景集S。对每个场景j,均匀采样关键帧,将关键帧与场景转录文本Tj输入VLM(如MiniCPM-V),生成视觉-文本描述Cj(公式4)。从Cj和Tj中提取实体和关系,并通过LLM辅助的融合过程(公式5),得到统一的场景知识集(Nj, Ej)。这些知识被增量式地插入一个图数据库,构建动态知识图谱G = (N, E),节点N代表场景和实体,边E编码共现、时间相邻等关系。 第二阶段:场景检索与生成 5. 编码与检索:对于用户查询q,分别计算查询嵌入eq和所有场景嵌入ej = TEnc([Cj; Tj])。系统在全局token预算τ约束下,通过最大化相似度(公式6)选择一组候选场景R*。 6. 上下文组装与生成:对于每个选中的场景,生成查询相关的视觉描述,并检索其在知识图谱中的局部邻域。所有检索到的片段和图谱信息被拼接成紧凑上下文,输入LLM生成最终答案。 ...

2026-04-29