CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering
📄 CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering #多模态问答 #多模态模型 #大语言模型 #基准测试 #视频理解 ✅ 6.6/10 | 前50% | #多模态问答 | #多模态模型 | #大语言模型 #基准测试 | arxiv 学术质量 5.0/7 | 影响力 0.3/2 | 可复现性 1.3/2 | 置信度 高 👥 作者与机构 第一作者:Mahesh Bhosale(University at Buffalo) 通讯作者:Mahesh Bhosale(University at Buffalo) 作者列表:Mahesh Bhosale(University at Buffalo), Abdul Wasi(University at Buffalo), Vishvesh Trivedi(New York University), Pengyu Yan(University at Buffalo), Akhil Gorugantu(University at Buffalo), David Doermann(University at Buffalo) 📌 核心摘要 这篇论文旨在解决真实世界新闻事件背景下,基于多视频的问答与报告生成任务,要求生成的内容不仅事实准确,还需精确引用视频证据。其核心方法CRAFT是一个多阶段流水线,包含动态关键帧选择(DKS)、ASR转录增强、基于原子声明的提取,以及一个由UNLI、DeBERTa-NLI和小型LLM构成的混合评论循环,用于迭代地验证和修复声明,最终通过引用合并生成报告。与之前方法相比,CRAFT的新颖之处在于将声明级别的验证循环深度集成到证据提取阶段,而非仅用于最终答案聚合,并强调了原子声明格式对引用对齐的重要性。实验在MAGMaR 2026(19个查询)和自建的WikiVideo转换集(52个查询)上进行,CRAFT在MAGMaR-Test上取得了最佳整体平均分(0.739)、参考召回率(0.810)和引用F1(0.635),在WikiVideo上也表现强劲(Avg 0.823)。消融研究证明了原子声明、ASR和评论循环的关键作用。该工作的实际意义是为需要高证据密度的多源视频问答(如事实核查、事件报道)提供了一个可行的系统架构。主要局限性是其评估数据集规模较小(19和52个查询),且系统流程复杂,依赖多个外部模型和组件,推理成本较高。 ...