CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering

📄 CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering #多模态问答 #多模态模型 #大语言模型 #基准测试 #视频理解 ✅ 6.6/10 | 前50% | #多模态问答 | #多模态模型 | #大语言模型 #基准测试 | arxiv 学术质量 5.0/7 | 影响力 0.3/2 | 可复现性 1.3/2 | 置信度 高 👥 作者与机构 第一作者:Mahesh Bhosale(University at Buffalo) 通讯作者:Mahesh Bhosale(University at Buffalo) 作者列表:Mahesh Bhosale(University at Buffalo), Abdul Wasi(University at Buffalo), Vishvesh Trivedi(New York University), Pengyu Yan(University at Buffalo), Akhil Gorugantu(University at Buffalo), David Doermann(University at Buffalo) 📌 核心摘要 这篇论文旨在解决真实世界新闻事件背景下,基于多视频的问答与报告生成任务,要求生成的内容不仅事实准确,还需精确引用视频证据。其核心方法CRAFT是一个多阶段流水线,包含动态关键帧选择(DKS)、ASR转录增强、基于原子声明的提取,以及一个由UNLI、DeBERTa-NLI和小型LLM构成的混合评论循环,用于迭代地验证和修复声明,最终通过引用合并生成报告。与之前方法相比,CRAFT的新颖之处在于将声明级别的验证循环深度集成到证据提取阶段,而非仅用于最终答案聚合,并强调了原子声明格式对引用对齐的重要性。实验在MAGMaR 2026(19个查询)和自建的WikiVideo转换集(52个查询)上进行,CRAFT在MAGMaR-Test上取得了最佳整体平均分(0.739)、参考召回率(0.810)和引用F1(0.635),在WikiVideo上也表现强劲(Avg 0.823)。消融研究证明了原子声明、ASR和评论循环的关键作用。该工作的实际意义是为需要高证据密度的多源视频问答(如事实核查、事件报道)提供了一个可行的系统架构。主要局限性是其评估数据集规模较小(19和52个查询),且系统流程复杂,依赖多个外部模型和组件,推理成本较高。 ...

2026-05-21 · 更新于 2026-06-12 · 3 min · 588 words

OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding

📄 OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding #视频理解 #基准测试 #多模态模型 #流式处理 #大语言模型 ✅ 7.3/10 | 前25% | #视频理解 | #基准测试 | #多模态模型 #流式处理 | arxiv 学术质量 6/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Ruixiang Zhao(中国人民大学) 通讯作者:Xirong Li(中国人民大学),Jie Yang(腾讯微信视觉) 作者列表:Ruixiang Zhao(中国人民大学)、Jie Yang(腾讯微信视觉)、Zijie Xin(中国人民大学)、Tianyi Wang(腾讯微信视觉)、Fengyun Rao(腾讯微信视觉)、Jing LYU(腾讯微信视觉)、Xirong Li(中国人民大学) 💡 毒舌点评 该工作系统性地指出了现有主动流式视频理解基准在全模态、主动性和任务多样性上的不足,并提出了一个整合性的评估框架(任务分类法、双模式协议)。其核心贡献在于定义了“好的全模态主动流式模型”的三个标准,并将它们放入统一的评估标尺中,对社区具有明确的指引价值。然而,作为一项基准测试工作,其自身价值高度依赖于数据质量与评估设计的严谨性。数据完全由单一大模型(Gemini)生成且无人工标注的多样性,这一关键决策可能引入系统性偏差,严重影响基准的长期可靠性。此外,在线评估仅涵盖三个模型,且其F1指标的具体实现细节(如开放任务由LLM裁判评分)的稳定性与公平性有待更深入的验证。 📌 核心摘要 问题:现有流式视频理解基准存在三大缺陷:主要依赖视觉信号、采用轮询或固定时间戳的被动评估方式、覆盖任务有限,无法可靠地区分和评估具备“主动”能力的全模态大模型。 方法核心:提出首个联合评估全模态感知、主动响应和多样化任务能力的基准 OmniPro。核心包括一个包含3级认知水平、9个子任务的任务分类法;一个结合密集描述、大模型生成和两轮人工审核的数据构建流程;以及一个包含Probe(评估内容理解)和Online(评估流式主动能力)的双模式评估协议。 新意:首次在统一框架下,系统性地评估模型在全模态感知(音频至关重要)、主动决策何时响应以及广泛任务理解这三方面的能力。特别强调了非语音音频的作用,并设计了支持多次响应和惩罚误触发的在线评估F1指标。 主要实验结果:评估了11个代表性模型。主要发现:(1) 音频带来一致性增益但模型利用率差异巨大(AV输入比V输入平均提升+2.4至+11.1分);(2) 性能随触发时间推后严重衰减,模型仅能保持早期性能的37%;(3) 非语音音频感知是所有模型的共同短板。最强闭源模型(Gemini-3-Flash,Probe模式40.4%准确率)与最强开源模型(Qwen3-Omni,22.6%)存在巨大差距。 实际意义:为快速发展的全模态主动流式大模型提供了首个全面的评估标准和测试平台,明确了当前模型在长期感知、音频理解等方面的具体短板,指导未来模型研发方向。 主要局限性:所有问答和标注均为英文,限制了多语言评估;在线评估仅测试了3个模型,对流式架构能力的揭示可能不足;数据构建完全依赖单一大模型生成,可能引入分布偏差且无人工标注的多样性。 🔗 开源详情 代码:论文中承诺开源评估代码和数据生成提示模板,并在附录中提供了完整示例。项目主页为 https://ruixiangzhao.github.io/OmniPro ,但论文中未直接给出代码仓库的具体URL(如GitHub链接)。 模型权重:论文中未提及模型权重的具体下载链接。论文评估了多个开源模型(如Qwen2.5-Omni、Qwen3-Omni、video-SALMONN 2+、VideoLLaMA2.1-AV、Phi-4-multimodal、InternVL3.5、Qwen3-VL、MiniCPM-o 4.5、MMDuet2、LiveStar),但未提供OmniPro基准或评估用模型的权重链接。 数据集: 数据集名称:OmniPro 开源协议:CC BY-NC 4.0(见附录C.3) 获取链接:论文中未提及具体下载链接。项目主页可能包含数据访问方式。 数据来源:视频来自 LongVALE (CC-BY-NC-SA-4.0) 和 COIN (CC BY-NC 4.0) 数据集的测试集(见附录C.3)。 Demo:论文中未提及在线演示链接。 复现材料:论文附录提供了用于数据生成的提示词模板(Dense Captioning Prompt和各子任务的QA Generation Prompts)。评估代码承诺开源但未提供链接。未提供训练配置或检查点(因本工作不涉及模型训练)。 论文中引用的开源项目:论文中评估了多个开源模型及其各自资源,但未明确引用除评估模型外的其他特定开源项目或工具。 🏗️ 方法概述和架构 本论文是一项基准测试构建工作,其核心“方法”是定义了一个全新的评估框架和数据集,而非一个可训练的模型架构。其流程是:源视频收集 → 自动化密集描述与QA生成 → 人工质量控制 → 双模式评估协议执行。 ...

2026-05-20 · 更新于 2026-06-12 · 4 min · 647 words

ViMU: Benchmarking Video Metaphorical Understanding

📄 ViMU: Benchmarking Video Metaphorical Understanding #基准测试 #多模态模型 #视频理解 #模型评估 🔥 8.1/10 | 未提及 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv 学术质量 6.8/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Qi Li(新加坡国立大学) 通讯作者:Xinchao Wang(新加坡国立大学) 作者列表:Qi Li(新加坡国立大学)、Xinchao Wang(新加坡国立大学) 💡 毒舌点评 该论文精准地瞄准了多模态视频理解领域的一个高阶评估空白——对“潜台词”和“社会隐喻”的系统性理解。其提出的ViMU基准设计精巧,覆盖全面,任务定义(尤其是强制无提示)具有启发性。然而,作为一项评估工作,其核心贡献是提供了一个“考卷”,而非解决该问题的“答案”。基准构建高度依赖前沿闭源模型(GPT-5.4)进行核心生成与验证,这既引发了关于其自身偏差和“原创性”的疑问,也使得完全复现其构建过程变得困难。实验分析虽然深入,但主要揭示了现有模型的不足,缺乏对基准本身局限性的充分量化验证。 📌 核心摘要 解决的问题:现有视频理解模型主要关注字面视觉内容,缺乏对视频中隐含的隐喻、讽刺、社会意义等“潜台词”进行系统性理解与评估的能力。这是一个重要的研究缺口。 方法核心:提出了ViMU(视频隐喻理解)基准,包含588个视频和2352个问题,覆盖四大任务:开放解释(OE)、证据定位(EG)、修辞机制识别(RM)和社会价值信号识别(SV)。基准构建采用多阶段、迭代优化的流水线,结合前沿LLM(GPT-5.4)生成与人工专家审核。 与已有方法相比的新颖性:不同于聚焦于隐含物理关系或单一现象(如幽默)的现有基准,ViMU专注于社会文化语境下的广义“潜台词”理解,并强制采用“无提示”(hint-free)的评估方式,要求模型在不被告知具体线索的情况下进行推断。 主要实验结果:对16个前沿多模态大模型(MLLMMs)的评估显示,即便是最强的闭源模型,其整体平均性能也低于50%。这暴露了模型在从字面感知到深层含义推断上的巨大差距。具体结果见下表。 模型 日期 OE (%) EG (%) RM (%) SV (%) SSU-Avg (%) All-Avg (%) 开源模型 Ministral-8B 2024-10 48.25 48.60 31.87 10.45 21.16 34.79 Ministral-14B 2025-12 52.19 55.73 27.29 6.57 16.93 35.45 Gemma-3-4B-it 2025-03 39.43 25.41 21.10 7.17 14.13 23.28 Gemma-3-27B-it 2025-03 55.90 49.38 32.47 7.95 20.21 36.43 Qwen3-VL-32B-Instruct 2025-10 64.09 59.64 27.65 15.17 21.41 41.64 Qwen3.5-27B 2026-02 62.80 60.28 38.18 22.40 30.29 45.91 闭源/API模型 Claude-3-Haiku 2024-03 50.41 34.55 2.99 3.64 3.32 22.90 GLM-4.5v 2025-08 62.52 23.11 8.87 9.26 9.06 25.94 Grok-4.1-Fast 2025-09 57.62 63.84 34.91 28.73 31.82 46.28 Gemini-3-Flash-Preview 2025-12 62.54 52.80 33.63 28.26 30.94 44.31 Mimo-V2-Omni 2026-03 64.07 48.94 21.04 18.52 19.78 38.14 Seed-2.0-Lite 2026-03 60.84 66.16 18.75 16.73 17.74 40.62 o4-mini 2025-04 65.27 59.63 33.21 29.51 31.36 46.91 GPT-4.1-nano 2025-04 50.12 22.31 2.32 9.02 5.67 20.94 GPT-5.2 2025-12 73.15 67.83 16.55 21.15 18.85 44.67 GPT-5.4-mini 2026-03 66.19 64.45 4.17 11.77 7.97 36.64 精细分析表明:1)模型普遍倾向于预测更通用、安全的类别,而低估更隐晦的社会编码类别;2)在传统视频理解任务上表现优异的模型,在隐喻理解上不一定领先。 ...

2026-05-17 · 更新于 2026-06-12 · 3 min · 558 words

语音/音乐/音频论文速递 2026-05-17

语音/音乐/音频论文速递 2026-05-17 共分析 2 篇论文 ⚡ 今日概览 📥 抓取 2 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 1篇 █ #音视频分割 1篇 █ 📊 论文评分排行榜(2 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 ViMU: Benchmarking Video Metaphorical Understanding 8.1分 - #基准测试 🥈 AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Vis 7.2分 前25% #音视频分割 📋 论文列表 🥇 ViMU: Benchmarking Video Metaphorical Understanding 🔥 8.1/10 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv ...

2026-05-17 · 更新于 2026-06-12 · 3 min · 515 words

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video

📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video #基准测试 #多模态模型 #数学推理 #视频理解 ✅ 7.0/10 | 前25% | #基准测试 | #多模态模型 | #数学推理 #视频理解 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hanoona Rasheed(MBZUAI) 通讯作者:未明确说明(论文未明确指出通讯作者) 作者列表:Hanoona Rasheed(MBZUAI), Abdelrahman Shaker(MBZUAI), Anqi Tang(MBZUAI), Muhammad Maaz(MBZUAI), Ming-Hsuan Yang(University of California Merced, Google Research), Salman Khan(Australian National University), Fahad Shahbaz Khan(Linköping University) 💡 毒舌点评 亮点:数据集构建过程堪称“教科书级别”的严谨,从视频筛选、问题设计到推理步骤标注都体现了极高的专家投入和质控标准,为后续研究立下了标杆。短板:作为一篇“Benchmarking”论文,其提出的评估框架(如CoT评分使用Qwen-3-4B作为Judge)虽然验证了鲁棒性,但可能引入新的偏见或被未来更强的模型“规避”,且评估结果仍高度依赖现有模型的能力天花板。 🔗 开源详情 代码:提供。论文明确给出了代码仓库链接:https://mbzuai-oryx.github.io/VideoMathQA,并说明已将VideoMathQA的实现集成到lmms-eval框架中。 模型权重:未提供。本文是基准测试论文,不涉及提出新的模型。 数据集:提供。论文声明数据集公开,可通过上述GitHub页面获取。 Demo:未提及在线演示。 复现材料:提供了充分的复现细节,包括:完整的模型评估配置(输入帧数、解码参数)、所有使用的提示词模板(CoT、后处理、步骤评估、错误分析等)、评估硬件环境说明。 论文中引用的开源项目/工具:主要引用了 lmms-eval 作为评估框架,vLLM 用于语言模型推理,以及多个被评估的开源模型(如Qwen2.5-VL, InternVL系列等)。 📌 核心摘要 本文旨在解决现有数学推理基准无法评估多模态视频场景中动态、时序、跨模态推理能力的问题。作者构建了VideoMathQA基准,包含420个经过专家标注的视频问答对,覆盖10个数学领域,视频时长从10秒到1小时不等。每个问题配有详细的多步推理过程标注(共2,945步),并设计了三种核心推理类型:直接问题解决、概念迁移和深度教学理解。与已有的静态图像或文本基准相比,VideoMathQA的创新在于其专注于需要综合视觉、文本(字幕/板书)和音频(讲解)信息,并在长时间序列中进行关联推理的数学任务。实验评估了30多个模型,包括闭源(如GPT-o4-mini)和开源模型(如Qwen2.5-VL-72B),结果发现:1) 当前模型性能与人类水平(80.7%)存在巨大差距,最强的GPT-o4-mini在多二进制评估(CoT+Sub)下仅达44.8%;2) 模型性能随规模提升而提高,但新架构的小模型可超越旧架构的大模型;3) 字幕对具备推理能力的大模型增益显著;4) 模型在“问题理解”和“概念应用”上错误最多。该基准为评估和推动真正的视频多模态数学推理能力提供了必要的评测平台和深入的诊断分析。其主要局限性在于数据集规模相对较小,且构建过程人力成本极高。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 220 words

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #多模态模型 #基准测试 #音频问答 #视频理解 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #基准测试 | #多模态模型 #视频理解 学术质量 6.5/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jack Hong(小红书公司) 通讯作者:Weidi Xie(上海交通大学) 作者列表:Jack Hong(小红书公司)、Shilin Yan(小红书公司)、Jiayin Cai(小红书公司)、Xiaolong Jiang(小红书公司)、Yao Hu(小红书公司)、Weidi Xie(上海交通大学) 💡 毒舌点评 这篇论文最大的亮点在于它指出了一个残酷的现实:现有最强的多模态大模型在需要同时理解声音和画面的真实世界场景中,表现最好的也只达到了65.1%的准确率,离可靠应用还差得远。然而,它的短板也同样明显:作为一个评测基准论文,它更像是为其他研究者“立规矩”和“出考卷”,本身在模型架构或训练方法上的原创性贡献有限。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:公开。论文明确说明WorldSense数据集已公开发布,可在其项目主页和GitHub/HuggingFace获取。 Demo:未提供在线演示链接。 复现材料:提供了详细的评估设置(如帧采样方法、API使用)、评估Prompt模板(附录A.4)和数据集统计信息,足以复现其评估实验。 论文中引用的开源项目:引用了多个被评估的开源模型,如OneLLM, VideoLLaMA2, Qwen2-VL, LLaVA-OneVision等,以及数据集来源FineVideo和MusicAVQA。 开源计划:论文中未提及除数据集之外的额外开源计划。 📌 核心摘要 该论文旨在解决当前多模态大语言模型(MLLM)评估中忽略音频模态、场景简单、任务单一的问题。为此,作者提出了WorldSense,这是首个专注于评估MLLM对真实世界音视频同步内容进行全模态理解的基准测试。该基准的核心创新在于设计了紧密耦合音视频的任务,使得单独依赖任一模态都无法正确回答问题。它包含1662个来自8大领域、67个子类别的音频同步视频,以及3172个跨越26种认知任务的高质量多选题QA对。所有问答对由80名专家标注员多轮校对,确保质量。实验对众多开源和闭源模型进行了广泛评估。结果表明,现有模型在真实世界场景下面临巨大挑战,最佳模型Gemini 2.5 Pro的准确率仅为65.1%,而许多开源音视频模型的表现甚至接近随机猜测(约25%)。消融研究证实了原始音频信号比文本转录包含更多信息(如韵律、情感),对提升理解至关重要。该基准旨在推动更全面的多模态理解研究,为构建能够整合上下文信息的模型提供平台。主要局限性在于其采用的多选题格式限制了对模型生成能力的评估。 🏗️ 模型架构 本文未提出一个新的模型架构,而是设计了一个用于评估现有模型的基准框架。其核心是评估流程,如下: ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 240 words

ICASSP 2026 - 视频理解 论文列表

ICASSP 2026 - 视频理解 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SceneRAG: Scene-Level Retrieval-Augmented Generation for Vid 7.5分 前25% 📋 论文详情 🥇 SceneRAG: Scene-Level Retrieval-Augmented Generation for Video Understanding ✅ 7.5/10 | 前25% | #视频理解 | #检索增强生成 | #长视频理解 #场景分割 👥 作者与机构 第一作者:Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院) 通讯作者:Si Shi(广东人工智能与数字经济实验室(SZ),深圳) 作者列表: Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院) Haowen Hou(广东人工智能与数字经济实验室(SZ),深圳) F. Richard Yu(卡尔顿大学信息技术学院) Si Shi(广东人工智能与数字经济实验室(SZ),深圳) Ying Tiffany He(深圳大学计算机科学与软件工程学院) 💡 毒舌点评 亮点:它将视频理解从机械的“分块切割”提升到了拟人的“场景感知”,并通过动态知识图谱串联起碎片化的证据,在134小时的长视频测试中取得了最高达70.8%的胜率,证明了场景级单元对于长程推理的关键价值。短板:整个框架高度依赖LLM/VLM进行场景划分与描述,其准确性是上限,而论文对这一核心环节的误差传播与鲁棒性讨论略显不足;另外,未提供代码和模型权重,大大削弱了其可复现性。 🔗 开源详情 代码:论文中未提及提供SceneRAG框架本身的代码仓库链接。 模型权重:未提及公开SceneRAG框架下训练或微调的任何模型权重。 数据集:论文使用了公开基准LongerVideos和Video-MME,但未提及是否提供其处理后的场景分割标注或场景知识图谱数据。 Demo:未提及提供在线演示。 复现材料:论文给出了详细的算法描述(算法1)和方法流程,但缺乏具体的实现细节、超参数配置文件、训练日志等。硬件环境已说明(单卡3090)。 论文中引用的开源项目: ASR: Distil-Whisper [12] VLM: MiniCPM-V [14] 多模态编码器: ImageBind [24] 实体/片段检索嵌入: text-embedding-3-small (OpenAI) 图RAG基线: GraphRAG [18], LightRAG [19] 论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 97 words

Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing

📄 Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing #音视频 #视频理解 #知识蒸馏 #弱监督学习 ✅ 7.0/10 | 前25% | #音视频 | #知识蒸馏 | #视频理解 #弱监督学习 学术质量 6.5/7 | 选题价值 7.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yaru Chen (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) 通讯作者:未说明 作者列表: Yaru Chen (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Ruohao Guo (School of Intelligence Science and Technology, Peking University, China) Liting Gao (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Yang Xiang (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Qingyu Luo (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Zhenbo Li (College of Information and Electrical Engineering, China Agricultural University, China) Wenwu Wang (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) 💡 毒舌点评 这篇论文的亮点在于其系统性和针对性:它精准地指出了现有弱监督AVVP方法的两个痛点(缺乏稳定段监督、粗糙的跨模态对齐),并用EMA和CMA这两个成熟但组合起来很有效的方案“对症下药”,在LLP数据集上的视觉和音视频联合指标上取得了实实在在的提升。但短板也十分明显:创新程度更像是一个“集大成”的工程优化方案,而非提出一个全新的学习范式;而且,论文在追求性能报告上非常详细,却在开源复现信息上极为吝啬,这对于一个旨在推动领域前进的会议论文来说,是减分项。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 504 words