VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video
📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video #基准测试 #多模态模型 #数学推理 #视频理解 ✅ 7.0/10 | 前25% | #基准测试 | #多模态模型 | #数学推理 #视频理解 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hanoona Rasheed(MBZUAI) 通讯作者:未明确说明(论文未明确指出通讯作者) 作者列表:Hanoona Rasheed(MBZUAI), Abdelrahman Shaker(MBZUAI), Anqi Tang(MBZUAI), Muhammad Maaz(MBZUAI), Ming-Hsuan Yang(University of California Merced, Google Research), Salman Khan(Australian National University), Fahad Shahbaz Khan(Linköping University) 💡 毒舌点评 亮点:数据集构建过程堪称“教科书级别”的严谨,从视频筛选、问题设计到推理步骤标注都体现了极高的专家投入和质控标准,为后续研究立下了标杆。短板:作为一篇“Benchmarking”论文,其提出的评估框架(如CoT评分使用Qwen-3-4B作为Judge)虽然验证了鲁棒性,但可能引入新的偏见或被未来更强的模型“规避”,且评估结果仍高度依赖现有模型的能力天花板。 🔗 开源详情 代码:提供。论文明确给出了代码仓库链接:https://mbzuai-oryx.github.io/VideoMathQA,并说明已将VideoMathQA的实现集成到lmms-eval框架中。 模型权重:未提供。本文是基准测试论文,不涉及提出新的模型。 数据集:提供。论文声明数据集公开,可通过上述GitHub页面获取。 Demo:未提及在线演示。 复现材料:提供了充分的复现细节,包括:完整的模型评估配置(输入帧数、解码参数)、所有使用的提示词模板(CoT、后处理、步骤评估、错误分析等)、评估硬件环境说明。 论文中引用的开源项目/工具:主要引用了 lmms-eval 作为评估框架,vLLM 用于语言模型推理,以及多个被评估的开源模型(如Qwen2.5-VL, InternVL系列等)。 📌 核心摘要 本文旨在解决现有数学推理基准无法评估多模态视频场景中动态、时序、跨模态推理能力的问题。作者构建了VideoMathQA基准,包含420个经过专家标注的视频问答对,覆盖10个数学领域,视频时长从10秒到1小时不等。每个问题配有详细的多步推理过程标注(共2,945步),并设计了三种核心推理类型:直接问题解决、概念迁移和深度教学理解。与已有的静态图像或文本基准相比,VideoMathQA的创新在于其专注于需要综合视觉、文本(字幕/板书)和音频(讲解)信息,并在长时间序列中进行关联推理的数学任务。实验评估了30多个模型,包括闭源(如GPT-o4-mini)和开源模型(如Qwen2.5-VL-72B),结果发现:1) 当前模型性能与人类水平(80.7%)存在巨大差距,最强的GPT-o4-mini在多二进制评估(CoT+Sub)下仅达44.8%;2) 模型性能随规模提升而提高,但新架构的小模型可超越旧架构的大模型;3) 字幕对具备推理能力的大模型增益显著;4) 模型在“问题理解”和“概念应用”上错误最多。该基准为评估和推动真正的视频多模态数学推理能力提供了必要的评测平台和深入的诊断分析。其主要局限性在于数据集规模相对较小,且构建过程人力成本极高。 ...