📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video
#基准测试 #多模态模型 #数学推理 #视频理解
✅ 7.0/10 | 前25% | #基准测试 | #多模态模型 | #数学推理 #视频理解
学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Hanoona Rasheed(MBZUAI)
- 通讯作者:未明确说明(论文未明确指出通讯作者)
- 作者列表:Hanoona Rasheed(MBZUAI), Abdelrahman Shaker(MBZUAI), Anqi Tang(MBZUAI), Muhammad Maaz(MBZUAI), Ming-Hsuan Yang(University of California Merced, Google Research), Salman Khan(Australian National University), Fahad Shahbaz Khan(Linköping University)
💡 毒舌点评
亮点:数据集构建过程堪称“教科书级别”的严谨,从视频筛选、问题设计到推理步骤标注都体现了极高的专家投入和质控标准,为后续研究立下了标杆。短板:作为一篇“Benchmarking”论文,其提出的评估框架(如CoT评分使用Qwen-3-4B作为Judge)虽然验证了鲁棒性,但可能引入新的偏见或被未来更强的模型“规避”,且评估结果仍高度依赖现有模型的能力天花板。
🔗 开源详情
- 代码:提供。论文明确给出了代码仓库链接:https://mbzuai-oryx.github.io/VideoMathQA,并说明已将VideoMathQA的实现集成到lmms-eval框架中。
- 模型权重:未提供。本文是基准测试论文,不涉及提出新的模型。
- 数据集:提供。论文声明数据集公开,可通过上述GitHub页面获取。
- Demo:未提及在线演示。
- 复现材料:提供了充分的复现细节,包括:完整的模型评估配置(输入帧数、解码参数)、所有使用的提示词模板(CoT、后处理、步骤评估、错误分析等)、评估硬件环境说明。
- 论文中引用的开源项目/工具:主要引用了
lmms-eval作为评估框架,vLLM用于语言模型推理,以及多个被评估的开源模型(如Qwen2.5-VL, InternVL系列等)。
📌 核心摘要
本文旨在解决现有数学推理基准无法评估多模态视频场景中动态、时序、跨模态推理能力的问题。作者构建了VideoMathQA基准,包含420个经过专家标注的视频问答对,覆盖10个数学领域,视频时长从10秒到1小时不等。每个问题配有详细的多步推理过程标注(共2,945步),并设计了三种核心推理类型:直接问题解决、概念迁移和深度教学理解。与已有的静态图像或文本基准相比,VideoMathQA的创新在于其专注于需要综合视觉、文本(字幕/板书)和音频(讲解)信息,并在长时间序列中进行关联推理的数学任务。实验评估了30多个模型,包括闭源(如GPT-o4-mini)和开源模型(如Qwen2.5-VL-72B),结果发现:1) 当前模型性能与人类水平(80.7%)存在巨大差距,最强的GPT-o4-mini在多二进制评估(CoT+Sub)下仅达44.8%;2) 模型性能随规模提升而提高,但新架构的小模型可超越旧架构的大模型;3) 字幕对具备推理能力的大模型增益显著;4) 模型在“问题理解”和“概念应用”上错误最多。该基准为评估和推动真正的视频多模态数学推理能力提供了必要的评测平台和深入的诊断分析。其主要局限性在于数据集规模相对较小,且构建过程人力成本极高。
🏗️ 模型架构
本文主要贡献是提出了一个评估基准(Benchmark),而非一个具体的端到端新模型。因此,其核心“架构”体现在其评估框架的设计上。该框架旨在全面测试现有视频多模态大语言模型(Video MLLMs)的数学推理能力。

图2:VideoMathQA数据集概览。(a) 问题在不同数学概念上的分布及模型表现;(b) 视频时长分布;(c) 三阶段标注流程图。
评估流程的核心组件包括:
- 输入处理:为公平评估,根据各模型官方推荐配置进行输入适配。这包括:
- 视频帧采样:从16帧到768帧不等(如Qwen2.5-VL使用768帧)。
- 字幕对齐:将视频字幕与采样的帧进行时间对齐,作为额外文本输入。
- 提示词设计:设计了直接回答和链式思考(CoT)两种提示范式。
- 评估策略(四维度):
- 多选题评估(MCQ):标准的5选1选择。
- 多二进制评估(MBin):将正确答案与每个干扰项配对进行二元选择,要求模型在所有配对中都选对才算正确,更能反映模型真实能力。
- 直接回答 vs. 链式思考(CoT)评估:对比模型在无显式推理和显式推理下的表现差异。
- 步骤级推理评估:对于CoT回复,使用Qwen-3-4B(思考模式)作为“评委”,将其生成的推理步骤与专家标注的标准步骤进行对齐打分(0-10分),并执行错误分类分析。
- 错误分析:定义了7种推理错误类型(如问题误解、信息检索失败、计算错误等),用于对模型的CoT步骤进行定性诊断。
💡 核心创新点
- 首个专注于视频数学推理的细粒度基准:区别于静态图像(MathVista)或通用视频问答(Video-MME),VideoMathQA首次将评估重点放在需要长时间跨模态整合(视觉、音频、文本) 的数学问题上,捕捉了教学视频中信息非线性呈现的本质挑战。
- 涵盖三种教学场景的推理类型设计:问题被明确分类为“直接问题解决”、“概念迁移”和“深度教学理解”。这种设计超越了简单的知识检索,要求模型不仅能“看”和“听”,还能进行方法应用、上下文理解和逻辑补全,更贴近真实学习过程。
- 专家标注的步骤级推理追踪与评估:每个答案都配有带时间戳的、多步骤的推理链。这不仅能评估最终答案的对错,还能诊断模型在推理过程中的具体失败环节(如是视觉解读错误还是概念应用错误),提供了前所未有的细粒度洞见。
图1:VideoMathQA中的三个示例,分别展示了“深度教学理解”、“概念迁移”和“直接问题解决”三种推理类型。每个样本包含视频、问题、选项、带时间戳的推理步骤和最终答案。
🔬 细节详述
作为基准测试论文,以下细节主要围绕数据集构建与评估:
- 训练数据(数据集构建):
- 规模:420个视频-问题对,共2,945个标注的推理步骤。
- 来源:通过YouTube API收集,涵盖几何、微积分、统计、图表阅读等10个数学领域。视频包括讲座、屏幕录制、动画纪录片等。
- 预处理:视频经人工审核并裁剪至仅保留问题相关片段。对图表类问题,优先选择包含多个动态图表且解读有时序关联的视频。
- 评估细节:
- 评测硬件:使用8张A100-80GB GPU。小模型(≤8B)使用数据并行,大模型使用张量并行(TP=8)。
- 解码策略:所有模型评估使用贪心解码(温度=0)。
- 模型评委:步骤评估使用Qwen3-4B(思考模式),答案提取后处理使用Qwen3-4B(非思考模式)。
- 人类评估:由8名注释员完成,每题限时20分钟,整体准确率80.7%。
- 质量控制:采用三阶段独立标注流程(视频筛选 -> 问答标注 -> 步骤标注),平均每样本耗时2-2.5人时,总计约115人天。步骤标注后还有修订环节(修订了788步),约30%的问题在此阶段被修正。
📊 实验结果
本文评估了5个闭源模型和25个开源模型。关键结果如下:
表1:模型在VideoMathQA上的直接回答性能(多二进制评估,MBin + Sub)
| 模型名称 | 参数量 | MBin (V+Sub) 准确率 |
|---|---|---|
| 人类 | - | 80.7% |
| 闭源模型 | ||
| GPT-4o | - | 24.5% |
| Gemini-2.0-Flash | - | 31.7% |
| GPT-o4-mini | - | 44.8% (CoT评估) |
| 开源模型 (<5B) | ||
| Qwen2.5-VL | 3B | 27.6% |
| 开源模型 (<40B) | ||
| InternVL3 | 38B | 35.7% |
| Qwen2.5-VL | 32B | 32.6% |
| 开源模型 (<80B) | ||
| Qwen2.5-VL | 72B | 37.6% |
| InternVL3 | 78B | 31.7% |
核心发现:
- 模型规模效应:模型性能普遍随参数量增加而提升。例如,InternVL3在CoT (V+Sub) MBin上的准确率从8B的20.0%提升至78B的27.9%。
- 闭源 vs. 开源:闭源模型整体领先,尤其是支持CoT的GPT-o4-mini(44.8%)表现突出。但部分优化过的开源大模型(如Qwen2.5-VL-72B)已超越某些闭源模型(如GPT-4o, 24.5%)。
- 字幕的增益:字幕一致性地提升模型性能,尤其对推理能力强的模型增益明显。例如,GPT-o4-mini从仅视频的42.1%提升至44.8%,Qwen2.5-VL-72B从24.5%提升至28.6%。

图3:实验分析。(a) 不同视频时长下的模型表现(CoT MBin + Sub);(b) 字幕在CoT评估中的影响;(c) 输入帧数对模型性能的影响(以Qwen2.5-VL为例)。

图4:进一步分析。(a) 纯文本、单帧图像与视频模型的对比;(b) 问题难度对模型性能的影响;(c) 基于CoT评估的错误类型分析。
- 视频时长与帧数影响:模型在中等时长(30s-2min)视频上表现最佳,在长视频上下降,这与“深度教学理解”任务的高信息负荷和非线性特征相符。增加输入帧数(如从16到768)能持续提升性能,尤其在长视频上。
- 错误分析:最常见的错误是问题理解错误,即模型未能准确把握问题指向或忽略关键多模态线索。闭源模型在概念应用和策略选择上错误较少,但在视觉解释(如图表)上仍有不足。
⚖️ 评分理由
学术质量:6.0/7
- 创新性:提出了首个针对视频数学推理的专用基准,填补了领域空白,设计具有前瞻性。但其核心是“评测体系”而非“新模型”,创新性更多体现在问题定义和评估方法上。
- 技术正确性:数据集构建流程严谨,标注质量高;评估框架设计全面(多种评估方式、错误分析),并进行了充分的消融和验证(如字幕效果、帧数影响、评委模型验证)。
- 实验充分性:实验非常全面,覆盖了从3B到80B参数、从闭源到开源的广泛模型阵容,并进行了深入的对比分析和错误诊断。
- 证据可信度:报告了详细的绝对数值,并进行了人类评估作为上限参考。评估框架的鲁棒性也得到了验证。
选题价值:1.5/2
- 前沿性:视频理解与多模态推理的交叉点是当前研究的前沿。数学推理因其结构化和对逻辑的高要求,成为检验模型真实理解能力的试金石。
- 潜在影响与应用:该基准可直接用于推动教育科技(智能辅导)、视频内容理解等领域的进步。它为社区提供了一个清晰的、有待攻克的难题。
- 读者相关性:对于从事多模态模型、视频理解、教育AI以及基准测试研究的读者,本工作具有直接的参考和应用价值。
开源与复现加成:0.5/1
- 论文明确提供了数据集和代码库的GitHub链接(https://mbzuai-oryx.github.io/VideoMathQA),以及详细的评估脚本和提示词。这使得其他研究者能够方便地复现结果或在新模型上进行评估。
- 然而,作为基准测试论文,它不提供训练好的模型权重,因此加成主要体现在“数据集开源”和“评估流程开源”上。