📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video
#多模态模型 #基准测试 #大语言模型
✅ 7.0/10 | 前25% | #多模态模型 | #基准测试 | #大语言模型
学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高
👥 作者与机构
- 第一作者:Hanoona Rasheed (MBZUAI)
- 通讯作者:未说明
- 作者列表:Hanoona Rasheed (MBZUAI), Abdelrahman Shaker (MBZUAI), Anqi Tang (MBZUAI), Muhammad Maaz (MBZUAI), Ming-Hsuan Yang (University of California Merced, Google Research), Salman Khan (MBZUAI, Australian National University), Fahad Shahbaz Khan (MBZUAI, Linköping University)
💡 毒舌点评
这篇论文精准地定义了视频理解领域一个“棘手但重要”的评测缺口——多步数学推理,并构建了迄今最贴合该场景的基准,其细粒度的步骤标注和错误分类为模型诊断提供了手术刀级别的工具。然而,其本质仍是一篇“数据集论文”,在模型创新和算法突破上着墨为零,且高度依赖LLM-as-a-Judge的评估方式也可能引入新的评估偏差。
🔗 开源详情
- 代码:论文中未明确提及代码是否开源,仅提供了项目主页链接:https://mbzuai-oryx.github.io/VideoMathQA。
- 模型权重:未提及。本文评估现有模型,未提出新模型。
- 数据集:根据项目主页描述,VideoMathQA数据集应可获取,但具体下载方式和许可协议需查阅主页确认。
- Demo:论文中未提及。
- 复现材料:论文提供了详尽的评估协议描述和附录中的提示词(Appendix F),为复现评测提供了关键信息。但评估所用模型的具体推理配置(如采样帧数)需参照各模型官方指南。
- 引用的开源项目:论文在实现和评估中引用了lmms-eval(评估框架)、vLLM(语言模型推理)以及多个被评测的开源模型(如Qwen2.5-VL, InternVL系列等)。
- 开源计划:论文中未提及具体的开源计划,但项目主页的存在暗示了相关资源可能会共享。
📌 核心摘要
- 问题:现有的数学推理基准主要针对静态图像或文本,无法评估模型在真实教学视频中进行的、需要整合动态视觉、语音和文本信息并进行长时间序列推理的能力。
- 方法:构建了VideoMathQA基准,包含420个精心标注的视频问答对,每个问题配有4-10个带时间戳的推理步骤。评测涵盖问题解决、概念迁移和深度理解三类推理场景,涉及10个数学领域。
- 创新:首次系统性地针对视频中的数学推理提出评测方案,其创新点在于:(1) 定义了结合时间推理、多模态融合与专业知识的评测问题;(2) 提供了精细的步骤级推理标注,支持对模型中间过程的诊断;(3) 设计了多维度的评估协议(MCQ、MBin、CoT、步骤评分)。
- 主要实验结果:评估了30个模型,发现当前模型性能远低于人类(人类准确率80.7%,最强模型GPT-o4-mini CoT MBin+Sub为44.8%)。模型规模越大、使用CoT提示和字幕输入通常能提升性能,但在长视频、复杂推理类型(如拓扑、图表阅读)上表现普遍不佳。
关键数据表格(表1节选,CoT MBin +Sub设置):
模型 参数量 MCQ MBin Human - - 80.7 GPT-o4-mini - 61.4 44.8 InternVL3 78B 37.1 27.9 Qwen2.5-VL 72B 36.9 28.6 Gemini-2.0-Flash - 38.8 24.8 - 实际意义:为评估和提升多模态大模型在复杂、真实教学场景中的理解与推理能力提供了标准化的工具和方向。
- 主要局限性:数据集规模有限(420个样本),构建和标注耗时巨大(约115人日);评估结果部分依赖于LLM-as-a-Judge;模型与人类性能差距巨大,表明该领域仍处于早期探索阶段。
🏗️ 模型架构
未提供。本文是基准测试论文,不涉及提出新的模型架构。其核心是定义评测任务、构建数据集和评估现有模型。
💡 核心创新点
- 定义新的评测问题:首次将“视频中的多步数学推理”作为一个系统化的评测任务提出,填补了静态数学推理基准与通用视频理解基准之间的空白。
- 构建多模态时间推理基准:构建了VideoMathQA数据集,其视频来自真实教学场景,要求模型整合视觉(动态图表/板书)、听觉(讲解)和文本(字幕)信息,并在长时间跨度(10秒到1小时)上进行推理。
- 设计多层次推理类型:将问题分为“直接求解”、“概念迁移”和“深度理解”三类,更贴近真实的学习过程。
- 提供细粒度推理标注:每个问题配有专家标注的4-10步带时间戳的推理过程(总计2,945步),使得评估不仅能看最终答案,还能诊断模型在推理链上的具体缺陷。
- 全面的评估框架:提出了包括多选题(MCQ)、多二元选择(MBin)、思维链(CoT)以及步骤评估在内的多层次评估方法,并辅以详细的错误分类分析。
🔬 细节详述
- 数据构建:
- 数据集:VideoMathQA,包含420个视频-问答对。
- 来源:通过YouTube API获取,涵盖教学视频、纪录片等。
- 标注:由科学专业毕业生进行三阶段标注(视频选择、QA标注、步骤推理),平均每样本耗时2-2.5小时,总计约920人时。
- 质量控制:各阶段由不同标注员进行,互相校验;步骤标注中有788步被修订。
- 评估协议:
- 推理协议:针对不同模型采用其最优的帧采样设置(如Qwen2.5-VL 768帧,LLaVA-OV 32帧),字幕与采样帧对齐。
- 评估策略:
- MCQ:标准5选1。
- MBin:将正确答案与每个干扰项配对构成二元选择题,模型需全部选对才算正确,减少随机猜测影响。
- CoT提示:鼓励模型先生成推理步骤再给出答案。
- 步骤评估:使用Qwen3-4B模型作为评判者,将模型生成的CoT与标注步骤对比,打分(0-10分)。
- 错误分析:基于步骤评估的批评,将错误归类为7类(如问题误解、信息检索失败、视觉解释错误等)。
- 模型评估:评估了30个模型,包括5个闭源(如GPT-4o, Gemini)和25个开源模型(涵盖2B到78B参数规模),并有人类基线(8位标注员,平均准确率80.7%)。
- 训练/推理细节:作为基准测试论文,未提供模型训练细节。推理时使用贪心解码,温度为0。
📊 实验结果
主要基准性能(CoT MBin +Sub设置,见表2):
| 模型 | 参数量 | MBin Acc. | 几何角度 | 几何面积 | 几何长度 | 图表 | 统计 | 算术/微积分 | 拓扑 | 图论 | 计数 | 谜题 | 短 | 中 | 长 | 步骤评分 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Random | - | 7.9 | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
| Human | - | 80.7 | 91.3 | 83.1 | 80.4 | 81.3 | 87.0 | 80.8 | 60.0 | 88.9 | 84.2 | 70.4 | 80.3 | 82.1 | 79.6 | - |
| GPT-o4-mini | - | 44.8 | 49.3 | 45.1 | 40.0 | 65.2 | 63.5 | 20.0 | 72.2 | 23.7 | 31.5 | 45.5 | 44.8 | 42.4 | 6.9 | |
| InternVL3 | 78B | 27.9 | 39.4 | 33.3 | 13.3 | 26.1 | 32.7 | 33.3 | 22.2 | 10.5 | 40.7 | 28.4 | 36.4 | 17.4 | 4.9 | |
| Qwen2.5-VL | 72B | 28.6 | 31.0 | 31.4 | 24.0 | 21.7 | 50.0 | 13.3 | 22.2 | 15.8 | 25.9 | 27.6 | 34.4 | 22.7 | 5.0 |
关键结论:
- 模型差距:最强闭源模型(GPT-o4-mini 44.8%)与人类(80.7%)存在巨大差距,表明任务极具挑战性。
- 模型规模效应:一般而言,模型参数量越大,性能越好(如InternVL3从8B的20.0%提升到78B的27.9%)。
- CoT效果:CoT提示对多数模型有提升,但对开源小模型效果不一甚至下降。
- 字幕作用:加入字幕(+Sub)普遍提升性能,尤其是对推理能力强的模型(如GPT-o4-mini从42.1%→44.8%)。
- 视频长度影响:模型在中等长度视频上表现最好,在长视频上表现最差,印证了长程推理是核心难点。
- 数学领域难度:算术/微积分相对容易(平均约32%),而拓扑、图论、图表阅读等更困难(平均16-21%)。
- 错误类型:最主要的错误是“问题误解”(模型未能正确理解问题要求或定位视频中的相关信息)。
图表分析:
图1说明:展示了“深度理解”、“概念迁移”和“问题聚焦”三种推理类型的示例,直观体现了基准测试的任务多样性。
图3说明:
- (a) 模型在不同视频长度上的性能(CoT MBin+Sub),呈现“中等视频最佳”的趋势。
- (b) 字幕对性能的影响(CoT MBin),大多数模型在加入字幕后性能提升。
- (c) 输入帧数对性能的影响(CoT MCQ,以Qwen2.5-VL为例),增加帧数(尤其是对长视频)能持续提升性能。
图4说明:
- (a) 盲文本模型、单图模型和视频模型的性能对比,凸显了视频级理解的必要性。
- (b) 问题难度(简单、中等、困难)与模型性能的关系,模型在困难问题上性能骤降。
- (c) CoT步骤评估的错误类型分布,“问题误解”是主要错误来源。
⚖️ 评分理由
- 学术质量(5.5/7):论文在定义问题、构建高质量数据集和设计评估框架方面表现出色,实验分析全面且深入,数据可信。扣分点在于其核心是评测工作,缺乏算法或模型层面的创新。
- 选题价值(1.5/2):选题具有前瞻性和挑战性,填补了重要评测空白,对推动多模态推理研究有明确价值。扣分点在于该评测任务相对垂直,且与音频读者直接相关性不高。
- 开源与复现加成(0.0/1):论文暗示提供了项目主页(数据/工具),但未明确保证代码完全开源,也未提供复现其评测所需的全部细节(如具体模型推理参数),因此按中性处理。