VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video
📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video #多模态模型 #基准测试 #大语言模型 ✅ 7.0/10 | 前25% | #多模态模型 | #基准测试 | #大语言模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hanoona Rasheed (MBZUAI) 通讯作者:未说明 作者列表:Hanoona Rasheed (MBZUAI), Abdelrahman Shaker (MBZUAI), Anqi Tang (MBZUAI), Muhammad Maaz (MBZUAI), Ming-Hsuan Yang (University of California Merced, Google Research), Salman Khan (MBZUAI, Australian National University), Fahad Shahbaz Khan (MBZUAI, Linköping University) 💡 毒舌点评 这篇论文精准地定义了视频理解领域一个“棘手但重要”的评测缺口——多步数学推理,并构建了迄今最贴合该场景的基准,其细粒度的步骤标注和错误分类为模型诊断提供了手术刀级别的工具。然而,其本质仍是一篇“数据集论文”,在模型创新和算法突破上着墨为零,且高度依赖LLM-as-a-Judge的评估方式也可能引入新的评估偏差。 ...