GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language
📄 GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language #基准测试 #几何推理 #多模态模型 ✅ 7.0/10 | 前25% | #几何推理 | #基准测试 | #多模态模型 | arxiv 学术质量 6.9/8 | 影响力 0.7/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Jinwoong Kim(北京大学,王选计算机技术研究所) 通讯作者:未说明 作者列表:Jinwoong Kim(北京大学,王选计算机技术研究所)、Rui Yang(北京大学,王选计算机技术研究所)、Huishuai Zhang(北京大学,王选计算机技术研究所) 💡 毒舌点评 亮点:论文提出了一个极具价值的新评估范式——将几何推理的焦点从“答案正确性”或“视觉相似度”转移到“可执行性”和“几何约束满足”上。通过设计一个支持迭代修复的交互式环境(GeoBuildBench),为严格评估模型的结构化推理、规则遵循和错误修正能力提供了一个创新的测试床。这对于理解和改进智能体(Agent)的具身推理能力有重要意义。 短板:论文的“方法”部分更多是环境构建与评估框架设计,而非提出新的模型架构或学习算法。此外,虽然评估了多个前沿模型,但对模型在迭代过程中具体修正策略的分析(如面对特定约束反馈时的推理路径)仍停留在统计层面,缺乏更深入的定性案例研究来揭示“为什么”某些模型修正能力更强。 📌 核心摘要 问题:现有的几何推理基准主要关注文本答案的正确性或生成图像的视觉相似度,忽略了将自然语言描述转化为几何一致、可执行的构造图这一关键且具有挑战性的步骤。这导致模型可能产生“结构性幻觉”——输出看似合理,但内部的几何关系(如平行、相切)或对象引用是错误的。 方法核心:提出GeoBuildBench,一个用于评估几何构造能力的交互式基准和环境。核心任务是:模型根据中文几何题文本,生成一个领域特定语言(DSL)程序来构造几何图形。环境执行程序、渲染图形,并通过一个验证模块检查对象覆盖(所有必需对象是否创建)和几何约束满足(如角度值、距离相等、平行等),随后将结构化反馈(错误、缺失对象、违反的约束)返回给模型,形成“生成-执行-验证-修复”的闭环交互。 创新点:其新意在于:(1) 定义了可执行几何构造这一新的评估任务,而非静态问答或图像生成;(2) 设计了基于几何约束满足(数值验证)而非视觉相似度的客观评估体系;(3) 构建了支持迭代修复的交互式环境,评估模型的闭环推理能力;(4) 通过严格流程构建了一个文本完整、几何可构造的高质量数据集(489个问题)。 实验结果:对GPT-5.1、Gemini-3-Flash、Qwen3-VL-235B和LLaMA-3.2-90B-Vision四个模型进行了评估,最大迭代预算为5步。前沿闭源模型(GPT-5.1, Gemini-3-Flash)成功率较高(78.9%, 75.3%),但开源模型(Qwen3-VL, LLaMA-3.2-Vision)表现显著较差(42.2%, 21.3%)。所有模型普遍存在结构幻觉(如引用未定义对象)和约束违反问题,且利用反馈进行自我修正的能力有限,表现为修复速度慢或幻觉持续。关键数据见下表: 模型 成功率(%) 平均步数(↓) 幻觉数/问题(↓) 缺失对象数(↓) 违反约束数(↓) GPT-5.1 78.9 1.87 0.40 939 1119 Gemini-3-Flash 75.3 1.55 0.34 329 932 Qwen3-VL-235B 42.2 2.30 2.30 2042 1817 LLaMA-3.2-90B-Vision 21.3 2.23 2.38 1823 1584 补充关键细节:Gemini-3-Flash的平均幻觉恢复步数最短(1.17步),表明其从错误中学习的效率最高。在难度分析(Table 18)中,即使是最强的GPT-5.1,在最高难度(Level 4)问题上的成功率也降至65.7%。 实际意义:该基准为评估和理解大模型的结构化输出能力、规则遵循能力和闭环错误修复能力提供了严格框架,揭示了当前多模态模型在将语言精确映射到符号化构造步骤并维持状态一致性方面的弱点,对发展更可靠的几何推理智能体和具身AI有直接启发。 局限性:基准范围限于中国平面几何问题和预定义的DSL及验证条件集;评估结果依赖于固定的交互协议(如5步预算、特定提示模板);对模型如何利用反馈的深层机制分析不足。 🔗 开源详情 代码:https://github.com/ooongs/GeoBuildBench 模型权重:论文中未提及。论文评估了多个第三方模型,但未发布自研模型权重。 数据集:GeoBuildBench 数据集(包含489个中文平面几何问题及标注)。论文未提供独立的数据集下载链接,但代码仓库很可能包含数据集。 Demo:论文中未提及。 复现材料:论文附录(Appendix A-H)提供了详细的复现材料,包括: GeoDSL 快速参考:完整的语法、命令和执行语义(附录A)。 验证语义与失败模式:支持的验证条件类型、对象覆盖检查和数值容差的详细定义(附录B)。 完整系统提示词:用于代理(agent)的完整系统提示词(附录C)。 任务解析与标注提示词:用于数据过滤、清洗和标注几何问题的具体提示词(附录D)。 数据集统计与标注细节:类别分布、构建难度分布及解释(附录E)。 可视化构造示例:一个可构造问题和一个不可构造问题的详细GeoDSL代码与渲染图(附录F)。 详细评估诊断:模型性能的整体诊断、幻觉类型分析、缺失对象分析、验证条件失败分析、反馈利用率指标等(附录G)。 附加评估结果:跨语言评估和按难度分级的成功率分析(附录H)。 论文中引用的开源项目:论文中提到了多个相关工作,包括GeoQA, Geometry3K, Inter-GPS, GMB/GMBL, MagicGeo/MagicGeoBench, GeoUni, AlphaGeometry, GEOS,但未提供其具体开源链接。 🏗️ 方法概述和架构 GeoBuildBench构建了一个代理-环境交互循环,用于评估几何构造能力。核心流程为:输入自然语言几何问题 → 代理生成一个GeoDSL程序 → 几何内核执行程序并更新几何状态 → 渲染器基于状态生成图像 → 验证模块根据任务定义(必需对象和验证条件)检查执行结果,生成通过/失败的结构化反馈 → 将图像与反馈一起返回给代理 → 代理根据反馈迭代修改程序,直到验证通过或达到预算上限。 ...