📄 SciText2Eq: Assessing LLMs for Explainable Equation Generation for Scientific Creativity
#大语言模型
7.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5
✅ 7.3/10 | 前50% | #大语言模型 | #大语言模型 | arxiv
👥 作者与机构
作者:Yifan Mo, Xiao Fu, Yue Su, Qingyu Meng, Koen Hindriks, Qingzhi Liu, Jiahuan Pei。 机构:Vrije Universiteit Amsterdam, Wageningen University & Research。
💡 毒舌点评
- 论文选题有一定意义,将LLM应用于从科学文本生成方程,但“科学创造力”的声称略显宽泛,实际任务更偏向于结构化信息提取与转换。
- 贡献点清晰:一个工作流、一个数据集、一个多层评估框架。但创新深度有限,更多是现有技术的整合与在新任务上的应用。
- 实验评估全面是亮点,但人类评估仅100样本、5位评估者,统计显著性可能不足。LLM评估与人类评估的“有限对齐”结论,暗示其提出的自动评估框架本身可靠性存疑。
- 论文标题中的“Assessing”一词更准确地反映了核心贡献在于评估而非生成方法的突破。
- 数据集构建过程描述详实,但仅限AI领域论文,泛化能力未经验证,作者自己也在局限中提及。
📌 核心摘要
本文研究了大语言模型从科学文本生成数学方程及其可解释性描述的能力。针对现有研究在上下文建模、多方程依赖和人类对齐评估方面的不足,作者构建了一个新的基准数据集,包含170篇AI论文中的1043个方程-上下文-描述三元组。提出了一种可解释的方程生成工作流,并设计了一个结合自动指标(如TexBLEU、TED)、基于规范的LLM评估和人类判断的多层评估框架,在多个开源和闭源LLM上进行了实证分析。结果表明,LLM在词汇和句法相似度上表现尚可,但在语义准确性上存在挑战;同时,LLM评估与人类判断的对齐程度有限。
🔗 开源详情
- 代码: https://github.com/YifanMo727/SciText2Eq (提供完整工作流代码、数据集和详细的提示模板)。
- 模型权重:论文中未提及开源模型权重链接。实验使用的模型(GPT-4.1, DeepSeek-R1, LLaMA3.3-70B, Qwen3-235B)均通过API或第三方平台(Together AI)访问。
- 数据集:包含在上述代码仓库中。论文构建了一个包含170篇AI研究论文、1043个方程-上下文-描述三元组的数据集,结构详见附录C。
- Demo:论文中未提及。
- 复现材料:提供了用于复现的完整工作流代码与数据集。附录D和E提供了详细的生成与评估提示模板,附录F提供了评估标准细则。
- 论文中引用的开源项目:
- META Nougat:用于将PDF转换为Markdown的工具(见§3.1)。
- Together AI 平台:用于查询 LLaMA 和 Qwen 模型,链接为 https://www.together.ai/(见§4.2)。
- OpenAI API 文档:链接为 https://platform.openai.com/docs/models(见§4.2)。
- DeepSeek API 文档:链接为 https://api.deepseek.com/models(见§4.2)。
- 论文中引��的 MathQA、Math23K 等数据集(见§2.1),未提供其具体开源链接。
🏗️ 方法概述和架构
论文提出了一个三阶段的“可解释方程生成工作流”(如图2所示),核心目标是诊断LLM在真实科学文本中重建和推理数学表达式的能力。
上下文方程语料库创建:
- 数据源:从ACL Anthology和OpenReview收集近两年AI顶会(ACL, NeurIPS, ICLR, ICML等)论文。
- 构建流程:提取论文前4-7页(依论文类型而定),使用
META Nougat工具将PDF转换为Markdown以保留LaTeX公式。过滤转换失败或方程数少于2或超过15的文件。将同一文本块内的多个表达式合并为一个条目。 - 数据结构:数据集 \(\mathcal{D}=\{p_1, \dots, p_n\}\) 包含170篇论文。每篇论文 \(p_i\) 表示为三元组列表 \([(c_1,e_1,d_1), \dots, (c_{n_i},e_{n_i},d_{n_i})]\),其中 \(c_j\) 是第 \(j\) 个方程的自然语言上下文,\(e_j\) 是对应的LaTeX方程,\(d_j\) 是对方程中变量的简洁描述。
可解释方程生成:
- 任务形式化:定义为文档级的序列生成问题。给定论文 \(p_i\),模型在第 \(j\) 步生成第 \(j\) 个方程-描述对 \((e_j^g, d_j^g) = \text{LLM}(c_{1:j}, e_{1:j-1}, d_{1:j-1})\)。输入包括截至当前步骤的所有上下文 \(c_{1:j}\),以及之前所有已生成的方程 \(e_{1:j-1}\) 和描述 \(d_{1:j-1}\)。
- 生成流程(算法1):遍历论文集,对每篇论文,首先提取方法部分,然后检测上下文、方程和描述。随后,按照顺序,利用标准提示模板(附录D)指导LLM依次生成下一个方程的LaTeX代码和变量描述。该过程模拟了在阅读论文过程中逐步理解并重建方程的序列推理。
- 提示模板:系统提示将LLM角色设定为“科学写作助手”,任务是理解文档上下文并生成下一个方程的LaTeX代码及描述。
多层次方程评估:
- 自动指标:使用五个指标衡量表面相似性:
TexBLEU(基于GPT-2嵌入的n-gram相似度)、ROUGE-L(最长公共子序列)、Levenshtein距离(归一化字符编辑距离)、序列相似度(连续匹配子序列比例)、树编辑距离(TED,比较符号解析树,值为0表示相同)。其中前四个衡量词汇相似性,取平均为Lexicality;Syntax定义为 \(1 - \text{TED}\)。 - 基于规范的LLM评估:定义了五个维度的1-5分评分规范:
Validity(语法数学正确性)、Coverage(关键组件完整性)、Clarity(生成描述的清晰度)、Appropriateness(与原始问题场景意图的匹配度)、Equivalence(生成方程与真实方程的数学意义等价性)。评估信息使用规范如表2所示。使用GPT-4o-mini作为评估LLM,温度0.2。 - 人类评估与对齐分析:5位评估者独立对100个样本使用相同五维度规范评分。通过皮尔逊\(r\)、斯皮尔曼\(\rho\)、肯德尔\(\tau\)相关系数和科恩\(\kappa\)系数分析LLM评估与人类评估的一致性。
- 自动指标:使用五个指标衡量表面相似性:


💡 核心创新点
- 构建了面向真实科学文本的方程生成基准数据集:不同于以往使用合成数学题或简单上下文的工作,该数据集从真实AI论文中提取,保留了完整的叙事上下文和多方程依赖关系,更贴近实际科研场景。
- 提出了一个可解释的方程生成工作流:将方程生成形式化为依赖历史上下文和先前生成结果的序列生成任务,强调过程的可解释性。
- 设计了多层级评估框架并进行了人类对齐研究:结合了自动指标、多维度LLM评分和人类评估,系统分析了当前LLM在该任务上的能力瓶颈,并量化了LLM评估器作为人类代理的可靠性。
📊 实验结果
论文在构建的包含1043个方程的数据集上,评估了5个LLM(GPT-4.1, DeepSeek-R1, GPT-4o-mini, LLaMA3.3-70B, Qwen3-235B)。
自动评估结果(表3):
| Model | TexBLEU (%) | Levenshtein (%) | SeqSim (%) | ROUGE-L (%) | Lexicality (%) | TED (%) | Syntax (%) |
|---|---|---|---|---|---|---|---|
| GPT-4.1 | 57.4 | 45.6 | 55.1 | 57.8 | 54.0 | 69.3 | 30.7 |
| DeepSeek-R1 | 57.2 | 41.5 | 51.0 | 54.7 | 51.1 | 71.1 | 28.9 |
| GPT-4o-mini | 54.1 | 42.3 | 51.3 | 52.8 | 50.1 | 71.0 | 29.0 |
| LLaMA3-70B | 54.6 | 42.5 | 51.1 | 52.3 | 50.1 | 70.7 | 29.3 |
| Qwen3-235B | 59.8 | 44.1 | 53.1 | 55.1 | 53.0 | 69.9 | 30.1 |
| Overall | 56.6 ± 2.1 | 43.2 ± 1.5 | 52.3 ± 1.6 | 54.5 ± 2.0 | 51.7 ± 1.6 | 70.4 ± 0.7 | 29.6 ± 0.7 |
- 模型在词汇相似性(Lexicality约51.7%)上表现中等,但句法准确性(Syntax约29.6%)显著更低,表明捕捉数学表达式层次结构是主要难点。
- 模型间差异较小。
LLM评估结果(图3定性描述):
- 模型在
Validity和Appropriateness上得分高(~4.7-4.9),表明能生成语法正确且符合上下文的表达式。 Equivalence得分低(~2.4-3.0),表明数学语义准确性差。Clarity得分中等(~3.0-3.5)。
方程密度影响分析(图4):
- 自动指标:随方程数增加(2-5 -> 6-10 -> 11+),指标先轻微上升后下降,表明中等密度可能提供足够上下文,而高密度增加难度。
- LLM评估指标:随方程数增加呈现清晰的下降趋势,表明语义准确性受方程密度负面影响更大。
人类对齐分析(图5, 图6):
- 人类评分普遍高于LLM评分。
- 相关性分析显示,除DeepSeek-R1在语义准确性维度有中等相关性外,大多数模型和维度的相关性弱或为负,科恩\(\kappa\)值普遍低(~0.2),表明LLM评估器与人类判断对齐有限。
算子级等价性分析(表5):
| Model | Exact (J=1.0) | High (J≥0.8) | Low (J<0.8) |
|---|---|---|---|
| DeepSeek-R1 | 20% | 33% | 67% |
| Qwen3-235B | 26% | 39% | 61% |
| GPT-4.1 | 24% | 37% | 63% |
| GPT-4o-mini | 22% | 39% | 61% |
| LLaMA3.3-70B | 20% | 33% | 67% |
约20-26%的方程达到算子完全匹配,33-39%有高度重叠,表明模型能部分恢复潜在数学结构,但与严格的语义等价仍有差距。


⚖️ 评分理由
- 创新性 (1.3/2):将LLM应用于从真实科学文本序列生成方程并关注可解释性是一个有意义的新任务方向。数据集构建和评估框架的设计是扎实的贡献。但生成工作流本身是标准的序列生成范式,未提出新颖的模型架构或训练策略,创新性有限。
- 技术严谨性 (1.2/1.5):任务形式化清晰,评估框架设计全面(自动、LLM、人类)。数据集构建过程描述详实。但方程生成部分的具体模型架构细节缺失(使用现成LLM),且人类评估的样本量(100样本,5人)相对较小,可能影响结论的统计显著性。
- 实验充分性 (1.3/1.5):评估了多个代表性开源/闭源LLM,从多个角度(自动指标、LLM评分、人类评估、方程密度分析、算子分析)进行了实验。分析了不同论文会议的影响。不足之处在于缺乏与特定任务SOTA方法的直接对比(虽然该领域没有直接可比的方法),且数据集仅限于AI领域。
- 清晰度 (1.0/1.0):论文结构清晰,图表和表格(如表1, 表3, 表5, 图2-7)有效地辅助了内容表达。附录提供了详尽的提示模板和评估标准,透明度高。
- 影响力 (0.3/2):研究方向对科学文献处理、AI辅助科研有启发。但任务高度专业化(方程生成),与语音/音乐/音频领域关联极弱,对本领域读者的直接影响力非常有限。工作主要是一个诊断性研究,揭示了当前LLM的局限,而非提供一个可直接应用的解决方案。
- 开源 (1.2/1.5):提供了完整的代码仓库和数据集链接,代码、数据和详细的复现材料(提示模板)开放,极大促进了可复现性。但未开源模型权重(符合常规)。
- 可复现性 (1.0/1.0):基于开源代码和数据集,以及详细的实验设置描述(模型、温度、提示),基本可以复现论文中的主要结果。
- 工程/实践价值 (0.5/1.0):作为研究工具和基准,对后续相关研究有工程参考价值。但当前方法的生成准确性(尤其是语义)不足以支持实际的科学发现工作流,实践价值主要体现在评估方法论上。
🚨 局限与问题
- 数据集领域单一性:数据集完全由AI领域论文构成,且主要关注方法论章节。论文声称工作流可推广到物理、生物等领域,但未提供任何跨领域验证,其泛化能力存疑。
- 生成任务定义的局限:任务要求LLM生成方程“重建”而非“创新”,且严格依赖论文前文和先前方程。这更侧重于信息提取和重组,与真正的“科学创造力”有距离。生成过程未涉及对外部知识的检索或跨文档推理。
- 评估指标的有效性质疑:
- 自动指标:基于表面文本匹配的自动指标(如BLEU)与数学语义正确性的相关性本身就不强,论文结果也显示了这一点(Syntax远低于Lexicality)。
- LLM评估:研究发现LLM评估与人类判断对齐有限,这直接挑战了使用LLM作为可靠自动评估器的普遍假设。论文虽展示了其评估框架,但其自身的评估可靠性可能成为瓶颈。
- 人类评估规模小且可能模糊:仅100个样本由5人评估,可能存在评估者间一致性不足的问题(论文未报告评估者间信度)。评估规范(如“Equivalence”)的主观性较强,不同评估者理解可能有偏差。
- 对“可解释性”的贡献有限:虽然工作流生成变量描述,且LLM评估提供解释,但这更多是生成任务的附加输出,而非对LLM内部推理过程的解释。论文对“解释性”的承诺大于实际交付。
- 缺乏错误分析:论文主要报告平均性能,但缺乏对典型错误案例的深入分析(如:LLM最常混淆哪类数学结构?错误主要源于上下文理解不足还是数学表达能力不足?)。表4仅提供了一个例子。
- 方法概述部分:未提及一个关键点:生成是顺序进行的,第 \(j\) 个方程的生成依赖于前 \(j-1\) 个生成的(而非真实的)方程和描述。这意味着误差会累积传播,这是一个重要的方法特性,可能影响后续分析,应在概述中明确指出。
📷 论文图片
