📄 FutureSim: Replaying World Events to Evaluate Adaptive Agents

#基准测试 #大语言模型 #自适应代理 #测试时适应

7.6/10 | 前25% | #基准测试 | #大语言模型 | #自适应代理 #测试时适应 | arxiv

学术质量 6.1/8 | 影响力 0.8/1 | 可复现性 0.7/1 | 置信度 高

👥 作者与机构

  • 第一作者:Shashwat Goel (ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems)
  • 通讯作者:未说明
  • 作者列表:Shashwat Goel (ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems), Nikhil Chandak (Max Planck Institute for Intelligent Systems, Tübingen AI Center), Arvindh Arun (Institute for AI, University of Stuttgart), Ameya Prabhu (Tübingen AI Center, University of Tübingen), Steffen Staab (Institute for AI, University of Stuttgart, University of Southampton), Moritz Hardt (Max Planck Institute for Intelligent Systems, Tübingen AI Center), Maksym Andriushchenko (ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems), Jonas Geiping (ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems, Tübingen AI Center)(注:论文标注前三位作者贡献相等)

💡 毒舌点评

亮点:成功构建了一个既“接地”(基于真实新闻)又“可控”(可重放、可消融)的长期自适应评估环境,巧妙地将预测任务转化为衡量AI世界模型演化能力的探针。实验设计(如“直接查询”vs“顺序更新”对比、统一初始预测的适应能力隔离)精准地量化了当前模型的核心短板,并为测试时适应、记忆、搜索等新兴研究方向提供了清晰的实验范式。 短板:评估流程的核心环节——自由形式答案的匹配——完全依赖于一个商业化的LLM(DeepSeek V3.2),其匹配的一致性、可靠性及对不同回答格式的偏差未经系统验证,这为整个基准的评分可信度埋下隐患。此外,尽管框架开源,但复现核心结果需要支付高昂的闭源模型API或编程工具订阅费用(GPT 5.5/Codex, Claude Code),并承担模拟运行本身的高成本,实质上限制了无资源团队的复现能力。

📌 核心摘要

  1. 解决的问题:现有基准难以评估AI代理在需要随时间推移、根据新信息持续适应的动态、开放世界环境中的能力。特别是,缺乏一个能真实模拟事件发生顺序、同时允许可控消融研究的长期(跨越数月)评估框架。
  2. 方法核心:提出FutureSim,一个基于时间戳化新闻语料库(CCNews)构建的“重放”环境。代理被置于从其知识截止日期之后开始的时间流中,每天接收新发布的新闻文章,并需要对一组未来才会解决的真实世界事件(如政治选举、体育赛事结果)进行概率预测,同时根据已解决事件的结果反馈来更新信念和策略。环境仅暴露submit_forecastnext_day两个动作,将策略设计留给代理。
  3. 与已有方法的新颖性:与传统的静态预测评估不同,FutureSim引入了时间维度和持续交互,测试“测试时适应”能力;与基于预测市场(如Polymarket)的实时评估不同,它使用历史数据重放,确保了可复现性和可控消融(如移除记忆、改变搜索策略);与游戏或合成模拟环境不同,其事件动态源自真实世界,提高了生态效度。论文在Table 1中将其与现有多个基准进行了系统对比。
  4. 主要实验结果:在330个问题上对多个前沿模型(GPT 5.5, Opus 4.6, DeepSeek V4 Pro等)进行了90天模拟(2026年1-3月)。结果显示GPT 5.5表现最佳(最终准确率25%,Brier Skill Score ~0.02),但仍远未达到完美。关键发现包括:a) 顺序信息流下的预测更新效果显著弱于在问题解决前一日用完整信息进行的直接查询(准确率24.8% vs 31.2%);b) 外部记忆模块对性能有明确增益;c) 自适应搜索(Agent搜索)远优于单次检索;d) 大多数模型在默认设置下Brier Skill Score为负值(即不如不预测),但在作者设计的优化harness下有所改善。
  5. 实际意义:为评估和推进AI代理在长期、动态、开放世界中的自适应、记忆、推理和搜索能力提供了一个标准化、可重放的基准。其发现(如“锚定效应”导致自适应失败)直接指明了当前模型的关键弱点。
  6. 主要局限性:评估依赖于特定的LLM作为答案匹配器,可能引入偏差;环境仅限于预测任务,无法评估代理行为对环境的影响(非表演性);模型在默认harness下的表现普遍很差,表明该任务对当前架构极具挑战性。

🔗 开源详情

  • 代码:论文摘要中标注了“Blog § Code”,暗示代码会开源,但正文中未给出明确的代码仓库链接(如 GitHub)。因此,具体状态为“承诺开源,但未提供具体链接”。
  • 模型权重:论文中未提及。
  • 数据集:论文中创建了 FutureSim 数据集(包含330个问题),但未提供具体的下载链接或开源协议。因此,具体状态为“承诺提供,但未提供具体链接”。
  • Demo:论文中未提及。
  • 复现材料:论文详细描述了实验设置、沙箱环境、提示词等,但未提供训练配置、检查点等具体复现材料。因此,具体信息为“论文未提及训练配置、检查点等复现材料”。
  • 论文中引用的开源项目:
    • Common Crawl News (CCNews) 数据集:https://data.commoncrawl.org/crawl-data/CC-NEWS/index.html
    • LanceDB:用于实现混合搜索工具。
    • Qwen3 Embedding 8B:用于新闻语料库的语义搜索嵌入。
    • DeepSeek V3.2:用作答案匹配器。
    • OpenReward Standard:https://openrewardstandard.io/ (在附录B.2节中提及)。
    • 其他被评估的基准测试(论文中提及但非本研究直接开源):ARC-AGI 3 (https://arxiv.org/abs/2603.24621), Vending-Bench (https://arxiv.org/abs/2502.15840), SWE-Evo (https://arxiv.org/abs/2512.18470), ForecastBench (https://openreview.net/forum?id=lfPkGWXLLf), ProphetArena (https://openreview.net/forum?id=VpiHkMSPqI), PredictionArena (https://arxiv.org/abs/2604.07355), KellyBench (https://arxiv.org/abs/2604.27865)。

🏗️ 方法概述和架构

  1. 整体流程概述 FutureSim是一个事件驱动的交互式仿真环境。其核心流程为:初始化一组关于未来事件的预测问题 -> 进入以“天”为单位的模拟循环。在每一天,代理可以搜索截至当前日期的新闻语料库、对未解决的问题提交或更新概率预测、利用已解决问题的反馈更新记忆 -> 调用next_day()推进时间。循环持续至所有问题解决,最终计算累积性能指标。

  2. 主要组件/模块详解

  • 任务状态管理器

    • 功能:维护所有预测问题的状态,包括问题描述、解决标准、解决日期以及代理的最新预测。
    • 实现:以CSV文件形式存储。当代理调用submit_forecast(question_id, outcomes)时,更新对应行的预测字段。当next_day()被调用时,检查并将所有已过解决日期的问题标记为“已解决”,填入真实答案。
    • 输入输出:接收代理的预测提交和时间推进指令;输出每日的问题状态快照供代理读取。
  • 上下文语料库与检索系统

    • 功能:提供按日期组织、可搜索的新闻文章,模拟信息随时间流入的过程。
    • 实现:基于Common Crawl News (CCNews) 构建,包含7.36M篇来自141个不同新闻源、时间跨度为2023年1月至2026年3月的去重文章。语料按articles/YYYY/MM/DD/articles.jsonl结构存储。提供一个混合检索工具(search_news(query, from_date, to_date)),基于LanceDB构建索引,使用Qwen3 8B嵌入模型进行语义检索并结合关键词匹配。该工具严格限制to_date不超过当前模拟日期,防止未来信息泄露。检索结果返回5个文本块,每块512 tokens。
    • 输入输出:接收检索查询和日期范围;输出最相关的5个文本块。
  • 代理交互与沙盒化

    • 功能:定义代理与环境交互的有限动作集,并确保安全隔离。
    • 实现:环境仅暴露两个核心动作:submit_forecastnext_day。代理运行在严格的沙盒中(使用bwrap),禁止网络访问(curl, WebSearch被屏蔽),只能读取环境提供的market.csv和截至当日的文章文件夹,并拥有一个可读写的私人工作空间。
    • 输入输出:接收代理的工具调用;输出环境状态更新和(可选的)已解决问题的结果反馈。
  • 评估引擎

    • 功能:计算代理预测的准确性和校准度。
    • 实现:使用两个主要指标:
      1. 准确率(Accuracy):代理预测概率最高的结果(Top-1)是否与真实答案匹配。
      2. Brier Skill Score (BSS):衡量预测概率分布相对于真实结果的准确性,定义为 1 - Σ(p(o) - I[o=y])²,其中p(o)是代理对结果o的预测概率,I[·]是指示函数。论文在附录C.2证明了该评分规则是适当的(Proper),即诚实报告其信念能最大化期望分数。BSS的值域:1为完全正确,0等同于不预测(将所有概率均分),负值表示比不预测更差。
    • 输入输出:接收代理的历史预测和已解决的问题真实答案;输出每日的累积BSS和准确率。自由形式答案的匹配使用DeepSeek V3.2作为“答案匹配器”(Prompt见附录E.5)。
  1. 组件间的数据流与交互 数据流是循环和反馈驱动的。代理每天从任务状态管理器(即market.csv文件)读取活跃问题列表,通过检索系统search_news工具或直接浏览articles/文件夹)获取新信息,进行推理后通过交互接口提交预测或推进时间。推进时间后,任务状态管理器更新问题状态(可能解决一些问题),并将结果反馈给代理。评估引擎持续计算分数。整个过程模拟了一个动态信息流下的序贯决策循环。

  2. 关键设计选择及动机

  • 使用真实新闻重放而非实时市场:动机是确保可复现性和可控消融。市场数据难以精确控制,且随时间不可复现。
  • 仅提供submit_forecastnext_day两个动作:保持环境最小化和通用性,将策略设计留给代理及其harness,便于研究不同harness设计的影响。
  • Brier Skill Score作为主要指标:因为它鼓励校准的概率预测,而不仅仅是正确性,这对于衡量代理的“信念更新”能力更为敏感。
  • 引入自定义的“优化Harness”:动机是评估代理在获得良好工具支持下的潜力,而非仅仅测试其在最简默认配置下的能力。该harness包含上下文消耗反馈、结构化记忆工具、强制记忆更新阶段等特性(详见附录B.1),揭示了harness设计对自适应性能的关键影响。
  1. 多阶段/多模块逐层展开 该方法并非一个多阶段的处理流水线,而是一个持续的交互式仿真循环,其阶段是按时间步骤划分的:
  • 初始化阶段:加载所有预测问题(解决日期在未来)、预构建新闻语料库索引、初始化代理工作空间。
  • 每日循环阶段:
    1. 观察与感知:代理读取market.csv获取当前问题列表和已解决结果,通过search_news工具或浏览文件夹探索新信息。
    2. 推理与决策:代理决定是否以及如何更新对哪些问题的预测。这可以涉及复杂的多步推理、信息综合和不确定性量化。
    3. 行动:代理调用submit_forecast提交更新的预测分布,或调用next_day结束当天。根据harness设计,next_day可能触发强制记忆更新阶段。
    4. 环境更新:在next_day()调用后,环境推进日期,可能解决到期问题,准备新的新闻文章供下一天使用,并向代理反馈已解决问题的结果和评分。
  • 终止与评估阶段:所有问题解决后,计算整个时间序列上的最终准确率和BSS(以及时间加权分数等变体)。
  1. 架构图/流程图 论文首页的Figure 1展示了FutureSim的核心交互流程示意图。横轴代表模拟时间(从一月到三月)。上方展示了代理在每个时间点进行的“预测更新”(向上箭头)和“新闻搜索”(放大镜图标)。下方曲线展示了不同代理的准确率和Brier Skill Score随时间演进的趋势。关键信息是:随着更多证据(新闻)被代理发现和整合,预测性能普遍提升,但不同模型间存在显著差距。

  2. 专业术语解释

  • 测试时适应 (Test-Time Adaptation):指模型在推理阶段(而非训练阶段),根据新的输入或环境反馈实时调整自身行为或参数的能力。在FutureSim中体现为代理根据每日新闻和已解决问题结果更新预测。
  • Brier Skill Score (BSS):一种用于评估概率预测校准度的评分规则。值越接近1表示预测越准确且校准越好,0表示与“不预测”一样好,负值表示比不预测更差。
  • 沙盒 (Sandboxing):一种安全隔离技术,限制程序只能在特定的文件系统和网络环境中运行,防止其访问未授权资源。在FutureSim中用于严格防止代理获取未来信息。
  • 答案匹配器 (Answer Matcher):在评估阶段用于判断代理提交的自由形式预测结果是否与真实答案语义匹配的工具。本文使用DeepSeek V3.2模型实现。
  1. 非模型工作的处理 本文是一个典型的基准测试(Benchmark)工作。其核心“方法”是评估框架和环境的设计,而非提出一个新的预测模型。其技术贡献在于:
  2. 环境设计:如何利用时间戳化的真实数据构建一个可重放、可控、无信息泄露的长期自适应评估环境。
  3. 评估指标:定义并证明了适用于自由形式、多结果预测任务的Brier Skill Score的适当性。
  4. 消融框架:设计了一系列隔离不同能力(如记忆、搜索、harness设计)的实验范式,以研究这些能力对长期适应的影响。

💡 核心创新点

  1. “重放”范式:通过使用具有严格时间戳的历史新闻数据集(CCNews)来构建评估环境,首次实现了对AI代理在真实世界事件序列中长期适应能力的可复现、可控制评估。这解决了现有评估要么静态、要么依赖不可控实时市场、要么在合成环境中进行的根本矛盾。
  2. 开放式的概率预测任务:摒弃了传统的多选题或二元问题,允许代理提交自己生成的、包含多个可能结果的概率分布。这更贴近人类预测员的真实工作模式,能更全面地测量代理的信念表达和校准能力。
  3. 面向自适应能力的消融实验设计:通过控制初始预测集(如统一使用最差模型的初始预测)来隔离和比较不同代理的“纯自适应”能力;通过“直接查询”vs“顺序更新”实验,量化了当前模型在持续适应方面的效率损失。这些实验方法论本身具有创新性。
  4. 揭示“锚定效应”与���自我调节”问题:实验发现,即使获得负分反馈,代理也难以摆脱早期不良预测的锚定。这揭示了当前大语言模型在动态环境中进行信念更新的一个关键缺陷,为未来研究指明了方向。

📊 实验结果

主要Benchmark与结果 论文在一个自建的、包含330个问题的FutureSim基准上评估了五个前沿模型(GPT 5.5, Claude Opus 4.6, DeepSeek V4 Pro, Qwen 3.6 Plus, GLM 5.1),时间为2026年1-3月。主要指标为准确率(Top-1 Accuracy)和Brier Skill Score(BSS)。结果汇总如下表(数据来源于Figure 1):

模型Harness最终准确率(3月28日)最终Brier Skill Score(3月28日)备注
GPT 5.5Recommended (Codex)25%0.02表现最佳,BSS为正
Claude Opus 4.6Recommended (Claude Code)未在Figure 1明确列出最终值,但趋势线显示其准确率低于GPT 5.5,BSS为负未在Figure 1明确列出最终值在自定义harness下BSS改善
DeepSeek V4 ProRecommended (Claude Code)13%-0.02BSS为负,但在自定义harness下改善
Qwen 3.6 PlusRecommended (OpenCode)5%-0.07BSS显著为负,仅预测了36.7%的问题
GLM 5.1Recommended (Claude Code)10%-0.01BSS接近零,但为负
基线(不预测)-0%0.00-

关键消融与对比实验

  1. 测试时适应能力隔离(论文Figure 5左):

    • 设置:将所有模型的初始预测统一设置为最差模型(Qwen 3.6 Plus)的预测,观察后续适应。
    • 结果:GPT 5.5、Opus 4.6、DeepSeek V4 Pro表现出类似的适应能力,BSS随时间缓慢上升,但即使到模拟结束,也未能回升至“不预测”基线(0分)。GLM 5.1适应较慢,Qwen 3.6 Plus几乎不适应。
    • 结论:当前模型普遍难以从不良初始预测中有效恢复,存在强烈的锚定效应。
  2. 记忆模块消融(论文Figure 5右):

    • 设置:移除代理在模拟过程中写入和检索长期记忆的能力。
    • 结果:三个测试模型(DeepSeek V4 Pro, GLM 5.1, Opus 4.6)在没有记忆的情况下,其BSS在整个模拟期间均低于有记忆的情况。
    • 结论:外部记忆对于维持上下文、避免信息重复搜索和校准信念至关重要。
  3. 搜索方式消融(论文Figure 6 & 11):

    • 设置:比较四种模式:a) 完整模拟(每日语料更新 + 代理主动搜索);b) 无语料更新(冻结在初始状态);c) 仅在问题解决前一天,使用问题标题进行单次语义检索;d) 直接使用完整上下文查询。
    • 结果(准确率):完整模拟(24.8%)远优于无语料更新(17.9%),后者因缺乏新证据导致过度自信和BSS严重下降。单次检索(14.2%)远差于代理主动搜索(31.2%)。直接查询(31.2%)与完整模拟的最终日代理搜索性能相当,但高于其过程中的平均性能(24.8%)。
    • 结论:a) 信息流(每日新文章)至关重要;b) 主动、迭代的信息检索(代理搜索)远优于被动单次查询;c) 代理在顺序信息流中的整合效率低于一次性获取全部信息。
  4. 推理计算量缩放(论文Figure 7 & 12):

    • 设置:在GPT 5.5上测试从“none”到“xhigh”五个级别的推理努力(对应不同的思考预算和工具调用次数)。
    • 结果:准确率和BSS均随推理努力增加而提升,但在“high”到“xhigh”之间收益递减。例如,“none”努力下BSS极低(~ -0.2),显示推理对校准至关重要。
    • 结论:增加测试时计算量能提升性能,但存在天花板。

与人类聚合预测对比(论文Figure 4) 在部分有对应Polymarket市场的问题上,GPT 5.5的预测轨迹与人类市场聚合趋势相似,甚至在某些问题(如超级碗冠军)上领先于市场。但在其他依赖群体偏好的问题(如格莱美奖)上则表现较差。这验证了仿真环境与现实经济活动的关联性。

🔬 细节详述

  • 训练数据:未说明。FutureSim是一个评估基准,不涉及训练新模型。使用的新闻语料是CCNews的去重快照,包含7.36M篇文章,时间从2023年1月到2026年3月。预测问题由LLM从Al Jazeera新闻文章中自动生成并经过严格过滤(仅保留3%),确保问题在2026.1.1-3.28期间解决,且答案无法从截止日期前的信息中推断。问题生成流程及改进详见附录A.1。
  • 损失函数:不适用。这是评估工作,不训练模型。评估使用Brier Skill Score作为评分函数。
  • 训练策略:不适用。
  • 关键超参数:对于检索系统,文本块大小为512 tokens,嵌入模型为Qwen3 Embedding 8B。对于代理评估,每个问题最多允许预测5个结果。推理努力级别对应不同的模型思考预算和工具调用次数。
  • 训练硬件:未说明。检索系统使用A100或H100 GPU托管嵌入模型。代理运行使用API或商业编程工具(Codex, Claude Code, OpenCode)。
  • 推理细节:代理以“每日”为步长进行推理。具体解码策略(温度、采样参数)由底层语言模型和其harness决定,论文未统一规定,强调测试模型在其“推荐harness”下的表现。环境交互遵循OpenReward Standard。
  • 正则化或稳定训练技巧:不适用。论文设计的“优化Harness”包含了提示工程(如程序化工作流、记忆更新阶段)以稳定代理行为,但这属于环境设计,而非模型训练技巧。

⚖️ 评分理由

创新性:2.5/3

  • 问题/方法新颖性:非常高。将“事件重放”这一概念系统化为一个可复现、可消融的AI代理长期自适应基准,填补了评估动态世界模型的关键空白。与现有预测基准(如ForecastBench的静态、ProphetArena的不可控实时)有本质区别。
  • Insight深刻性:深刻。通过隔离实验(如统一初始预测)揭示“锚定效应”,以及通过“直接查询vs顺序更新”量化适应效率损失,提供了关于当前LLM能力边界的宝贵洞见。
  • 与SOTA区分度:清晰且有说服力。FutureSim不是改进一个具体模型,而是提出一个新的评估维度和框架,其目标与现有模型改进工作互补而非竞争。

技术严谨性:1.3/2

  • 推导/证明正确性:良好。论文对Brier Skill Score进行了适当地数学定义和证明(附录C.2),证明了其适当性。
  • 漏洞与过度简化:存在明显漏洞。核心评估依赖一个未经严格验证的LLM(DeepSeek V3.2)作为“答案匹配器”来处理自由形式答案的匹配。论文未提供该匹配器本身的错误率分析、跨匹配器一致性验证或偏差讨论。这为BSS的绝对值和模型间比较引入了不可控且可能严重的噪音。此外,模拟假设每日步进,但真实信息流可能是不均匀的。

实验充分性:1.5/2

  • 基线与消融:充分且有启发性。消融实验设计巧妙,直接针对核心研究问题(适应、记忆、搜索)。基线包括“不预测”和不同harness配置。
  • 数据集覆盖:问题类型覆盖国际政治、冲突、体育等多个领域(见Table 2),具有一定广度。
  • 结果支撑结论:大部分结论有数据支撑。但“最优harness”工程量较大,其设计细节(附录B.1)虽详尽,但性能提升可能部分来自“过拟合”到此特定评估设置(在另一个验证集OpenForesight上开发),这在一定程度上削弱了“默认能力”的评估纯度。显著性分析主要依赖于均值趋势和误差带,未提供正式的统计检验。

清晰度:0.8/1

  • 写作与组织:优秀。论文结构清晰,从问题提出到环境设计、实验、分析、讨论逻辑连贯。
  • 图表质量:高。图表(如Figure 1, 3, 5, 6)有效地传达了关键信息和比较。
  • 细节缺失:核心方法描述充分。但部分关键细节(如沙盒实现的完整代码、所有harness提示的完整模板)仅在附录给出,对快速理解核心贡献稍有阻碍。

影响力:0.8/1

  • 领域推动作用:显著。为评估AI代理在长期开放世界适应这一核心但难以测量的能力上提供了首个标准化工具。可能直接催生一系列关于长期记忆、测试时适应、搜索策略的研究。
  • 后续工作潜力:高。环境的模块化设计(可更换问题集、语料库、harness)易于扩展到新领域或更新数据。
  • 读者相关性:对关注LLM代理、推理、规划和评估的研究人员高度相关。

可复现性:0.7/1

  • 开源完整度:承诺提供代码、数据集和评估工具,这是巨大加分。
  • 实践障碍:复现完整实验需要访问多个付费闭源API(GPT 5.5, Claude)及其特定编程工具(Codex, Claude Code),并可能涉及较高的计算成本(论文B.4节提到单次运行成本可能达数十至数百美元)。这实质上限制了无资源团队的完全复现能力。

🚨 局限与问题

  1. 论文明确承认的局限:
  • “FutureSim focuses on a purely predictive setting, where agent actions cannot significantly change environment dynamics”(未来模拟限于纯预测设置,代理行动无法显著改变环境动态),因此不适用于决策或表演性预测场景。
  • “the absolute performance we report can be considered a lower-bound on model capabilities, as improvements in the available harness, tools, or context corpus can lead to better results”(报告的绝对性能可视为模型能力下界,改进harness、工具或语料可得到更好结果),暗示当前分数受限于评估设置而非模型理论极限。
  • 新闻语料库的更新速度可能不如实时搜索引擎,导致代理“updates on candidate probabilities are aligned with, albeit lagging the human aggregate”(更新滞后于人类聚合预测)。
  1. 审稿人发现的潜在问题:
  • 评估可信度风险:对LLM答案匹配器(DeepSeek V3.2)的依赖是重大隐忧。自由形式答案的匹配本身是开放问题,论文未提供匹配器本身的错误率分析或跨匹配器一致性验证。若匹配器存在系统偏差(如对某些格式更友好),会扭曲模型间比较的公平性。这是本论文技术严谨性最大的缺陷。
  • “优化Harness”的过拟合风险:论文承认该harness在开发时使用了另一个验证集(OpenForesight)。虽然这是良好实践,但最终报告的主要结果(Figure 3 “Our Harness”)仍可能隐含针对测试集(FutureSim)中特定问题类型或模型的优化,其泛化性存疑。
  • 问题难度分布与区分度:330个问题中,有229个(~69%)被所有四个主流模型的最终预测答错(附录A.3)。这可能意味着基准对于当前模型而言过于困难,或者问题生成/解决逻辑存在噪音,使得模型间的区分度可能部分来自“问题选择”差异(如Qwen 3.6 Plus仅预测了36.7%的问题),而非纯粹的“适应能力”。
  • 代理行为分析不足:论文提供了有趣的定性观察(如“self-conditioning”),但缺乏更系统的代理轨迹分析,例如代理每天用于搜索、推理、提交的时间分配比例,或信息检索的质量评估。附录D.1仅报告了总动作数,但未深入分析动作类型和效率。
  • 成本与可及性:论文详细列出了运行成本(附录B.4),高昂的API费用和硬件要求客观上构成了复现壁垒,这与开源精神存在一定张力。

← 返回 2026-05-15 论文速递