Sandboxed Coding Agents are Competitive Omni-modal Task Solvers
📄 Sandboxed Coding Agents are Competitive Omni-modal Task Solvers #强化学习 #基准测试 7.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.9/10 | 前25% | #强化学习 | #强化学习 | #基准测试 | arxiv 👥 作者与机构 论文作者为Dongping Chen, Xuanao Huang, Zhihan Hu, Qingyuan Shi, Dianqi Li, Tianyi Zhou。机构包括马里兰大学(University of Maryland)和穆罕默德·本·扎耶德人工智能大学(MBZUAI)。 💡 毒舌点评 这篇论文像一个聪明的“工具人”(编码代理)突然发现自己能干“多媒体专家”(原生全模态模型)的活,而且还干得又快又省(少令牌)。作者不仅展示了这个现象,还像产品经理一样分析了“工具人”的故障模式,并手把手教它(Code-X训练)以及设计了新的“技能考核标准”(TerminalBench-O)。优点是思路清晰,实证充分,对“原生感知必要性”这个假设发起了有价值的挑战。缺点在于,部分实验设计有“田忌赛马”的嫌疑,比较基准的选择和设置可能对原生模型不够公平;结论的普适性被自身承认的局限性所削弱;且“处理”任务的新基准(TerminalBench-O)虽然立意好,但目前结果过于惨淡,难以支撑起“下一个前沿”的宏大宣言。总体是一篇扎实的系统性工作,但离改变范式还有一段距离。 📌 核心摘要 本文挑战了“全模态任务必须由原生全模态模型解决”的传统假设。研究发现,仅具备文本+图像访问能力的沙箱化编码代理,通过编写代码、调用ffmpeg、Whisper等工具从原始媒体中提取证据,能够将全模态任务转化为检索与信息处理问题。在OmniGAIA等多个基准上,此类代理(如GPT-5.4 xhigh)的性能可匹配甚至超越Gemini 3.1 Pro等原生全模态模型,同时消耗的令牌更少。论文通过失败分类法和过程级评估分析了代理的局限,并提出三种技能注入方法以提升性能。为探索开源能力,论文提出Code-X训练方案(SFT+可验证奖励RL)和OmniCoding数据集,并在Qwen开源模型上获得提升。此外,论文引入了首个面向全模态处理任务的基准TerminalBench-O,揭示当前代理在该任务上的不足。 ...