📄 AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions
📝 5.6/10 | 前50% | arxiv
学术质量 3.7/7 | 影响力 0.3/2 | 可复现性 1.6/2 | 置信度 中
👥 作者与机构
未在提供的全文中明确列出所有作者的所属单位。论文致谢部分列出了部分作者(JWS, BH, TLL)获得的资金支持,包括香港研究资助局(RGC)、国家自然科学基金(NSFC)和澳大利亚研究理事会(ARC)项目。
💡 毒舌点评
这篇论文的工作动机清晰,直指当前GUI智能体在理想化测试集上表现良好但在真实杂乱环境中脆弱的“皇帝新衣”问题,这一点值得肯定。提出的AgentHijack基准测试本身有一定工程价值,填补了“非对抗性”鲁棒性评估的空白。然而,作为一篇投向ICML的论文,其方法部分的深度和创新性严重不足。“观察者”模块的概念过于朴素,本质上是将环境状态变化显式文本化的外挂模块,缺乏理论上的新颖性。所谓的DA-GRPO算法,其核心创新(在多环境rollout)在正文中公式(1)里几乎没有体现,创新点隐藏在附录的描述性文字中,这在顶会论文中是不可接受的写作方式。更关键的是,论文的领域相关性非常弱。作为一个针对通用GUI智能体的鲁棒性测试与简单模块增强工作,它与ICML核心关注的机器学习理论、算法或根本性模型突破关联甚微。对于语音/音乐/音频领域的读者而言,本文几乎没有直接启发或技术迁移价值。实验中仅使用UI-TARS-1.5-7B作为基座模型进行微调和观察者构建,限制了结论的普适性。整体感觉像是一篇扎实的系统工程报告(benchmark + hack),而非一篇有深度的机器学习研究论文。
📌 核心摘要
本文针对多模态大语言模型驱动的计算机使用智能体在真实环境中易受常见非对抗性干扰影响的脆弱性问题,提出了首个可配置的基准测试AgentHijack。该基准在OSWorld平台上构建了包含9类干扰(如弹窗、分辨率变更、意外触控等)的3321个任务。实验评估发现,即便是先进的UI-TARS系列智能体,在干扰下的平均成功率也显著下降。为提升鲁棒性,作者提出了AgentHijack-Agent框架,其核心包括一个采用数据增强群体相对策略优化(DA-GRPO)训练、具有增强定位能力的动作生成器,以及一个负责行为总结与初始环境检查的观察者模块。消融实验验证了各组件的有效性,该框架在所有干扰类型上均优于基准模型。
🔗 开源详情
- 代码:https://AgentHijack.github.io
- 模型权重:论文中未提及提供微调后的AgentHijack-Agent或观察者模型权重。
- 数据集:AgentHijack基准基于OSWorld构建,数据集链接通过代码仓库提供。
- Demo:论文中未提及。
- 复现材料:论文提供了非常详细的复现材料,包括:1) 训练配置(Section 5.1,附录F);2) 所有实验中使用的系统提示词(附录F.3);3) 每类干扰的具体配置参数(表5);4) 消融实验的设置(附录F.2);5) 评估所用的基线模型及统一推理参数。复现环境基于OSWorld提供的虚拟机。
- 论文中引用的开源项目:
- VERL:用于强化学习微调的框架。
- pyautogui:用于程序化控制鼠标和键盘的Python库。
- UI-TARS:论文评估的基线GUI智能体模型系列。
- OSWorld:作为基准构建基础的计算机任务评估环境。
🏗️ 方法概述和架构
论文提出的AgentHijack-Agent框架(如图3所示)旨在增强GUI智能体对常见环境干扰的鲁棒性,其设计基于对现有智能体在干扰下表现的三项关键观察:1) 视觉干扰破坏定位能力;2) 意外操作干扰决策;3) 智能体无法感知初始环境错误。框架由两个核心组件构成,协同工作以提升鲁棒性。
动作生成器与数据增强群体相对策略优化(DA-GRPO):
- 功能与实现:动作生成器负责根据用户指令、历史轨迹和观察者的总结,输出下一步操作。其核心能力的提升源于DA-GRPO训练算法。DA-GRPO是标准群体相对策略优化(GRPO)的扩展,关键在于“数据增强”。在标准GRPO中,模型从单一(通常是清洁)环境中采集多条轨迹进行策略更新。而DA-GRPO在为一个任务进行策略更新时,会同时从多个不同的随机化干扰环境中采集轨迹\(\{o_{i}^{c}|i\in[1,G],c\in\mathcal{C}\}\)(\(c\)代表不同的干扰环境)。目标函数如公式(1)所示,旨在最大化这些来自多样干扰环境下的轨迹的累积优势。这强迫策略在优化过程中就适应多样化的环境扰动,从而学习到更鲁棒的行动策略。
- 奖励设计:奖励函数\(r_{i}\)(公式(2))结合了任务成功奖励\(r_{i}^{\text{success}}\)(成功为1,失败为0)和格式奖励\(r_{i}^{\text{format}}\)(格式错误为-1,正确为0)。为应对稀疏的成功奖励,训练过程中引入了经验回放缓冲区,用于存储成功的轨迹。当一个批次内所有采样轨迹的奖励均为零时,会从缓冲区中随机替换一条,以确保优化过程始终有正向信号。
- 基座模型:实验中采用UI-TARS-1.5-7B作为基座模型进行DA-GRPO微调。
观察者(Onlooker)模块:
- 功能:观察者是一个额外的、环境聚焦的辅助智能体,其职责有两个:
- 行为总结:在动作生成器执行每一步动作后,观察者对比动作前后的屏幕截图,将环境发生的变化(尤其是由意外操作引起的非预期变化)总结成简洁的描述\(d_{t}\)。这使得历史上下文从传统的\(\{o_{1},a_{1},...,o_{t},a_{t}\}\)扩展为\(\{o_{1},d_{1},...,o_{k},d_{k},...o_{t},d_{t}\}\),帮助动作生成器更准确地归因状态变化,避免被意外操作触发的内容分散注意力。
- 初始环境检查:在任务执行前,观察者检查初始环境状态。通过对比屏幕截图和预设的错误信息仓库(如网络断开、需要登录验证),若检测到初始化异常(如网络错误、锁屏状态),则会报告错误并提示重新初始化环境,防止智能体在故障环境中进行无意义的尝试。
- 实现:在实验中,默认使用另一个经过微调的UI-TARS-1.5-7B实例作为观察者。论文也探索了使用更强大的模型(如Qwen3-VL-235B)作为观察者的可能性。
- 功能:观察者是一个额外的、环境聚焦的辅助智能体,其职责有两个:
框架流程与交互:如图3所示,在任务开始前,观察者先执行环境检查,确保环境就绪。任务执行时,动作生成器接收用户指令、当前截图和包含历史截图及观察者总结的历史记忆,输出动作。观察者持续监控每一步后的环境变化,更新行为总结并将其追加到历史记忆中,供动作生成器在下一步决策时参考。通过这种显式记录环境变化的方式,框架增强了智能体对动态环境的感知和抗干扰能力。


💡 核心创新点
- 提出了首个可配置的非对抗性鲁棒性基准测试AgentHijack:针对计算机使用智能体,定义了“损坏鲁棒性”(corruption robustness)的概念,区别于对抗性鲁棒性。基准涵盖了9类常见环境干扰,基于OSWorld构建了3321个任务,并支持通过YAML配置干扰参数,为系统评估智能体鲁棒性提供了标准化工具。
- 提出了AgentHijack-Agent框架:通过集成“动作生成器”和“观察者”两个组件来提升鲁棒性。观察者负责行为总结和初始环境检查,为动作生成器提供更清晰的环境变化信息和正确的初始状态,这一设计针对了现有智能体在干扰下的具体弱点(观察1-3)。
- 提出了数据增强群体相对策略优化(DA-GRPO)算法:在GRPO框架下,通过在策略更新时使用多个随机化干扰环境进行数据采集(rollout),实现了对智能体策略的增强训练,使其学习到更泛化的、适应多样扰动的行动策略。算法细节在附录D中补充。
📊 实验结果
实验全面评估了9个代表性模型,并进行了详细的消融研究。主要结果如表2所示。
表2:各智能体在9类干扰下的基准性能(成功率)。\(\Delta\)表示相对于最佳基线(UI-TARS-1.5-7B)的提升。
| Agent | Clean | Pop ups | Resolution | Marks | Subtitle | Multi Apps | Accidental Touch | App Minimization | Network Error | Verification | Average |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 开源多模态大语言模型 | |||||||||||
| GLM-4.5V | 4.24% | 0.86% | 3.68% | 2.52% | 3.68% | 3.68% | 1.98% | 4.24% | 2.52% | 3.12% | 3.05% |
| Llama-3.2-90B-Vision-Instruct | 3.97% | 0.77% | 1.64% | 1.93% | 1.87% | 1.59% | 1.45% | 0.00% | 1.45% | 1.64% | 1.63% |
| Qwen2.5-VL-72B-Instruct | 10.99% | 1.86% | 6.38% | 9.45% | 10.29% | 5.79% | 7.48% | 8.32% | 7.48% | 6.63% | 7.47% |
| 闭源多模态大语言模型 | |||||||||||
| GPT-4o | 5.38% | 1.44% | 4.82% | 2.56% | 3.66% | 3.68% | 3.12% | 4.82% | 4.24% | 3.25% | 3.69% |
| Claude-3.7-Sonnet | 4.23% | 1.41% | 2.54% | 2.82% | 2.54% | 1.97% | 2.54% | 2.25% | 1.69% | 2.54% | 2.45% |
| Gemini-2.5-Pro | 8.11% | 5.20% | 6.98% | 6.64% | 6.28% | 2.76% | 4.61% | 2.78% | 7.02% | 7.81% | 5.82% |
| 最先进GUI智能体 | |||||||||||
| UI-TARS-7B-DPO | 16.20% | 13.09% | 10.03% | 13.41% | 15.59% | 13.85% | 13.97% | 13.61% | 13.33% | 8.31% | 13.14% |
| UI-TARS-72B-DPO | 22.38% | 15.51% | 14.32% | 20.36% | 19.32% | 18.94% | 14.44% | 15.19% | 19.76% | 9.42% | 16.96% |
| UI-TARS-1.5-7B | 24.21% | 10.28% | 11.69% | 23.31% | 22.75% | 19.25% | 22.54% | 20.84% | 22.02% | 10.48% | 18.74% |
| AgentHijack-Agent (Ours) | 27.80% | 21.51% | 12.53% | 27.28% | 26.45% | 21.17% | 24.37% | 24.51% | 23.09% | 20.15% | 22.89% |
| \(\Delta\) (vs. UI-TARS-1.5-7B) | +3.59% | +11.23% | +0.84% | +3.97% | +3.70% | +1.92% | +1.83% | +3.67% | +1.07% | +9.67% | +4.15% |
关键发现:
- 基线脆弱性:即使是最强的基线UI-TARS-1.5-7B,在干扰下的平均成功率也从清洁环境的24.21%大幅下降至18.74%。各类干扰中,“弹窗”(Pop ups)和“身份验证”(Verification)造成的影响尤为严重。
- 框架有效性:提出的AgentHijack-Agent框架将平均成功率提升至22.89%(提升4.15%),在所有9类干扰下均优于基线。其在“弹窗”(+11.23%)和“身份验证”(+9.67%)干扰下的提升最为显著。
- 消融研究:
- 干扰强度(图4):随着干扰强度增加(如分辨率缩放比例变小、标记数量增多),所有智能体性能均下降,但AgentHijack-Agent始终保持领先。
- 干扰内容(图5):改变弹窗、字幕等干扰的具体内容会导致性能波动,但框架始终能提供稳定的性能提升。
- 干扰位置(图6):干扰发生在屏幕不同位置或任务执行的不同阶段,框架均表现出鲁棒性。
- 模块必要性(图6):移除RL训练或观察者模块均导致性能显著下降,证明了DA-GRPO和观察者的必要性。
- 观察者模型对比(图7):使用更强大的观察者模型(如Qwen3-VL-235B)能带来更大提升,但为平衡性能与开销,论文默认使用微调后的UI-TARS-1.5-7B。
- 案例分析(图8):定性展示了框架如何有效应对各类干扰:在视觉干扰下保持准确的定位能力,在意外操作后能正确归因并回归主任务,在环境错误下能主动检测并恢复。


🔬 细节详述
- 训练细节:基于UI-TARS-1.5-7B,使用VERL框架进行微调。从AgentHijack基准中采样128个任务,训练15个epoch。超参数:batch size=1,rollout_n=4,温度=1.0,学习率=1e-6,梯度累积步长=4,裁剪范围[0.2, 0.3],关闭KL散度损失。采用经验回放缓冲区缓存成功轨迹。
- 评估设置:所有代理模型的推理参数统一:温度=0.6,top-p=0.9,最大生成token=1500。观察上下文包括用户指令、当前截图和最多15张历史截图。任务最大步数设为10步。
- 干扰实现:9类干扰均在基于Ubuntu的OSWorld虚拟机环境中实现。例如,“网络错误”通过iptables规则阻止外部网络访问但保留主机-虚拟机通信;“身份验证”通过Win+L热键锁屏触发。具体算法伪代码见附录C(算法1-9)。
- 观察者提示词:观察者的行为总结和初始检查通过精心设计的提示词实现(附录F.3.2和F.3.3)。行为总结提示要求对比前后截图,用一句话描述由动作引起的最关键视觉变化。环境检查提示指导观察者识别“需要登录密码”和“网络不可用”两种风险。
- 局限性补充:除作者提及的局限外,方法存在以下问题:1) 可扩展性局限:DA-GRPO和观察者的有效性严重依赖于基座模型UI-TARS-1.5-7B,在其他架构或更小/更大的模型上的效果未知。2) 干扰现实性:所有干扰在受控的虚拟机中实现,其对物理机、混合环境或更复杂干扰的代表性有待验证。3) 观察者效率:观察者每一步都需要额外的模型推理,显著增加了计算开销和延迟,论文未报告其具体耗时和成本。4) 评估公平性:部分对比基线(如GPT-4o, Claude)是通用多模态模型,并非专门为GUI智能体优化,与专用模型(UI-TARS系列)的直接对比可能不完全公平。5) 公式表达:核心创新DA-GRPO的关键(跨环境rollout)在公式(1)中未能显式体现,需依赖正文叙述和附录理解,降低了方法的清晰度和说服力。
⚖️ 评分理由
- 创新性 (0.8/3):基准测试AgentHijack的构建是一项有价值的工程工作,但方法论的创新性较弱。DA-GRPO算法的核心思想(在多环境训练以提升鲁棒性)直观但不够深刻,且正文中未清晰呈现。观察者模块属于启发式设计,概念上并非新颖。
- 技术严谨性 (1.0/1.5):实验设计较为全面,包含多种模型、干扰类型和详细的消融研究。然而,所有方法验证仅基于单一基座模型UI-TARS-1.5-7B,技术结论的普适性存疑。对DA-GRPO的理论分析几乎为零。
- 实验充分性 (1.2/1.5):实验覆盖了广泛的基线和干扰类型,消融研究深入,结果基本支持论点。但如前述,验证���围局限于单一模型生态是明显短板。
- 清晰度 (0.7/1):论文结构清晰,图3对框架的阐述较好。但关键方法(DA-GRPO)的表述在正文中有欠缺,核心公式未能体现其“数据增强”特性,影响了方法的清晰传达。
- 影响力 (0.3/2):作为一篇评估基准和特定框架增强的工作,其影响力主要在GUI智能体社区。对于ICML核心读者以及语音/音乐/音频领域的研究者而言,本文的技术贡献和启发性非常有限,故影响力评分低。
- 开源 (1.2/1.5):论文提供了代码仓库、详细的训练配置(附录F)和复现指南,开源和复现性做得较好。但未提供训练好的模型权重。
- 可复现性 (0.4/0.5):基于详细的配置、提示词和环境设置,复现论文中的实验是可行的,扣分点在于依赖特定的虚拟机环境和训练资源。
🚨 局限与问题
- 方法可扩展性与泛化性:整个框架(包括训练和部署)强依赖于UI-TARS-1.5-7B模型。DA-GRPO在其他模型架构(如纯语言模型、不同视觉编码器)上的效果未知。观察者的总结和检查能力是否随基座模型变化而变化也未探讨。
- 干扰集合的完备性与现实性:虽然9类干扰涵盖了常见场景,但现实世界的环境干扰远不止于此(如硬件故障、系统更新弹窗、驱动异常、屏幕旋转等)。所有实验在统一的虚拟机中进行,与复杂多变的物理机环境存在差距。
- 计算效率与部署成本:引入观察者模块意味着在智能体每一步行动前后都需调用一个7B模型进行推理(总结和检查),这会导致显著的额外延迟和计算成本。对于需要实时响应的GUI任务,这一开销可能是不可接受的。论文未对此进行任何定量分析。
- 评估基准的静态性:AgentHijack基准中的干扰是预先定义和配置的。然而,真实的环境干扰是动态、未知且可能组合出现的。智能体能否适应这种动态未知的干扰模式是更大的挑战。
- 实验比较的公平性质疑:在基线中混合了通用多模态大模型(GPT-4o, Claude等)和专门为GUI任务设计的微调模型(UI-TARS系列)。前者在任务理解、指令遵循上可能具有优势,但后者在领域特定操作上更优。这种混合对比可能影响结论的纯粹性。
- 理论贡献薄弱:论文将问题形式化为POMDP是自然的,但后续的分析和方法提出均缺乏理论支撑。DA-GRPO为何有效、其收敛性、以及观察者信息在何种条件下能真正提升决策等,均未进行理论探讨。
- 对观察者错误传播的担忧:如果观察者的总结或检查出现错误(如误报、漏报),可能会向动作生成器传递误导信息,导致性能下降。论文未讨论观察者自身的鲁棒性或错误容忍机制。
📷 论文图片
