MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents
📄 MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents #模型评估 #基准测试 #大语言模型 #开源工具 #鲁棒性 ✅ 7.5/10 | 前25% | #模型评估 | #基准测试 | #大语言模型 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Haonan Li(中国地质大学(北京)教育部长江三峡库区地壳活动与地质灾害重点实验室,中国地质大学(北京)地球物理与信息技术学院) 通讯作者:未说明(论文未明确标注通讯作者) 作者列表:Haonan Li(同上)、Tianjun Sun(同上)、Yongqing Wang(同上)、Qisheng Zhang(同上) 💡 毒舌点评 这篇论文的亮点在于它犀利地指出了一个常被忽视的“非恶意”安全风险:AI代理在“乖乖干活”时如何因工作流拓扑结构而“被迫”泄露数据,其提出的CRS分层方法清晰地区分了“任务要求”和“安全失败”,框架设计严谨且开源彻底。短板在于其所有评估任务均为研究者设计的合成场景,能否完全代表真实企业部署中复杂多变的工作流尚存疑问,且对“数据传播”仅限于可字符串匹配的金丝雀,未涉及更隐晦的语义泄露。 🔗 开源详情 代码:https://github.com/lihaonan0716/MCPHunt 模型权重:论文中未提及(论文评估的模型通过API端点调用,未提供模型权重本身) 数据集:https://huggingface.co/datasets/lihaonan0716/mcphunt-agent-traces (包含所有6,321条追踪记录;开源协议为CC BY 4.0) Demo:论文中未提及 复现材料: 代码仓库包含完整的评估框架、标注管线(labeling pipeline)和Croissant元数据。 可复现配置:每个输出JSON文件包含版本信息(schema_version, pipeline_git_commit, task_taxonomy_version, labeling_rules_version)。 重标注脚本:relabel_traces.py 可从原始事件数据重新计算所有风险信号并生成汇总统计。 任务注册表:完整的147个任务列表定义于 src/mcphunt/taxonomy.py。 模型配置:添加新模型仅需一个YAML配置条目,支持任何OpenAI兼容的端点。 检查点/恢复:收集工具在每个追踪后保存状态,支持从API中断中恢复。 论文中引用的开源项目: MCP服务器(论文中用于评估的8个服务器): @modelcontextprotocol/server-filesystem:文件系统服务器。 mcp-server-git:Git服务器。 @modelcontextprotocol/server-memory:记忆/知识图谱服务器。 mcp-server-sqlite:SQLite数据库服务器。 mcp-server-fetch:用于HTTP请求。 mcp-server-time:用于时区查询。 shell-command-mcp:受限制的Shell命令服务器。 浏览器自动化服务器(本地实现,未指定包名)。 其他框架与工具(论文中提及但未提供具体项目链接): PRUDENTIA NeMo Guardrails Invariant 补充信息 [模型架构] 补充:在“3 Method”章节开头,论文明确定义了其威胁模型:“We study a non-adversarial setting: a user issues a legitimate task, the agent has access to k MCP servers, and no adversary manipulates prompts, tools, or data.” 这强调了本研究与主流对抗性安全评估的根本区别,是理解整个工作定位的关键前提。 ...