π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

📄 π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows #长期助手 #代理基准测试 #主动AI #多轮交互 #评估方法 #LLM评估 📝 5.2/10 | 后50% | #长期助手 | #代理基准测试 | #主动AI #多轮交互 | arxiv 学术质量 3.8/7 | 影响力 0.3/2 | 可复现性 1.1/2 👥 作者与机构 论文作者来自上海交通大学、上海人工智能实验室、复旦大学、中国科学技术大学、北京大学、南京大学、浙江大学、同济大学、苏州大学、香港中文大学等多所中国顶尖高校与研究机构。 💡 毒舌点评 这篇论文做了一件正确但略显“取巧”的事:把一个大家都觉得重要但难以测量的软能力(“主动性”)包装成了一个看起来很硬核的基准测试。论文结构工整,实验图表丰富,读起来像一篇合格的顶会论文。然而,最大的槽点在于其“可复现性”的宣称与实际情况的差距——论文号称提供了一个基准,但这个基准的核心数据集(那100个任务到底长什么样)和最关键的“模拟用户”与“评估者”(GPT-5.4)的完整提示词都没有公开。这就好比发布了一个号称最权威的考试,却只公布了平均分和部分考题示例,而没给完整试卷和答案。这让其他研究者如何验证你的结论?如何在此基础上改进?因此,虽然论文在概念上做出了贡献,但其作为“可复用基准”的实际价值大打折扣。评分中“开源”和“可复现性”两项的低分主要源于此。 📌 核心摘要 本研究针对个人助手代理在长期、多轮工作流中缺乏主动性的评估空白,推出了π-Bench基准。其核心在于形式化定义了“主动性”(Proactivity)和“完整性”(Completeness)两个独立维度。主动性衡量代理主动揭示或满足用户未明说需求的能力,通过分析对话轨迹中隐藏意图的解决状态(完成、推断、提供)来量化。完整性则基于一个详细的检查清单,评估最终交付成果是否满足所有可验证要求。该基准包含100个任务,每个任务起始于一个不完全明确的请求,要求代理在包含文件、工具的持久化项目环境中,通过多轮交互逐步满足隐藏意图并产出正确成果。实验在9个前沿LLM上进行,系统评估了它们在两个维度上的表现,并通过消融实验证明了跨会话历史对解决后续隐藏意图的重要性。 🏗️ 方法概述和架构 本文的核心贡献是π-Bench评估基准的设计与构建,而非提出新的代理模型。其方法框架围绕“评估代理系统”与“模拟用户代理”的交互展开,在持久化工作区中进行。 评估代理系统(Evaluated Agent System):这是被测试的对象,通常是一个采用ReAct范式的长期个人助手代理。其核心能力是在持久化项目环境中,通过规划、工具调用(如Web搜索、文件操作、购物工具)和技能调用,迭代地创建和修改工件(如代码、文档、结构化输出)来推进任务。代理可以跨会话访问共享的工作区文件和记忆,以维持上下文一致性。 模拟用户代理(User Agent):这是基准中的关键创新组件,用于模拟真实用户的交互行为。它由GPT-5.4驱动,扮演一个拥有固定角色(职业、偏好、习惯)的用户。其核心职责是: 意图状态追踪:在每个任务中,维护一组预定义的“隐藏意图”集合。每条意图初始状态为“未陈述”。 两阶段意图分配:在每轮代理响应后,用户代理会执行两步判定: 第一阶段(完成检查):判断代理的最新响应(包括工具调用和文件修改)是否已直接满足某个隐藏意图。若是,则将该意图标记为“已完成”。此步骤优先级最高,因为它代表了最强的主动性形式。 第二阶段(澄清检查):判断代理的响应是否包含针对某个隐藏意图的明确、聚焦的询问。若是,则将该意图标记为“已推断”,并在下一轮用户消息中回答该问题。如果代理既未完成也未询问,则用户代理会主动提供与当前任务阶段相关的一个隐藏意图信息,将其标记为“已提供”。 会话终止控制:当一个会话中所有隐藏意图都已被标记为三种终端状态之一(已完成、已推断、已提供)时,用户代理终止该会话。这确保了评估覆盖了所有隐藏意图的解决过程。 任务构建与工作流设计: 用户角色与剧情:设计了5个领域特定的角色(研究员、营销员、法律实习生、药剂师、金融从业者),每个角色在一个包含20个会话的“剧情”中展开工作,模拟长期、真实的个人工作流程。 隐藏意图与检查清单:每个任务都包含两部分标注:1) 隐藏意图,代表用户未明说但应影响代理行为的潜在需求(偏好、约束、依赖);2) 检查清单,定义了最终交付成果必须满足的可验证标准(文件、格式、内容)。两者概念不同:前者衡量过程主动性,后者衡量结果完整性。 依赖结构:在20个任务中,设计了6个“强依赖组”,每组2-3个任务共享关键的前后信息,用于评估代理利用跨会话历史的能力。其余为独立任务。 评估协议: 主动性得分(Proc):计算公式为 (|已完成| + |已推断|) / |总意图|。该分数衡量代理主动驱动需求发现的比例。 完整性得分(Comp):基于检查清单计算,每个项目通过规则验证(如文件存在性)或基于LLM的评分标准评估,最终得分为满足项的平均值。 两个指标被明确区分:一个反应性代理可能在用户逐步提供所有需求后获得高完整性分,但主动性分很低;反之,一个能早期发现意图的代理也可能因执行错误而完整性分不高。 💡 核心创新点 定义并量化“主动性”:首次在一个标准化基准中,将长期助手代理的“主动性”形式化为一个可计算的度量(Proc),并与任务的“完整性”(Comp)解耦。通过精细的意图状态分配(完成/推断/提供)提供了更细粒度的分析视角。 构建面向长期工作流的评估环境:π-Bench模拟了真实场景:起始于不完全的请求、在持久化工作区中迭代工作、意图随交互逐渐显现、任务间存在跨会话依赖。这区别于以往聚焦于单次或短期交互的基准。 系统化实验与多维分析:在多个前沿模型上进行了全面评估,并通过任务类型分解、意图状态分布分析、交互轮次分析以及跨会话依赖消融实验,深入揭示了当前模型在主动性方面的具体短板和模式。 📊 实验结果 论文在9个前沿LLM上进行了评估,主要结果如Table 1所示(平均Proc/Comp,%,三次运行均值±标准差): ...

2026-05-21 · 更新于 2026-06-12 · 2 min · 227 words

Can Large Language Models Reliably Correct Errors in Low-Resource ASR? A Contamination-Aware Case Study on West Frisian

📄 Can Large Language Models Reliably Correct Errors in Low-Resource ASR? A Contamination-Aware Case Study on West Frisian #语音识别 #大语言模型 #低资源 #数据污染 #评估方法 ✅ 7.5/10 | 前25% | #语音识别 | #大语言模型 | #低资源 #数据污染 | arxiv 学术质量 6.1/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Yun Hao(University of Groningen, The Netherlands) 通讯作者:未说明 作者列表:Yun Hao(University of Groningen, The Netherlands)、Reihaneh Amooie(University of Groningen, The Netherlands)、Wietse de Vries(University of Groningen, The Netherlands)、Rik van Noord(University of Groningen, The Netherlands)、Martijn Wieling(University of Groningen, The Netherlands) 💡 毒舌点评 论文敏锐地捕捉到了一个在低资源ASR纠错评估中至关重要却常被忽视的问题——数据污染,并通过构建一个精巧的私有数据集来进行“干净”的对照实验,这种方法论设计堪称典范。然而,其核心技术方案(N-best列表+LLM prompting)本身并无新意,更像是一项扎实、严谨且具有重要警示意义的实证研究,而非一项技术方法的突破性创新。论文的价值在于为领域建立了一个更可信的评估标准,而非提出一个全新的算法。 ...

2026-05-20 · 更新于 2026-06-12 · 3 min · 500 words