Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories
📄 Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.7/10 | 前25% | arxiv 👥 作者与机构 作者:Kevin Qinghong Lin, Batu EI, Yuhong Shi, Pan Lu, Philip Torr, James Zou 机构:University of Oxford, Stanford University 💡 毒舌点评 这篇论文的立意很好,想解决数据新闻的自动化问题,尤其是可验证性这个痛点。但是,用Claude Opus 4.7当“社长”,OpenRouter当“外包商”,本质上还是用最贵的商业模型搭了个pipeline,然后评测时也用商业模型(GPT-5.5-xhigh)当裁判,这在多大程度上能代表方法的通用性?评估数据集的选取也颇为取巧,Economist和Pudding的知名文章大概率在预训练数据里,作者虽做了解释,但说服力有限。最致命的是,论文声称“可验证性”高达93%,但这衡量的是声明是否附带了可追溯的证明链(code或URL),而非声明本身的事实正确性。一个附带了错误代码的声明同样会被判为“可验证”,这个定义需要非常谨慎地解读。最后,作为一篇顶会论文,对人类基线(尤其是Pudding)的描述过于轻描淡写,那些是专业团队耗时数周的精品,用一个全自动流水线去和这种手工艺品直接比较“平均分”,有点田忌赛马的味道。影响力受限于它依赖的商业闭源模型生态,复现成本高昂。 📌 核心摘要 本文提出了Data2Story,一个多代理框架,旨在将原始数据自动转化为可验证的多模态网页故事。其核心创新在于引入“Inspector”代理,负责将最终文章中的每个声明(数字、观点、图表)回溯至具体的代码执行结果或外部参考链接,从而建立了声明的证据链,显著提升了文章的可审计性和透明度。论文在18篇与人类专家文章配对的数据集上进行了全面评估。人类读者研究(n=53)表明,Data2Story生成的文章在“数据透明度”等维度上优于人类文章,并获得了整体偏好。计算机使用代理(如browser-use GPT-5.5)作为评审也与人类评审结果排名一致。可验证性分析显示,Data2Story文章中93%的声明具有可机器检查的证明链,而人类文章仅为25%。然而,定性分析也指出,人类记者在提出外部报道角度、进行创造性设计和深度信息整合方面仍具优势。论文将Data2Story定位为辅助人类记者的协作工具,而非替代品。 🔗 开源详情 代码:https://github.com/QinghongLin/data2story-skill 模型权重:论文中未提及开源模型权重链接。系统基于商业服务API(Claude Opus, OpenRouter)构建,这些模型本身未开源。 数据集:论文中未提供评估所用数据集的统一下载链接。评估数据(18篇人类文章及其对应数据)来自The Economist、The Pudding和TidyTuesday,但需自行从这些平台获取,未打包开源。 Demo:https://data2story.github.io 复现材料:论文附录(第6、7节)提供了详细的模型设置(使用的API模型版本)和评估评分标准,但这些信息嵌入在论文中,未作为独立的配置文件或数据包提供。 论文中引用的开源项目: MindSearch:论文中提及,但未提供链接。 MMSearch:论文中提及,但未提供链接。 DR Tulu:论文中提及,但未提供链接。 MatplotAgent:论文中提及,但未提供链接。 LIDA:论文中提及,但未提供链接。 CoDA:论文中提及,但未提供链接。 DSGym:论文中提及,但未提供链接。 Data Interpreter:论文中提及,但未提供链接。 AI Scientist:论文中提及,但未提供链接。 DataNarrative:论文中提及,但未提供链接。 PublicAgent:论文中提及,但未提供链接。 DataDirector:论文中提及,但未提供链接。 🏗️ 方法概述和架构 Data2Story是一个端到端的多代理框架,其目标是将任意原始数据源 \(\mathcal{D}\) 转化为一篇叙事引人入胜、视觉吸引人且内容可验证的文章 \(\mathcal{U}\)。该框架的核心是模拟一个“虚拟新闻室”,由七个专业化角色协作完成任务,其流程如图2所示。 ...