PresentAgent-2: Towards Generalist Multimodal Presentation Agents

📄 PresentAgent-2: Towards Generalist Multimodal Presentation Agents #生成模型 #多模态模型 #大语言模型 #视频生成 #基准测试 #智能体 ✅ 6.5/10 | 前25% | #生成模型 | #多模态模型 | #大语言模型 #视频生成 | arxiv 学术质量 5.5/8 | 影响力 0.7/2 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Wei Wu(北京大学) 通讯作者:Hao Tang(北京大学,邮箱:bjdxtanghao@gmail.com) 作者列表:Wei Wu(北京大学),Ziyang Xu(北京大学),Zeyu Zhang(北京大学,项目负责人),Yang Zhao(La Trobe University),Hao Tang(北京大学) 注:论文明确标注前三位作者(Wei Wu, Ziyang Xu, Zeyu Zhang)贡献相等(Equal contribution)。 💡 毒舌点评 本文的亮点在于清晰地将演示生成任务从“文档到演示”拓展到更具挑战性的“查询到演示”,并设计了一个涵盖“深度研究”、内容生成和三种独立演示模式(单人演讲、多人讨论、交互问答)的完整框架。系统设计的完整性和对动态媒体处理的重视值得肯定。然而,其主要弱点在于核心贡献更偏向系统集成而非底层技术创新,关键模块(如视频合成、语音生成)的技术细节几乎完全依赖于未说明的外部模型,使得论文的“技术深度”存疑。同时,评估体系严重依赖于可能同源的VLM评判者,缺乏人类评估数据的校准,使得其高分结果的说服力大打折扣。 📌 核心摘要 解决的问题:现有演示视频生成系统大多依赖用户提供完整的源文档(如论文、报告),无法处理简短、开放式的用户查询,并主动获取内容和视觉资源来生成演示视频。 方法核心:提出PresentAgent-2,一个端到端的智能体框架。系统接收用户查询和选定的演示模式,首先将查询提炼为主题,并通过“深度研究”主动从互联网检索和筛选适合演示的多模态资源(文本、图片、GIF、视频)。随后,基于这些资源规划演示结构、生成幻灯片和对应模式的脚本(单人演讲为叙述脚本,多人讨论为角色对话脚本,交互问答为基于上下文的回答),合成音频,并将幻灯片、音频和动态媒体(保持GIF/视频的可播放性)合成为最终的演示视频。 与已有方法相比的新颖之处:a) 任务设定开放:首次系统性地研究从开放查询到演示视频的生成,而非从给定文档转换。b) 内容获取主动:集成了针对演示场景优化的“深度研究”模块,主动收集多模态资源。c) 输出模式丰富:在统一框架下支持单人演讲、多人讨论和交互问答三种独立的演示模式。d) 动态媒体处理:在视频合成中保留了检索到的GIF和视频的动态特性,而非将其转换为静态截图。 主要实验结果:论文构建了名为PresentEval的多模态演示基准测试集,包含60个查询-参考视频对(每种模式20对)。使用不同骨干模型(如Qwen3.5-VL-Plus)进行评估,结果显示系统在客观测验(满分5)和主观评估(满分5)上均取得较高分数(例如,使用Qwen3.5-VL-Plus时,客观测验得分均>4.8,主观评估均分均>4.3)。消融实验证明了多模态检索、动态媒体保留、角色感知的对话生成以及交互上下文接地等模块的有效性。 实际意义:为教育、技术讲解、知识传播等场景提供了一种新的内容创作范式,降低了从问题到结构化多媒体演示视频的制作门槛。 主要局限性:a) 生成质量高度依赖检索到的公开网络资源的质量。b) 交互模块的错误可能受上游检索和生成错误的影响。c) 当前基准测试规模有限(60例)。d) 论文中多个关键技术的实现细节未公开说明。 🔗 开源详情 代码:https://github.com/AIGeeksGroup/PresentAgent-2 模型权重:论文中未提及模型权重的具体下载链接(如HuggingFace/ModelScope)。 数据集:论文中未提及公开数据集的下载链接。论文中描述了自行构建的PresentEval基准数据集(60个查询-参考视频对),但未提供其公开获取地址。 Demo:https://aigeeksgroup.github.io/PresentAgent-2 复现材料:论文中未提及提供训练配置、模型检查点、提示模板、评测脚本等复现材料的具体下载链接。 论文中引用的开源项目: Paper2Video、PresentAgent、Paper2Poster、VideoAgent、Doc2PPT, SlideGen, VideoDirectorGPT, VideoStudio, LVD:论文中仅在相关工作或表格中提及项目名称和引用,未提供具体项目链接。 🏗️ 方法概述和架构 PresentAgent-2是一个多阶段、模块化的智能体系统,旨在完成从自然语言查询到演示视频的端到端生成。其核心流程如图4所示:接收用户的自然语言查询q和选定的演示模式m,首先将查询提炼为主题t并执行“深度研究”以检索多模态资源集ℛ,随后基于(q, t, ℛ, m)生成最终的演示视频V_m。整个过程可形式化为两步:q → (t, ℛ) 和 (q, t, ℛ, m) → V_m。演示模式m主要决定了生成的脚本结构和交付风格。 ...

2026-05-14 · 更新于 2026-05-19 · 3 min · 434 words