📄 PresentAgent-2: Towards Generalist Multimodal Presentation Agents

#生成模型 #多模态模型 #大语言模型 #视频生成 #基准测试 #智能体

6.5/10 | 前25% | #生成模型 | #多模态模型 | #大语言模型 #视频生成 | arxiv

学术质量 5.5/8 | 影响力 0.7/2 | 可复现性 0.3/1 | 置信度 高

👥 作者与机构

  • 第一作者:Wei Wu(北京大学)
  • 通讯作者:Hao Tang(北京大学,邮箱:bjdxtanghao@gmail.com)
  • 作者列表:Wei Wu(北京大学),Ziyang Xu(北京大学),Zeyu Zhang(北京大学,项目负责人),Yang Zhao(La Trobe University),Hao Tang(北京大学)
  • 注:论文明确标注前三位作者(Wei Wu, Ziyang Xu, Zeyu Zhang)贡献相等(Equal contribution)。

💡 毒舌点评

本文的亮点在于清晰地将演示生成任务从“文档到演示”拓展到更具挑战性的“查询到演示”,并设计了一个涵盖“深度研究”、内容生成和三种独立演示模式(单人演讲、多人讨论、交互问答)的完整框架。系统设计的完整性和对动态媒体处理的重视值得肯定。然而,其主要弱点在于核心贡献更偏向系统集成而非底层技术创新,关键模块(如视频合成、语音生成)的技术细节几乎完全依赖于未说明的外部模型,使得论文的“技术深度”存疑。同时,评估体系严重依赖于可能同源的VLM评判者,缺乏人类评估数据的校准,使得其高分结果的说服力大打折扣。

📌 核心摘要

  1. 解决的问题:现有演示视频生成系统大多依赖用户提供完整的源文档(如论文、报告),无法处理简短、开放式的用户查询,并主动获取内容和视觉资源来生成演示视频。
  2. 方法核心:提出PresentAgent-2,一个端到端的智能体框架。系统接收用户查询和选定的演示模式,首先将查询提炼为主题,并通过“深度研究”主动从互联网检索和筛选适合演示的多模态资源(文本、图片、GIF、视频)。随后,基于这些资源规划演示结构、生成幻灯片和对应模式的脚本(单人演讲为叙述脚本,多人讨论为角色对话脚本,交互问答为基于上下文的回答),合成音频,并将幻灯片、音频和动态媒体(保持GIF/视频的可播放性)合成为最终的演示视频。
  3. 与已有方法相比的新颖之处:a) 任务设定开放:首次系统性地研究从开放查询到演示视频的生成,而非从给定文档转换。b) 内容获取主动:集成了针对演示场景优化的“深度研究”模块,主动收集多模态资源。c) 输出模式丰富:在统一框架下支持单人演讲、多人讨论和交互问答三种独立的演示模式。d) 动态媒体处理:在视频合成中保留了检索到的GIF和视频的动态特性,而非将其转换为静态截图。
  4. 主要实验结果:论文构建了名为PresentEval的多模态演示基准测试集,包含60个查询-参考视频对(每种模式20对)。使用不同骨干模型(如Qwen3.5-VL-Plus)进行评估,结果显示系统在客观测验(满分5)和主观评估(满分5)上均取得较高分数(例如,使用Qwen3.5-VL-Plus时,客观测验得分均>4.8,主观评估均分均>4.3)。消融实验证明了多模态检索、动态媒体保留、角色感知的对话生成以及交互上下文接地等模块的有效性。
  5. 实际意义:为教育、技术讲解、知识传播等场景提供了一种新的内容创作范式,降低了从问题到结构化多媒体演示视频的制作门槛。
  6. 主要局限性:a) 生成质量高度依赖检索到的公开网络资源的质量。b) 交互模块的错误可能受上游检索和生成错误的影响。c) 当前基准测试规模有限(60例)。d) 论文中多个关键技术的实现细节未公开说明。

🔗 开源详情

  • 代码:https://github.com/AIGeeksGroup/PresentAgent-2
  • 模型权重:论文中未提及模型权重的具体下载链接(如HuggingFace/ModelScope)。
  • 数据集:论文中未提及公开数据集的下载链接。论文中描述了自行构建的PresentEval基准数据集(60个查询-参考视频对),但未提供其公开获取地址。
  • Demo:https://aigeeksgroup.github.io/PresentAgent-2
  • 复现材料:论文中未提及提供训练配置、模型检查点、提示模板、评测脚本等复现材料的具体下载链接。
  • 论文中引用的开源项目:
    • Paper2Video、PresentAgent、Paper2Poster、VideoAgent、Doc2PPT, SlideGen, VideoDirectorGPT, VideoStudio, LVD:论文中仅在相关工作或表格中提及项目名称和引用,未提供具体项目链接。

🏗️ 方法概述和架构

PresentAgent-2是一个多阶段、模块化的智能体系统,旨在完成从自然语言查询到演示视频的端到端生成。其核心流程如图4所示:接收用户的自然语言查询q和选定的演示模式m,首先将查询提炼为主题t并执行“深度研究”以检索多模态资源集,随后基于(q, t, ℛ, m)生成最终的演示视频V_m。整个过程可形式化为两步:q → (t, ℛ)(q, t, ℛ, m) → V_m。演示模式m主要决定了生成的脚本结构和交付风格。

主要组件/模块详解

深度研究模块 (Deep Research for Multimodal Media) * 功能:解决开放查询下内容和视觉素材匮乏的核心挑战,主动从互联网收集支撑演示的文本和多媒体材料。 * 内部结构/实现:该模块并非使用通用搜索引擎,而是针对“演示友好型”来源设计了专门的检索和过滤策略。其具体工作流程包括:a) 搜索:基于提炼的主题t搜索一组候选URL。b) 过滤与优先级排序:对候选URL页面进行过滤,标准有两个:内容完整性(页面应包含完整的文本主体,而非碎片化信息)和多模态丰富度(页面应包含图片、GIF或视频等视觉资源)。c) 提取与清洗:对筛选后的页面进行数据清洗(移除导航、广告等干扰内容),提取出结构化的文本内容和媒体资源(如图片URL、视频链接),形成最终的资源集。该模块的动机是通用网络搜索结果未必包含适合演示的结构化内容和丰富视觉素材。 * 输入输出:输入是主题t,输出是筛选和清洗后的多模态资源集,包含文本、图片、GIF和视频链接。

演示生成骨干 (Shared Presentation Generation Backbone) * 功能:将深度研究获得的资源组织成结构化的演示内容(幻灯片、脚本、音频)。 * 内部结构/实现:该骨干是共享的,适用于所有三种演示模式,其核心步骤包括: * 结构规划:根据查询、主题和资源,规划演示的整体结构,包括幻灯片序列、每张幻灯片的主题及如何利用检索到的资源。 * 幻灯片与脚本生成:利用文本资源生成幻灯片标题、要点和说明文字,并将图片资源插入到幻灯片的相应区域。同时,根据选定的演示模式m生成对应的脚本(单人叙述、多人对话或交互上下文回答)。 * 音频合成:将生成的脚本转换为语音(论文未具体说明所用的语音合成模型)。 * 输入输出:输入是资源集和模式m,输出是幻灯片视觉内容、模式特定的脚本和对应的音频流。

演示模式专用逻辑 (Mode-Specific Logic) * 单人演讲 (Single Presentation):生成单个叙述者的旁白脚本,按幻灯片顺序讲解内容。 * 多人讨论 (Discussion):将内容重构为多人对话。其关键设计是角色感知的对话生成,系统为不同说话者分配互补且功能明确的角色(如提问引导者、概念解释者、细节澄清者、总结者),而不仅仅是随机分割脚本。 * 交互问答 (Interaction):支持基于已生成演示的实时问答。其关键设计是上下文接地,系统将观众问题与完整的演示上下文(幻灯片、脚本、检索到的证据)关联,生成基于证据的回答,并可在回答时跳转至相关幻灯片。

组件间的数据流与交互

数据流是单向的线性流水线,但交互模式涉及一个独立的交互层。流程为:用户查询与模式选择 → 主题提炼 → 深度研究模块 → 多模态资源集 → 演示生成骨干(包含结构规划、幻灯片生成、脚本生成、音频合成)→ 模式特定的脚本与音频 → 视频合成(将幻灯片、音频、动态媒体合成为视频)。其中,深度研究模块为后续所有步骤提供基础材料。演示生成骨干是核心处理单元。交互问答模式可以视为一个后处理或独立交互层,它能访问之前生成的所有产物(幻灯片、脚本、资源)以生成上下文相关的回答。

关键设计选择及动机

  • 查询驱动而非文档驱动:扩展应用场景,满足用户无需准备完整文档的需求。
  • 设计“演示友好型”深度研究:获取适合演示的结构化内容和丰富视觉素材,而非通用搜索结果。
  • 保留动态媒体:GIF和视频能比静态图片更生动地展示过程和演示,提升最终视频的吸引力和信息量。
  • 角色感知的对话生成:简单的脚本分割产生的对话缺乏逻辑性和深度,而分工明确的对话能更好地组织和传达复杂信息。
  • 交互上下文接地:确保交互问答的回答与演示内容一致、准确,而非孤立的问答。

架构图/流程图

PresentAgent-2 Framework Overview (图2)

  • 图2说明:此图清晰地展示了系统的整体流程。左侧输入用户查询,系统首先将其输入“Deep Research”模块进行主题提炼和网络检索,获得多模态资源。中间部分是“Presentation Generation”核心,它基于资源生成幻灯片、脚本和音频。右侧展示了三种输出模式:“Single Presentation”(单人演讲)、“Discussion”(多人讨论)和“Interaction”(交互问答)。最终,所有元素在“Video Composition”阶段合成最终的演示视频。

PresentAgent-2 Detailed Workflow (图4)

  • 图4说明:此图提供了更详细的工作流视图。它详细展示了“Deep Research”模块如何通过“Search”、“Filter & Prioritize”和“Extract”三个子步骤处理查询。然后,“Presentation Generation”模块被展开,显示了“Slide/Script Generation”、“Audio Synthesis”和“Video Composition”的流程。在视频合成阶段,特别标注了“Dynamic Media (GIF/Video)”被直接嵌入幻灯片区域,与“Slides”和“Audio”一起构成最终视频。这再次强调了动态媒体处理这一关键设计。

专业术语解释

  • Query-to-Presentation Video Generation:本文定义的任务,指从用户自然语言查询直接生成包含幻灯片、语音讲解和视觉素材的演示视频,而不是从已有文档转换。
  • Deep Research:指一种主动的、有策略的信息检索过程,特指为生成演示内容而优化的网络搜索和资源筛选,目标是获取“演示友好型”的多模态材料。
  • Presentation Modes:指演示视频的交付形式。本文定义了三种:单人演讲(Single Presentation,单叙述者旁白)、多人讨论(Discussion,多角色对话)、交互问答(Interaction,实时响应观众提问)。
  • Context Grounding:在交互问答模式中,指将观众的问题与先前生成的演示内容(幻灯片、脚本、检索证据)建立可靠联系的过程,确保回答基于上下文。

💡 核心创新点

  1. 任务设定的拓展:将演示生成任务从“文档到演示”的封闭设定,拓展为“查询到演示”的开放设定,更贴近实际用户需求。
  2. 主动式多模态内容获取:提出了集成“深度研究”模块的框架,该模块能够针对演示需求主动从互联网检索、过滤并提取多模态资源,解决了开放查询下内容和视觉素材匮乏的核心挑战。
  3. 统一框架下的多模式生成:在一个统一的系统中实现了单人演讲、多人讨论和交互问答三种独立且完整的演示模式,共享底层研究检索和内容生成骨干。
  4. 动态媒体保留合成:在视频合成阶段,保留了检索到的GIF和视频的动态特性,将其作为“活的”媒体嵌入幻灯片,而非转为静态图像,提升了演示视频的生动性。

📊 实验结果

论文提出了新的基准测试集PresentEval,并在该基准上对PresentAgent-2进行了评估。

主要基准与结果

表4:PresentEval基准评估结果

方法/模型单人演讲多人讨论交互问答
QuizQADREVDQMeanQuizDESRCCDMeanQuizAE
Human ReferenceHuman-created4.824.544.454.404.464.834.454.314.454.40
PresentAgent-2Qwen3.5-VL-Plus4.844.504.484.434.474.854.434.224.474.374.854.65
Claude Opus 4.74.804.474.474.354.434.824.434.214.494.384.804.55
Gemini 3.1 Pro4.784.454.244.374.354.804.374.084.304.254.754.53
GPT-5.54.834.254.304.204.254.774.194.114.204.174.754.54
GLM-4.7V4.754.214.214.134.184.674.204.034.114.114.604.53

关键结论:使用Qwen3.5-VL-Plus作为骨干的PresentAgent-2在客观测验和主观评估上均取得最佳表现。系统在三种模式下均能达到较高的知识传递水平(Quiz分>4.75)和模式符合度(Mean分>4.3)。

消融实验

表5:共享资源消融实验

变体文本资源视觉资源动态保留单人演讲 Quiz多人讨论 Quiz交互问答 Quiz
Text-only Retrieval××4.504.484.60
Static-media×4.714.704.84
Full PresentAgent-24.844.854.85

结论:移除多模态视觉资源(Text-only Retrieval)或将其静态化(Static-media)都会导致客观测验分数下降,证明多模态检索和动态媒体保留对知识传递有积极贡献。

表6:模式特定消融实验

变体模式相关机制多人讨论 Quiz交互问答 Quiz
Random Script Splitting (无角色)×4.74-
Context-Free Interaction (无上下文)--4.10
Full PresentAgent-24.854.85

结论:角色感知的对话生成(对比随机分割)使多人讨论的测验分数从4.74提升至4.85;上下文接地(对比无上下文)使交互问答的测验分数从4.10大幅提升至4.85,证明这两个设计模块至关重要。

图表

Qualitative Examples (图5)

  • 图5说明:展示了系统在三种模式下生成的视频帧示例。顶行是单人演讲模式,显示了幻灯片、叙述字幕和插入的动态视频证据。中行是多人讨论模式,画面类似,但对话内容不同。底行是交互问答模式,显示了一个聊天界面,系统正在回答观众关于“flow matching”的问题,回答内容引用了演示上下文。

🔬 细节详述

  • 训练数据:论文未提供训练数据的详细信息。系统似乎是基于现有的大型多模态语言模型(如Qwen, Claude, Gemini, GPT, GLM系列)构建的智能体框架,而非从头训练。
  • 损失函数:未说明。本文工作侧重于系统框架设计和基于已有模型的推理应用,不涉及模型训练。
  • 训练策略:未说明。
  • 关键超参数:未提供具体的模型超参数。论文重点在于框架流程。
  • 训练硬件:未说明。
  • 推理细节:论文提及了使用VLM作为评判者进行自动评估,并提供了评估提示词(附录B)。视频合成阶段将动态媒体嵌入幻灯片区域的具体技术(如布局算法、同步机制)未详细说明。
  • 正则化或稳定训练技巧:不适用。

⚖️ 评分理由

创新性:2.0/3 本文明确提出了一个新的任务设定(查询到演示视频)和一个完整的解决方案框架(PresentAgent-2)。创新点在于任务迁移、主动多模态检索、多模式统一生成和动态媒体保留,这些组合具有新颖性和实用性。它并非对现有技术的简单堆砌,而是针对新任务定义了新的工作流程。然而,其核心方法(智能体调用工具链)在AI Agent领域并非全新,更多是巧妙的系统设计和集成,而非底层模型或算法的突破。

技术严谨性:1.2/2 框架的模块划分清晰,逻辑连贯。对“深度研究”的过滤策略、“角色感知对话生成”和“交互上下文接地”的设计有明确的动机和消融实验支持。但是,作为一篇系统论文,其技术深度严重不足:关键组件(如视频合成引擎、语音合成模型、具体的脚本生成提示工程、动态媒体布局同步算法)的实现细节几乎完全缺失,均依赖外部未公开的模型或简单描述为“通过提示工程完成”。这使得评估其方法的创新是否带来了底层技术上的进步变得困难。

实验充分性:1.5/2 优点:构建了新的、任务匹配的基准测试集PresentEval,并设计了结合客观测验和主观评估的双维度评价体系。进行了必要的消融研究(共享资源、模式特定机制),有力地支持了各模块的有效性。 缺点:a) 规模过小:基准仅60个案例(每模式20个),可能无法全面反映系统在多样化查询和领域上的鲁棒性。b) 评估严重依赖自动指标:主观评分完全由VLM(如Qwen3.5-VL)担任评判,而系统生成器本身可能使用同一家族模型,存在潜在的自我评估偏见,缺乏人类评估数据作为校准锚点。c) 缺乏直接定量对比:表3的能力对比是定性的,缺乏在相同数据集上与最相关的基线系统(如PresentAgent)进行定量性能比较,使得进步程度难以衡量。

清晰度:0.7/1 论文整体结构清晰,图表(如图2、图4)质量较高,能帮助读者理解框架。符号定义明确。但是,方法描述的粒度严重不均:宏观流程清晰,但微观实现细节(特别是视频、音频生成的核心技术)模糊不清,多处用“未说明”或笼统描述可以概括,严重影响了可复现性。

影响力:0.6/1 本文定义的问题(查询到演示视频)具有广泛的应用前景,提出的框架为解决该问题提供了一个完整的思路。它可能启发后续工作在更专业的演示生成、交互式视频问答、自动化知识传播等领域进行探索。其影响力主要体现在任务定义和系统架构层面的启发性,而非底层算法的突破。

可复现性:0.3/1 论文提供了代码仓库链接和项目网站,这是一个积极信号。然而,仅凭链接远不足以评估可复现性。论文中缺乏关键复现信息:a) 未说明使用的具体多模态模型版本、API调用参数或提示模板细节。b) 未公开构建PresentEval基准测试集的完整参考视频、查询列表及评测脚本。c) “深度研究”模块的具体搜索策略、过滤规则和提取算法未完全公开。d) 视频合成流程的关键步骤(如动态媒体如何与幻灯片同步)未提供实现细节或代码。因此,他人仅凭论文很难复现该系统。

总分:6.5/10

🚨 局限与问题

  • 系统输出质量高度依赖于检索到的网络资源的可用性和可靠性。对于资源匮乏的查询,生成内容可能不全面或缺乏视觉支持。

  • 交互模块的错误会受上游检索和生成错误的影响,错误可能传播。

  • 当前基准测试规模有限(60例),未覆盖所有演示领域、观众类型和交互场景。

  • 评估方法的科学性质疑:使用VLM作为唯一的评判者来评估知识传递(Quiz)和主观质量。VLM本身可能存在偏见,且当生成器与评判器可能同源(如都基于Qwen系列)时,评估的独立性存疑。论文完全没有提供人类评估数据,这使得其报告的高分结果(甚至略超人类参考)的可信度受到挑战。

  • 技术贡献的“黑箱”问题:论文将PresentAgent-2描述为一个创新的“框架”,但其核心的生成能力(如高质量幻灯片生成、自然对话生成、音视频同步)完全依赖于未具体说明的外部大模型和简单的提示工程。论文未解决“如何生成”这一核心挑战,而是假设这些组件可以被黑箱调用,这大大降低了工作的技术贡献度。

  • 实验对比的缺失与误导性:表3的能力对比是定性陈述,没有在同一基准上与最相关的系统(如PresentAgent)进行定量性能比较。读者无法知道PresentAgent-2在客观指标上是否确实优于这些基线系统,尤其是在更复杂的查询上。

  • 动态媒体处理的深度存疑:论文强调保留GIF/视频的动态性,但未说明如何处理不同尺寸、格式的动态媒体与幻灯片模板的自适应布局,如何保证播放流畅性与音频、字幕的同步性。这更可能是一个复杂的工程问题,而非方法创新。

  • 交互模式的边界模糊:交互模式更像是一个附加的问答系统,而非演示视频生成流程的有机部分。其与演示内容的深度集成(如自动跳转到相关幻灯片)在视频流中如何实现?论文未展示交互过程如何无缝融入连续的视频流中,其“交互性”的呈现形式更像是一个独立的聊天界面截图。

  • 结论可能过强:论文报告系统在客观测验上略超人类参考(4.84 vs 4.82),在主观评估上也接近甚至超过人类参考。考虑到评估完全由VLM完成,且基准规模小、领域有限,这一结论可能存在过度解读的风险,不能轻率推广到所有场景。


← 返回 2026-05-14 论文速递