智能体 | 语音/音乐/音频论文速递

📄 PresentAgent-2: Towards Generalist Multimodal Presentation Agents #生成模型 #多模态模型 #大语言模型 #视频生成 #基准测试 #智能体 ✅ 6.5/10 | 前25% | #生成模型 | #多模态模型 | #大语言模型 #视频生成 | arxiv 学术质量 5.5/8 | 影响力 0.7/2 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Wei Wu（北京大学）通讯作者：Hao Tang（北京大学，邮箱：bjdxtanghao@gmail.com）作者列表：Wei Wu（北京大学），Ziyang Xu（北京大学），Zeyu Zhang（北京大学，项目负责人），Yang Zhao（La Trobe University），Hao Tang（北京大学）注：论文明确标注前三位作者（Wei Wu, Ziyang Xu, Zeyu Zhang）贡献相等（Equal contribution）。 💡 毒舌点评本文的亮点在于清晰地将演示生成任务从“文档到演示”拓展到更具挑战性的“查询到演示”，并设计了一个涵盖“深度研究”、内容生成和三种独立演示模式（单人演讲、多人讨论、交互问答）的完整框架。系统设计的完整性和对动态媒体处理的重视值得肯定。然而，其主要弱点在于核心贡献更偏向系统集成而非底层技术创新，关键模块（如视频合成、语音生成）的技术细节几乎完全依赖于未说明的外部模型，使得论文的“技术深度”存疑。同时，评估体系严重依赖于可能同源的VLM评判者，缺乏人类评估数据的校准，使得其高分结果的说服力大打折扣。 📌 核心摘要解决的问题：现有演示视频生成系统大多依赖用户提供完整的源文档（如论文、报告），无法处理简短、开放式的用户查询，并主动获取内容和视觉资源来生成演示视频。方法核心：提出PresentAgent-2，一个端到端的智能体框架。系统接收用户查询和选定的演示模式，首先将查询提炼为主题，并通过“深度研究”主动从互联网检索和筛选适合演示的多模态资源（文本、图片、GIF、视频）。随后，基于这些资源规划演示结构、生成幻灯片和对应模式的脚本（单人演讲为叙述脚本，多人讨论为角色对话脚本，交互问答为基于上下文的回答），合成音频，并将幻灯片、音频和动态媒体（保持GIF/视频的可播放性）合成为最终的演示视频。与已有方法相比的新颖之处：a) 任务设定开放：首次系统性地研究从开放查询到演示视频的生成，而非从给定文档转换。b) 内容获取主动：集成了针对演示场景优化的“深度研究”模块，主动收集多模态资源。c) 输出模式丰富：在统一框架下支持单人演讲、多人讨论和交互问答三种独立的演示模式。d) 动态媒体处理：在视频合成中保留了检索到的GIF和视频的动态特性，而非将其转换为静态截图。主要实验结果：论文构建了名为PresentEval的多模态演示基准测试集，包含60个查询-参考视频对（每种模式20对）。使用不同骨干模型（如Qwen3.5-VL-Plus）进行评估，结果显示系统在客观测验（满分5）和主观评估（满分5）上均取得较高分数（例如，使用Qwen3.5-VL-Plus时，客观测验得分均>4.8，主观评估均分均>4.3）。消融实验证明了多模态检索、动态媒体保留、角色感知的对话生成以及交互上下文接地等模块的有效性。实际意义：为教育、技术讲解、知识传播等场景提供了一种新的内容创作范式，降低了从问题到结构化多媒体演示视频的制作门槛。主要局限性：a) 生成质量高度依赖检索到的公开网络资源的质量。b) 交互模块的错误可能受上游检索和生成错误的影响。c) 当前基准测试规模有限（60例）。d) 论文中多个关键技术的实现细节未公开说明。 🔗 开源详情代码：https://github.com/AIGeeksGroup/PresentAgent-2 模型权重：论文中未提及模型权重的具体下载链接（如HuggingFace/ModelScope）。数据集：论文中未提及公开数据集的下载链接。论文中描述了自行构建的PresentEval基准数据集（60个查询-参考视频对），但未提供其公开获取地址。 Demo：https://aigeeksgroup.github.io/PresentAgent-2 复现材料：论文中未提及提供训练配置、模型检查点、提示模板、评测脚本等复现材料的具体下载链接。论文中引用的开源项目： Paper2Video、PresentAgent、Paper2Poster、VideoAgent、Doc2PPT, SlideGen, VideoDirectorGPT, VideoStudio, LVD：论文中仅在相关工作或表格中提及项目名称和引用，未提供具体项目链接。 🏗️ 方法概述和架构 PresentAgent-2是一个多阶段、模块化的智能体系统，旨在完成从自然语言查询到演示视频的端到端生成。其核心流程如图4所示：接收用户的自然语言查询q和选定的演示模式m，首先将查询提炼为主题t并执行“深度研究”以检索多模态资源集ℛ，随后基于(q, t, ℛ, m)生成最终的演示视频V_m。整个过程可形式化为两步：q → (t, ℛ) 和 (q, t, ℛ, m) → V_m。演示模式m主要决定了生成的脚本结构和交付风格。 ...