视频生成 | 语音/音频论文速递

PresentAgent-2: Towards Generalist Multimodal Presentation Agents

📄 PresentAgent-2: Towards Generalist Multimodal Presentation Agents #生成模型 #多模态模型 #大语言模型 #视频生成 #基准测试 #智能体 ✅ 6.5/10 | 前25% | #生成模型 | #多模态模型 | #大语言模型 #视频生成 | arxiv 学术质量 5.5/8 | 影响力 0.7/2 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Wei Wu（北京大学）通讯作者：Hao Tang（北京大学，邮箱：bjdxtanghao@gmail.com）作者列表：Wei Wu（北京大学），Ziyang Xu（北京大学），Zeyu Zhang（北京大学，项目负责人），Yang Zhao（La Trobe University），Hao Tang（北京大学）注：论文明确标注前三位作者（Wei Wu, Ziyang Xu, Zeyu Zhang）贡献相等（Equal contribution）。 💡 毒舌点评本文的亮点在于清晰地将演示生成任务从“文档到演示”拓展到更具挑战性的“查询到演示”，并设计了一个涵盖“深度研究”、内容生成和三种独立演示模式（单人演讲、多人讨论、交互问答）的完整框架。系统设计的完整性和对动态媒体处理的重视值得肯定。然而，其主要弱点在于核心贡献更偏向系统集成而非底层技术创新，关键模块（如视频合成、语音生成）的技术细节几乎完全依赖于未说明的外部模型，使得论文的“技术深度”存疑。同时，评估体系严重依赖于可能同源的VLM评判者，缺乏人类评估数据的校准，使得其高分结果的说服力大打折扣。 📌 核心摘要解决的问题：现有演示视频生成系统大多依赖用户提供完整的源文档（如论文、报告），无法处理简短、开放式的用户查询，并主动获取内容和视觉资源来生成演示视频。方法核心：提出PresentAgent-2，一个端到端的智能体框架。系统接收用户查询和选定的演示模式，首先将查询提炼为主题，并通过“深度研究”主动从互联网检索和筛选适合演示的多模态资源（文本、图片、GIF、视频）。随后，基于这些资源规划演示结构、生成幻灯片和对应模式的脚本（单人演讲为叙述脚本，多人讨论为角色对话脚本，交互问答为基于上下文的回答），合成音频，并将幻灯片、音频和动态媒体（保持GIF/视频的可播放性）合成为最终的演示视频。与已有方法相比的新颖之处：a) 任务设定开放：首次系统性地研究从开放查询到演示视频的生成，而非从给定文档转换。b) 内容获取主动：集成了针对演示场景优化的“深度研究”模块，主动收集多模态资源。c) 输出模式丰富：在统一框架下支持单人演讲、多人讨论和交互问答三种独立的演示模式。d) 动态媒体处理：在视频合成中保留了检索到的GIF和视频的动态特性，而非将其转换为静态截图。主要实验结果：论文构建了名为PresentEval的多模态演示基准测试集，包含60个查询-参考视频对（每种模式20对）。使用不同骨干模型（如Qwen3.5-VL-Plus）进行评估，结果显示系统在客观测验（满分5）和主观评估（满分5）上均取得较高分数（例如，使用Qwen3.5-VL-Plus时，客观测验得分均>4.8，主观评估均分均>4.3）。消融实验证明了多模态检索、动态媒体保留、角色感知的对话生成以及交互上下文接地等模块的有效性。实际意义：为教育、技术讲解、知识传播等场景提供了一种新的内容创作范式，降低了从问题到结构化多媒体演示视频的制作门槛。主要局限性：a) 生成质量高度依赖检索到的公开网络资源的质量。b) 交互模块的错误可能受上游检索和生成错误的影响。c) 当前基准测试规模有限（60例）。d) 论文中多个关键技术的实现细节未公开说明。 🔗 开源详情代码：https://github.com/AIGeeksGroup/PresentAgent-2 模型权重：论文中未提及模型权重的具体下载链接（如HuggingFace/ModelScope）。数据集：论文中未提及公开数据集的下载链接。论文中描述了自行构建的PresentEval基准数据集（60个查询-参考视频对），但未提供其公开获取地址。 Demo：https://aigeeksgroup.github.io/PresentAgent-2 复现材料：论文中未提及提供训练配置、模型检查点、提示模板、评测脚本等复现材料的具体下载链接。论文中引用的开源项目： Paper2Video、PresentAgent、Paper2Poster、VideoAgent、Doc2PPT, SlideGen, VideoDirectorGPT, VideoStudio, LVD：论文中仅在相关工作或表格中提及项目名称和引用，未提供具体项目链接。 🏗️ 方法概述和架构 PresentAgent-2是一个多阶段、模块化的智能体系统，旨在完成从自然语言查询到演示视频的端到端生成。其核心流程如图4所示：接收用户的自然语言查询q和选定的演示模式m，首先将查询提炼为主题t并执行“深度研究”以检索多模态资源集ℛ，随后基于(q, t, ℛ, m)生成最终的演示视频V_m。整个过程可形式化为两步：q → (t, ℛ) 和 (q, t, ℛ, m) → V_m。演示模式m主要决定了生成的脚本结构和交付风格。 ...

ICLR 2026 - 视频生成论文列表

ICLR 2026 - 视频生成共 2 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 InterActHuman: Multi-Concept Human Animation with Layout-Ali 7.5分前25% 🥈 Stable Video Infinity: Infinite-Length Video Generation with 7.0分前25% 📋 论文详情 🥇 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #音频条件 #多概念定制 👥 作者与机构第一作者：Zhenzhi Wang*（香港中文大学）通讯作者：论文中未明确标注通讯作者作者列表：Zhenzhi Wang（香港中文大学）、Jiaqi Yang（字节跳动）、Jianwen Jiang*B（字节跳动）、Chao Liang（字节跳动）、Gaojie Lin（字节跳动）、Zerong Zheng（字节跳动）、Ceyuan Yang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动）、Dahua Lin（香港中文大学） 💡 毒舌点评 ...

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

📄 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions #视频生成 #扩散模型 #音频条件 #多概念定制 ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #音频条件 #多概念定制学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Zhenzhi Wang*（香港中文大学）通讯作者：论文中未明确标注通讯作者作者列表：Zhenzhi Wang（香港中文大学）、Jiaqi Yang（字节跳动）、Jianwen Jiang*B（字节跳动）、Chao Liang（字节跳动）、Gaojie Lin（字节跳动）、Zerong Zheng（字节跳动）、Ceyuan Yang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动）、Dahua Lin（香港中文大学） 💡 毒舌点评论文提出的显式布局预测模块有效解决了多人动画中的“鸡和蛋”困境，是音视频对齐领域一个清晰的技术进步。但论文的致命短板是零开源支持——没有代码、模型权重或训练数据，这使得其标榜的“基线”价值大打折扣，复现难度极高。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开的模型权重。数据集：论文中描述了自建的大规模数据集，但未提及如何获取。 Demo：论文中提供了视频演示的链接 (https://zhenzhiwang.github.io/interacthuman/)。复现材料：论文提供了详细的算法伪代码（算法1）、训练超参数（学习率、batch size、硬件、步数等）、损失函数设计和数据处理流程的描述，为复现提供了重要信息。附录包含更多实验细节。论文中引用的开源项目：Wan2.1（预训练模型基础）、Qwen2.5-VL（提示重述）、Qwen2-VL（数据标注）、Gemini-2.0-Flash（描述解析）、Grounding-SAM2（掩码生成）、wav2vec 2.0（音频特征）、Florence-2（主体检测）、CLIP/DINO（特征提取）、SyncNet（唇音同步）、Raft（光流）、RTMpose（人体关键点）、PaddleOCR（字幕检测）、PySceneDetect（视频剪辑）等。 📌 核心摘要问题：现有的端到端人体动画方法大多假设单一主体并采用全局条件注入，无法处理需要精确区域控制的多概念（多人、人-物）交互场景，尤其是将不同音频信号准确分配给对应人物的挑战。方法：本文提出InterActHuman框架，其核心是一个轻量级掩码预测模块，能自动从参考图像中推断每个身份在视频中的时空布局（掩码）。在推理时，利用迭代扩散过程，将上一步预测的掩码用于指导当前步的局部音频注入，解决了布局预测与条件注入的相互依赖问题。创新：与隐式学习（如特征融合）的已有方法不同，该工作首次提出并验证了显式布局约束对于多概念、多模态人体动画的重要性。它提供了一个统一的接口，通过布局来同步注入图像和音频等全局与局部条件。实验结果：在多人音频驱动动画测试集上，该方法在唇音同步距离（Sync-D）和视频FVD指标上显著优于基线（如OmniHuman），具体数值见表1。用户研究也表明其在唇音同步和主体一致性上大幅领先（表2）。在多概念视频定制任务中，其身份保真度指标（如CLIP-I， DINO-I）也达到最佳（表3）�� 实际意义：为高质量、可控的多角色对话视频生成和基于多参考图像的视频定制提供了新的技术路径，有望应用于数字内容创作、虚拟交互等领域。局限性：训练数据域较窄（主要为人像），限制了文本提示的多样性；模型主要针对2-3人场景训练，对更多人数的泛化能力未充分验证。 🏗️ 模型架构 InterActHuman是一个基于扩散变换器（DiT）的视频扩散框架，旨在实现多概念、多模态条件的人体动画生成。 ...

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

📄 Stable Video Infinity: Infinite-Length Video Generation with Error Recycling #视频生成 #扩散模型 #流匹配 #多模态模型 ✅ 7.0/10 | 前25% | #视频生成 | #扩散模型 | #流匹配 #多模态模型学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wuyang Li (VITA@EPFL) 通讯作者：未说明 (论文末尾致谢部分提及Alexandre Alahi教授，但未明确标注为通讯作者) 作者列表：Wuyang Li (VITA@EPFL), Wentao Pan (VITA@EPFL), Po-Chien Luan (VITA@EPFL), Yang Gao (VITA@EPFL), Alexandre Alahi (VITA@EPFL) 💡 毒舌点评论文最大的亮点在于提出了“错误回收”这一新颖且直觉上合理的范式来解决长视频生成中的误差累积问题，通过让模型“吃自己生成的错误”来提升鲁棒性，理论分析深刻且实验效果显著。短板在于其核心理论框架（尤其是错误注入与计算的数学部分）稍显复杂，部分实现细节（如错误银行的动态更新）的工程可行性分析略显不足，且在超长视频（15分钟）展示中，角色身份一致性等更高级挑战的解决方案尚处萌芽阶段。 🔗 开源详情代码：论文提及将开源完整代码库，项目主页为 https://stable-video-infinity.github.io/homepage/，但具体代码仓库链接未在文中提供。模型权重：论文承诺将提供模型，但具体发布平台（如Hugging Face）和权重链接未提及。数据集：论文承诺将公开所有基准数据集。 Demo：提供了项目主页，但未明确说明是否提供在线交互式Demo。复现材料：论文提供了详细的超参数表（表12）、数据集描述和部分实现细节（如基于Wan 2.1，使用LoRA），为复现提供了重要信息。引用的开源项目：明确基于 Wan 2.1 视频生成模型；音频说话任务参考了 Hallo 3；舞蹈任务参考了 UniAnimate-DiT；自动提示流生成使用了 Qwen2.5 大语言模型。论文中未提及开源计划的具体时间表或权重文件的最终发布地址。 📌 核心摘要这篇论文旨在解决长视频生成中的关键瓶颈——误差累积（drifting）问题。现有方法多通过调整噪声调度器或引入参考帧来缓解而非根除误差，导致生成的视频长度有限且场景单一。为此，论文提出了Stable Video Infinity (SVI)，其核心是“错误回收微调”方法：在训练时，人为地将模型（DiT）历史生成中可能出现的误差注入到干净的输入数据中，模拟推理时的误差累积场景；模型随后学习从这些“被污染”的输入中恢复出正确的预测结果，相当于学会了自我纠错。与已有方法相比，SVI的根本创新在于它弥合了训练时假设输入无误差与推理时条件中包含误差之间的“假设鸿沟”，使模型能够主动修正错误而非被动缓解。实验在一致性、创意和条件生成三个基准上进行，结果显示SVI在视频质量、一致性和动态程度等核心指标上均显著超越Wan 2.1、StreamingT2V、FramePack等最新方法（例如，在超长一致性生成中，SVI-Shot的Subject Consistency达到97.89%，比最强基线FramePack高出约11%）。该工作的实际意义在于首次将视频生成从“秒级”推进到“无限长度”，并支持文本流、音频、骨架等多条件控制。主要局限性包括：训练数据规模较小（仅数千条视频），可能导致风格泛化不足；当前版本为并行生成，暂不支持实时流式输出；以及超长片段中的身份一致性等高级语义控制仍有提升空间。 ...

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

📄 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions #视频生成 #扩散模型 #音视频 #多模态模型 #流匹配 🔥 9.0/10 | 前25% | #视频生成 | #扩散模型 | #音视频 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zhenzhi Wang（香港中文大学，与Jiaqi Yang、Jianwen Jiang贡献相等，按署名顺序列为第一）通讯作者：Jianwen Jiang（字节跳动）作者列表：Zhenzhi Wang（香港中文大学）、Jiaqi Yang（字节跳动）、Jianwen Jiang（字节跳动）、Chao Liang（字节跳动）、Gaojie Lin（字节跳动）、Zerong Zheng（字节跳动）、Ceyuan Yang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动）、Dahua Lin（香港中文大学） 💡 毒舌点评亮点在于它优雅地解决了多人动画中“条件应该给谁”这个棘手问题，通过一个轻量级的掩码预测器在扩散去噪过程中动态地为每个身份划分“领地”，并据此注入音频，设计精巧且实用。短板是尽管方法强大，但其核心依赖高质量的参考图像和清晰的身份边界，对于重叠严重、遮挡复杂或风格高度抽象的场景，其掩码预测器的鲁棒性和最终生成质量可能面临挑战，论文对此讨论有限。 🔗 开源详情代码：提供了代码仓库链接（基于Wan2.1重新实现），并包含了数据处理和模型推理的伪代码。模型权重：提到了公开的预训练模型权重。数据集：论文中提及的数据集“OpenHumanVid”及其处理管线代码已开源，但完整的训练数据集本身未提及公开下载方式。 Demo：论文提供了视频演示链接：https://zhenzhiwang.github.io/interacthuman/ 复现材料：提供了详细的训练细节（硬件、批大小、学习率）、模型架构说明、消融实验设置以及完整的算法伪代码，复现信息非常充分。引用的开源项目：基础模型Wan2.1；wav2vec 2.0；Qwen2.5-VL / Qwen2-VL；Grounding-SAM2；Florence-2；PySceneDetect；PaddleOCR；Q-align；RAFT；RTMpose；SyncNet；PyTorch FSDP。 📌 核心摘要问题：现有音频驱动或图像定制的视频生成方法大多基于单一主体假设，将条件信息全局注入，无法处理多人对话、人与物体交互等需要为不同身份独立控制外观和声音的多概念复杂场景。方法核心：提出了InterActHuman框架。核心是在预训练的DiT视频生成模型中集成一个轻量级的掩码预测器，该预测器通过交叉注意力机制，从噪声视频特征和参考图像特征中显式预测每个参考身份在视频帧中的时空布局（掩码）。在推理时，采用迭代缓存策略：用前一去噪步骤预测的掩码作为先验，指导当前步骤的局部音频条件注入，将每个身份对应的音频特征仅注入到其掩码区域内。创新点：与依赖隐式特征融合的现有方法不同，本工作首次为多概念人类动画引入了显式、布局对齐的局部条件注入范式。这打破了单一实体假设，实现了对多个身份外观和声音的精确、独立控制。主要实验结果：在多人音频驱动视频生成任务上，本文方法在唇形同步精度（Sync-D↓：6.670 vs OmniHuman的9.482）、视频整体质量（FVD↓：22.881 vs 33.895）和运动多样性（HKV↑：59.635）等关键指标上显著优于所有基线。在多概念定制任务上，也在概念保真度（CLIP-I↑：0.744）和视频质量（IQA↑：4.903）上达到最优。用户研究也显示其在唇形同步和主体一致性方面最受青睐。方法 Sync-D↓ FVD↓ IQA↑ AES↑ OmniHuman (全局音频) 9.482 33.895 4.768 3.466 OmniHuman (固定掩码) 7.068 40.239 4.690 3.369 Ours (预测掩码) 6.670 22.881 4.757 3.467 实际意义：为多模态、多概念的人类动画生成建立了有效基线，可直接应用于多人视频对话、虚拟角色互动、基于多张图片的视频定制等场景。主要局限性：训练数据主要集中于2-3人的场景，可能限制其向更多人（>3）场景的泛化能力；生成能力受限于人类中心领域，对复杂多样的文本提示遵循能力弱于通用视频生成模型。 🏗️ 模型架构模型整体是一个基于MMDiT（Multi-Modal Diffusion Transformer）的视频生成框架，其核心创新在于加入了掩码预测与局部条件注入机制。 ...

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

📄 Stable Video Infinity: Infinite-Length Video Generation with Error Recycling #视频生成 #流匹配 #数据增强 #多模态模型 🔥 8.8/10 | 前10% | #视频生成 | #数据增强 | #流匹配 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wuyang Li（EPFL VITA实验室）通讯作者：Alexandre Alahi（EPFL VITA实验室）作者列表：Wuyang Li（EPFL VITA实验室）、Wentao Pan（EPFL VITA实验室）、Po-Chien Luan（EPFL VITA实验室）、Yang Gao（EPFL VITA实验室）、Alexandre Alahi（EPFL VITA实验室） 💡 毒舌点评亮点：论文将长视频生成的“误差累积”问题从现象层面（如何缓解）深刻剖析到根源层面（训练与推理的假设鸿沟），并巧妙地将模型的“弱点”（自身错误）转化为训练的“资源”（监督信号），这种“以毒攻毒”的闭环反馈思想极具启发性和理论美感。短板：论文的方法高度依赖于自回归的片段式生成范式，尽管声称“无限”，但其生成质量的长期稳定性（如分钟级甚至小时级）仍需更严苛的验证；此外，误差银行的记忆管理策略（如仅用L2距离替换）可能过于简单，或难以捕捉复杂多样的错误模式。 🔗 开源详情代码：论文中未提及代码链接，但承��将公开“full codebase”。模型权重：论文中提到将公开模型，但未提供具体链接或平台。数据集：论文构建了新的基准数据集（一致、创造性、条件生成），并承诺将开源所有“benchmark datasets”。 Demo：未提及在线演示。复现材料：提供了非常详细的训练超参数（Tab. 12）、数据集描述、架构修改说明和消融实验设置，复现指南较为充分。论文中引用的开源项目：依赖的基础模型为Wan 2.1，以及Kong et al. (2025)的音频交叉注意力、Wang et al. (2025b)的骨架注入方法。 📌 核心摘要问题：现有长视频生成方法受限于误差累积（漂移），生成长度通常在10秒到1分钟左右。根本原因在于训练时假设历史轨迹无误差（误差自由假设），但自回归推理时却依赖自身含有误差的输出，造成训练-测试的假设鸿沟。核心方法：提出Stable Video Infinity (SVI)，其核心是误差回收微调（ERFT）。该方法打破误差自由假设，主动将模型自身生成的错误（误差）注入到干净输入中，训练模型预测一个指向干净目标的“误差回收速度”，从而让模型学会识别和纠正自身错误。创新与差异：不同于以往通过修改噪声调度器、锚定参考帧或改进采样策略来缓解误差，SVI通过误差回收机制主动纠正误差本身。具体包括：(i) 在流匹配的起始、中间、终点注入三类误差来模拟累积退化；(ii) 通过单步双向积分高效计算误差；(iii) 设计误差重放缓存池，根据时间步动态存取和采样误差。主要结果：在三个基准（一致性、创造性、条件生成）上均达到SOTA。在250秒超长一致性视频生成中，SVI-Shot的主体一致性达到97.89%，仅比短设置下降0.63%，而基线方法下降显著（如FramePack降13.71%）。在创造性视频生成中，SVI-Film能根据文本流生成平滑的场景切换，而基线方法失败。具体实验结果见下表：模型场景主体一致性背景一致性美学质量图像质量一致视频生成 (50秒) Wan 2.1 单一 92.45% 56.40% 65.70% 12.68% FramePack 单一 94.72% 63.57% 66.72% 7.75% SVI-Shot (Ours) 单一 98.19% 63.84% 71.88% 17.61% 超长一致视频生成 (250秒) Wan 2.1 单一 87.27% 56.19% 65.37% 14.29% FramePack 单一 86.64% 55.66% 57.61% 0.00% SVI-Shot (Ours) 单一 97.89% 65.75% 71.54% 21.43% 实际意义：首次实现了从“秒”到“无限”的非循环超长视频生成，突破了现有长度限制，为端到端长片创作、互动叙事和世界模型模拟开辟了新可能。主要局限：当测试时图像风格与训练分布不符时，模型可能误将风格差异当作“错误”进行“纠正”，导致相邻片段颜色偏移；目前模型基于并行生成，尚未实现实时流式输出；在复杂多镜头创意生成中，长期身份一致性仍有挑战。 🏗️ 模型架构 SVI的核心架构是基于视频扩散Transformer (DiT)，并通过误差回收微调（ERFT）进行增强，其主要流程如下： ...

Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers

📄 Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers #音频生成 #视频生成 #扩散模型 #Transformer #音视频 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #视频生成 #Transformer 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jibin Song（延世大学人工智能系， CineLingo）通讯作者：未说明（论文未明确指定通讯作者，根据邮箱格式推测 Youngjung Uh 为资深作者）作者列表：Jibin Song（延世大学人工智能系， CineLingo）、Mingi Kwon（延世大学人工智能系， CineLingo）、Jaeseok Jeong（延世大学人工智能系， CineLingo）、Youngjung Uh（延世大学人工智能系， CineLingo） 💡 毒舌点评本文的亮点在于巧妙地解决了音频驱动视频生成中“精细同步”这一核心难题，其提出的 Motion-aware Loss 和 Audio Sync Guidance 机制设计简洁、逻辑清晰，实验设计（特别是新指标 CycleSync）有力地支撑了其主张。然而，短板在于其应用场景目前仍聚焦于非语音声音驱动的通用视觉运动，在需要高度语义理解的复杂场景（如音乐视频、对口型）中的泛化能力未被充分验证，且“Motion-aware Loss”并未显式区分音频相关运动与背景运动，鲁棒性存疑。 🔗 开源详情代码：论文中未提及具体代码链接，但承诺“will release our code”。模型权重：论文中未提及具体权重链接，但承诺“will release… trained models”。数据集：使用的AVSync15和TheGreatestHits是公开数据集，论文中提供了获取说明。 Demo：论文提供了一个项目页面链接 (https://jibin86.github.io/syncphony_project_page)，但未明确说明是否有在线Demo。复现材料：论文提供了非常详细的补充材料，包括架构细节（D节）、损失函数说明（A节）、训练策略（I节）、超参数、消融实验设置、用户研究细节等，复现信息较为充分。论文中引用的开源项目：Pyramid Flow（视频骨干）、DenseAV（音频编码器）、CLIP/T5（文本编码器）、V-AURA（用于CycleSync的V2A模型）、librosa（用于峰值检测）。 📌 核心摘要问题：现有音频到视频（A2V）生成模型由于间接的条件注入机制或有限的时间建模能力，难以实现音频与视频运动之间精细的时间同步。方法核心：提出 Syncphony，一个基于预训练视频骨干（DiT架构）的 A2V 生成框架。其核心包括两个新组件：(1) Motion-aware Loss，通过在训练中赋予高运动区域更高的损失权重，强化模型对关键动作时机的学习；(2) Audio Sync Guidance，在推理时，通过一个禁用了音频层的“Off-sync模型”与完整模型进行引导插值，增强音频信号对运动的影响，同时保持视觉质量。创新：直接将音频特征通过交叉注意力注入视觉生成过程；在时间维度上使用 Audio RoPE 注入精确的相对位置信息；提出首个面向高帧率视频的、基于重建的同步评估指标 CycleSync。主要实验：在 AVSync15 和 The Greatest Hits 数据集上，Syncphony 在同步准确性（CycleSync 指标）和视觉质量（FID/FVD）上均优于现有方法。例如，在 TheGreatestHits 数据集上，CycleSync 分数达到 16.18±1.26，接近甚至超过真实视频的 15.99±1.5。实际意义：为生成高质量、音画精确同步的视频内容（如自动配乐动画、虚拟主播、多媒体创作）提供了有效技术路径。主要局限性：Motion-aware Loss 的加权基于真实运动幅度，并未显式过滤与音频无关的运动（如相机移动、背景晃动）；模型在非语音声音场景下验证，对语音或更复杂语义场景的泛化能力未展示；CycleSync 指标依赖于外部 V2A 模型的质量，可能存在偏差。 🏗️ 模型架构 Syncphony 基于一个预训练的自回归扩散 Transformer（DiT）视频骨干（Pyramid Flow）。整体流程如下： ...

ICASSP 2026 - 视频生成论文列表

ICASSP 2026 - 视频生成共 2 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 StyHarmo: Efficient Style-Specific Video Generation with Mus 6.5分前50% 🥈 VT-Heads: Voice Cloning and Talking Head Generation from Tex 6.5分前50% 📋 论文详情 🥇 StyHarmo: Efficient Style-Specific Video Generation with Music Synchronization ✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #音乐同步 👥 作者与机构第一作者：Jialin Wang（华南师范大学人工智能学院）通讯作者：Chaoqun Wang†（华南师范大学人工智能学院）作者列表：Jialin Wang（华南师范大学人工智能学院）、Chaoqun Wang（华南师范大学人工智能学院）、Junjie Cai（华南师范大学人工智能学院）、Tianming Chen（华南师范大学人工智能学院） 💡 毒舌点评 ...

MirrorTalk: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control

📄 MirrorTalk: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control #语音合成 #扩散模型 #个性化生成 #多模态 #视频生成 ✅ 7.0/10 | 前25% | #语音合成 | #扩散模型 | #个性化生成 #多模态学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Renjie Lu（1平安科技（深圳）有限公司， 2中国科学技术大学）通讯作者：Jianzong Wang（1平安科技（深圳）有限公司）， Shangfei Wang（2中国科学技术大学）作者列表：Renjie Lu（平安科技、中国科学技术大学）， Xulong Zhang（平安科技）， Xiaoyang Qu（平安科技）， Jianzong Wang（平安科技）， Shangfei Wang（中国科学技术大学） 💡 毒舌点评这篇论文的亮点在于明确指出了现有方法“风格与语义纠缠”的痛点，并设计了精巧的两阶段解耦训练和分层调制机制来解决，实验上也取得了不错的指标提升。短板在于论文中部分关键训练细节（如优化器、学习率调度、硬件配置）语焉不详，且核心代码与模型完全未开源，极大地限制了其可复现性和社区验证的价值。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开数据集（VoxCeleb2, HDTF, CREMA-D），但论文本身未提供新的数据集。 Demo：未提及。复现材料：未提供详细的超参数配置、训练脚本、检查点或附录说明。引用的开源项目：论文引用并基于以下开源工作：FLAME (3DMM模型)、SMIRK (表情预测)、MICA (形状估计)、3DDFA (姿态估计)、Wav2Lip (运动专家预训练模型)、PIRenderer (神经渲染器)、DiT (扩散模型架构)。开源计划：论文中未提及开源计划。 📌 核心摘要问题：现有的音频驱动说话脸生成方法存在“说话风格”与“语义内容”在面部运动中纠缠的问题，导致将一个人的风格迁移到新的语音内容时，唇形同步精度下降，面部运动不自然。方法核心：提出MirrorTalk，一个基于条件扩散模型的生成框架。其核心是语义解耦风格编码器和分层调制策略。创新点：1) SDSE通过两阶段训练，从参考视频中提取与语义内容无关的纯粹说话风格表示；2) 在扩散模型的去噪过程中，采用空间-时间分层调制策略，根据面部区域（上/下脸）和去噪时间步，动态平衡音频和风格特征的贡献。实验结果：在CREMA-D和HDTF数据集上，MirrorTalk在唇形同步（M-LMD， Syncconf）和个性化保持（StyleSim）上均优于Wav2Lip、SadTalker、Echomimic等基线方法。例如，在HDTF上StyleSim达到0.958，远超基线的最高值0.866。实际意义：能够生成既准确同步音频，又高度还原目标说话人独特面部动态和表情的个性化数字人视频。主要局限性：1) 对“风格”的定义和解耦依赖于3DMM参数，可能无法捕捉所有微表情；2) 论文中未提供详细的训练配置，如优化器、学习率、batch size等；3) 代码和模型未开源，限制了复现和应用。 🏗️ 模型架构 MirrorTalk的整体流程分为两个主要部分：风格编码和运动合成。 ...

StyHarmo: Efficient Style-Specific Video Generation with Music Synchronization

📄 StyHarmo: Efficient Style-Specific Video Generation with Music Synchronization #视频生成 #扩散模型 #音乐同步 ✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #音乐同步学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Jialin Wang（华南师范大学人工智能学院）通讯作者：Chaoqun Wang†（华南师范大学人工智能学院）作者列表：Jialin Wang（华南师范大学人工智能学院）、Chaoqun Wang（华南师范大学人工智能学院）、Junjie Cai（华南师范大学人工智能学院）、Tianming Chen（华南师范大学人工智能学院） 💡 毒舌点评这篇论文的亮点在于将“推理缓存”这一加速技巧从与内容无关的通用策略（如AdaCache），改进为同时考虑扩散过程阶段（时间步）和视频帧间动态（运动分数）的自适应策略，这在工程上是细致且有效的。然而，其核心的音乐-视频同步方法（公式7）实质是简单的参数映射（音高、响度随运动强度线性/指数变化），对于捕捉复杂的音乐结构和情感节奏显得过于粗浅，更像是一个为了完整性而添加的演示模块，而非真正的跨模态同步创新。 🔗 开源详情论文中未提及代码、模型权重、数据集或Demo的任何公开链接或开源计划。论文中引用的开源项目包括：主干模型：CogVideoX-2B [22] 缓存加速基线：AdaCache [12] 音频生成/同步相关工作：SonicVisionLM [13], MMAudio [14], Video2Music [15], Vidmuse [16] 评估指标相关：ImageBind [26], LanguageBind [27] 📌 核心摘要要解决的问题：现有文本到视频生成模型在推理效率（长视频生成慢）和音频-视频同步（生成的视频与音乐节奏不匹配）两方面存在不足，且缺乏能同时高效生成特定风格视频并实现音乐同步的统一框架。方法核心：提出StyHarmo框架。为提升效率，引入“步骤与运动感知缓存”（SMACache），这是一个无需训练的机制，它结合去噪步骤的进度（早期步骤少缓存以构建结构，后期步骤多缓存以细化细节）和每帧的运动活跃度（通过多帧特征差异计算运动分数），动态决定复用Transformer层特征的比例，从而跳过冗余计算。为实现音视频同步，提出一种运动能量驱动的音频融合策略，根据视频帧的平均光流强度（运动能量）动态调制音乐的音高和响度参数。与已有方法的相比新在哪里：1）在加速方面，相比AdaCache等仅基于帧间差异的缓存策略，SMACache额外考虑了扩散过程的阶段特性，并利用多帧历史信息更精确地评估运动，从而在加速时更少损害视觉质量。2）在同步方面，现有方法或独立生成音乐，或从视频合成新音乐，StyHarmo则专注于如何将已有的或生成的音乐参数与视频运动动态进行调制耦合。3）提出一个同时解决高效风格化视频生成与音乐同步的统一框架。主要实验结果：在“Family Guy”风格数据集上：效率：SMACache相比基线CogVideoX-2B实现1.273倍加速，延迟从99.8秒降至78.4秒（30帧）。视觉质量：VBench得分（79.58%）略高于基线（80.42%）和AdaCache（79.32%-79.56%），LPIPS（0.4344）和PSNR（16.31）也优于两个基线。音频同步：加入同步模块后，IB-score从8.90%提升至12.79%，LB-score从13.39%提升至14.36%，表明同步性有显著提升。实际意义：为动画、短视频等垂直领域的低成本、快速内容创作提供了一个潜在工具，能够生成风格一致的视频片段并自动配上节奏匹配的音乐。主要局限性：1）实验仅在“Family Guy”这一单一、特定的动画风格上进行，框架对通用视频风格、真实世界视频的泛化能力未被验证。2）音乐同步策略非常基础，无法处理复杂的音乐结构、和声或情感变化。3）未提供代码、模型或数据集，限制了学术社区的复现与跟进。 🏗️ 模型架构 StyHarmo的整体流程如图1所示。输入是一个文本提示（例如“Peter is standing on his garden”）。该提示首先被输入到一个大语言模型（LLM）中，LLM生成两个子提示：一个简短的音乐提示（描述音乐风格、乐器、节奏）和一个更详细的视频提示（描述具体画面内容）。 ...