ICASSP 2026 - 视频生成 论文列表

ICASSP 2026 - 视频生成 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 StyHarmo: Efficient Style-Specific Video Generation with Mus 6.5分 前50% 🥈 VT-Heads: Voice Cloning and Talking Head Generation from Tex 6.5分 前50% 📋 论文详情 🥇 StyHarmo: Efficient Style-Specific Video Generation with Music Synchronization ✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #音乐同步 👥 作者与机构 第一作者:Jialin Wang(华南师范大学人工智能学院) 通讯作者:Chaoqun Wang†(华南师范大学人工智能学院) 作者列表:Jialin Wang(华南师范大学人工智能学院)、Chaoqun Wang(华南师范大学人工智能学院)、Junjie Cai(华南师范大学人工智能学院)、Tianming Chen(华南师范大学人工智能学院) 💡 毒舌点评 ...

2026-04-29

MirrorTalk: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control

📄 MirrorTalk: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control #语音合成 #扩散模型 #个性化生成 #多模态 #视频生成 ✅ 7.0/10 | 前25% | #语音合成 | #扩散模型 | #个性化生成 #多模态 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Renjie Lu(1平安科技(深圳)有限公司, 2中国科学技术大学) 通讯作者:Jianzong Wang(1平安科技(深圳)有限公司), Shangfei Wang(2中国科学技术大学) 作者列表:Renjie Lu(平安科技、中国科学技术大学), Xulong Zhang(平安科技), Xiaoyang Qu(平安科技), Jianzong Wang(平安科技), Shangfei Wang(中国科学技术大学) 💡 毒舌点评 这篇论文的亮点在于明确指出了现有方法“风格与语义纠缠”的痛点,并设计了精巧的两阶段解耦训练和分层调制机制来解决,实验上也取得了不错的指标提升。短板在于论文中部分关键训练细节(如优化器、学习率调度、硬件配置)语焉不详,且核心代码与模型完全未开源,极大地限制了其可复现性和社区验证的价值。 📌 核心摘要 问题:现有的音频驱动说话脸生成方法存在“说话风格”与“语义内容”在面部运动中纠缠的问题,导致将一个人的风格迁移到新的语音内容时,唇形同步精度下降,面部运动不自然。 方法核心:提出MirrorTalk,一个基于条件扩散模型的生成框架。其核心是 语义解耦风格编码器 和 分层调制策略。 创新点:1) SDSE通过两阶段训练,从参考视频中提取与语义内容无关的纯粹说话风格表示;2) 在扩散模型的去噪过程中,采用空间-时间分层调制策略,根据面部区域(上/下脸)和去噪时间步,动态平衡音频和风格特征的贡献。 实验结果:在CREMA-D和HDTF数据集上,MirrorTalk在唇形同步(M-LMD, Syncconf)和个性化保持(StyleSim)上均优于Wav2Lip、SadTalker、Echomimic等基线方法。例如,在HDTF上StyleSim达到0.958,远超基线的最高值0.866。 实际意义:能够生成既准确同步音频,又高度还原目标说话人独特面部动态和表情的个性化数字人视频。 主要局限性:1) 对“风格”的定义和解耦依赖于3DMM参数,可能无法捕捉所有微表情;2) 论文中未提供详细的训练配置,如优化器、学习率、batch size等;3) 代码和模型未开源,限制了复现和应用。 🏗️ 模型架构 MirrorTalk的整体流程分为两个主要部分:风格编码和运动合成。 ...

2026-04-29

StyHarmo: Efficient Style-Specific Video Generation with Music Synchronization

📄 StyHarmo: Efficient Style-Specific Video Generation with Music Synchronization #视频生成 #扩散模型 #音乐同步 ✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #音乐同步 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Jialin Wang(华南师范大学人工智能学院) 通讯作者:Chaoqun Wang†(华南师范大学人工智能学院) 作者列表:Jialin Wang(华南师范大学人工智能学院)、Chaoqun Wang(华南师范大学人工智能学院)、Junjie Cai(华南师范大学人工智能学院)、Tianming Chen(华南师范大学人工智能学院) 💡 毒舌点评 这篇论文的亮点在于将“推理缓存”这一加速技巧从与内容无关的通用策略(如AdaCache),改进为同时考虑扩散过程阶段(时间步)和视频帧间动态(运动分数)的自适应策略,这在工程上是细致且有效的。然而,其核心的音乐-视频同步方法(公式7)实质是简单的参数映射(音高、响度随运动强度线性/指数变化),对于捕捉复杂的音乐结构和情感节奏显得过于粗浅,更像是一个为了完整性而添加的演示模块,而非真正的跨模态同步创新。 📌 核心摘要 要解决的问题:现有文本到视频生成模型在推理效率(长视频生成慢)和音频-视频同步(生成的视频与音乐节奏不匹配)两方面存在不足,且缺乏能同时高效生成特定风格视频并实现音乐同步的统一框架。 方法核心:提出StyHarmo框架。为提升效率,引入“步骤与运动感知缓存”(SMACache),这是一个无需训练的机制,它结合去噪步骤的进度(早期步骤少缓存以构建结构,后期步骤多缓存以细化细节)和每帧的运动活跃度(通过多帧特征差异计算运动分数),动态决定复用Transformer层特征的比例,从而跳过冗余计算。为实现音视频同步,提出一种运动能量驱动的音频融合策略,根据视频帧的平均光流强度(运动能量)动态调制音乐的音高和响度参数。 与已有方法的相比新在哪里:1)在加速方面,相比AdaCache等仅基于帧间差异的缓存策略,SMACache额外考虑了扩散过程的阶段特性,并利用多帧历史信息更精确地评估运动,从而在加速时更少损害视觉质量。2)在同步方面,现有方法或独立生成音乐,或从视频合成新音乐,StyHarmo则专注于如何将已有的或生成的音乐参数与视频运动动态进行调制耦合。3)提出一个同时解决高效风格化视频生成与音乐同步的统一框架。 主要实验结果:在“Family Guy”风格数据集上: 效率:SMACache相比基线CogVideoX-2B实现1.273倍加速,延迟从99.8秒降至78.4秒(30帧)。 视觉质量:VBench得分(79.58%)略高于基线(80.42%)和AdaCache(79.32%-79.56%),LPIPS(0.4344)和PSNR(16.31)也优于两个基线。 音频同步:加入同步模块后,IB-score从8.90%提升至12.79%,LB-score从13.39%提升至14.36%,表明同步性有显著提升。 实际意义:为动画、短视频等垂直领域的低成本、快速内容创作提供了一个潜在工具,能够生成风格一致的视频片段并自动配上节奏匹配的音乐。 主要局限性:1)实验仅在“Family Guy”这一单一、特定的动画风格上进行,框架对通用视频风格、真实世界视频的泛化能力未被验证。2)音乐同步策略非常基础,无法处理复杂的音乐结构、和声或情感变化。3)未提供代码、模型或数据集,限制了学术社区的复现与跟进。 🏗️ 模型架构 StyHarmo的整体流程如图1所示。输入是一个文本提示(例如“Peter is standing on his garden”)。该提示首先被输入到一个大语言模型(LLM)中,LLM生成两个子提示:一个简短的音乐提示(描述音乐风格、乐器、节奏)和一个更详细的视频提示(描述具体画面内容)。 ...

2026-04-29

VT-Heads: Voice Cloning and Talking Head Generation from Text Based on V-DiT

📄 VT-Heads: Voice Cloning and Talking Head Generation from Text Based on V-DiT #语音克隆 #视频生成 #多模态模型 #扩散模型 ✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #语音克隆 #多模态模型 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yali Cai(国防科技大学计算机学院) 通讯作者:Peng Qiao, Dongsheng Li(国防科技大学计算机学院,并行与分布式计算国家重点实验室) 作者列表:Yali Cai, Peng Qiao, Dongsheng Li(国防科技大学计算机学院,并行与分布式计算国家重点实验室) 💡 毒舌点评 亮点:论文将语音克隆、多模态融合和视频扩散模型(V-DiT)整合成一个端到端框架,并创新性地为T2S模块引入帧级时间锚点以改善音视频同步,整体技术路线清晰。 短板:T2S模块中“动态节奏控制”的具体机制(公式f(S, Θ))描述过于模糊,核心创新点之一缺乏技术细节支撑;实验部分的对比方法(如表3)更新不够及时,且部分指标(如多样性Diver)在所有方法中几乎无差异,难以证明其优越性。 📌 核心摘要 这篇论文旨在解决文本驱动会说话头部生成(THG)中存在的唇部同步不准确和面部表情多样性有限的问题。方法核心是提出一个多模态融合框架VT-Heads,它包含三个关键部分:1)一个带有帧级时间锚点和动态节奏控制的T2S模块,用于生成与视频帧节奏同步的语音;2)一个基于注意力的多模态融合模块,用于细粒度融合文本和语音特征;3)一个以条件V-DiT为骨干的扩散模型,将视频生成建模为时序迭代去噪过程。与现有两阶段方法(先T2S再驱动视频)不同,VT-Heads通过多模态融合增强了文本语义与视觉生成的关联。实验表明,在HDTF数据集和YouTube视频上,VT-Heads在图像质量(FID↓10.12)、唇形同步(Sync↑5.99/6.21)等指标上优于部分基线。其实际意义在于为文本驱动的数字人内容生成提供了一种更同步、更自然的方案。主要局限性在于T2S模块的技术细节不够透明,且与最新SOTA方法的对比有待加强。 🏗️ 模型架构 VT-Heads的整体架构是一个条件扩散模型框架,其输入为驱动文本、参考语音和参考图像,输出为生成的会说话头部视频序列。核心流程如下(参考图1): 输入处理: 文本(T):送入T2S模块合成语音,并通过Word2Vec提取文本特征。 参考语音(Xr):送入T2S模块作为音色参考,并通过Wav2Vec提取语音特征。 参考图像(yr):通过编码器Er提取外观条件r的一部分。 运动帧(ym):可能来自参考视频或生成的中间帧,与参考图像特征共同构成外观条件r = Er(yr) ⊕ Er(ym)。 T2S模块:生成与帧同步的语音波形,其语音特征S’作为多模态融合的输入之一。 多模态融合模块(图2): 文本特征和语音特征分别经LSTM提取时序信息。 通过一个交叉注意力Transformer进行融合,文本作为Query,语音作为Key/Value,学习跨模态关联,输出融合特征。 融合特征f与经ConvNet Ek提取的面部关键点特征Ey(yr)相加,形成最终的时间条件m = Ey(yr) ⊕ f。 V-DiT骨干网络: 接收三部分输入:噪声图像块(Pi)、外观条件r、时间条件m。所有输入被线性投影为1D token。 通过L个Transformer块进行迭代去噪。每个块包含时间注意力(同一空间位置跨帧交互)和空间注意力(同一帧内不同位置交互)两个核心操作(公式2),建模时空依赖。 输出预测的噪声。 输出:经多步去噪后,由VAE解码器将潜在空间的视频帧解码为最终的高清视频。 关键设计选择:采用V-DiT(Video Diffusion Transformer)而非传统的UNet,旨在更好地建模视频的长程时空依赖性。 ...

2026-04-29

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

📄 CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation #视频生成 #扩散模型 #多模态 #人机交互 ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #多模态 #人机交互 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Xiangyang Luo(清华大学,†阿里巴巴集团实习期间完成) 通讯作者:Xiaozhe Xin(阿里巴巴集团) 作者列表: Xiangyang Luo(清华大学,†阿里巴巴集团) Xiaozhe Xin(阿里巴巴集团,‡通讯作者) Tao Feng(阿里巴巴集团) Xu Guo(阿里巴巴集团) Meiguang Jin(阿里巴巴集团) Junfeng Ma(阿里巴巴集团) 💡 毒舌点评 亮点在于其“训练时注入物理约束,推理时零开销”的双流范式设计非常巧妙,有效平衡了生成质量与效率;但短板是论文对所用数据集的具体构成、清洗标准和规模描述模糊(仅称“12K high-quality clips”),且未公开数据集,这严重限制了工作的可复现性和公平比较的基础。 📌 核心摘要 问题:现有视频扩散模型在生成人机交互(HOI)视频时,常出现手/脸结构崩溃和人机物理穿透等问题,根源在于模型缺乏对3D空间关系和交互结构的理解。 方法核心:提出CoInteract框架,核心是“空间结构化协同生成”范式。在一个共享的DiT骨干中联合训练RGB外观流和辅助的HOI结构流(去除纹理的轮廓图),后者通过非对称注意力机制向RGB流注入几何约束。同时,引入“人感知混合专家”模块,通过空间监督路由将手/脸区域的token分配给专用专家处理。 新意:首次将物理交互先验直接嵌入视频生成骨干网络的训练过程,并通过非对称掩码设计确保推理时无需辅助分支,实现了零额外开销。相比依赖外部预处理或后处理的方法,这是一种更端到端的解决方案。 结果:在多个指标上显著超越现有方法。例如,在VLM-QA(HOI合理性)上达到0.72(最佳),HQ(手部质量)达到0.724(最佳),用户研究在交互合理性上排名第一(平均排名1.79)。消融实验证明每个组件都有效。 意义:推动了高质量、物理一致的HOI视频合成技术发展,对电商直播、虚拟广告等应用有直接价值。 局限性:所用数据集未公开,具体规模和细节不足;模型在极端复杂或罕见交互上的泛化能力未充分验证;训练所需的计算资源(如GPU时长)未说明。 🏗️ 模型架构 CoInteract是一个端到端的视频生成框架,基于Diffusion Transformer(DiT)骨干构建。 ...

2026-04-23