Uncertainty-Aware 3D Emotional Talking Face Synthesis with Emotion Prior Distillation
📄 Uncertainty-Aware 3D Emotional Talking Face Synthesis with Emotion Prior Distillation #音视频 #生成模型 #不确定性估计 #多模态模型 🔥 8.0/10 | 前25% | #音视频 | #生成模型 | #不确定性估计 #多模态模型 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Nanhan Shen(天津大学人工智能学院) 通讯作者:Zhilei Liu(天津大学人工智能学院) 作者列表:Nanhan Shen(天津大学人工智能学院)、Zhilei Liu(天津大学人工智能学院) 💡 毒舌点评 这篇论文精准地指出了3D情感说话人脸生成中“情感对齐差”和“多视图融合粗糙”两大痛点,并给出了模块化的解决方案,特别是首次引入不确定性建模来优化融合策略,思路值得肯定。然而,论文在工程实践上“留白”过多,关键代码和训练细节缺失,使得这个“不确定性”的黑盒更难被学界复现和验证。 🔗 开源详情 代码:论文中未提及代码链接。仅提供项目页面,内容未知。 模型权重:未提及公开权重。 数据集:使用了公开数据集(AD-NeRF, MEAD),但论文未说明是否提供处理后的数据或获取指引。 Demo:未提及在线演示。 复现材料:给出了部分训练细节(迭代次数、损失权重、优化器选择),但缺少模型具体架构参数、完整训练配置、环境依赖、检查点等。论文中未提及开源计划。 论文中引用的开源项目:引用了多个开源项目作为基线或组件,如TalkingGaussian [5]、DEGSTalk [30]、EDTalk [22]、StableAvatar [31]、SadTalker [15]、Wav2Vec 2.0 [16]等。 📌 核心摘要 问题:现有3D情感说话人脸合成方法存在两大挑战:音视觉情感对齐差(难以从音频提取情感且微表情控制弱);多视图融合采用“一刀切”策略,忽略了不同视图特征质量的不确定性,导致渲染效果受损。 方法:提出UA-3DTalk框架,以3D高斯溅射为渲染骨干。其包含三个核心模块:先验提取模块,将音频解耦为内容同步特征和个性特征;情感蒸馏模块,通过多模态注意力融合和4D高斯编码,实现细粒度音频情感提取与表情控制;基于不确定性的变形模块,为每个视图估计偶然不确定性和认知不确定性,实现自适应多视图融合。 创新:首次在该领域系统性地建模并利用不确定性;提出不确定性感知的自适应融合策略;通过情感先验蒸馏协同解决情感对齐问题。 结果:在常规和情感数据集上的实验表明,UA-3DTalk在情感对齐(E-FID)、唇同步(SyncC)和渲染质量(LPIPS)上均优于SOTA方法。定量结果如下: 方法 数据集 LMD↓ PSNR↑ LPIPS↓ SSIM↑ Sync-C↑ E-FID↓ UA-3DTalk (本文) 常规/情感 2.492 / 5.407 28.923 / 28.408 0.032 / 0.067 0.928 / 0.938 5.750 / 5.152 0.072 / 0.145 DEGSTalk 常规/情感 1.960 / 3.923 27.104 / 28.051 0.042 / 0.162 0.891 / 0.924 5.663 / 5.007 0.076 / 0.154 EDTalk 常规/情感 3.827 / 6.548 25.627 / 18.061 0.073 / 0.297 0.888 / 0.864 6.173 / 7.550 0.483 / 0.668 TalkingGaussian 常规/情感 3.018 / 5.934 26.943 / 25.533 0.045 / 0.096 0.906 / 0.892 5.011 / 4.886 0.089 / 0.356 StableAvatar 常规/情感 4.117 / 7.150 18.403 / 19.290 0.258 / 0.228 0.480 / 0.619 4.421 / 3.972 0.546 / 0.430 消融研究(在MEAD情感数据集)显示,各模块均带来性能提升:完整模型(w/ P,E,U)相比基线,在E-FID上从0.356降至0.145,Sync-C从4.886提升至5.152。 ...