Diffemotalk: Audio-Driven Facial Animation with Fine-Grained Emotion Control via Diffusion Models
📄 Diffemotalk: Audio-Driven Facial Animation with Fine-Grained Emotion Control via Diffusion Models #语音情感识别 #扩散模型 #对比学习 #跨模态 ✅ 7.5/10 | 前25% | #语音情感识别 | #扩散模型 | #对比学习 #跨模态 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kexin Gao (中国海洋大学计算机科学与技术学院) 通讯作者:Xinjie Wang (中国海洋大学计算机科学与技术学院, 邮箱:wangxinjie@ouc.edu.cn) 作者列表:Kexin Gao (中国海洋大学计算机科学与技术学院), Yuyu Zhu (中国海洋大学计算机科学与技术学院), Jian Liu (中国海洋大学计算机科学与技术学院), Xinjie Wang* (中国海洋大学计算机科学与技术学院), Xiaogang Jin (浙江大学CAD&CG国家重点实验室), Jie Nie (中国海洋大学计算机科学与技术学院) 💡 毒舌点评 亮点:在情感表征上,摒弃了传统的离散标签,转而使用连续的VA值和文本描述进行层次化对比学习,这一设计巧妙地缓解了细粒度情感标注数据稀缺的问题。短板:尽管号称“细粒度情感控制”,但实验主要基于离散情绪类别的MEAD/RAVDESS数据集,对情感粒度的提升主要体现在强度和类间区分上,对更微妙、混合情感的生成能力验证不足,跨数据集的泛化能力也仅在一个小型数据集上得到初步验证。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:未提及。 数据集:使用了公开数据集MEAD、RAVDESS和TA-MEAD。论文中未说明其提取的AU和FLAME数据是否公开。 Demo:未提及。 复现材料:论文提供了部分训练超参数(学习率、批大小、训练轮数、损失权重、GPU型号等),但未提供完整的训练脚本、配置文件或预训练检查点。 引用的开源项目/模型:HuBERT(用于特征提取)、CLIP(用于文本编码)、FLAME(面部模型)、SpeechEmotionAVLearning(用于提取VA值)。 📌 核心摘要 要解决的问题:现有音频驱动的3D说话头部生成技术虽然在唇形同步方面表现良好,但在生成生动、可控且情感细腻的面部动画方面存在瓶颈,具体表现为情感解耦粒度粗糙、生成稳定性差以及难以建模细微的情感差异。 方法核心:提出DiffEmoTalk框架,其核心是三个专门编码器:唇动编码器、韵律编码器和情感感知语音编码器(EASE),用于从语音中解耦不同粒度的特征。EASE通过层次化多级对比学习(HMLC),利用连续的效价-唤醒值(VA)和文本描述进行优化。解耦后的特征通过一个“情感引导的多特征AU预测器”融合,并以面部动作单元(AU)作为中间监督,最终输入一个基于Transformer的扩散模型解码器生成FLAME参数动画。 创新点:与已有方法相比,新在:(1) 提出EASE模块,通过对比学习从语音中提取更丰富、更具区分度的情感表征;(2) 引入AU作为中间监督和桥接模态的桥梁,改善了跨模态融合的稳定性与可解释性;(3) 将扩散模型与细粒度情感解耦相结合,实现了在情感准确性与生成多样性之间的更好平衡。 主要实验结果:在MEAD和RAVDESS数据集上,DiffEmoTalk在情感准确度(MEE)和情感强度误差(EIE)上取得了最佳成绩(例如,在MEAD上,MEE为0.00936,低于MEDTalk的0.01215)。唇音同步(MLE)略逊于MEDTalk(0.00695 vs 0.00657),但优于EmoTalk和DiffPoseTalk。在用户研究中,其在情感准确性和生动性评分上也领先。关键消融实验证明了三编码器解耦、AU监督和EASE模块的必要性。 实际意义:该工作推动了更具表现力和可控性的数字人生成技术,在虚拟助手、数字人交互、远程协作和内容创作等领域有应用潜力。 主要局限性:情感控制目前高度依赖语音内容,未能整合文本、视觉等上下文线索来处理“相同话语不同情感”的情况。此外,模型在跨数据集泛化能力上的验证较为有限。 🏗️ 模型架构 DiffEmoTalk的整体框架(见图1)是一个多阶段的生成系统,目标是将输入语音转换为3D面部动画(FLAME参数)。其架构可分为三个主要阶段:特征解耦与提取、AU预测与融合、以及扩散模型生成。 ...