AUHead: Realistic Emotional Talking Head Generation via Action Units Control

📄 AUHead: Realistic Emotional Talking Head Generation via Action Units Control #生成模型 #扩散模型 #动作单元 #大语言模型 ✅ 7.5/10 | 前25% | #生成模型 | #扩散模型 | #动作单元 #大语言模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiayi Lyu (中国科学院大学) 通讯作者:Jian Xue (中国科学院大学) 作者列表: Jiayi Lyu (中国科学院大学) Leigang Qu (National University of Singapore) Wenjing Zhang (中国科学院大学) Hanyu Jiang (中国科学院大学) Kai Liu (Zhejiang University) Zhenglin Zhou (Zhejiang University) Xiaobo Xia (National University of Singapore) Jian Xue (中国科学院大学) Tat-Seng Chua (National University of Singapore) 💡 毒舌点评 亮点在于首次尝试将大型音频语言模型(ALM)作为“情感理解-表情生成”的推理引擎,将模糊的语音情感线索解耦为结构化、可解释的动作单元(AU)序列,这一思路为跨模态生成任务提供了新颖的中间表示范式。短板则是第一阶段的AU预测精度完全依赖ALM的“想象”能力,其生成的AU序列可能并不完全忠于原始音频的真实口型运动,导致第二阶段生成时唇音同步性可能妥协,消融实验也表明其Sync得分略有下降。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 328 words