📄 AUHead: Realistic Emotional Talking Head Generation via Action Units Control

#面部动画生成 #扩散模型 #音频大模型 #跨模态 #情感理解

🔥 8.0/10 | 前25% | #面部动画生成 | #扩散模型 | #音频大模型 #跨模态

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Jiayi Lyu (中国科学院大学)
  • 通讯作者:Jian Xue (中国科学院大学)
  • 作者列表:Jiayi Lyu (中国科学院大学), Leigang Qu (新加坡国立大学), Wenjing Zhang (中国科学院大学), Hanyu Jiang (中国科学院大学), Kai Liu (浙江大学), Zhenglin Zhou (浙江大学), Xiaobo Xia (新加坡国立大学), Jian Xue (中国科学院大学), Tat-Seng Chua (新加坡国立大学)

💡 毒舌点评

亮点: 论文最大的亮点在于引入了可解释的面部动作单元(AU)作为中间桥梁,将语音情感理解(通过ALM)和精细面部动画生成(通过扩散模型)优雅地解耦,为解决情感说话头生成中的“可控性与质量”困境提供了一个新颖且通用的框架。 短板: 尽管框架新颖,但作为核心控制信号的AU序列,其预测精度(在MEAD数据集上MAE为0.2085)可能成为整个系统性能的瓶颈;此外,论文中Stage 2的生成模块(Hallo V1, MEMO)并非作者原创,其创新更多体现在控制策略的整合而非生成架构的突破上。

🔗 开源详情

  • 代码:提供了GitHub仓库链接:https://github.com/laura990501/AUHead_ICLR。
  • 模型权重:论文中未提及是否公开Stage 1微调后的Qwen-Audio-Chat权重或Stage 2训练好的AU适配器权重。但论文明确指出其基础模型使用了公开的Hallo V1、MEMO和Qwen-Audio-Chat。
  • 数据集:使用了公开的MEAD和CREMA数据集。论文未提及是否提供其使用的AU标注数据(用于Stage 1训练的监督信号)。
  • Demo:论文中未提及在线演示。
  • 复现材料:提供了详细的实现细节,包括模型架构、训练超参数、硬件环境、评估指标设置,并在附录中给出了Prompt模板等。这为复现提供了充分信息。
  • 论文中引用的开源项目:明确依赖的开源项目包括:Qwen-Audio(Chu et al., 2023), Hallo V1(Xu et al., 2024), MEMO(Zheng et al., 2024), 以及可能用于数据处理的其他工具。

📌 核心摘要

  1. 问题:当前音频驱动的说话头生成方法难以生成自然、细微且情感丰富的面部表情,主要因为缺乏对表情的细粒度控制。
  2. 方法核心:提出一种两阶段方法AUHead。第一阶段,探索并利用音频语言模型(ALM,具体为Qwen-Audio-Chat)的理解能力,通过设计时空AU tokenization和基于链式思维(CoT)的“情感-再-AU”生成策略,从语音中解耦出面部动作单元(AU)序列。第二阶段,提出一个AU驱动的可控扩散模型,通过将AU序列映射为结构化的2D面部表示(如关键点LMK或网格渲染RoM),并引入上下文感知的AU嵌入和AU-视觉交叉注意力机制,来生成逼真的情感说话头视频。此外,在推理时引入了AU解耦引导策略,以平衡AU控制与视觉质量。
  3. 与已有方法相比的新颖性:1) 首次系统性地利用ALM生成面部AU序列,建立了一个可解释的、细粒度的中间控制空间。2) 提出了一个完整的AU驱动生成框架,包括将1D AU序列转换为2D表示、上下文嵌入以及专门的引导策略,以实现灵活的情感控制。
  4. 主要实验结果:在MEAD和CREMA数据集上,AUHead在情感准确性(ACCemo)、视觉质量(FID, PSNR, SSIM)和面部结构保持(M/F-LMD)等指标上超越了多个SOTA基线方法。例如,在MEAD数据集上,AUHead(基于MEMO)的FID为10.97,优于MEMO基线(11.12);用户研究中,AUHead在情感表达、视频质量和音唇同步方面分别获得了64.63%、63.63%和71.00%的偏好率,显著高于HalloV2。
  5. 实际意义:该工作推动了情感可控、高保真说话头生成技术的发展,为虚拟数字人、影视制作、人机交互等领域提供了新的技术路径,并展示了引入可解释中间表示在跨模态生成中的潜力。
  6. 主要局限性:1) Stage 1的AU预测精度受限于ALM的能力和标注数据的质量,其误差会传递到Stage 2。2) 模型的泛化能力在更复杂的“野外”场景(如大角度头部姿态、复杂背景)中尚未充分验证。3) 训练和推理依赖于多个大规模预训练模型(ALM, 扩散模型),计算资源要求较高。

🏗️ 模型架构

整体框架如图2所示,是一个清晰的两阶段管线。

第一阶段:面部AU解耦(理解阶段)

  • 输入:原始音频(16kHz)。
  • 核心模型:经过微调的音频语言模型(ALM),具体为Qwen-Audio-Chat。
  • 关键设计:
    • 时空AU Tokenization:为了处理密集的AU向量,首先进行空间稀疏化,仅保留强度大于阈值λ的AU,将其表示为{(索引, 强度)}对(平均减少约80.95%的长度)。然后进行时间下采样(因子γ=0.2),将25fps的AU序列压缩至5fps,以适应ALM的上下文窗口。
    • 基于CoT的“情感-再-AU”生成:采用粗到细的生成策略。ALM首先预测音频传达的情感类别(如“快乐”),然后以此为上下文,自回归地生成对应的AU序列。这模仿了链式思维(CoT)推理过程,旨在提升AU预测的准确性。
  • 输出:一个5fps的、稀疏表示的AU序列,包含每个时间步上激活的AU索引及其强度值。

第二阶段:AU驱动的可控生成 这一阶段在预训练的扩散模型(论文中以Hallo V1和MEMO为基础模型)之上,插入了AU控制模块。

  • 输入:第一阶段生成的AU序列、原始音频、参考人像图片。
  • 核心组件:
    1. AU表示:将5fps的1D AU序列通过线性插值上采样至目标帧率(25fps)。然后,将其映射为结构化的2D面部表示。论文探索了两种选项:基于关键点的地标(LMK) 和基于网格的渲染(RoM)。这为模型提供了明确的空间面部拓扑信息。
    2. 上下文感知的AU嵌入:为增强表情的时间连贯性,对每个目标帧t,取其前后共2n+1帧(论文中n=2)的AU表示,拼接后通过一个轻量级的时间卷积网络(ConvAU)编码,得到一个上下文感知的AU嵌入向量c_t
    3. AU-视觉交互:在预训练扩散模型(如基于Transformer的U-Net)的多个层级中,插入多个AU适配器(Adapter) 层。这些层是交叉注意力(Cross-Attention) 模块,其中查询(Query)来自扩散模型的视觉潜在变量z_t,键(Key)和值(Value)来自序列化的AU嵌入c_AU。这使得模型在每个去噪步骤中都能根据AU信息来细化面部潜在表示。
  • 输出:生成的情感说话头视频帧。
  • 训练与推理:
    • 训练:冻结基础扩散模型的所有组件,仅使用交叉熵损失(针对Stage 1的ALM)和扩散损失(针对Stage 2的AU适配器)训练新增模块。训练时,每个条件(音频、参考图、AU)会随机置零以支持无条件建模。
    • 推理(AU解耦引导):提出了一种专门的引导策略(公式6),通过两个可调的引导尺度s_H(控制其他条件如音频和运动先验)和s_AU(专门控制AU条件的强度)来平衡生成质量与AU控制的忠实度。

💡 核心创新点

  1. 首个利用ALM生成面部AU序列的系统:开创性地将预训练的大规模音频语言模型应用于生成细粒度的面部动作单元序列。这挖掘了ALM在语音情感理解方面的潜力,并建立了一个可解释、结构化的中间控制表示空间。
  2. 提出“情感-再-AU”的CoT生成策略:通过先预测情感类别、再生成AU序列的粗到细方式,利用情感与AU激活模式之间的相关性,提升了ALM生成AU序列的准确性和稳定性,尤其是在音频-AU配对数据有限的情况下。
  3. 设计灵活的AU驱动可控生成框架:提出将1D AU序列映射为2D面部表示(LMK/RoM)以增强空间保真度,并设计了上下文感知的AU嵌入和基于交叉注意力的AU-视觉交互机制。更重要的是,提出了AU解耦引导策略,允许在推理时独立调节AU控制的强度,实现了AU控制与视觉质量之间的灵活权衡。

🔬 细节详述

  • 训练数据:
    • 数据集:MEAD(10,000片段,8种情绪)和CREMA(7,442片段,6种情绪,不同强度)。
    • 预处理:所有视频重采样至25fps,大小调整为512x512像素。音频重采样至16kHz。
    • AU标注:使用来自FEAFA+数据集的预定义24维AU,强度为0-1的连续值。论文未提及如何为MEAD和CREMA生成或获取AU真值标签,但通过附录中的“AU验证工具”界面可以推断,可能使用了自动化AU检测器或进行了人工验证。
  • 损失函数:
    • Stage 1:标准的下一token预测损失,使用交叉熵损失训练ALM生成AU token。
    • Stage 2:采用潜在扩散模型的扩散损失(公式1),即预测噪声的L2损失。
  • 训练策略:
    • Stage 1:在4x NVIDIA A100 GPU上微调Qwen-Audio-Chat,使用LoRA。学习率1×10^{-4},训练约24 GPU小时。稀疏系数λ=0,下采样因子γ=0.2。
    • Stage 2:在4x NVIDIA A100 GPU上训练AU适配器。使用Hallo V1基础模型时学习率5×10^{-6},使用MEMO基础模型时学习率1×10^{-5},训练约12 GPU小时。上下文窗口大小为5(n=2)。
  • 关键超参数:AU维度n=24;Stage 1生成帧率5fps;稀疏阈值λ=0;时间下采样因子γ=0.2;Stage 2上下文窗口n=2;推理时AU引导尺度s_AU通常设置为3.5以获得最佳平衡。
  • 训练硬件:两阶段均在4块NVIDIA A100 GPU上训练。
  • 推理细节:在单块A100 GPU上执行Stage 1的AU预测和Stage 2的视频生成。Stage 2采用扩散模型的标准迭代去噪过程。
  • 正则化/稳定训练技巧:Stage 2的AU适配器采用零初始化(Zero-initialization),以保证训练初期插入适配器不会破坏预训练扩散模型的生成能力。

📊 实验结果

论文在MEAD和CREMA两个数据集上进行了全面评估。

表3:与SOTA方法在MEAD和CREMA上的定量对比

数据集方法Sync↑PSNR↑SSIM↑FID↓M/F-LMD↓
MEADHalloV1* (基线)4.951222.02580.710113.06732.5016/2.5885
AUHead (HalloV1)6.020122.01320.711312.84212.3836/2.4595
MEMO* (基线)6.988523.19100.734511.12372.0684/2.2473
AUHead (MEMO)6.631123.34660.739510.96711.8608/2.1604
CREMAHalloV1* (基线)4.516123.28090.707410.03362.1814/2.6313
AUHead (HalloV1)4.710023.08180.72019.70862.2964/2.5337
MEMO* (基线)6.092224.28080.74108.38811.9678/2.4296
AUHead (MEMO)6.205024.29120.74138.23611.9313/2.3991

关键结论:AUHead在大多数视觉质量(FID, PSNR, SSIM)和面部结构(M/LMD)指标上优于其对应的基线模型。例如,AUHead(MEMO)在MEAD上的FID(10.97)优于MEMO基线(11.12)。Sync指标略有波动,但论文指出这可能源于AU预测与语音的时序细微错位。

表1:Stage 1关于CoT策略的消融研究

输入输出RecallPrecisionAccuracyF1MAEACCemo%
音频+情感标签AU0.740.720.610.710.1928
音频AU0.630.650.500.620.2447
音频先AU后情感0.660.680.530.650.220051.76
音频先情感后AU(CoT)0.710.710.580.690.208567.01

关键结论:采用“先情感后AU”的CoT策略(最后一行)在AU预测的精度、召回率、F1值和MAE上均优于其他配置,验证了该策略的有效性。

图4:定性对比 关键结论:论文中展示了ANIPORTrait、ECHOMIMIC、HALLOV1、MEMO与AUHead的生成结果对比。基线方法常出现牙齿异常、无牙、模糊、表情平淡等问题,而AUHead生成的结果更清晰、表情更生动、视觉连贯性更好。

图3:不同AU引导尺度的影响 关键结论:随着AU引导尺度(AU CFG scale)的增大,情感准确率(Emotion ACC)上升,AU预测的MAE下降,表明对表情的控制力增强。而FID先降后升,表明存在一个最佳平衡点(标记为星号,尺度约为3.5),在此点视觉质量与情感表达达到最佳折衷。

表2:不同AU表示的消融研究

数据集方法Sync↑PSNR↑SSIM↑FID↓M/F-LMD↓
MEADMEMO + AU Seq6.744523.16660.732211.11051.9060/2.2097
MEMO + LMK6.631123.34660.739510.96711.8608/2.1604
MEMO + RoM6.609523.35850.739910.87011.8602/2.1536
CREMAMEMO + AU Seq6.285724.27130.73948.41591.9525/2.4257
MEMO + LMK6.205024.29120.74138.23611.9313/2.3991
MEMO + RoM6.183324.31130.74178.33521.9339/2.4025

关键结论:使用2D表示(LMK, RoM)的AUHead在PSNR、SSIM、FID和LMD指标上普遍优于仅使用1D序列(AU Seq)的版本,表明将AU映射为空间表示能为扩散模型提供更强的先验,提升生成质量。

表4:用户研究

用户偏好HalloV2AUHead相同
情感表达18.88%64.63%16.49%
视频质量21.28%63.63%15.09%
音唇同步13.75%71.00%15.25%
整体表现16.13%67.75%16.12%

关键结论:25名参与者对32个视频片段进行盲测比较。AUHead在所有四个维度上均以超过60%的偏好率显著优于强基线HalloV2,证实了其在感知质量上的优势。

图5-7, 10-17 展示了更多定性结果、消融可视化、泛化能力示例以及与基线的额外对比,均支持上述结论。

⚖️ 评分理由

  • 学术质量:6.0/7。创新性强,提出了一个完整的、以可解释AU为核心的两阶段生成框架。技术设计合理,实验评估全面,包括了定量对比、消融研究和用户研究,证据链较为完整。主要扣分点在于:1)第一阶段的AU预测作为核心瓶颈,其精度(MAE~0.2)限制了整个系统的上限;2)生成模型本身(Stage 2)并非原创,创新集中于控制策略的整合。
  • 选题价值:1.5/2。研究方向(情感可控的音频驱动视频生成)处于前沿,具有重要的学术价值和广泛的应用前景(虚拟人、影视等)。将AU作为中间控制表示的思路具有启发性和通用性。
  • 开源与复现加成:0.5/1。提供了明确的代码仓库链接,并在论文中详述了训练细节、超参数和评估协议,可复现性较好。扣分点:未提供预训练模型权重和处理好的AU数据集,完全复现需要依赖其他开源模型和自行准备数据。

← 返回 ICLR 2026 论文分析