📄 ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer

#语音生成 #动作生成 #音频生成 #Transformer #生成模型

7.0/10 | 前25% | #音频生成 | #Transformer | #语音生成 #动作生成

学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中

👥 作者与机构

  • 第一作者:Yong Xie(南京理工大学) (注:论文标注为* equal contribution)
  • 通讯作者:Yunlian Sun(南京理工大学) (注:论文标注为 corresponding author)
  • 作者列表:Yong Xie(南京理工大学)、Yunlian Sun(南京理工大学)、Hongwen Zhang(北京师范大学)、Yebin Liu(清华大学)、Jinhui Tang(南京林业大学)

💡 毒舌点评

本文的亮点在于将ViT架构巧妙适配于动作序列生成,并通过引入“动态嵌入正则化(DER)”和“迭代重建推理(IRI)”等策略,显著提升了生成动作的流畅度和真实感(FGD降低86.7%),实验设计也较为周全。但其短板也明显:核心创新更多是有效的工程优化组合而非底层理论突破,且严重的开源缺失(无代码、无模型、细节模糊)极大限制了工作的可复现性和后续影响力,让“SOTA”声明的说服力打了折扣。

📌 核心摘要

  1. 问题:现有语音驱动手势生成方法存在生成动作保真度不足(如抖动、动作僵硬、穿模)以及跨领域泛化能力弱的问题,影响用户体验。
  2. 方法核心:提出ReCoM框架,其核心是Recurrent Embedded Transformer (RET) 模块。RET在Vision Transformer (ViT)基础上,通过通道式(Channel-wise)处理 将身体和手部动作视为特征图的两个通道,从而实现对语音-动作时空依赖性的联合建模。
  3. 创新点:(1) RET模块设计,适配ViT处理动作序列;(2) 训练时引入动态嵌入正则化(DER),即在嵌入层后应用Dropout以增强鲁棒性和泛化性;(3) 提出迭代重建推理(IRI) 策略,通过循环预测并筛选置信度高的动作索引,以缓解自回归推理的误差累积问题。
  4. 实验结果:在SHOW数据集上,ReCoM的Fr´echet Gesture Distance (FGD) 从基线ProbTalk的18.70降至2.48(如表3),提升了86.7%,表明动作真实性大幅提高。在域外BEAT2数据集测试(无微调)中,其FGD(96.78)也优于ProbTalk(100.07)和TalkSHOW(98.32),显示了更好的泛化性(如表4)。消融实验(表2)证实了CFG、IRI、DER、EMA和Masking等各策略的有效性。
  5. 实际意义:为虚拟数字人、智能交互机器人等提供更自然、更真实的手势动画生成方案。
  6. 主要局限性:(1) 模型架构本身并非全新提出,是对现有ViT的改进应用;(2) 仅在SHOW和BEAT2两个数据集上进行评估,广泛性待验证;(3) 缺乏开源代码和模型,阻碍复现与公平比较。

🏗️ 模型架构

ReCoM采用两阶段流程(如图1、图2): 图2: pdf-image-page2-idx1

第一阶段:动作码本(VQ-VAE)训练

  • 输入:身体动作序列 Mb ∈ RT×63,手部动作序列 Mh ∈ RT×90
  • 目标:学习一个离散的潜在表示(码本 E1:t),用于无损地压缩和重建动作序列。
  • 架构:标准的编码器-解码器结构。编码器将动作序列映射为潜在索引 I1:t,解码器从索引和码本向量重建动作 ̂M1:T
  • 损失:重建损失 Lrec、码本损失 Leq 和速度损失 Lv 的加权和(公式2),确保重建精度和潜在空间的正则化。

第二阶段:手势生成器(基于RET) 这是核心模块,输入语音和说话人ID,输出动作索引序列。 图1: pdf-image-page2-idx0

  1. 输入处理:
    • 语音特征:使用预训练模型(如Wav2vec2.0)提取音频 A1:T 的MFCC特征,经编码器和下采样得到特征 a1:t
    • 动作输入:训练时,输入经掩码(Masking)处理的动作索引 ̃I1:t。应用动态嵌入正则化(DER),即在嵌入层后进行Dropout,训练时启用,推理时关闭,以增强模型鲁棒性。
  2. 特征融合(Fusion Module, 图4): ![图4在论文中为图4,但未在提供的图片列表中。根据描述,其结构为:] 将语音特征 a1:t 与掩码后的动作嵌入特征通过混合卷积(hybrid conv) 进行融合,再经内在卷积(intrinsic conv) 下采样,得到融合后的特征图。
    • 关键设计:采用通道式处理。将身体和手部特征视为两个通道((256,22,2)),保持时空维度信息,使模型能同时感知两者间的关联。
  3. 时空建模(RET核心):
    • 融合特征经 PatchEmbed 划分为图像块(Patches),并添加位置编码和说话人ID编码。
    • 输入到由15个ViT Block堆叠组成的网络中,捕获长程时空依赖。
    • 最后通过一个线性层预测每个时间步的码本索引 Î1:t,损失函数为交叉熵(公式3)。
  4. 输出:预测的动作索引 Î1:t 可通过VQ-VAE的解码器重建为具体动作参数。

整体数据流:语音 → 语音编码器 → 特征 a1:t;动作索引(掩码) → 嵌入 + DER → 动作特征;两者在融合模块交互 → RET进行时空建模 → 预测索引 → VQ-VAE解码器 → 生成动作。

💡 核心创新点

  1. Recurrent Embedded Transformer (RET) 模块:

    • 是什么:一种将动作序列生成任务转化为类似图像处理的ViT架构,并通过通道式处理、特征融合和位置编码,使其能有效建模语音与动作间的时空依赖关系。
    • 局限:传统动作生成模型(如RNN、1D-CNN)可能难以有效捕捉长程依赖和复杂时空模式。RET利用ViT的自注意力机制来解决这一问题。
    • 如何起作用:通过将身体和手部动作视为特征图的两个通道,在模型内部统一处理,促进了不同身体部位运动的协调性生成。保留ViT的结构使其具备良好的可扩展性。
    • 收益:在SHOW数据集上实现了SOTA性能,显著提升了动作真实感。
  2. 动态嵌入正则化 (DER):

    • 是什么:一种数据增强策略,在训练时对动作嵌入向量应用Dropout,在推理时禁用。
    • 局限:模型容易过拟合训练数据分布,在域外数据上表现不佳。
    • 如何起作用:为输入特征引入随机噪声,迫使模型学习更鲁棒的特征表示,减少对特定训练样本的依赖,从而减轻过拟合,提升泛化能力。
    • 收益:消融实验(表2)显示,移除DER后,模型在测试集上的FGD大幅上升(从2.48到146.39),证明其对性能至关重要。
  3. 迭代重建推理 (IRI):

    • 是什么:一种推理策略,从完全掩码的动作索引开始,通过多次迭代预测,逐步、非时序地恢复完整序列。
    • 局限:传统的自回归(从头到尾逐步生成)推理存在误差累积问题,且自我纠正能力有限。
    • 如何起作用:每次迭代中,模型对所有位置进行预测,只保留置信度高的结果,将低置信度的结果留待下次迭代重新预测。置信度阈值线性降低。这种全序列、非时序的预测顺序有助于打破时间上的误差依赖。
    • 收益:缓解了自回归误差累积,生成动作更流畅。实验表明IRI能选择性平滑高频微动作。

🔬 细节详述

  • 训练数据:主要使用SHOW数据集(27小时)进行训练和测试。泛化实验在BEAT2-English数据集(26小时)上进行,未进行微调。
  • 损失函数:
    • 面部生成器:Lface = Ljaw + Lexpression,其中Ljaw为L1损失,Lexpression为L2损失(公式1)。
    • VQ-VAE:LV Q = Lrec + Leq + Lv(公式2)。
    • 手势生成器:训练阶段使用交叉熵损失 Lcls(公式3),在动作索引空间训练。
  • 训练策略:
    • 使用Classifier-Free Guidance (CFG) 思想训练,但将“Empty condition”替换为对动作索引的Dropout操作(公式3中的 ̃I1:t)。推理时使用公式4进行引导。
    • 采用指数移动平均 (EMA) 技术稳定训练。
    • 掩码策略:类似BERT,在训练时随机掩码部分动作索引。
  • 关键超参数:RET中ViT堆叠块数 N=15。训练时动作序列固定帧数 T,码本潜在向量时间步 t=T/4=22
  • 训练硬件:论文中未说明。
  • 推理细节:
    • IRI策略:置信度阈值从高到低线性衰减。
    • 时间平滑:为生成长序列,将音频分段(每段88帧),相邻段有8帧重叠以传递上下文信息。
  • 正则化/稳定技巧:DER(Dropout)、EMA、掩码预训练。

📊 实验结果

主要对比实验: 论文在SHOW和BEAT2数据集上与Habibie et al.、TalkSHOW、ProbTalk进行了对比。

方法Diversity↑FGD↓MAE↓BC→
SHOW数据集(域内)
GT9.4850000.8676
Habibie et al.7.5246239.17898.69420.9477
TalkSHOW6.867866.157436.75400.8713
ProbTalk7.675818.702836.00050.7837
ReCoM8.98302.481635.96650.8579
方法Diversity↑FGD↓MAE↓BC→
BEAT2数据集(域外)
GT14.8500000.8351
Habibie et al.7.5242239.18492.23330.9477
TalkSHOW8.699098.319972.25340.8729
ProbTalk8.2616100.06771.65090.8178
ReCoM11.130396.779371.58300.8469
  • 结论:ReCoM在域内的FGD指标上取得了巨大优势(2.48 vs 次优的18.70),多样性(Diversity)也最高。在域外测试中,ReCoM在FGD和多样性上也优于其他非GT方法。

消融实验(SHOW数据集):

方法Diversity↑FGD↓MAE↓BC→
ReCoM (Full)8.98302.481635.9660.8579
w/o CFG8.261410.846235.4280.8574
w/o IRI8.731439.936731.7850.8570
w/o EMA8.102927.617235.4360.8570
w/o DER6.9025146.39435.2950.8545
w/o masking8.432171.011135.6850.8560
  • 结论:移除任何一个策略都会导致性能下降,其中移除DER对FGD影响最大(从2.48暴涨到146.39),证明其对保证动作真实性和泛化性至关重要。移除IRI会导致FGD显著上升(到39.94),表明其能有效改善生成质量。

感知研究: 论文进行了用户研究(图5),邀请20名参与者对81个生成样本进行偏好选择。结果显示ReCoM的胜率显著高于其他方法,进一步证实了其在视觉质量上的优势。该图为柱状图,展示了四个方法在不同胜率区间的分布,ReCoM的曲线在高胜率区间明显更优。

⚖️ 评分理由

  • 学术质量:6.5/7:工作扎实,针对明确问题提出了有效解决方案,实验充分且结果令人信服。创新性主要体现在对现有技术的巧妙组合与适配(ViT用于动作序列、CFG与Dropout的结合、迭代推理策略),而非提出全新的基础模型架构。
  • 选题价值:1.5/2:语音驱动的手势生成是数字人、虚拟主播、智能助手等领域的核心需求,技术前景明确。但任务本身是相对细分的垂直领域。
  • 开源与复现加成:-0.5/1:严重扣分项。论文未提供任何开源资源(代码、模型、数据处理脚本、详细配置),复现完全依赖论文描述,这对于一篇声称SOTA的会议论文来说是重大缺陷,极大限制了社区验证和后续工作的基础。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:未提及。
  • 数据集:使用了公开数据集SHOW和BEAT2,但论文未说明具体获取或预处理方式。
  • Demo:未提供。
  • 复现材料:给出了部分训练策略(CFG、EMA、Masking)和关键设计(DER, IRI)的描述,但缺少完整的超参数(学习率、批大小、优化器具体设置)、硬件配置和训练时间等关键细节。
  • 论文中引用的开源项目:引用了VQ-VAE [24]、Wav2vec2.0(作为特征提取器)、FLAME [23](人脸模型)等基础开源工作。
  • 总结:论文中未提及开源计划。

← 返回 ICASSP 2026 论文分析