📄 ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer
#语音生成 #动作生成 #音频生成 #Transformer #生成模型
✅ 7.0/10 | 前25% | #音频生成 | #Transformer | #语音生成 #动作生成
学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中
👥 作者与机构
- 第一作者:Yong Xie(南京理工大学) (注:论文标注为
*equal contribution) - 通讯作者:Yunlian Sun(南京理工大学) (注:论文标注为
†corresponding author) - 作者列表:Yong Xie(南京理工大学)、Yunlian Sun(南京理工大学)、Hongwen Zhang(北京师范大学)、Yebin Liu(清华大学)、Jinhui Tang(南京林业大学)
💡 毒舌点评
本文的亮点在于将ViT架构巧妙适配于动作序列生成,并通过引入“动态嵌入正则化(DER)”和“迭代重建推理(IRI)”等策略,显著提升了生成动作的流畅度和真实感(FGD降低86.7%),实验设计也较为周全。但其短板也明显:核心创新更多是有效的工程优化组合而非底层理论突破,且严重的开源缺失(无代码、无模型、细节模糊)极大限制了工作的可复现性和后续影响力,让“SOTA”声明的说服力打了折扣。
📌 核心摘要
- 问题:现有语音驱动手势生成方法存在生成动作保真度不足(如抖动、动作僵硬、穿模)以及跨领域泛化能力弱的问题,影响用户体验。
- 方法核心:提出ReCoM框架,其核心是Recurrent Embedded Transformer (RET) 模块。RET在Vision Transformer (ViT)基础上,通过通道式(Channel-wise)处理 将身体和手部动作视为特征图的两个通道,从而实现对语音-动作时空依赖性的联合建模。
- 创新点:(1) RET模块设计,适配ViT处理动作序列;(2) 训练时引入动态嵌入正则化(DER),即在嵌入层后应用Dropout以增强鲁棒性和泛化性;(3) 提出迭代重建推理(IRI) 策略,通过循环预测并筛选置信度高的动作索引,以缓解自回归推理的误差累积问题。
- 实验结果:在SHOW数据集上,ReCoM的Fr´echet Gesture Distance (FGD) 从基线ProbTalk的18.70降至2.48(如表3),提升了86.7%,表明动作真实性大幅提高。在域外BEAT2数据集测试(无微调)中,其FGD(96.78)也优于ProbTalk(100.07)和TalkSHOW(98.32),显示了更好的泛化性(如表4)。消融实验(表2)证实了CFG、IRI、DER、EMA和Masking等各策略的有效性。
- 实际意义:为虚拟数字人、智能交互机器人等提供更自然、更真实的手势动画生成方案。
- 主要局限性:(1) 模型架构本身并非全新提出,是对现有ViT的改进应用;(2) 仅在SHOW和BEAT2两个数据集上进行评估,广泛性待验证;(3) 缺乏开源代码和模型,阻碍复现与公平比较。
🏗️ 模型架构
ReCoM采用两阶段流程(如图1、图2):

第一阶段:动作码本(VQ-VAE)训练
- 输入:身体动作序列
Mb ∈ RT×63,手部动作序列Mh ∈ RT×90。 - 目标:学习一个离散的潜在表示(码本
E1:t),用于无损地压缩和重建动作序列。 - 架构:标准的编码器-解码器结构。编码器将动作序列映射为潜在索引
I1:t,解码器从索引和码本向量重建动作̂M1:T。 - 损失:重建损失
Lrec、码本损失Leq和速度损失Lv的加权和(公式2),确保重建精度和潜在空间的正则化。
第二阶段:手势生成器(基于RET)
这是核心模块,输入语音和说话人ID,输出动作索引序列。

- 输入处理:
- 语音特征:使用预训练模型(如Wav2vec2.0)提取音频
A1:T的MFCC特征,经编码器和下采样得到特征a1:t。 - 动作输入:训练时,输入经掩码(Masking)处理的动作索引
̃I1:t。应用动态嵌入正则化(DER),即在嵌入层后进行Dropout,训练时启用,推理时关闭,以增强模型鲁棒性。
- 语音特征:使用预训练模型(如Wav2vec2.0)提取音频
- 特征融合(Fusion Module, 图4):
![图4在论文中为图4,但未在提供的图片列表中。根据描述,其结构为:]
将语音特征
a1:t与掩码后的动作嵌入特征通过混合卷积(hybrid conv) 进行融合,再经内在卷积(intrinsic conv) 下采样,得到融合后的特征图。- 关键设计:采用通道式处理。将身体和手部特征视为两个通道(
(256,22,2)),保持时空维度信息,使模型能同时感知两者间的关联。
- 关键设计:采用通道式处理。将身体和手部特征视为两个通道(
- 时空建模(RET核心):
- 融合特征经 PatchEmbed 划分为图像块(Patches),并添加位置编码和说话人ID编码。
- 输入到由15个ViT Block堆叠组成的网络中,捕获长程时空依赖。
- 最后通过一个线性层预测每个时间步的码本索引
Î1:t,损失函数为交叉熵(公式3)。
- 输出:预测的动作索引
Î1:t可通过VQ-VAE的解码器重建为具体动作参数。
整体数据流:语音 → 语音编码器 → 特征 a1:t;动作索引(掩码) → 嵌入 + DER → 动作特征;两者在融合模块交互 → RET进行时空建模 → 预测索引 → VQ-VAE解码器 → 生成动作。
💡 核心创新点
Recurrent Embedded Transformer (RET) 模块:
- 是什么:一种将动作序列生成任务转化为类似图像处理的ViT架构,并通过通道式处理、特征融合和位置编码,使其能有效建模语音与动作间的时空依赖关系。
- 局限:传统动作生成模型(如RNN、1D-CNN)可能难以有效捕捉长程依赖和复杂时空模式。RET利用ViT的自注意力机制来解决这一问题。
- 如何起作用:通过将身体和手部动作视为特征图的两个通道,在模型内部统一处理,促进了不同身体部位运动的协调性生成。保留ViT的结构使其具备良好的可扩展性。
- 收益:在SHOW数据集上实现了SOTA性能,显著提升了动作真实感。
动态嵌入正则化 (DER):
- 是什么:一种数据增强策略,在训练时对动作嵌入向量应用Dropout,在推理时禁用。
- 局限:模型容易过拟合训练数据分布,在域外数据上表现不佳。
- 如何起作用:为输入特征引入随机噪声,迫使模型学习更鲁棒的特征表示,减少对特定训练样本的依赖,从而减轻过拟合,提升泛化能力。
- 收益:消融实验(表2)显示,移除DER后,模型在测试集上的FGD大幅上升(从2.48到146.39),证明其对性能至关重要。
迭代重建推理 (IRI):
- 是什么:一种推理策略,从完全掩码的动作索引开始,通过多次迭代预测,逐步、非时序地恢复完整序列。
- 局限:传统的自回归(从头到尾逐步生成)推理存在误差累积问题,且自我纠正能力有限。
- 如何起作用:每次迭代中,模型对所有位置进行预测,只保留置信度高的结果,将低置信度的结果留待下次迭代重新预测。置信度阈值线性降低。这种全序列、非时序的预测顺序有助于打破时间上的误差依赖。
- 收益:缓解了自回归误差累积,生成动作更流畅。实验表明IRI能选择性平滑高频微动作。
🔬 细节详述
- 训练数据:主要使用SHOW数据集(27小时)进行训练和测试。泛化实验在BEAT2-English数据集(26小时)上进行,未进行微调。
- 损失函数:
- 面部生成器:
Lface = Ljaw + Lexpression,其中Ljaw为L1损失,Lexpression为L2损失(公式1)。 - VQ-VAE:
LV Q = Lrec + Leq + Lv(公式2)。 - 手势生成器:训练阶段使用交叉熵损失
Lcls(公式3),在动作索引空间训练。
- 面部生成器:
- 训练策略:
- 使用Classifier-Free Guidance (CFG) 思想训练,但将“Empty condition”替换为对动作索引的Dropout操作(公式3中的
̃I1:t)。推理时使用公式4进行引导。 - 采用指数移动平均 (EMA) 技术稳定训练。
- 掩码策略:类似BERT,在训练时随机掩码部分动作索引。
- 使用Classifier-Free Guidance (CFG) 思想训练,但将“Empty condition”替换为对动作索引的Dropout操作(公式3中的
- 关键超参数:RET中ViT堆叠块数
N=15。训练时动作序列固定帧数T,码本潜在向量时间步t=T/4=22。 - 训练硬件:论文中未说明。
- 推理细节:
- IRI策略:置信度阈值从高到低线性衰减。
- 时间平滑:为生成长序列,将音频分段(每段88帧),相邻段有8帧重叠以传递上下文信息。
- 正则化/稳定技巧:DER(Dropout)、EMA、掩码预训练。
📊 实验结果
主要对比实验: 论文在SHOW和BEAT2数据集上与Habibie et al.、TalkSHOW、ProbTalk进行了对比。
| 方法 | Diversity↑ | FGD↓ | MAE↓ | BC→ |
|---|---|---|---|---|
| SHOW数据集(域内) | ||||
| GT | 9.4850 | 0 | 0 | 0.8676 |
| Habibie et al. | 7.5246 | 239.178 | 98.6942 | 0.9477 |
| TalkSHOW | 6.8678 | 66.1574 | 36.7540 | 0.8713 |
| ProbTalk | 7.6758 | 18.7028 | 36.0005 | 0.7837 |
| ReCoM | 8.9830 | 2.4816 | 35.9665 | 0.8579 |
| 方法 | Diversity↑ | FGD↓ | MAE↓ | BC→ |
|---|---|---|---|---|
| BEAT2数据集(域外) | ||||
| GT | 14.8500 | 0 | 0 | 0.8351 |
| Habibie et al. | 7.5242 | 239.184 | 92.2333 | 0.9477 |
| TalkSHOW | 8.6990 | 98.3199 | 72.2534 | 0.8729 |
| ProbTalk | 8.2616 | 100.067 | 71.6509 | 0.8178 |
| ReCoM | 11.1303 | 96.7793 | 71.5830 | 0.8469 |
- 结论:ReCoM在域内的FGD指标上取得了巨大优势(2.48 vs 次优的18.70),多样性(Diversity)也最高。在域外测试中,ReCoM在FGD和多样性上也优于其他非GT方法。
消融实验(SHOW数据集):
| 方法 | Diversity↑ | FGD↓ | MAE↓ | BC→ |
|---|---|---|---|---|
| ReCoM (Full) | 8.9830 | 2.4816 | 35.966 | 0.8579 |
| w/o CFG | 8.2614 | 10.8462 | 35.428 | 0.8574 |
| w/o IRI | 8.7314 | 39.9367 | 31.785 | 0.8570 |
| w/o EMA | 8.1029 | 27.6172 | 35.436 | 0.8570 |
| w/o DER | 6.9025 | 146.394 | 35.295 | 0.8545 |
| w/o masking | 8.4321 | 71.0111 | 35.685 | 0.8560 |
- 结论:移除任何一个策略都会导致性能下降,其中移除DER对FGD影响最大(从2.48暴涨到146.39),证明其对保证动作真实性和泛化性至关重要。移除IRI会导致FGD显著上升(到39.94),表明其能有效改善生成质量。
感知研究: 论文进行了用户研究(图5),邀请20名参与者对81个生成样本进行偏好选择。结果显示ReCoM的胜率显著高于其他方法,进一步证实了其在视觉质量上的优势。该图为柱状图,展示了四个方法在不同胜率区间的分布,ReCoM的曲线在高胜率区间明显更优。
⚖️ 评分理由
- 学术质量:6.5/7:工作扎实,针对明确问题提出了有效解决方案,实验充分且结果令人信服。创新性主要体现在对现有技术的巧妙组合与适配(ViT用于动作序列、CFG与Dropout的结合、迭代推理策略),而非提出全新的基础模型架构。
- 选题价值:1.5/2:语音驱动的手势生成是数字人、虚拟主播、智能助手等领域的核心需求,技术前景明确。但任务本身是相对细分的垂直领域。
- 开源与复现加成:-0.5/1:严重扣分项。论文未提供任何开源资源(代码、模型、数据处理脚本、详细配置),复现完全依赖论文描述,这对于一篇声称SOTA的会议论文来说是重大缺陷,极大限制了社区验证和后续工作的基础。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:未提及。
- 数据集:使用了公开数据集SHOW和BEAT2,但论文未说明具体获取或预处理方式。
- Demo:未提供。
- 复现材料:给出了部分训练策略(CFG、EMA、Masking)和关键设计(DER, IRI)的描述,但缺少完整的超参数(学习率、批大小、优化器具体设置)、硬件配置和训练时间等关键细节。
- 论文中引用的开源项目:引用了VQ-VAE [24]、Wav2vec2.0(作为特征提取器)、FLAME [23](人脸模型)等基础开源工作。
- 总结:论文中未提及开源计划。