Style-Disentangled Diffusion for Controllable and Identity-Generalized Speech-Driven Body Motion Generation
📄 Style-Disentangled Diffusion for Controllable and Identity-Generalized Speech-Driven Body Motion Generation #语音驱动动作生成 #扩散模型 #对比学习 #解耦学习 ✅ 7.0/10 | 前25% | #语音驱动动作生成 | #扩散模型 | #对比学习 #解耦学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Zixiang Lu(西安电子科技大学计算机科学与技术学院) 通讯作者:Zhitong He, Qiguang Miao(西安电子科技大学计算机科学与技术学院) 作者列表:Zixiang Lu(西安电子科技大学计算机科学与技术学院)、Zhitong He(西安电子科技大学计算机科学与技术学院)、Zixuan Wang(未说明)、Yunan Li(未说明)、Qiguang Miao(西安电子科技大学计算机科学与技术学院) 💡 毒舌点评 亮点:风格解耦模块的设计很巧妙,通过对比学习拉近同一说话人风格码的距离,并用梯度反转从内容特征中剥离身份信息,理论上提升了可控性和可解释性。短板:论文声称的“Identity-Generalized”能力仅在单一数据集(BEATX)的同一说话人测试集上进行定量评估,缺乏跨数据集或对未知说话人的严格泛化验证,说服力稍显不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开的BEATX数据集,论文中未说明是否提供其他自定义数据。 Demo:未提及在线演示。 复现材料:论文给出了损失函数的权重配置,但缺少训练超参数、模型架构细节等关键复现信息。 论文中引用的开源项目:未在正文中明确引用特定开源项目。方法部分参考了Syntalker [11]的分割策略,数据集使用了BEATX [12]。 论文中未提及开源计划。 📌 核心摘要 本文针对现有语音驱动身体动作生成方法难以生成匹配抽象个人风格、解耦不充分、可解释性差的问题,提出了名为DSfusion的可控与身份泛化动作生成框架。其核心是通过一个风格解耦模块,从参考动作序列中学习并分离出个人风格特征,同时从语音中提取内容特征,并利用对比学习、梯度反转等技术增强分离效果。与已有方法相比,该模型首次在多身份(Multi-ID)数据集上进行训练,并引入了一个运动精炼模块,以防止解耦后的风格信号在融合过程中被平均化动作所覆盖。在BEATX数据集上的实验表明,该方法在Fréchet Gesture Distance(FGD,5.144 vs 次优5.423)和运动多样性(Diversity,13.912 vs 次优13.057)指标上均优于现有SOTA方法(见表1)。该研究的意义在于提升了语音驱动动画的个性化控制能力和动作的多样性与真实感。主要局限性在于扩散模型带来的推理延迟,以及泛化能力验证的场景有限。 ...