FODGE : High-Fidelity Dance Generation via Full-Body Optimization

📄 FODGE : High-Fidelity Dance Generation via Full-Body Optimization #音频生成 #扩散模型 #全身优化 ✅ 6.5/10 | 前50% | #音频生成 | #扩散模型 | #全身优化 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Xiaoying Huang(中国传媒大学信息与通信工程学院) 通讯作者:Long Ye(中国传媒大学数据科学与媒体智能学院, 媒体融合与传播国家重点实验室) 作者列表:Xiaoying Huang(中国传媒大学信息与通信工程学院)、Sanyi Zhang(中国传媒大学数据科学与媒体智能学院, 媒体音视频教育部重点实验室)、Qin Zhang(媒体音视频教育部重点实验室)、Xiaoxuan Guo(中国传媒大学信息与通信工程学院)、Long Ye(中国传媒大学数据科学与媒体智能学院, 媒体融合与传播国家重点实验室) 💡 毒舌点评 论文的亮点在于清晰地指出了现有方法将“滑步”一律视为错误的问题,并通过设计优雅的FRB模块来区分和保留艺术性滑步,同时将约束从脚部拓展至全身,实验效果显著。短板在于其核心生成架构(两阶段Transformer扩散网络)几乎是LODGE的复用,创新更多体现在“约束”和“后处理”上,属于针对特定问题的工程优化而非范式突破,且完全未开源。 📌 核心摘要 要解决什么问题:现有音乐驱动的舞蹈生成方法在追求物理真实性时(如消除滑步),会错误地抑制舞蹈中固有的艺术性滑步(如太空步),同时忽视了手臂穿透等局部不自然问题,损害了生成舞蹈的艺术表现力。 方法核心是什么:提出FODGE框架,包含两部分:(1) Full-body Refinement Block (FRB):在扩散模型训练时引入,通过学习脚部滑动与手臂运动的相关性作为优化线索,联合约束四肢动作,以消除手臂穿透等伪影并保留艺术滑步。(2) Full-body Optimization Post-processing module (FOP):一个免训练的后处理模块,在推理后对整个序列进行校正,包括修正段落衔接不连续、基于物理先验调整全局根轨迹以缓解滑步,以及约束头部旋转至生理合理范围。 与已有方法相比新在哪里:a) 理念更新:不再将所有滑步视为需消除的伪影,而是通过学习相关性来区分并保留艺术表达性的滑步。b) 优化范围扩展:从仅优化脚部(如LODGE的Foot Refine Block)扩展到同时优化手臂和脚部,进行全身联合约束。c) 引入免训练后处理:FOP模块作为一个独立、确定性的后处理步骤,从序列整体角度进一步提升连贯性和合理性。 主要实验结果如何:在FineDance数据集上,FODGE在运动质量指标上显著优于Bailando、EDGE和LODGE。具体关键数据如下表所示。FODGE取得了最佳的FIDk (38.21) 和 FIDg (27.46),表明生成的舞蹈姿态最接近真实分布。其脚部滑动率 (FSR) 降至2.38%,比LODGE (2.76%) 进一步降低。同时,它在音乐-舞蹈对齐分数 (BAS) 上达到最高的0.2509,说明在保证真实性的前提下,更好地平衡了与音乐的契合度。消融实验显示,移除FRB会导致FIDk和FSR大幅恶化,证明其对生成合理性至关重要。 ...

2026-04-29