FODGE : High-Fidelity Dance Generation via Full-Body Optimization

📄 FODGE : High-Fidelity Dance Generation via Full-Body Optimization #音频生成 #扩散模型 #全身优化 ✅ 6.5/10 | 前50% | #音频生成 | #扩散模型 | #全身优化 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Xiaoying Huang(中国传媒大学信息与通信工程学院) 通讯作者:Long Ye(中国传媒大学数据科学与媒体智能学院, 媒体融合与传播国家重点实验室) 作者列表:Xiaoying Huang(中国传媒大学信息与通信工程学院)、Sanyi Zhang(中国传媒大学数据科学与媒体智能学院, 媒体音视频教育部重点实验室)、Qin Zhang(媒体音视频教育部重点实验室)、Xiaoxuan Guo(中国传媒大学信息与通信工程学院)、Long Ye(中国传媒大学数据科学与媒体智能学院, 媒体融合与传播国家重点实验室) 💡 毒舌点评 论文的亮点在于清晰地指出了现有方法将“滑步”一律视为错误的问题,并通过设计优雅的FRB模块来区分和保留艺术性滑步,同时将约束从脚部拓展至全身,实验效果显著。短板在于其核心生成架构(两阶段Transformer扩散网络)几乎是LODGE的复用,创新更多体现在“约束”和“后处理”上,属于针对特定问题的工程优化而非范式突破,且完全未开源。 🔗 开源详情 代码:论文中未提及代码链接。项目主页(https://yccccm.github.io/FODGE-page/)在论文撰写时尚未确认是否包含代码仓库。 模型权重:未提及公开权重。 数据集:使用的是公开的FineDance数据集,但论文未说明获取方式(通常可从原数据集作者处获取)。 Demo:未提及在线演示。 复现材料:论文提供了一些训练细节(如优化器、学习率、GPU型号、训练时长),但未提供完整的配置文件、检查点或附录说明。 论文中引用的开源项目:引用了Librosa用于音频特征提取,SMPL用于人体模型表示。 📌 核心摘要 要解决什么问题:现有音乐驱动的舞蹈生成方法在追求物理真实性时(如消除滑步),会错误地抑制舞蹈中固有的艺术性滑步(如太空步),同时忽视了手臂穿透等局部不自然问题,损害了生成舞蹈的艺术表现力。 方法核心是什么:提出FODGE框架,包含两部分:(1) Full-body Refinement Block (FRB):在扩散模型训练时引入,通过学习脚部滑动与手臂运动的相关性作为优化线索,联合约束四肢动作,以消除手臂穿透等伪影并保留艺术滑步。(2) Full-body Optimization Post-processing module (FOP):一个免训练的后处理模块,在推理后对整个序列进行校正,包括修正段落衔接不连续、基于物理先验调整全局根轨迹以缓解滑步,以及约束头部旋转至生理合理范围。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 307 words