全身优化 | 语音/音乐/音频论文速递

📄 FODGE : High-Fidelity Dance Generation via Full-Body Optimization #音频生成 #扩散模型 #全身优化 ✅ 6.5/10 | 前50% | #音频生成 | #扩散模型 | #全身优化学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Xiaoying Huang（中国传媒大学信息与通信工程学院）通讯作者：Long Ye（中国传媒大学数据科学与媒体智能学院，媒体融合与传播国家重点实验室）作者列表：Xiaoying Huang（中国传媒大学信息与通信工程学院）、Sanyi Zhang（中国传媒大学数据科学与媒体智能学院，媒体音视频教育部重点实验室）、Qin Zhang（媒体音视频教育部重点实验室）、Xiaoxuan Guo（中国传媒大学信息与通信工程学院）、Long Ye（中国传媒大学数据科学与媒体智能学院，媒体融合与传播国家重点实验室） 💡 毒舌点评论文的亮点在于清晰地指出了现有方法将“滑步”一律视为错误的问题，并通过设计优雅的FRB模块来区分和保留艺术性滑步，同时将约束从脚部拓展至全身，实验效果显著。短板在于其核心生成架构（两阶段Transformer扩散网络）几乎是LODGE的复用，创新更多体现在“约束”和“后处理”上，属于针对特定问题的工程优化而非范式突破，且完全未开源。 🔗 开源详情代码：论文中未提及代码链接。项目主页（https://yccccm.github.io/FODGE-page/）在论文撰写时尚未确认是否包含代码仓库。模型权重：未提及公开权重。数据集：使用的是公开的FineDance数据集，但论文未说明获取方式（通常可从原数据集作者处获取）。 Demo：未提及在线演示。复现材料：论文提供了一些训练细节（如优化器、学习率、GPU型号、训练时长），但未提供完整的配置文件、检查点或附录说明。论文中引用的开源项目：引用了Librosa用于音频特征提取，SMPL用于人体模型表示。 📌 核心摘要要解决什么问题：现有音乐驱动的舞蹈生成方法在追求物理真实性时（如消除滑步），会错误地抑制舞蹈中固有的艺术性滑步（如太空步），同时忽视了手臂穿透等局部不自然问题，损害了生成舞蹈的艺术表现力。方法核心是什么：提出FODGE框架，包含两部分：(1) Full-body Refinement Block (FRB)：在扩散模型训练时引入，通过学习脚部滑动与手臂运动的相关性作为优化线索，联合约束四肢动作，以消除手臂穿透等伪影并保留艺术滑步。(2) Full-body Optimization Post-processing module (FOP)：一个免训练的后处理模块，在推理后对整个序列进行校正，包括修正段落衔接不连续、基于物理先验调整全局根轨迹以缓解滑步，以及约束头部旋转至生理合理范围。 ...