ICASSP 2026 - 舞蹈生成

共 1 篇论文

← 返回 ICASSP 2026 总览

排名	论文	评分	分档
🥇	Motionbeat: Motion-Aligned Music Representation via Embodied	7.5分	前25%

📋 论文详情

🥇 Motionbeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding

✅ 7.5/10 | 前25% | #舞蹈生成 | #对比学习 | #音频表征学习 #音乐生成

👥 作者与机构

第一作者：Xuanchen Wang（悉尼大学计算机科学学院）
通讯作者：未说明
作者列表：Xuanchen Wang（悉尼大学计算机科学学院）、Heng Wang（悉尼大学计算机科学学院）、Weidong Cai（悉尼大学计算机科学学院）

💡 毒舌点评

亮点：论文巧妙地将“运动”作为监督信号引入音乐表征学习，提出的ECL和SRAL损失函数以及相位旋转、接触注意力等架构模块，从理论和实践上系统地弥补了现有音频模型在节奏感知上的短板，思路新颖且有效。短板：核心验证任务（舞蹈生成）的数据集（AIST++）风格相对单一，论文未探讨该表征在更广泛、更多样的音乐风格或非舞蹈类动作（如手势、体育）中的泛化能力，其“具身”的普适性有待进一步验证。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：论文使用AIST++数据集，但未说明是否提供该数据集或相关处理脚本。
Demo：未提及。
复现材料：论文提供了详细的超参数设置（模型大小、学习率、批量大小等）和训练细节（GPU型号、优化器），但未提供完整的训练配置或检查点说明。
引用的开源项目：论文引用了多个开源工作作为基线或工具，如EDGE（舞蹈生成）、wav2vec 2.0、CLAP、Wav2CLIP、Jukebox、Soft-DTW等。
总体情况：论文中未提及开源计划。

📌 核心摘要

要解决什么问题：现有音频表征学习模型（如基于音频-文本或音频-视觉）忽略了音乐与人类动作（尤其是舞蹈）之间内在的、本能的“具身”联系，导致学到的表征在节奏和结构信息上与运动脱节，限制了其在音乐到舞蹈生成等任务上的效果。
方法核心是什么：提出MotionBeat框架，通过两个新训练目标和两个新架构模块来学习运动对齐的音乐表征。训练目标是：具身对比损失（ECL），通过引入“节奏相似但不同步”的困难负样本来增强对比学习的细粒度辨别能力；结构节奏对齐损失（SRAL），通过Soft-DTW和最优传输分别在节拍和小节级别强制对齐音频事件与运动事件。架构模块是：小节等变相位旋转，使模型对节奏的周期性变化具有等变性；接触引导注意力，让模型关注与音乐重音同步的运动瞬间。
与已有方法相比新在哪里：首次将“人类运动”作为关键监督信号用于通用音乐表征学习，并针对性地设计了能捕捉周期性节奏（相位旋转）和强调关键动作（接触注意力）的架构。ECL损失也超越了标准对比学习，引入了任务相关的困难负样本。
主要实验结果如何：在AIST++数据集上，MotionBeat在音乐到舞蹈生成任务上全面超越wav2vec 2.0, CLAP, Wav2CLIP, Jukebox等基线。例如，在舞蹈生成任务上，其物理合理性得分（PFC）为1.545（越低越好），节拍对齐得分（BAS）为0.27（越高越好），均优于最强基线Jukebox（PFC=1.598, BAS=0.24）。在下游任务如节拍跟踪、音乐标记、分类、情感识别和跨模态检索中也均取得最佳或具有竞争力的性能。消融实验证实了ECL、SRAL、相位旋转和接触注意力各组件的有效性。
实际意义是什么：为音乐信息检索、舞蹈自动生成、音乐驱动的人机交互、音乐理解（尤其是节奏和情感层面）等领域提供了更高质量、更具“动作感”的基础音频表征，可能催生更自然、更同步的多媒体应用。
主要局限性是什么：论文未讨论该框架在非舞蹈动作（如日常手势、体育运动）或更多样化音乐风格（如古典、爵士）上的泛化能力；训练依赖于高质量的配对音乐-运动数据（AIST++），数据获取门槛较高。

ICASSP 2026 - 舞蹈生成#

📋 论文详情#

🥇 Motionbeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding#

ICASSP 2026 - 舞蹈生成

📋 论文详情

🥇 Motionbeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding