ICASSP 2026 - 舞蹈生成

1 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇Motionbeat: Motion-Aligned Music Representation via Embodied7.5分前25%

📋 论文详情

🥇 Motionbeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding

7.5/10 | 前25% | #舞蹈生成 | #对比学习 | #音频表征学习 #音乐生成

👥 作者与机构

  • 第一作者:Xuanchen Wang(悉尼大学计算机科学学院)
  • 通讯作者:未说明
  • 作者列表:Xuanchen Wang(悉尼大学计算机科学学院)、Heng Wang(悉尼大学计算机科学学院)、Weidong Cai(悉尼大学计算机科学学院)

💡 毒舌点评

亮点: 论文巧妙地将“运动”作为监督信号引入音乐表征学习,提出的ECL和SRAL损失函数以及相位旋转、接触注意力等架构模块,从理论和实践上系统地弥补了现有音频模型在节奏感知上的短板,思路新颖且有效。 短板: 核心验证任务(舞蹈生成)的数据集(AIST++)风格相对单一,论文未探讨该表征在更广泛、更多样的音乐风格或非舞蹈类动作(如手势、体育)中的泛化能力,其“具身”的普适性有待进一步验证。

📌 核心摘要

  1. 要解决什么问题: 现有音频表征学习模型(如基于音频-文本或音频-视觉)忽略了音乐与人类动作(尤其是舞蹈)之间内在的、本能的“具身”联系,导致学到的表征在节奏和结构信息上与运动脱节,限制了其在音乐到舞蹈生成等任务上的效果。
  2. 方法核心是什么: 提出MotionBeat框架,通过两个新训练目标和两个新架构模块来学习运动对齐的音乐表征。训练目标是:具身对比损失(ECL),通过引入“节奏相似但不同步”的困难负样本来增强对比学习的细粒度辨别能力;结构节奏对齐损失(SRAL),通过Soft-DTW和最优传输分别在节拍和小节级别强制对齐音频事件与运动事件。架构模块是:小节等变相位旋转,使模型对节奏的周期性变化具有等变性;接触引导注意力,让模型关注与音乐重音同步的运动瞬间。
  3. 与已有方法相比新在哪里: 首次将“人类运动”作为关键监督信号用于通用音乐表征学习,并针对性地设计了能捕捉周期性节奏(相位旋转)和强调关键动作(接触注意力)的架构。ECL损失也超越了标准对比学习,引入了任务相关的困难负样本。
  4. 主要实验结果如何: 在AIST++数据集上,MotionBeat在音乐到舞蹈生成任务上全面超越wav2vec 2.0, CLAP, Wav2CLIP, Jukebox等基线。例如,在舞蹈生成任务上,其物理合理性得分(PFC)为1.545(越低越好),节拍对齐得分(BAS)为0.27(越高越好),均优于最强基线Jukebox(PFC=1.598, BAS=0.24)。在下游任务如节拍跟踪、音乐标记、分类、情感识别和跨模态检索中也均取得最佳或具有竞争力的性能。消融实验证实了ECL、SRAL、相位旋转和接触注意力各组件的有效性。
  5. 实际意义是什么: 为音乐信息检索、舞蹈自动生成、音乐驱动的人机交互、音乐理解(尤其是节奏和情感层面)等领域提供了更高质量、更具“动作感”的基础音频表征,可能催生更自然、更同步的多媒体应用。
  6. 主要局限性是什么: 论文未讨论该框架在非舞蹈动作(如日常手势、体育运动)或更多样化音乐风格(如古典、爵士)上的泛化能力;训练依赖于高质量的配对音乐-运动数据(AIST++),数据获取门槛较高。