动作生成 | 语音/音乐/音频论文速递

ICLR 2026 - 动作生成论文列表

ICLR 2026 - 动作生成共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Unified Multi-Modal Interactive and Reactive 3D Motion Gener 7.5分前25% 📋 论文详情 🥇 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow ✅ 7.5/10 | 前25% | #动作生成 | #流匹配 | #检索增强 #多模态 👥 作者与机构第一作者：Prerit Gupta (Purdue University, Department of Computer Science) 通讯作者：未说明（但Aniket Bera为最后作者，通常为通讯作者）作者列表：Prerit Gupta (Purdue University), Shourya Verma (Purdue University), Ananth Grama (Purdue University), Aniket Bera (Purdue University) 💡 毒舌点评 ...

Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow

📄 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow #动作生成 #流匹配 #检索增强 #多模态 #扩散模型 ✅ 7.5/10 | 前25% | #动作生成 | #流匹配 | #检索增强 #多模态学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Prerit Gupta (Purdue University, Department of Computer Science) 通讯作者：未说明（但Aniket Bera为最后作者，通常为通讯作者）作者列表：Prerit Gupta (Purdue University), Shourya Verma (Purdue University), Ananth Grama (Purdue University), Aniket Bera (Purdue University) 💡 毒舌点评亮点在于将交互和反应式双人动作生成统一到一个框架中，并创新性地为动作生成引入了基于LLM分解的检索增强生成，有效提升了语义对齐。短板在于该领域相对小众，实际应用场景（如VR/AR游戏）的验证可能有限，且模型参数量（456M）相比基线（224M）显著增大，提升了部署门槛。 🔗 开源详情代码：论文明确承诺将开源代码（“Full code for this project… will be made open source… upon paper acceptance”），但未提供具体链接。模型权重：承诺将提供训练好的检查点。数据集：使用了InterHuman-AS、DD100、MDD三个公开数据集，论文中给出了获取参考。 Demo：未提及在线演示。复现材料：附录提供了详尽的LLM提示词设计、架构细节（公式）、损失权重配置、超参数选择等，复现信息充分。引用的开源项目：SMPL模型（动作表示），CLIP（文本编码），Jukebox（音乐编码），GPT-4o（文本分解），FlashAttention（加速）。 📌 核心摘要问题：生成真实、与上下文相关的双人3D动作，需同时支持交互式（双向协调）和反应式（单向响应）两种模式，且能融合文本、音乐等多种模态条件输入，是当前计算机图形学和具身AI的挑战。方法：提出DualFlow，首个基于矫正流匹配（Rectified Flow）的统一框架。通过可切换的“双流块”架构，同一模型可处理交互与反应任务；引入专为双人动作设计的检索增强生成模块，利用GPT-4o分解文本为空间关系、身体动作和节奏三类描述，并结合音乐特征检索动作范例，以增强生成动作的语义准确性；采用对比矫正流匹配目标，提升运动嵌入与条件信号的对齐度。创新：(1) 统一架构实现交互与反应任务的无缝切换；(2) 首个用于双人动作的RAG框架；(3) 结合同步损失的对比矫正流匹配，提升生成质量与采样效率。实验结果：在MDD、InterHuman-AS、DD100三个数据集上进行广泛评估。在MDD的交互任务上，DualFlow(Both)的R-Precision@3达0.513，MMDist为0.513；在反应任务上，FID为0.686，R-Precision@3为0.471，均优于基线。相比InterGen，DualFlow仅需20步（2.5倍加速）即可达到更优的FID。意义：为VR/AR、游戏、社交机器人等需要协调人际行为的领域提供了高效且高质量的多模态动作生成方案。局限：在长序列生成时可能存在节奏偏移；反应模式下可能出现轻微的肢体穿插；RAG检索质量依赖于库的覆盖度与查询的清晰度。 🏗️ 模型架构 DualFlow是一个基于Transformer和矫正流匹配的统一生成框架，其核心是多模态条件注入与“双流块”架构设计。 ...

ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer

📄 ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer #语音生成 #动作生成 #音频生成 #Transformer #生成模型 ✅ 7.0/10 | 前25% | #音频生成 | #Transformer | #语音生成 #动作生成学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Yong Xie（南京理工大学）（注：论文标注为* equal contribution）通讯作者：Yunlian Sun（南京理工大学）（注：论文标注为† corresponding author）作者列表：Yong Xie（南京理工大学）、Yunlian Sun（南京理工大学）、Hongwen Zhang（北京师范大学）、Yebin Liu（清华大学）、Jinhui Tang（南京林业大学） 💡 毒舌点评本文的亮点在于将ViT架构巧妙适配于动作序列生成，并通过引入“动态嵌入正则化（DER）”和“迭代重建推理（IRI）”等策略，显著提升了生成动作的流畅度和真实感（FGD降低86.7%），实验设计也较为周全。但其短板也明显：核心创新更多是有效的工程优化组合而非底层理论突破，且严重的开源缺失（无代码、无模型、细节模糊）极大限制了工作的可复现性和后续影响力，让“SOTA”声明的说服力打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开数据集SHOW和BEAT2，但论文未说明具体获取或预处理方式。 Demo：未提供。复现材料：给出了部分训练策略（CFG、EMA、Masking）和关键设计（DER， IRI）的描述，但缺少完整的超参数（学习率、批大小、优化器具体设置）、硬件配置和训练时间等关键细节。论文中引用的开源项目：引用了VQ-VAE [24]、Wav2vec2.0（作为特征提取器）、FLAME [23]（人脸模型）等基础开源工作。总结：论文中未提及开源计划。 📌 核心摘要问题：现有语音驱动手势生成方法存在生成动作保真度不足（如抖动、动作僵硬、穿模）以及跨领域泛化能力弱的问题，影响用户体验。方法核心：提出ReCoM框架，其核心是Recurrent Embedded Transformer (RET) 模块。RET在Vision Transformer (ViT)基础上，通过通道式（Channel-wise）处理将身体和手部动作视为特征图的两个通道，从而实现对语音-动作时空依赖性的联合建模。创新点：(1) RET模块设计，适配ViT处理动作序列；(2) 训练时引入动态嵌入正则化（DER），即在嵌入层后应用Dropout以增强鲁棒性和泛化性；(3) 提出迭代重建推理（IRI）策略，通过循环预测并筛选置信度高的动作索引，以缓解自回归推理的误差累积问题。实验结果：在SHOW数据集上，ReCoM的Fr´echet Gesture Distance (FGD) 从基线ProbTalk的18.70降至2.48（如表3），提升了86.7%，表明动作真实性大幅提高。在域外BEAT2数据集测试（无微调）中，其FGD（96.78）也优于ProbTalk（100.07）和TalkSHOW（98.32），显示了更好的泛化性（如表4）。消融实验（表2）证实了CFG、IRI、DER、EMA和Masking等各策略的有效性。实际意义：为虚拟数字人、智能交互机器人等提供更自然、更真实的手势动画生成方案。主要局限性：(1) 模型架构本身并非全新提出，是对现有ViT的改进应用；(2) 仅在SHOW和BEAT2两个数据集上进行评估，广泛性待验证；(3) 缺乏开源代码和模型，阻碍复现与公平比较。 🏗️ 模型架构 ReCoM采用两阶段流程（如图1、图2）： ...