📄 AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

#多模态模型 #自回归模型 #数据增强

7/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0/1.5

7/10 | 前50% | #多模态模型 | #数据增强 | #自回归模型 | arxiv

👥 作者与机构

  • 作者:Yiheng Li (中国科学院计算技术研究所, 中国科学院大学),Zhuo Li (独立作者),Ruibing Hou (中国科学院计算技术研究所),Yingjie Chen (北京大学),Hong Chang (中国科学院计算技术研究所, 中国科学院大学),Hao Liu (独立作者),Shiguang Shan (中国科学院计算技术研究所, 中国科学院大学)
  • 通讯作者:Hao Liu (lewes6369@gmail.com)

💡 毒舌点评

这篇论文试图解决运动生成领域的一个“贪心”问题:想要一个模型吃下所有条件(文本、语音、音乐、轨迹),还想要数据足够大、模型能缩放。野心不小,也确实做出了些东西。数据集OmniHuMo规模号称最大,这算是个实在的工程贡献,对社区后续研究有价值。AnyMo框架的设计思路清晰,把R-FSQ和并行掩码建模结合起来处理多流token,算是一个合理的技术集成。缩放研究展示了从111M到3B参数的效果趋势,尤其是文本任务上FID的显著下降,验证了 scaling law 在这个任务上的有效性。

但问题也很明显。首先,作为一篇以“any-modality”为核心卖点的论文,其核心实验(尤其是多模态组合)的评估不够深入和令人信服。音频驱动任务的缩放曲线在775M后出现波动,论文给出的“过拟合”解释略显敷衍,没有深入分析数据分布或模型容量的瓶颈。其次,所有实验都在自建的OmniHuMo数据集上进行,缺乏在标准基准(如HumanML3D)上的全面对比,使得其声称的“competitive performance”难以被独立验证和横向比较。多模态组合的消融实验(Tab. 8, 9, 10)虽然展示了组合的增益,但缺乏对“为什么”这些模态组合有效的深入分析,更像是结果堆砌。最后,方法细节,特别是R-FSQ的具体超参数选择依据、并行掩码建模如何具体实现“同时”预测多个流的细节,在正文中阐述不足,读者需要频繁查阅附录,影响了主线的清晰度。总体而言,这是一项扎实的工程工作,但在科学深度和评估全面性上仍有提升空间,距离顶会标杆尚有距离。

📌 核心摘要

本文针对当前人体运动生成方法受限于固定模态组合和任务特定架构的问题,提出了统一的多模态框架AnyMo和支持其训练的大规模数据集OmniHuMo。核心贡献包括:1) 构建了OmniHuMo,一个包含超过320万序列、5000小时运动数据,并附有精确对齐的文本、语音、音乐和轨迹标注的大规模数据集;2) 提出了AnyMo框架,它结合了基于残差有限标量量化(R-FSQ)的运动分词器,将连续运动离散化为多流层级token,以及一个基于LLaMA的可扩展并行掩码建模Transformer,支持在任意模态组合条件下生成运动。实验证明,AnyMo在文本、语音、音乐驱动的运动生成任务上均展现出良好的性能,并且模型规模的扩大带来了性能的持续提升(尤其在文本任务上)。本文强调了大规模对齐数据对于提升模型泛化能力和可控性的重要性。

🔗 开源详情

  • 代码:论文中未提供代码链接。
  • 模型权重:论文中未提供模型权重链接。
  • 数据集:论文提出了OmniHuMo数据集,但未提供公开获取方式。
  • Demo:论文中未提及Demo链接。
  • 复现材料:论文在附录C中提供了极其详细的复现信息,包括:
    • 数据流水线部署细节(CPU/GPU集群配置)。
    • 运动分词器:4层残差FSQ架构,每层码本大小2048。编码器-解码器参考SnapMoGen。训练超参数:16个NVIDIA H20 GPU,200个epoch,批大小256/GPU,初始学习率2e-4,多步衰减(第60和140个epoch,衰减因子0.3)。
    • AnyMo模型:基于LLaMA架构,参数规模111M-3B。训练210个epoch,48个NVIDIA H20 GPU,批大小16/GPU。优化器AdamW,初始学习率2e-4,500步预热,余弦衰减至1e-5。
    • 详细的评估指标(MPJPE, FID, R-Precision, BAS, Div, MMDist)定义在附录C.2。
  • 论文中引用的开源项目:(与已有分析基本一致,已核对论文原文引用)PySceneDetect, TransNetV2, YOLOv11 (Ultralytics), MOTRv2, RTMW (RTMPose), GVHMR, Demucs, 3D-Speaker, SyncNet, Whisper, Qwen3-VL (链接指向Qwen2.5-VL仓库), LLaMA, T5-XL, WavTokenizer, SnapMoGen, DROID-SLAM, SAM2, RF-DETR。

🏗️ 方法概述和架构

AnyMo框架旨在实现从任意模态组合条件生成3D人体运动序列。其核心方法包含两个主要组件:一个基于残差有限标量量化(R-FSQ)的运动分词器,以及一个基于LLaMA的可扩展并行掩码Transformer。整体架构如论文图6所示。

  1. 运动残差FSQ-VAE(R-FSQ) 该组件负责将连续的运动序列 \(\mathbf{X} \in \mathbb{R}^{T \times D}\) 离散化为多流离散token序列。
  • 动机:传统的向量量化(VQ)易出现码本坍塌,且单阶段量化难以捕捉复杂运动细节。
  • 结构:包含一个运动编码器 \(E\)、一个解码器 \(D\) 和 \(V+1\) 个层级的量化阶段。编码器 \(E\) 将运动序列映射到连续潜在表示 \(\mathbf{Z} \in \mathbb{R}^{t \times d}\),并进行了时间下采样(因子为4)。
  • 残差量化机制:初始输入 \(\mathbf{R}^0 = \mathbf{Z}\)。在每个阶段 \(v\),对残差 \(\mathbf{R}^v\) 应用有限标量量化器(FSQ)得到量化近似 \(\widehat{\mathbf{Z}}^v\),并计算新的残差 \(\mathbf{R}^{v+1} = \mathbf{R}^v - \widehat{\mathbf{Z}}^v\)。最终量化表示 \(\widehat{\mathbf{Z}}\) 是所有层级量化近似的和:\(\widehat{\mathbf{Z}} = \sum_{v=0}^{V} \widehat{\mathbf{Z}}^v\)。
  • FSQ细节:对于每个向量 \(\boldsymbol{z} \in \mathbb{R}^{d}\),FSQ先通过sigmoid函数将值约束在预定义范围内,然后对每个维度 \(z_i\) 进行离散化:\(\hat{z}_{i} = \text{round}(f(z_i) \cdot (L_i - 1))\)。\(d\) 维坐标通过双射映射展平,形成码本 \(|\mathcal{C}| = \prod_{i=0}^{d-1} L_i\)。
  • 输出与优化:最终输出 \(V+1\) 个有序的离散token序列 \(\{\boldsymbol{m}^0, \boldsymbol{m}^1, \dots, \boldsymbol{m}^V\}\),其中 \(\boldsymbol{m}^0\) 编码全局运动模式,更高层级逐步细化动态细节。训练目标为最小化重建损失:\(\mathcal{L}_1 = \|\mathbf{X} - D(\widehat{\mathbf{Z}})\|_2^2\)。
  1. 可扩展掩码Transformer 该组件接收多模态条件和掩码后的运动token,生成完整的运动序列。
  • 多模态条件编码器:使用模态特定的编码器处理异构输入:
    • 文本:采用预训练的T5-XL编码器提取语义特征,输出 \(Z_{\text{text}} \in \mathbb{R}^{N_t \times c}\)。
    • 音频(语音/音乐):采用WavTokenizer的编码器捕获音频特征,输出 \(Z_{\text{audio}} \in \mathbb{R}^{N_a \times c}\)。
    • 运动轨迹:采用轻量级卷积编码器捕获局部时间依赖关系,输出 \(Z_{\text{traj}} \in \mathbb{R}^{N_{tr} \times c}\)。 所有特征被投影到共同的 \(c\) 维嵌入空间。
  • 并行掩码建模:
    • 动机:为同时高效建模R-FSQ产生的多流token序列。
    • 掩码策略:在 \(V+1\) 个流上实施一致的掩码方案。随机选择一个时间步长,该步长在所有残差层级上的token被同时替换为 <MASK> token。
    • 嵌入与聚合:为每个流引入独立的嵌入层 \(\{\text{Embd}^v(\cdot)\}_{v=0}^{V}\),将掩码后的token序列 \(\widetilde{\boldsymbol{m}}^v\) 映射到共享潜在空间。综合运动表示 \(Z_{\text{enc}}\) 通过聚合所有流的嵌入得到:\(Z_{\text{enc}} = \sum_{v=0}^{V} \text{Embd}^v(\widetilde{\boldsymbol{m}}^v)\)。
    • 预测:使用 \(V+1\) 个独立的预测头(前馈网络FFN)\(\{\text{FFN}^v(\cdot)\}_{v=0}^{V}\)。给定Transformer输出的潜在表示 \(h\),每个头预测对应的token流:\(\widehat{\boldsymbol{m}}^v = \text{FFN}^v(h)\)。
  • 目标函数:采用每个token流独立的交叉熵损失进行优化: \(\mathcal{L}_2 = -\sum_{v=0}^{V} \log p(\boldsymbol{m}^v | Z_{\text{text}}, Z_{\text{audio}}, Z_{\text{traj}}, \widetilde{\boldsymbol{m}}^v)\)
  1. 训练范式 为解决数据集中音视频对齐数据占比小的问题,采用分阶段课程学习:
  • 阶段I:文本到运动预训练。使用所有文本-运动对训练,冻结音频和轨迹编码器。
  • 阶段II:多模态对齐。引入音视频对齐数据,冻结文本编码器和Transformer主干,仅更新音频和轨迹编码器。
  • 阶段III:联合多模态微调。微调整个模型以支持任意模态组合。使用非均匀采样(10%的纯文本数据和全部音频对齐数据),并对条件进行模态增强(以0.1概率注入额外模态)。

图1

图2

💡 核心创新点

  1. OmniHuMo大规模多模态运动数据集:构建了目前规模最大的人体运动数据集(3.2M序列,5000+小时),首次实现了文本、语音、音乐、轨迹等多种模态的精确时间对齐标注,为多模态运动生成研究提供了关键数据基础。
  2. R-FSQ运动分词器:提出将残差量化与有限标量量化结合,将连续运动离散化为多流层级token。该设计避免了传统VQ的码本坍塌问题,并通过分层表示提升了运动细节的重建精度。
  3. AnyMo统一可扩展框架:
    • 并行掩码建模:设计了一种能同时处理多个残差token流的掩码预测策略,无需将多流token序列扁平化,提高了建模效率和生成质量。
    • 任意模态组合支持:通过模态特定编码器和统一的潜在空间,实现了对文本、语音、音乐、轨迹及其任意组合的条件生成。
    • 缩放定律验证:系统研究了模型规模(111M至3B参数)对不同模态生成任务的影响,证实了在当前数据和训练制度下,增大模型容量能持续提升性能(尤其在文本任务上)。

📊 实验结果

论文在HumanML3D和自建的OmniHuMo数据集上进行了广泛实验,评估了运动重建、单模态生成和多模态组合生成性能。

  1. 运动重建性能(MPJPE,mm)
    方法训练数据集测试数据集评测数据集MPJPE
    HumanML3DMotionMillionOmniHuMo
    ScaMo (FSQ)MotionUnionMotionUnion63.388.9-
    GoToZeroMotionMillionMotionMillion41.945.536.1
    AnyMo (R-FSQ)OmniHuMoOmniHuMo27.921.513.2

结论:AnyMo的R-FSQ分词器在所有评测基准上均实现了最佳重建性能,归功于更大规模、更多样化的训练数据和残差量化设计。

  1. 单模态运动生成性能
  • 文本驱动(OmniHuMo-Text测试集):

    模型FID ↓R@1 ↑R@2 ↑R@3 ↑MMDist ↓Div →
    真实数据-0.740.880.9325.7546.59
    AnyMo-111M262.100.630.760.8229.1643.57
    AnyMo-343M216.260.670.800.8628.2344.98
    AnyMo-775M148.810.710.830.8827.2445.36
    AnyMo-1B102.210.740.860.9026.2845.74
    AnyMo-3B55.590.750.870.9125.8746.71
    • 结论:随着模型规模从111M增大到3B,所有指标持续稳定提升,FID大幅下降,R@1达到甚至超越真实数据,验证了有效的缩放定律。
  • 语音驱动(OmniHuMo-Speech测试集):

    模型FID ↓BAS ↑Div →
    真实数据-0.20544.40
    AnyMo-111M178.830.20442.54
    AnyMo-343M201.010.20242.00
    AnyMo-775M83.800.20542.86
    AnyMo-1B96.870.20842.66
    AnyMo-3B91.120.21443.47
  • 音乐驱动(OmniHuMo-Music测试集):

    模型FID ↓BAS ↑Div →
    真实数据-0.21039.22
    AnyMo-111M70.980.20739.78
    AnyMo-343M74.180.20939.13
    AnyMo-775M34.410.21038.22
    AnyMo-1B37.620.21136.99
    AnyMo-3B46.170.21338.15
    • 结论:音频驱动任务(语音/音乐)的FID并未随模型规模单调下降,AnyMo-775M达到最佳,更大模型出现波动。作者推测可能受限于配对数据的规模导致过拟合。但BAS(节拍对齐)随模型增大而提高,表明时间建模能力增强。
  1. 多模态组合条件生成(AnyMo-3B)
  • 文本驱动+额外条件(OmniHuMo-Text测试集):

    文本轨迹FID ↓R@1 ↑轨迹误差(>50cm) ↓位置误差(>50cm) ↓平均误差(cm) ↓
    -55.590.750.520.2850.50
    41.430.770.330.1427.16
    • 结论:加入轨迹条件显著提升了运动真实性(FID)、检索精度并降低了轨迹误差。
  • 语音驱动+额外条件(OmniHuMo-Speech测试集):

    语音文本轨迹FID ↓BAS ↑Div →
    ✔(真实)---0.20544.40
    --91.120.21443.37
    -89.740.21543.63
    -76.820.21742.51
    76.550.21743.18
    • 结论:加入文本或轨迹条件均改善FID,同时加入三者效果最佳。BAS和多样性(Div)变化相对较小。
  • 音乐驱动+额外条件(OmniHuMo-Music测试集):

    音乐文本轨迹FID ↓BAS ↑Div →
    ✔(真实)---0.21039.22
    --46.170.21338.15
    -43.840.21337.34
    -42.990.21437.93
    43.260.21536.94
    • 结论:与语音驱动类似,额外条件(尤其是轨迹)能改善FID,但运动多样性(Div)在多条件下略有下降,可能由于条件约束收紧了运动空间。
  1. 消融研究
  • 数据规模对分词器的影响:在OmniHuMo不同子集上训练R-FSQ,并在HumanML3D上评估重建性能。结果显示,随着训练数据从0.05M增加到3M,FID从160.65降至17.32,MPJPE从94.55降至27.92,证明了大规模数据的关键作用。
  • 运动token建模策略(在HumanML3D上训练和评估):
    策���方法FID ↓R@1 ↑MMDist ↓
    AAR-Flatten26.710.6217.17
    BMask-Flatten20.890.6616.54
    CMask-Parallel19.460.6616.78
    • 结论:掩码建模(B, C)优于自回归(A);并行掩码(C)优于扁平化掩码(B),在FID上取得最佳,且计算效率更高。

图3

图4

🔬 细节详述

  • 数据集构建流程:OmniHuMo的构建是一个复杂的多阶段自动流水线(图2)。从网络收集>2亿视频,经过场景检测(PySceneDetect + TransNetV2)、严格质量过滤(亮度、码率、视觉质量、运动强度),然后进行2D人体标注(YOLOv11检测,MOTRv2跟踪,RTMW姿态估计)和3D重建(GVHMR)。进一步过滤根方向突变、关节抖动等。音频方面,使用Demucs分离人声/背景音乐,并通过BAS分数识别舞蹈,通过3D-Speaker+SyncNet+Whisper识别语音。最后用Qwen3-VL-32B生成细粒度动作描述。
  • 评估指标:
    • 运动重建:MPJPE(mm)。
    • 文本驱动生成:FID,R-Precision(R@1/2/3),MMDist,Div。
    • 音频驱动生成:FID,BAS(高斯加权对齐分数),Div。
    • 论文指出,传统舞蹈生成的运动学/几何指标(如FIDk, FIDg)不可靠,因此统一使用基于对比学习的特征提取器。
  • 模型规模与训练细节:AnyMo主干基于LLaMA,参数从111M到3B。分词器:4层R-FSQ,每层码本大小2048。训练使用AdamW优化器,学习率调度(2e-4到1e-5,500步预热,余弦衰减),在48个NVIDIA H20 GPU上训练210个epoch,批大小16/GPU。
  • 局限性:除作者指出的手指关节缺失和音视频数据占比小外,本文所有实验均在自建数据集上进行,缺乏与现有SOTA方法在标准基准上的公平对比。多模态组合生成的评估维度较少,未深入分析模态间交互的机理。音频任务的缩放行为异常未得到充分解释。

⚖️ 评分理由

  • 创新性 (2.0/3.0):提出了大规模多模态数据集和统一框架,具有较好的工程创新和集成创新。R-FSQ分词器和并行掩码建模是有效的技术设计。但核心思想(掩码建模生成多流token)并非全新的原创概念,更多是对现有技术的巧妙组合和适配。
  • 技术严谨性 (1.2/1.5):方法描述清晰,公式完整。数据集构建流程详细。分阶段训练策略合理。但在关键实验分析上存在不足,如音频任务缩放行为的解释不充分,多模态消融分析较浅。
  • 实验充分性 (1.0/1.5):在自建数据集上的实验规模较大,涵盖了重建、单模态、多模态多个维度。消融研究验证了数据规模、建模策略的有效性。但严重缺乏在标准公开基准(如HumanML3D)上与其他最先进方法的系统性对比,削弱了结论的说服力。多模态组合实验的评估深度不够。
  • 清晰度 (0.8/1.0):论文整体结构清晰,图表丰富。但部分技术细节(如R-FSQ超参数选择依据)在正文中阐述不足,依赖附录。某些段落(如Related Work)组织稍显松散。
  • 影响力 (1.0/2.0):OmniHuMo数据集有望成为领域内重要资源,对推动多模态运动生成研究有积极贡献。AnyMo框架展示了缩放的有效性。但该工作核心属于计算机视觉/图形学领域,对语音/音乐/音频领域的直接理论或技术贡献有限。其影响力主要局限于运动生成社区内部。
  • 开源 (0.5/1.5):论文提出了数据集,但未提供公开获取方式。未提供代码和模型权重。仅提供了详细的复现信息(附录C),这有一定帮助,但不足以完全支撑独立复现。
  • 可复现性 (0.5/0.5):附录C提供了非常详细的实现细节、训练硬件、超参数和评估指标定义,为复现提供了坚实基础。扣分项在于数据集和核心代码的未开源,使得完整复现存在障碍。

🚨 局限与问题

  1. 评估体系封闭性:所有实验均在自建的OmniHuMo数据集上进行,缺乏在广泛使用的标准基准(如HumanML3D)上与当前最先进方法(如MotionDiffuse, MDM等)的直接对比。这使得其声称的“competitive performance”难以被客观验证和横向定位,结论的泛化性存疑。
  2. 多模态组合生成分析薄弱:论文展示了增加模态能提升性能,但缺乏深入的定性和定量分析来解释这些模态如何相互作用。例如,轨迹如何具体约束和改善由语音或音乐驱动的运动?文本描述与语音内容是否冗余或互补?缺乏此类分析,使得“any-modality”的优势显得笼统。
  3. 音频任务缩放行为异常:语音和音乐驱动任务的FID在模型超过775M后并未继续下降,反而波动。论文简单归因为“潜在过拟合”或“有限配对数据”,但这可能掩盖了更深层的问题,例如:1) 当前音频特征提取器(WavTokenizer)或条件编码方式是否已成为瓶颈?2) 大规模文本-运动对训练是否导致模型偏向文本条件,而在音频条件上泛化不足?3) 评估指标(如BAS)是否能全面反映生成质量?该现象未得到充分探讨。
  4. 数据集标注一致性与偏差风险:数据集通过复杂的自动流水线构建,虽然描述了严格的过滤,但完全自动化的标注(尤其是使用LLM生成文本描述)可能存在偏差、错误或风格单一的问题。论文未提供人工评估数据集标注质量或多样性的报告。
  5. 方法细节与泛化性:R-FSQ分词器的具体码本大小(每层2048)和层数(4层)选择依据未充分说明。并行掩码建模假设所有残差流在相同时间步上被共同掩码,这是否是唯一或最优的设计?是否有更灵活的掩码策略?论文未探讨。
  6. “任意模态组合”的实证基础有限:虽然框架支持四种模态,但实验证明有效的组合主要集中在“文本+轨迹”和“语音/音乐+文本+轨迹”。对于其他可能的组合(如仅音乐+轨迹,或语音+音乐),并未展示实验结果,因此“任意组合”的有效性和鲁棒性尚未充分证实。

📷 论文图片

图5


← 返回 2026-06-02 语音/音乐/音频论文速递