AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling
📄 AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling #多模态模型 #自回归模型 #数据增强 7/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0/1.5 ✅ 7/10 | 前50% | #多模态模型 | #数据增强 | #自回归模型 | arxiv 👥 作者与机构 作者:Yiheng Li (中国科学院计算技术研究所, 中国科学院大学),Zhuo Li (独立作者),Ruibing Hou (中国科学院计算技术研究所),Yingjie Chen (北京大学),Hong Chang (中国科学院计算技术研究所, 中国科学院大学),Hao Liu (独立作者),Shiguang Shan (中国科学院计算技术研究所, 中国科学院大学) 通讯作者:Hao Liu (lewes6369@gmail.com) 💡 毒舌点评 这篇论文试图解决运动生成领域的一个“贪心”问题:想要一个模型吃下所有条件(文本、语音、音乐、轨迹),还想要数据足够大、模型能缩放。野心不小,也确实做出了些东西。数据集OmniHuMo规模号称最大,这算是个实在的工程贡献,对社区后续研究有价值。AnyMo框架的设计思路清晰,把R-FSQ和并行掩码建模结合起来处理多流token,算是一个合理的技术集成。缩放研究展示了从111M到3B参数的效果趋势,尤其是文本任务上FID的显著下降,验证了 scaling law 在这个任务上的有效性。 ...