UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars

📄 UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars #语音合成 #多模态模型 #高效推理 #稀疏建模 📝 5.5/10 | 前25% | #语音合成 | #多模态模型 | #高效推理 #稀疏建模 | arxiv 学术质量 4.1/8 | 影响力 0.7/1 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Xiaoyu Zhan(南京大学)、Xinyu Fu(南京大学)(共同第一作者) 通讯作者:Yanwen Guo(南京大学)、Dongjie Fu(南京大学) 作者列表: Xiaoyu Zhan(南京大学) Xinyu Fu(南京大学) Chenghao Yang(南京大学) Xiaohong Zhang(南京大学) Dongjie Fu(南京大学) Pengcheng Fang(南京大学) Tengjiao Sun(南京大学) Xiaohao Cai(南京大学) Hansung Kim(南京大学) Yuanqi Li(南京大学) Jie Guo(南京大学) Yanwen Guo(南京大学) 💡 毒舌点评 这篇论文的核心贡献是将“空间稀疏MoE”和“时间稀疏关键帧+插值”两种技术,整合进一个基于LLM的统一自回归框架,以解决共同语音动画生成中“高质量”与“实时性”的矛盾。其工程设计思路清晰,且在实时性指标(FPS)上较LOM有显著提升。然而,论文的致命伤在于,其“统一建模”的优越性论证极其薄弱。实验明确显示,在纯音频驱动任务上,专用模型(SynTalker)的FGD指标显著优于UMo(4.687 vs. 5.107),而UMo在其他统一模型中也并未取得压倒性优势。这使得论文声称的“统一框架”能带来整体性能提升的说法站不住脚,更像是一种为整合而整合的架构设计,其必要性和有效性存疑。 ...

2026-05-15 · 更新于 2026-05-19 · 3 min · 590 words