稀疏建模 | 语音/音乐/音频论文速递

📄 UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars #语音合成 #多模态模型 #高效推理 #稀疏建模 📝 5.5/10 | 前25% | #语音合成 | #多模态模型 | #高效推理 #稀疏建模 | arxiv 学术质量 4.1/8 | 影响力 0.7/1 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Xiaoyu Zhan（南京大学）、Xinyu Fu（南京大学）（共同第一作者）通讯作者：Yanwen Guo（南京大学）、Dongjie Fu（南京大学）作者列表： Xiaoyu Zhan（南京大学） Xinyu Fu（南京大学） Chenghao Yang（南京大学） Xiaohong Zhang（南京大学） Dongjie Fu（南京大学） Pengcheng Fang（南京大学） Tengjiao Sun（南京大学） Xiaohao Cai（南京大学） Hansung Kim（南京大学） Yuanqi Li（南京大学） Jie Guo（南京大学） Yanwen Guo（南京大学） 💡 毒舌点评这篇论文的核心贡献是将“空间稀疏MoE”和“时间稀疏关键帧+插值”两种技术，整合进一个基于LLM的统一自回归框架，以解决共同语音动画生成中“高质量”与“实时性”的矛盾。其工程设计思路清晰，且在实时性指标（FPS）上较LOM有显著提升。然而，论文的致命伤在于，其“统一建模”的优越性论证极其薄弱。实验明确显示，在纯音频驱动任务上，专用模型（SynTalker）的FGD指标显著优于UMo（4.687 vs. 5.107），而UMo在其他统一模型中也并未取得压倒性优势。这使得论文声称的“统一框架”能带来整体性能提升的说法站不住脚，更像是一种为整合而整合的架构设计，其必要性和有效性存疑。 ...