UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars

Fri, 15 May 2026 00:00:00 +0000

📄 UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars

#语音合成 #多模态模型 #高效推理 #稀疏建模

学术质量 4.1/8 | 影响力 0.7/1 | 可复现性 0.7/1 | 置信度高

👥 作者与机构

第一作者：Xiaoyu Zhan（南京大学）、Xinyu Fu（南京大学）（共同第一作者）
通讯作者：Yanwen Guo（南京大学）、Dongjie Fu（南京大学）
作者列表：
- Xiaoyu Zhan（南京大学）
- Xinyu Fu（南京大学）
- Chenghao Yang（南京大学）
- Xiaohong Zhang（南京大学）
- Dongjie Fu（南京大学）
- Pengcheng Fang（南京大学）
- Tengjiao Sun（南京大学）
- Xiaohao Cai（南京大学）
- Hansung Kim（南京大学）
- Yuanqi Li（南京大学）
- Jie Guo（南京大学）
- Yanwen Guo（南京大学）

💡 毒舌点评

这篇论文的核心贡献是将“空间稀疏MoE”和“时间稀疏关键帧+插值”两种技术，整合进一个基于LLM的统一自回归框架，以解决共同语音动画生成中“高质量”与“实时性”的矛盾。其工程设计思路清晰，且在实时性指标（FPS）上较LOM有显著提升。然而，论文的致命伤在于，其“统一建模”的优越性论证极其薄弱。实验明确显示，在纯音频驱动任务上，专用模型（SynTalker）的FGD指标显著优于UMo（4.687 vs. 5.107），而UMo在其他统一模型中也并未取得压倒性优势。这使得论文声称的“统一框架”能带来整体性能提升的说法站不住脚，更像是一种为整合而整合的架构设计，其必要性和有效性存疑。

📌 核心摘要

解决的问题：现有共同语音动画生成方法要么局限于单一模态、难以利用海量运动数据，要么受限于多模态模型的表征能力和吞吐量，难以同时实现高质量生成与实时性能。
方法核心：提出UMo，一个统一稀疏运动建模架构。它通过一个统一的自回归框架联合处理文本、音频和运动token。其核心优化包括：1）空间稀疏：采用基于Mixture-of-Experts (MoE)的骨干网络，为面部、手部、上半身和下半身分别设置专家，以增强表征能力而不增加单token计算开销；2）时间稀疏：采用关键帧中心化设计，模型仅预测稀疏的关键帧，再由轻量级插值网络重建完整密集运动序列。辅以三阶段训练策略和针对性音频增强。
新在哪里：不同于先前方法（如LOM、GestureLSM），UMo首次在同一个LLM框架内，同时引入了空间稀疏（MoE）和时间稀疏（关键帧+插值）两种稀疏性机制。这使其在统一建模的广度（处理文本/音频/运动）和推理效率的深度（实时性）上均取得了进展，而非简单的模块堆叠。

主要实验结果：在BEATv2基准上，UMo（5.107 FGD， 7.955 BC）在感知真实感和节拍一致性上优于LOM等统一模型。实时性方面，UMo达到44 FPS，首帧延迟826ms，显著优于LOM（19 FPS， 6269ms）。消融实验证实了每个组件（AR， MoE，关键帧，插值网络，音频增强）的贡献。用户研究表明，加入音频增强的UMo在平滑度和整体偏好上均排名第一。

方法	类型	FGD×10⁻¹ (↓)	BC×10⁻¹ (↑)	Diversity (↑)	FPS (↑)	TTFF (ms) (↓)
LOM	统一、自回归	5.301	7.780	15.17	19	6269
GestureLSM	特定方法	4.247	7.290	13.76	411	275
SynTalker	统一	6.413	7.971	12.72	-	-
SynTalker (仅音频)	特定方法	4.687	7.363	12.43	6*	-
MambaTalk	特定方法	5.366	7.812	13.05	155	38
UMo	统一、自回归	5.107	7.955	14.75	44	826
UMo w. Audio Aug.	统一、自回归	5.368	7.787	16.77	-	-

实际意义：为游戏、虚拟制作和交互媒体中的实时高保真数字人驱动提供了一个实用解决方案。其“统一框架+稀疏化”设计思路对其他实时多模态生成任务（如视频生成）也有参考价值。
主要局限性：1）关键帧设计引入了误差传播和窗口边界效应；2）统一训练可能对单一任务的极致性能产生轻微负面影响；3）推理速度（特别是TTFF）相比专用轻量网络（如GestureLSM）仍有差距。

🔗 开源详情

代码：https://github.com/Joann-star/UMo
模型权重：论文中未提及
数据集：BEATv2（论文中明确使用，并遵循其标准划分。该数据集为公开数据集：https://beat-data.github.io/beat2/）
Demo：论文中未提及
复现材料：论文中提供了详细的实现细节、训练配置（如优化器、学习率、批大小等），但未提及是否提供预训练检查点、配置文件或代码仓库之外的附录材料。
论文中引用的开源项目：
- LOM (Language of Motion): https://github.com/lhchenustc/LOM
- BEATv2 数据集: https://beat-data.github.io/beat2/
- HuBERT (用于音频编码): https://huggingface.co/facebook/hubert-base-ls960
- T5 / Flan-T5-Base (作为骨干模型): https://huggingface.co/google/flan-t5-base
- SMPL-X (用于运动输出): https://smpl-x.is.tue.mpg.de/
- AdamW (优化器，非特定项目)
- k-means (用于音频量化，非特定项目)

🏗️ 方法概述和架构

图1：UMo流程概览。UMo是一个用于实时共同语音生成的统一稀疏架构。它通过一个基于LLM的自回归框架（第“分块自回归”节），结合空间稀疏（第“空间稀疏MoE框架”节）和时间稀疏（第“时间稀疏关键帧框架”节），实现了高保真运动生成和低延迟响应。

整体流程概述 UMo是一个端到端的自回归系统，其输入为流式音频（可选文本任务指令），输出为同步的全身（面部表情、手势、上半身、下半身）运动序列。整个流程分为三个核心阶段：首先，输入模态（音频、运动历史）被编码为离散token；其次，一个统一的LLM骨干网络在稀疏MoE的增强下，以分块自回归的方式预测未来的关键帧运动token；最后，一个轻量级的插值网络基于关键帧重建完整的密集运动序列，解码为连续动作参数。
主要组件/模块详解

a) 统一Token化与输入

功能：将多模态输入转换为LLM可处理的离散token序列。
内部结构/实现：
- 音频：使用预训练的HuBERT模型提取特征，再通过k-means量化为码本大小为500K的离散token（50 tokens/秒）。
- 运动：使用来自LOM的四个预训练VQ-VAE分词器，分别编码面部（f）、手部（h）、上半身（u）、下半身（l）运动序列，码本大小均为256，频率为30 tokens/秒。
- 文本：使用标准的文本分词器。
输入输出：输入原始音频波形、运动序列（用于历史前缀）和文本指令。输出为离散的音频 token序列 𝐚、运动token序列 𝐳^f, 𝐳^h, 𝐳^u, 𝐳^l 和文本token。

b) 分块自回归骨干网络（Chunk-Wise Autoregressive）

功能：在有限计算预算和延迟约束下，基于历史运动和当前音频，预测未来运动的关键帧token。这是UMo实现实时性的核心框架。
内部结构/实现：
- 架构基础：采用Flan-T5-Base作为预训练语言模型骨干。T5作为前缀语言模型，其混合注意力机制允许对历史前缀进行双向注意力，而对预测目标进行因果注意力，有利于多模态上下文的理解。
- 分块处理：将连续的运动流分割成固定长度的块。每个推理步包含一个长度为 P=10 的历史运动前缀和需要预测的 N=5 帧未来运动。模型输入为：任务指令token + 当前及历史的音频token + P帧历史运动token。模型输出为未来 N 帧的运动token。
- 稀疏性：在此骨干中，预测目标并非密集的每帧运动，而是时间步长为 s=6 的关键帧运动token（见下文“时间稀疏关键帧框架”）。这进一步缩短了自回归解码的长度。
输入输出：输入为多模态token化后的序列。输出为未来 N 个时间步（每个步对应 s=6 帧）的关键帧运动token预测分布。

c) 空间稀疏Mixture-of-Experts (MoE) 框架

功能：在不显著增加单token计算成本的前提下，扩大模型容量，专门化处理不同身体部位的运动特征，解决共享参数带来的过平滑和优化冲突问题。
内部结构/实现：
- 位置：应用于T5编码器和解码器中的每个前馈网络（FFN）层。
- 结构：每个MoE FFN包含一个无偏置的路由器 Wr 和 E=4 个专家FFN（初始化为原始密集FFN的拷贝）。对于输入的隐藏状态 𝐡_t，路由器输出专家概率 π_t，通过Top-1路由 (k=1) 选择概率最高的一个专家进行计算。
- 负载均衡：引入辅助损失 ℓ_moe，鼓励不同专家被均衡使用，防止路由坍塌。
输入输出：输入为Transformer层的隐藏状态 𝐡_t。输出为经过选定专家处理后的MoE FFN输出。路由决策基于token内容（即身体部位）。

d) 时间稀疏关键帧框架与插值网络

功能：利用运动序列的时间冗余，将密集预测任务分解为：1）LLM预测稀疏但关键的姿态锚点（关键帧）；2）轻量网络插值生成中间帧，实现高效密集重建。
内部结构/实现：
- 关键帧预测：在骨干网络的自回归解码中，目标仅是预测关键帧位置（索引为 𝒦 = {1, 1+s, 1+2s, ...}，默认 s=6）的运动token 𝐳^kf。
- 插值网络：一个独立的轻量级网络。输入为关键帧token和掩码（用于非关键帧位置）。架构包含：1）各身体部分嵌入；2）帧内部分感知注意力（融合 f, h, u, l 信息）；3）全局时间自注意力（建模时间依赖）；4）各部分预测头，输出非关键帧位置的token分布。
- 训练：插值网络独立训练。损失函数包括交叉熵损失（预测被掩码的token）和速度/加速度平滑性正则化（作用于token嵌入空间），以保证生成序列的连贯性。
输入输出：输入为关键帧token 𝐳^kf 和掩码指示符。输出为完整重建的密集运动token序列 𝐳^rec。

e) 三阶段训练与音频增强

功能：稳定多任务、多模态模型的训练过程，并缓解成对数据稀缺问题。
内部实现：
1. 预训练：在关键帧运动序列、音频-文本对上进行混合任务训练，目标是学习通用表示和模态对齐。损失为 ℒ_pre，此时不启用MoE辅助损失。
2. 后训练阶段1：以指令微调方式，在密集时间监督（窗口内所有帧）下，强化音频-运动对齐（a2m），并混合文本-运动（t2m）任务。启用MoE辅助损失。
3. 后训练阶段2：在阶段1基础上，将监督目标改为稀疏关键帧，适应分块自回归的推理范式。
- 音频增强：在阶段2训练时使用。为每个运动序列，用TTS模型生成5个不同音色的音频变体，建立“多对一”映射，促使模型学习泛化的语义-运动模式，提升鲁棒性。

组件间的数据流与交互数据流是顺序的，但存在并行处理：输入多模态数据被并行分词 -> 所有token（文本、音频、历史运动）被拼接输入T5骨干网络 -> T5编码器通过双向注意力融合信息，解码器以自回归方式（关键）预测未来关键帧运动token -> 预测的关键帧token与历史关键帧一起，输入独立的插值网络 -> 插值网络并行处理四个身体部分，输出完整运动token -> 各部分VQ解码器并行将token解码为连续运动参数 -> 合并为全身SMPL-X参数。MoE路由器在每个FFN层根据token内容（隐含了身体部位信息）动态选择专家，实现了“空间”上的条件计算。
关键设计选择及动机

统一自回归框架 vs. 专用网络：选择T5作为统一骨干，旨在利用其强大的序列建模能力和跨模态对齐潜力，并支持灵活的流式生成。这牺牲了部分专用性，但换来了框架的通用性和对大规模预训练的潜在利用。
空间稀疏（MoE）：动机是解决不同身体部位运动分布差异大，共享FFN参数导致的优化冲突和细节丢失。MoE允许参数增长但计算量不变。
时间稀疏（关键帧+插值）：动机是直接满足严格的实时延迟要求。LLM逐token解码是主要瓶颈，通过只预测占总帧数约1/6的关键帧，极大缩短了LLM的解码长度。插值网络极其轻量，可以忽略不计。
插值网络与骨干网络解耦训练：动机是避免联合训练时，骨干网络生成的关键帧分布与GT关键帧分布不匹配，破坏插值网络对“局部平滑过渡”的假设。

多阶段/多模块逐层展开

第一阶段（预训练）：学习基础。输入多样化任务模板（如“文本生成运动”、“音频生成文本”）。目标是在离散token空间上，利用海量无配对或弱配对数据，学习一个强大的、能理解多模态指令的统一表示。
第二阶段（后训练阶段1）：强化对齐。专注于a2m任务，但使用密集帧监督。这相当于让模型在“看清楚”所有细节后，学习音频与逐帧运动的精确对应关系。
第三阶段（后训练阶段2）：适配稀疏推理。将监督目标从密集帧切换为关键帧。这教会骨干网络在稀疏采样的情况下，依然能生成语义正确的运动锚点。
插值网络独立训练：在骨干网络冻结后，用GT关键帧和掩码训练插值网络，使其学会在给定锚点的情况下“画出”平滑的中间帧。推理阶段：采用滑动窗口的分块自回归。每个窗口，骨干网络预测 N=5 个未来关键帧，插值网络将其扩展为 N s = 30 帧密集运动。窗口向前滑动，新预测的关键帧成为下一次的前缀。

💡 核心创新点

统一稀疏运动建模架构（UMo）：首次提出在同一个基于LLM的自回归框架内，同时建模文本、音频和分解的身体部位运动token。与先前仅用LLM处理单一模态或简单联合的方法不同，UMo通过统一的稀疏化策略（空间+时间）解决了质量与效率的矛盾。
空间稀疏MoE骨干网络：将MoE引入共同语音动画生成，专门用于解决因身体部位分解带来的多模态（非文本语言模态）表示学习挑战。通过Top-1路由将不同部位的token分派给不同的专家FFN，在增加模型总参数的同时，保持了单token计算量的恒定，并显著提升了生成质量和多样性。
时间稀疏关键帧与插值框架：提出了一种模仿专业动画制作流程的两阶段生成范式。它将LLM的输出从密集帧预测转变为稀疏关键帧预测，大幅降低了自回归解码的序列长度，从而满足实时性。配合一个轻量、带平滑正则化的插值网络，保证了最终输出的密集运动序列的质量和连贯性。
针对性音频增强与三阶段训练：设计了一种简单有效的数据增强策略（使用TTS生成多音色音频），以缓解配对数据稀缺问题，并提升模型对音色变化的鲁棒性和运动多样性。三阶段训练策略（预训练-密集对齐-稀疏适配）系统性地优化了多目标模型的收敛过程。

📊 实验结果

主要Benchmark结果 (BEATv2, Speaker-2) 论文在BEATv2基准上与多个方法进行了对比，结果如下表所示。UMo在感知质量（FGD）、节拍一致性（BC）和实时性（FPS, TTFF）上取得了有竞争力的结果，尤其在统一模型中表现最佳。

方法	类型	FGD×10⁻¹ (↓)	BC×10⁻¹ (↑)	Diversity (↑)	FPS (↑)	TTFF (ms) (↓)
Habibie et al.	特定方法	9.040	7.716	8.043	-	-
DisCo	特定方法	9.417	6.439	9.912	-	-
CaMN	特定方法	6.644	6.769	10.86	-	-
TalkShow	特定方法	6.209	6.947	13.47	-	-
EMAGE	特定方法	5.512	7.724	13.06	-	-
SynTalker	统一	6.413	7.971	12.72	-	-
SynTalker (仅音频)	特定方法	4.687	7.363	12.43	6*	-
MambaTalk	特定方法	5.366	7.812	13.05	155	38
RAG-Gesture	特定方法	8.790	7.300	12.62	-	-
GestureLSM	特定方法	4.247	7.290	13.76	411	275
LOM	统一、自回归	5.301	7.780	15.17	19	6269
MIBURI	自回归	7.530	7.900	15.85	57	35
UMo	统一、自回归	5.107	7.955	14.75	44	826
UMo w. Audio Aug.	统一、自回归	5.368	7.787	16.77	-	-
UMo w. Audio Aug. (N=2)	统一、自回归	5.464	7.919	16.21	27	540

用户研究用户研究对5个方法（LOM, MambaTalk, GestureLSM, UMo, UMo w. Audio Aug.）进行了排序，结果（平均排名，越低越好）显示UMo w. Audio Aug.在平滑度（1.99）、多样性（2.22）和整体偏好（1.78）上均排名第一。

消融实验论文进行了详尽的消融研究，验证了各模块的有效性。关键结论包括：

组件分析：单独使用AR导致质量下降（Var.1），但MoE（Var.2）和关键帧策略（Var.3）能有效缓解。三者结合（Var.9）达到最佳FGD。音频增强显著提升多样性但略微降低FGD（Var.10）。
训练阶段分析：移除预训练导致性能大幅下降，移除后训练阶段1也影响显著，移除阶段2影响较小（主要是速度提升）。
关键帧步长分析：对于线性插值，步长增大会导致质量下降。而学习型插值网络在 s=6 时达到最佳FGD（5.107），且在大步长下仍保持鲁棒性。

图5：定性比较。展示了LOM、MambaTalk、GestureLSM和UMo在相同音频输入下的运动序列。与其他方法相比，我们的结果更生动、更合理。其中的“Aug.”代表使用了音频增强。

图6：UMo的可视化结果。模型在BEATV2女性数据上训练，生成的SMPLX运动序列重定向到角色模型上。我们主要展示动作的节奏和表现力，但表情并未同步。

🔬 细节详述

训练数据：主要使用BEATv2数据集（Speaker-2），包含60小时、25位说话人的共同语音数据。音频增强阶段使用额外的TTS模型（minimax-speech-2.6）生成数据。预训练阶段包括关键帧运动序列、音频-文本对等，具体规模未详细说明。
损失函数：
- 主损失 ℒ_LM：标准的token预测交叉熵损失。
- MoE辅助损失 ℒ_moe：鼓励专家负载均衡的辅助损失。
- 插值网络损失 ℒ_interp：包括预测被掩码token的交叉熵损失 ℒ_ce，以及作用于token嵌入空间的速度损失 ℒ_vel 和加速度损失 ℒ_acc 的加权和。
训练策略：
- 优化器：AdamW，学习率 1e-4，β1=0.9，β2=0.99，权重衰减 0.05。
- 精度与批次：bfloat16精度，batch size 24。
- 训练轮数与时间：约150个epoch，每个epoch在8张A100-80GB GPU上约需1小时。
- 分阶段：三阶段训练（预训练、后训练Stage1、后训练Stage2），并引入短上下文增强以提高鲁棒性。
关键超参数：
- MoE：专家数 E=4，Top-k k=1，辅助损失权重 λ_moe=0.01。
- 关键帧：步长 s=6。
- 插值网络：标签平滑 0.1，速度损失权重 λ_v=1e-3，加速度损失权重 λ_a=1e-4。
- 分块自回归：历史前缀长度 P=10，预测步数 N=5（或N=2）。
训练硬件：8 × NVIDIA A100-80GB GPU。
推理细节：采用滑动窗口分块自回归。每个窗口，模型预测 N 个关键帧。插值网络对每个身体部分并行处理，使用贪婪解码（argmax）恢复被掩码的token。最终将所有部分token解码并合并为SMPL-X参数。在第一块推理时，用GT关键帧填充历史前缀。
正则化或稳定训练技巧：使用负载均衡损失稳定MoE训练；在插值网络中使用速度/加速度正则化保证运动平滑；训练时使用短上下文增强。

⚖️ 评分理由

创新性：1.5/3 论文的创新在于将空间稀疏（MoE）和时间稀疏（关键帧）两种正交的技术，融合到一个统一的基于LLM的自回归框架中。这种集成设计有一定的系统性。然而，这些技术本身（MoE，关键帧插值）在NLP和CV领域已非常成熟。论文的主要贡献是工程性的组合与应用，而非提出新的核心算法或理论。在“统一建模”这一宏大叙事下，其实际新颖性有限。

技术严谨性：1.0/2 方法描述整体清晰，主要组件有解释。但存在关键疏漏：1）对于核心矛盾——“统一建模”是否真的优于“专用模型”，实验中给出了反面证据（SynTalker的FGD更优），但论文和分析中对此技术权衡的讨论不够深入和诚实。2）插值网络的训练（使用GT关键帧）与推理（使用预测关键帧）之间的域差距（domain gap）未被量化分析，这是一个潜在的技术风险点。

实验充分性：1.0/2 实验设计存在明显不足：1）基线选择不公平：表格中包含了非实时、非统一系列的多种方法（如Habibie, DisCo等），稀释了与最相关竞争对手（其他LLM方法、实时方法）的对比焦点。2）核心主张（统一建模优越性）的实验论证不力，甚至被自己的数据（SynTalker的对比）所削弱。3）用户研究样本量仅13人，说服力不足。4）缺乏在更广泛数据集上的泛化性验证。

清晰度：0.6/1 论文写作有冗余和混乱之处。例如，在“实验结果”的定量分析部分，同一段对比（与LOM， SynTalker， GestureLSM的对比）几乎被重复叙述了两次，结构松散。部分关键细节（如插值网络的详细架构）需要在多个章节拼凑阅读。

影响力：0.7/1 论文对“实时共同语音动画”这一具体工程问题提供了有价值的解决方案，特别是其推理速度的提升。音频增强策略简单有效。然而，由于其核心主张（统一建模）缺乏充分支撑，其影响力更多局限于优化现有流程，而非引领新的研究范式。

可复现性：0.7/1 论文提供了详细的实现细节、超参数和训练配置。代码已开源。依赖的外部模型（T5， HuBERT， LOM VQ-VAE）公开。主要复现障碍在于三阶段训练策略的精细调优和插值网络的独立训练流程，但总体可复现性较好。

🚨 局限与问题

论文明确承认的局限：
- 时间解码策略存在结构性偏差：关键帧设计可能导致误差传播；分块自回归的输出质量受窗口边界影响，可能影响长程时间连贯性。
- 运行效率仍有提升空间，特别是推理速度和首帧延迟（TTFF）。
- 架构选择（如专家数量、激活数量）尚未充分探索。
- 当前框架依赖外部音频输入，未来可探索音频生成能力。
审稿人发现的潜在问题：
- “统一建模”的价值存疑：这是最核心的缺陷。实验数据（Table 1）明确显示，在纯音频到运动（a2m）任务上，专用模型SynTalker（FGD 4.687）显著优于UMo（FGD 5.107）。UMo作为统一模型，在统一任务设置下也并未全面优于其他模型（如与GestureLSM在FGD和速度上的差距）。论文声称的统一框架优势缺乏坚实证据，更像是一个为了整合而整合的架构选择。
- 评估指标的局限性：论文自己也承认FGD等指标无法完全反映“自然度”和“表现力”。用户研究样本量小（13人），且方法论（如视频片段长度、顺序效应）未详细说明，结论的稳健性存疑。
- 对“实时性”的界定过于乐观：所有速度测试均在昂贵的A100 GPU上进行。TTFF为826ms（N=5）或540ms（N=2），对于需要亚秒级响应的交互式应用（如游戏、直播），这仍然可能存在可感知的延迟。论文未讨论在消费级硬件（如笔记本电脑、手机）上的性能预期。
- 插值网络训练的域差距：插值网络用GT关键帧训练，但推理时使用的是由一个尚未完全收敛的LLM预测的关键帧。虽然论文认为解耦训练更好，但两者之间的分布不匹配是客观存在的，论文未分析这种差距对最终生成质量的具体影响程度。
- 消融实验中的一些反直觉结果：例如，Var.1（仅AR）的BC值（8.117）反而高于Var.9（完整UMo， 7.955），论文未对这种“质量指标下降但某些指标上升”的现象进行深入讨论。

← 返回 2026-05-15 论文速递

稀疏建模 on 语音/音频论文速递