📄 From Tokens to Faces: Investigating Discrete Speech Representations for 3D Facial Animation
#语音合成 #自监督学习 #对比学习
7.9/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5
✅ 7.9/10 | 前25% | #语音合成 | #自监督学习 | #对比学习 | arxiv
👥 作者与机构
作者:Pedro R. Correa, Olivier Perrotin, Samir Sadok, Paula D. P. Costa, Thomas Hueber 机构:
- Univ. Estadual de Campinas (UNICAMP), Brazil
- Univ. Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab, France
- Inria at Univ. Grenoble Alpes, CNRS, LJK, France
💡 毒舌点评
这篇工作做了一个工整的“排列组合”实验,试图回答“哪种语音表征最适合驱动人脸”这个基本问题。优点在于实验设计清晰,覆盖了主要表征类型,且提出了一个讨巧的AVTTS概念。然而,其核心发现——“编码音素信息的表征效果好”——几乎是一个基于直觉的结论,论文更多是在验证而非突破。探测分析部分试图挖得更深,但方法(线性回归、离散化聚类)略显简单,难以充分揭示复杂的映射关系。解码器架构的选择(GRU vs. 基础Transformer)也落后于当前扩散模型主导的前沿。总的来说,这是一篇扎实的“观测报告”,但离顶会论文所期望的“开创性洞察”或“强大新方法”还有距离。更适合作为一份详尽的baseline分析或技术报告。
📌 核心摘要
本文系统性地比较了四种离散语音表征——语义(HuBERT)、语义+声学(SpeechTokenizer)、声学(WavTokenizer)和基于标签(CosyVoice2)——在语音驱动3D面部动画任务中的效果。通过将冻结的语音编码器与两种面部解码器(GRU和Transformer)组合训练,并在BEAT2数据集上评估,研究发现:1)语义表征(如HuBERT)和基于标签的表征(CosyVoice2)在感知质量和关键的双唇闭合(BCS)指标上表现最佳且相当;2)探测分析表明,编码音素信息是实现准确动画的必要条件,但并非充分条件;混合表征中无结构的声学信息可能对预测产生干扰;3)论文提出了一个利用CosyVoice2的共享离散表征同时生成语音和面部动画的统一管道(AVTTS)的概念验证,展示了离散表征在多模态生成中的潜力。
🔗 开源详情
- 代码:
- 论文中复现 FaceDiffuser 基线的代码仓库链接为:
https://github.com/uuembodiedsocialai/FaceDiffuser。 - 论文中展示的音频-视觉文本转语音(AVTTS)概念演示的页面链接为:
https://github.com/ProdCor/Token-to-Face。
- 论文中复现 FaceDiffuser 基线的代码仓库链接为:
- 模型权重:论文中未提及模型权重下载链接。
- 数据集:
- 使用数据集:BEAT2。
- 论文中未提及该数据集的具体获取链接或开源协议。仅描述其包含约27小时英语语音及对应的FLAME面部参数数据。
- Demo:论文中提到的AVTTS概念演示页面为:
https://github.com/ProdCor/Token-to-Face。 - 复现材料:论文中提及了训练细节(如损失函数、优化器、解码器架构等),但未提供具体的训练配置文件或检查点下载链接。
- 论文中引用的开源项目:
- FaceDiffuser:
https://github.com/uuembodiedsocialai/FaceDiffuser - wav2vec 2.0: 论文引用了模型([baevski2020wav2vec]),但未提供项目主页链接。
- HuBERT: 论文引用了模型([hsu2021hubert]),但未提供项目主页链接。
- Whisper: 论文引用了模型([radford2023whisper]),但未提供项目主页链接。
- WavTokenizer: 论文引用了模型([ji2024wavtokenizer]),但未提供项目主页链接。
- SpeechTokenizer: 论文引用了模型([zhang2024speechtokenizer]),但未提供项目主页链接。
- CosyVoice2: 论文引用了模型([du2024cosyvoice2]),但未提供项目主页链接。
- EmoTalk: 论文引用了模型([peng2023emotalk]),但未提供项目主页链接。
- FaceFormer: 论文引用了模型([fan2022faceformer]),但未提供项目主页链接。
- CodeTalker: 论文引用了模型([xing2023codetalker]),但未提供项目主页链接。
- VQTalker: 论文引用了模型([liu2025vqtalker]),但未提供项目主页链接。
- SOLAMI: 论文引用了模型([jiang2025solami]),但未提供项目主页链接。
- VALLE: 论文引用了模型([wang2023valle]),但未提供项目主页链接。
- ARKit blendshapes转换矩阵: 论文提及由BEAT2数据集作者提供([arkit2017]),但未提供独立项目链接。
- FaceDiffuser:
🏗️ 方法概述和架构
本论文采用一个比较实验框架,系统研究不同离散语音表征对3D面部动画生成的影响。整体流程分为特征提取、面部解码和探测分析三个主要阶段。
语音表征提取(编码器):使用了四种预训练且冻结的语音编码器,分别代表不同类型的离散表征:
- 语义表征 (HuBERT, HB):通过掩码预测离散聚类单元进行自监督学习,其表征侧重于编码上下文化的音素等语义信息。
- 语义+声学表征 (SpeechTokenizer, ST):采用多码本残差向量量化(RVQ)。其第一层通过蒸馏HuBERT的表示来编码语义信息,后续层则通过重建任务来捕捉声学细节,形成混合表征。
- 声学表征 (WavTokenizer, WT):使用单一码本进行极端压缩,旨在通过矢量量化重建原始语音波形,其表征主要优化声学保真度,对语义信息的编码较少。
- 基于标签的表征 (CosyVoice2, CV2):在一个包含字符和韵律事件的ASR任务框架下训练,其编码器生成离散token,主要编码离散的语音事件标签。
面部动画解码(解码器):每个语音编码器与以下两种面部解码器之一组合,将语音表征映射为51维ARKit混合形状序列:
- GRU解码器:一个门控循环单元网络。作为基线(
Base)的[HB+GRU]配置复现了FaceDiffuser架构,训练时作为扩散过程中的去噪网络,使用L1损失进行直接数据预测。 - Transformer解码器 (T.):一个非因果Transformer解码器,利用自注意力机制处理完整序列。它使用交叉注意力,并采用L1损失结合一阶(速度)和二阶(加速度)运动平滑损失进行训练,以鼓励时间连贯性。
所有
encoder-decoder组合的训练均在BEAT2数据集上进行,其中语音编码器保持冻结,面部解码器从头开始训练。
- GRU解码器:一个门控循环单元网络。作为基线(
评估与探测分析:
- 客观评估:使用唇部顶点误差(LVE)、抖动分数(Jitter)和论文提出的双唇闭合分数(BCS)来衡量生成动画的准确性、时间平滑度和发音精度。
- 感知评估:在Prolific平台招募参与者,采用MUSHRA-like协议,对
[HB+GRU](Base)、[HB+T.](SOTA variant)和[CV2+T.](Ours variant)三种代表性模型进行成对质量评分。 - 探测分析:为了深入理解编码器的表征内容,进行了两方面探测:
- 离散探测:计算每个编码器离散token与音素(𝒫)或视觉音素(viseme,𝒱,通过k-means聚类混合形状得到)之间的条件归一化熵 \(\hat{H}(\mathcal{X}|t)\)。熵值越低,表明token与特定音素/viseme的映射越确定。
- 连续探测:使用岭回归模型,以token的one-hot序列为输入,预测连续的混合形状值,并报告中位\(R^2\)值,以衡量表征中线性可解码的连续面部运动信息量。


💡 核心创新点
- 系统性的表征比较框架:首次在一个统一的实验设置下,对四种涵盖从语义到声学、从连续到离散的语音表征类型,进行了面向3D面部动画任务的全面比较。
- 关键的探测分析:通过熵和回归探测,量化分析了不同离散表征与音素、视觉音素及连续面部动作的关联程度,为“何种信息对动画任务重要”提供了实证依据,揭示了音素信息编码的必要性及其局限性。
- AVTTS概念验证:提出并初步验证了一个利用共享离散语音token同时生成语音和同步面部动画的统一管道,展示了离散表征在构建端到端多模态语音生成系统中的潜力。
📊 实验结果
所有8种encoder-decoder组合在BEAT2测试集(约265个刺激,约4小时)上的客观指标和探测分析结果如表1所示。
表1:客观动画指标与语音表征探测分析结果 | 语音表征类型 | 面部解码器 | 变体 | LVE ↓ | Jitter ↓ | BCS (%) ↑ | \(\hat{H}(\mathcal{P}|t)\) (%) ↓ | \(\hat{H}(\mathcal{V}|t)\) (%) ↓ | \(R^2\) ↑ | | :— | :— | :— | :— | :— | :— | :— | :— | :— | | 语义 (HuBERT) | GRU | Base | 0.26 ◆ | 80.3 ∙ | 57.5 | 44.4 | 91.5 | 0.25 | | | Trans. | SOTA | 0.26 ◆ | 45.5 ∙ | 27.6 | | | | | 语义+声学 (SpeechTokenizer) | GRU | SOTA | 0.53 ∙ | 74.4 ⯀ | 3.4 | 39.6 | 90.4 | 0.04 | | | Trans. | SOTA | 0.34 ∙ | 35.2 ∙ | 2.3 | | | | | 声学 (WavTokenizer) | GRU | Ours | 0.84 ∙ | 93.3 ∙ | 0.4 | 73.2 | 91.4 | 0.08 | | | Trans. | Ours | 0.33 ∙ | 43.6 ∙ | 6.2 | | | | | 基于标签 (CosyVoice2) | GRU | Ours | 0.46 ∙ | 76.5 ⯀ | 3.9 | 57.7 | 84.3 | 0.10 | | | Trans. | Ours | 0.28 ∙ | 50.3 ∙ | 47.0 | | | |
注:◆ 和 ∙ 表示统计不显著的配对(p<0.05)。粗体为最佳,下划线为次佳。
- 动画性能:在LVE上,HuBERT模型表现最佳,
[CV2+T.]紧随其后。在Jitter上,所有使用Transformer解码器的模型均优于GRU模型。在关键的BCS指标上,[HB+GRU](Base)得分最高(57.5%),[CV2+T.](Ours)与之接近(47.0%),而其他模型得分极低(<7%)。 - 感知评估:如图3所示,感知评分排序为:参考视频 »
[HB+GRU]≈[CV2+T.]>[HB+T.]。值得注意的是,感知质量的排序与BCS指标高度相关,而非LVE,表明唇部闭合精度对主观质量至关重要。 - 探测分析:在音素熵 \(\hat{H}(\mathcal{P}|t)\) 上,SpeechTokenizer(语义+声学)最低(39.6%),表明其音素编码最精确,其次是HuBERT(44.4%)。在viseme熵 \(\hat{H}(\mathcal{V}|t)\) 和连续预测 \(R^2\) 上,所有模型的得分都较差,其中CosyVoice2(标签)在viseme熵上相对较好(84.3%),而HuBERT在\(R^2\)上最高(0.25),但仍很低。声学表征(WavTokenizer)在所有探测指标上均表现最差。

🔬 细节详述
- 数据集处理:BEAT2数据集包含约27小时英语语音和对应的FLAME参数。论文将FLAME参数转换为51维ARKit混合形状,转换矩阵由数据集作者提供。训练集、验证集、测试集的划分未在提供的文本中详细说明,但提到测试集包含265个刺激。
- 训练细节:面部解码器从头训练,语音编码器冻结。GRU解码器训练基于L1损失的扩散去噪目标。Transformer解码器训练结合了L1损失、一阶运动平滑损失(速度)和二阶运动平滑损失(加速度)。优化器和超参数未在提供的文本中详述。
- 统计检验:论文使用线性回归模型(R语言
lme函数)调查编码器和解码器对LVE和Jitter的影响,并使用emmeans包进行事后成对比较,显著性水平设为p<0.05。感知评估使用beta回归模型(glmmTMB)进行分析。 - AVTTS管道:该概念验证直接复用了为CosyVoice2编码器训练的Transformer面部解码器。CosyVoice2的文本到语音流程生成离散token,这些token被同时输入其原有的语音解码器和面部解码器,从而实现语音与动画的同步生成。
- 代码与可复现性:论文提供了代码仓库链接(https://github.com/ProdCor/Token-to-Face),用于复现AVTTS概念演示。此外,明确指出了复现
[HB+GRU](FaceDiffuser)基线代码的来源(https://github.com/uuembodiedsocialai/FaceDiffuser)。然而,预训练模型权重和BEAT2数据集的具体获取方式未在文中提供链接。
⚖️ 评分理由
- 创新性 (1.5/2):问题定义清晰,即探索不同离散语音表征对动画任务的适用性。创新点在于系统性的比较框架、针对离散表征的探测分析,以及AVTTS的概念提出。然而,核心发现(语义和标签表征有效)具有一定直觉性,且未提出全新的网络架构或训练范式。
- 技术严谨性 (1.4/1.5):实验设计全面,覆盖了多种表征和解码器组合。使用了客观指标、感知评估和统计检验,方法可靠。探测分析��法(归一化熵、岭回归)合理,但线性模型可能无法捕捉更复杂的非线性映射,且将连续混合形状离散化为32个viseme可能损失信息。
- 实验充分性 (1.5/2):在BEAT2数据集上进行了充分的实验,报告了全面的结果(表1)。感知评估虽然最终样本量(30人)不大,但采用了可靠的筛选标准。不足在于:1)未报告训练/验证集划分和训练收敛细节;2)未与更多最新的面部动画SOTA模型(如基于扩散的)进行直接对比。
- 清晰度 (1.2/1.5):论文结构清晰,图表(Fig.1, 2, 3)有助于理解。方法描述较为详细。然而,部分细节(如具体训练超参数、
V_{SOTA}和V_{OURS}变体的精确引用)在提供的文本中不完整,可能影响完全复现。 - 影响力 (0.8/2):对语音合成和计算机视觉(面部动画)交叉领域的研究人员有参考价值,系统性地评估了不同表征。AVTTS概念具有启发性。但对于更广泛的语音或音频领域读者,其直接应用和影响有限,主要贡献集中在一个特定的跨模态任务上。
- 开源 (1.0/1.5):提供了核心代码仓库(AVTTS演示和基线复现),这极大增强了工作的透明度和可复现性。但缺少预训练模型权重和数据集的直接获取链接,一定程度上限制了“开箱即用”的可复现性。
- 可复现性 (1.0/1.5):有代码仓库是巨大优势。但依赖外部预训练模型(HuBERT, CosyVoice2等)和特定数据集(BEAT2),若这些资源版本或获取方式不明确,仍会存在复现障碍。训练配置的细节披露不完全。
- 工程/实践价值 (1.2/1.5):系统比较为实践中选择语音表征提供了有价值的实证参考(优先选择语义或标签表征)。AVTTS管道展示了减少级联系统复杂度的潜力,为构建统一的多模态语音生成系统提供了思路。
🚨 局限与问题
- 数据集局限性:BEAT2数据集规模(~27小时)相对有限,且仅包含英语和特定情感表达,结论的泛化性(如对其他语言、说话人、非脚本场景)有待验证。
- 解码器架构落后:面部解码器(GRU和基础Transformer)并非当前最先进。未与近年来基于扩散(如FaceDiffuser本身就是扩散模型,但此处仅用其GRU部分)或更先进的时序模型进行比较,难以判断所发现的表征优劣在更强解码器下是否依然成立。
- 感知评估局限性:最终感知评估样本量(30人)较小,且仅比较了三个代表性模型,未覆盖所有8种组合,可能遗漏一些重要对比。
- AVTTS概念验证不足:AVTTS仅作为概念展示,缺乏定量评估(如与两阶段管道在同步质量、动画质量上的对比),也未探讨如何优化联合训练。
- 探测分析的深度有限:归一化熵和线性回归是相对简单的分析工具。论文断言“音素信息是必要条件”可能过于绝对,因为探测的是静态关联而非因果关系,且未充分探索非线性映射能力。
- 结论的强度:“音素信息是必要条件”和“无结构声学信息有害”的结论基于观察和有限的探测,更深入的机制(如Transformer如何整合这些信息)未被揭示。
- 部分细节未公开:如训练超参数、数据集划分、线性回归模型的具体设置等,在提供的文本中未详述,影响工作的完全透明度和复现。