📄 From Tokens to Faces: Investigating Discrete Speech Representations for 3D Facial Animation

#语音合成 #自监督学习 #对比学习

7.9/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5

👥 作者与机构

作者：Pedro R. Correa, Olivier Perrotin, Samir Sadok, Paula D. P. Costa, Thomas Hueber 机构：

Univ. Estadual de Campinas (UNICAMP), Brazil
Univ. Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab, France
Inria at Univ. Grenoble Alpes, CNRS, LJK, France

💡 毒舌点评

这篇工作做了一个工整的“排列组合”实验，试图回答“哪种语音表征最适合驱动人脸”这个基本问题。优点在于实验设计清晰，覆盖了主要表征类型，且提出了一个讨巧的AVTTS概念。然而，其核心发现——“编码音素信息的表征效果好”——几乎是一个基于直觉的结论，论文更多是在验证而非突破。探测分析部分试图挖得更深，但方法（线性回归、离散化聚类）略显简单，难以充分揭示复杂的映射关系。解码器架构的选择（GRU vs. 基础Transformer）也落后于当前扩散模型主导的前沿。总的来说，这是一篇扎实的“观测报告”，但离顶会论文所期望的“开创性洞察”或“强大新方法”还有距离。更适合作为一份详尽的baseline分析或技术报告。

📌 核心摘要

本文系统性地比较了四种离散语音表征——语义（HuBERT）、语义+声学（SpeechTokenizer）、声学（WavTokenizer）和基于标签（CosyVoice2）——在语音驱动3D面部动画任务中的效果。通过将冻结的语音编码器与两种面部解码器（GRU和Transformer）组合训练，并在BEAT2数据集上评估，研究发现：1）语义表征（如HuBERT）和基于标签的表征（CosyVoice2）在感知质量和关键的双唇闭合（BCS）指标上表现最佳且相当；2）探测分析表明，编码音素信息是实现准确动画的必要条件，但并非充分条件；混合表征中无结构的声学信息可能对预测产生干扰；3）论文提出了一个利用CosyVoice2的共享离散表征同时生成语音和面部动画的统一管道（AVTTS）的概念验证，展示了离散表征在多模态生成中的潜力。

🔗 开源详情

代码：
- 论文中复现 FaceDiffuser 基线的代码仓库链接为：https://github.com/uuembodiedsocialai/FaceDiffuser。
- 论文中展示的音频-视觉文本转语音（AVTTS）概念演示的页面链接为：https://github.com/ProdCor/Token-to-Face。
模型权重：论文中未提及模型权重下载链接。
数据集：
- 使用数据集：BEAT2。
- 论文中未提及该数据集的具体获取链接或开源协议。仅描述其包含约27小时英语语音及对应的FLAME面部参数数据。
Demo：论文中提到的AVTTS概念演示页面为：https://github.com/ProdCor/Token-to-Face。
复现材料：论文中提及了训练细节（如损失函数、优化器、解码器架构等），但未提供具体的训练配置文件或检查点下载链接。
论文中引用的开源项目：
- FaceDiffuser: https://github.com/uuembodiedsocialai/FaceDiffuser
- wav2vec 2.0: 论文引用了模型（[baevski2020wav2vec]），但未提供项目主页链接。
- HuBERT: 论文引用了模型（[hsu2021hubert]），但未提供项目主页链接。
- Whisper: 论文引用了模型（[radford2023whisper]），但未提供项目主页链接。
- WavTokenizer: 论文引用了模型（[ji2024wavtokenizer]），但未提供项目主页链接。
- SpeechTokenizer: 论文引用了模型（[zhang2024speechtokenizer]），但未提供项目主页链接。
- CosyVoice2: 论文引用了模型（[du2024cosyvoice2]），但未提供项目主页链接。
- EmoTalk: 论文引用了模型（[peng2023emotalk]），但未提供项目主页链接。
- FaceFormer: 论文引用了模型（[fan2022faceformer]），但未提供项目主页链接。
- CodeTalker: 论文引用了模型（[xing2023codetalker]），但未提供项目主页链接。
- VQTalker: 论文引用了模型（[liu2025vqtalker]），但未提供项目主页链接。
- SOLAMI: 论文引用了模型（[jiang2025solami]），但未提供项目主页链接。
- VALLE: 论文引用了模型（[wang2023valle]），但未提供项目主页链接。
- ARKit blendshapes转换矩阵: 论文提及由BEAT2数据集作者提供（[arkit2017]），但未提供独立项目链接。

🏗️ 方法概述和架构

本论文采用一个比较实验框架，系统研究不同离散语音表征对3D面部动画生成的影响。整体流程分为特征提取、面部解码和探测分析三个主要阶段。

语音表征提取（编码器）：使用了四种预训练且冻结的语音编码器，分别代表不同类型的离散表征：
- 语义表征 (HuBERT, HB)：通过掩码预测离散聚类单元进行自监督学习，其表征侧重于编码上下文化的音素等语义信息。
- 语义+声学表征 (SpeechTokenizer, ST)：采用多码本残差向量量化（RVQ）。其第一层通过蒸馏HuBERT的表示来编码语义信息，后续层则通过重建任务来捕捉声学细节，形成混合表征。
- 声学表征 (WavTokenizer, WT)：使用单一码本进行极端压缩，旨在通过矢量量化重建原始语音波形，其表征主要优化声学保真度，对语义信息的编码较少。
- 基于标签的表征 (CosyVoice2, CV2)：在一个包含字符和韵律事件的ASR任务框架下训练，其编码器生成离散token，主要编码离散的语音事件标签。
面部动画解码（解码器）：每个语音编码器与以下两种面部解码器之一组合，将语音表征映射为51维ARKit混合形状序列：
- GRU解码器：一个门控循环单元网络。作为基线（Base）的[HB+GRU]配置复现了FaceDiffuser架构，训练时作为扩散过程中的去噪网络，使用L1损失进行直接数据预测。
- Transformer解码器 (T.)：一个非因果Transformer解码器，利用自注意力机制处理完整序列。它使用交叉注意力，并采用L1损失结合一阶（速度）和二阶（加速度）运动平滑损失进行训练，以鼓励时间连贯性。所有encoder-decoder组合的训练均在BEAT2数据集上进行，其中语音编码器保持冻结，面部解码器从头开始训练。
评估与探测分析：
- 客观评估：使用唇部顶点误差（LVE）、抖动分数（Jitter）和论文提出的双唇闭合分数（BCS）来衡量生成动画的准确性、时间平滑度和发音精度。
- 感知评估：在Prolific平台招募参与者，采用MUSHRA-like协议，对[HB+GRU] (Base)、[HB+T.] (SOTA variant)和[CV2+T.] (Ours variant)三种代表性模型进行成对质量评分。
- 探测分析：为了深入理解编码器的表征内容，进行了两方面探测：
  - 离散探测：计算每个编码器离散token与音素（𝒫）或视觉音素（viseme，𝒱，通过k-means聚类混合形状得到）之间的条件归一化熵 \(\hat{H}(\mathcal{X}|t)\)。熵值越低，表明token与特定音素/viseme的映射越确定。
  - 连续探测：使用岭回归模型，以token的one-hot序列为输入，预测连续的混合形状值，并报告中位\(R^2\)值，以衡量表征中线性可解码的连续面部运动信息量。

💡 核心创新点

系统性的表征比较框架：首次在一个统一的实验设置下，对四种涵盖从语义到声学、从连续到离散的语音表征类型，进行了面向3D面部动画任务的全面比较。
关键的探测分析：通过熵和回归探测，量化分析了不同离散表征与音素、视觉音素及连续面部动作的关联程度，为“何种信息对动画任务重要”提供了实证依据，揭示了音素信息编码的必要性及其局限性。
AVTTS概念验证：提出并初步验证了一个利用共享离散语音token同时生成语音和同步面部动画的统一管道，展示了离散表征在构建端到端多模态语音生成系统中的潜力。

📊 实验结果

所有8种encoder-decoder组合在BEAT2测试集（约265个刺激，约4小时）上的客观指标和探测分析结果如表1所示。

表1：客观动画指标与语音表征探测分析结果 | 语音表征类型 | 面部解码器 | 变体 | LVE ↓ | Jitter ↓ | BCS (%) ↑ | \(\hat{H}(\mathcal{P}|t)\) (%) ↓ | \(\hat{H}(\mathcal{V}|t)\) (%) ↓ | \(R^2\) ↑ | | :— | :— | :— | :— | :— | :— | :— | :— | :— | | 语义 (HuBERT) | GRU | Base | 0.26 ◆ | 80.3 ∙ | 57.5 | 44.4 | 91.5 | 0.25 | | | Trans. | SOTA | 0.26 ◆ | 45.5 ∙ | 27.6 | | | | | 语义+声学 (SpeechTokenizer) | GRU | SOTA | 0.53 ∙ | 74.4 ⯀ | 3.4 | 39.6 | 90.4 | 0.04 | | | Trans. | SOTA | 0.34 ∙ | 35.2 ∙ | 2.3 | | | | | 声学 (WavTokenizer) | GRU | Ours | 0.84 ∙ | 93.3 ∙ | 0.4 | 73.2 | 91.4 | 0.08 | | | Trans. | Ours | 0.33 ∙ | 43.6 ∙ | 6.2 | | | | | 基于标签 (CosyVoice2) | GRU | Ours | 0.46 ∙ | 76.5 ⯀ | 3.9 | 57.7 | 84.3 | 0.10 | | | Trans. | Ours | 0.28 ∙ | 50.3 ∙ | 47.0 | | | |

注：◆ 和 ∙ 表示统计不显著的配对（p<0.05）。粗体为最佳，下划线为次佳。

动画性能：在LVE上，HuBERT模型表现最佳，[CV2+T.]紧随其后。在Jitter上，所有使用Transformer解码器的模型均优于GRU模型。在关键的BCS指标上，[HB+GRU]（Base）得分最高（57.5%），[CV2+T.]（Ours）与之接近（47.0%），而其他模型得分极低（<7%）。
感知评估：如图3所示，感知评分排序为：参考视频 » [HB+GRU] ≈ [CV2+T.] > [HB+T.]。值得注意的是，感知质量的排序与BCS指标高度相关，而非LVE，表明唇部闭合精度对主观质量至关重要。
探测分析：在音素熵 \(\hat{H}(\mathcal{P}|t)\) 上，SpeechTokenizer（语义+声学）最低（39.6%），表明其音素编码最精确，其次是HuBERT（44.4%）。在viseme熵 \(\hat{H}(\mathcal{V}|t)\) 和连续预测 \(R^2\) 上，所有模型的得分都较差，其中CosyVoice2（标签）在viseme熵上相对较好（84.3%），而HuBERT在\(R^2\)上最高（0.25），但仍很低。声学表征（WavTokenizer）在所有探测指标上均表现最差。

🔬 细节详述

数据集处理：BEAT2数据集包含约27小时英语语音和对应的FLAME参数。论文将FLAME参数转换为51维ARKit混合形状，转换矩阵由数据集作者提供。训练集、验证集、测试集的划分未在提供的文本中详细说明，但提到测试集包含265个刺激。
训练细节：面部解码器从头训练，语音编码器冻结。GRU解码器训练基于L1损失的扩散去噪目标。Transformer解码器训练结合了L1损失、一阶运动平滑损失（速度）和二阶运动平滑损失（加速度）。优化器和超参数未在提供的文本中详述。
统计检验：论文使用线性回归模型（R语言lme函数）调查编码器和解码器对LVE和Jitter的影响，并使用emmeans包进行事后成对比较，显著性水平设为p<0.05。感知评估使用beta回归模型（glmmTMB）进行分析。
AVTTS管道：该概念验证直接复用了为CosyVoice2编码器训练的Transformer面部解码器。CosyVoice2的文本到语音流程生成离散token，这些token被同时输入其原有的语音解码器和面部解码器，从而实现语音与动画的同步生成。
代码与可复现性：论文提供了代码仓库链接（https://github.com/ProdCor/Token-to-Face），用于复现AVTTS概念演示。此外，明确指出了复现[HB+GRU]（FaceDiffuser）基线代码的来源（https://github.com/uuembodiedsocialai/FaceDiffuser）。然而，预训练模型权重和BEAT2数据集的具体获取方式未在文中提供链接。

⚖️ 评分理由

创新性 (1.5/2)：问题定义清晰，即探索不同离散语音表征对动画任务的适用性。创新点在于系统性的比较框架、针对离散表征的探测分析，以及AVTTS的概念提出。然而，核心发现（语义和标签表征有效）具有一定直觉性，且未提出全新的网络架构或训练范式。
技术严谨性 (1.4/1.5)：实验设计全面，覆盖了多种表征和解码器组合。使用了客观指标、感知评估和统计检验，方法可靠。探测分析��法（归一化熵、岭回归）合理，但线性模型可能无法捕捉更复杂的非线性映射，且将连续混合形状离散化为32个viseme可能损失信息。
实验充分性 (1.5/2)：在BEAT2数据集上进行了充分的实验，报告了全面的结果（表1）。感知评估虽然最终样本量（30人）不大，但采用了可靠的筛选标准。不足在于：1）未报告训练/验证集划分和训练收敛细节；2）未与更多最新的面部动画SOTA模型（如基于扩散的）进行直接对比。
清晰度 (1.2/1.5)：论文结构清晰，图表（Fig.1, 2, 3）有助于理解。方法描述较为详细。然而，部分细节（如具体训练超参数、V_{SOTA}和V_{OURS}变体的精确引用）在提供的文本中不完整，可能影响完全复现。
影响力 (0.8/2)：对语音合成和计算机视觉（面部动画）交叉领域的研究人员有参考价值，系统性地评估了不同表征。AVTTS概念具有启发性。但对于更广泛的语音或音频领域读者，其直接应用和影响有限，主要贡献集中在一个特定的跨模态任务上。
开源 (1.0/1.5)：提供了核心代码仓库（AVTTS演示和基线复现），这极大增强了工作的透明度和可复现性。但缺少预训练模型权重和数据集的直接获取链接，一定程度上限制了“开箱即用”的可复现性。
可复现性 (1.0/1.5)：有代码仓库是巨大优势。但依赖外部预训练模型（HuBERT, CosyVoice2等）和特定数据集（BEAT2），若这些资源版本或获取方式不明确，仍会存在复现障碍。训练配置的细节披露不完全。
工程/实践价值 (1.2/1.5)：系统比较为实践中选择语音表征提供了有价值的实证参考（优先选择语义或标签表征）。AVTTS管道展示了减少级联系统复杂度的潜力，为构建统一的多模态语音生成系统提供了思路。

🚨 局限与问题

数据集局限性：BEAT2数据集规模（~27小时）相对有限，且仅包含英语和特定情感表达，结论的泛化性（如对其他语言、说话人、非脚本场景）有待验证。
解码器架构落后：面部解码器（GRU和基础Transformer）并非当前最先进。未与近年来基于扩散（如FaceDiffuser本身就是扩散模型，但此处仅用其GRU部分）或更先进的时序模型进行比较，难以判断所发现的表征优劣在更强解码器下是否依然成立。
感知评估局限性：最终感知评估样本量（30人）较小，且仅比较了三个代表性模型，未覆盖所有8种组合，可能遗漏一些重要对比。
AVTTS概念验证不足：AVTTS仅作为概念展示，缺乏定量评估（如与两阶段管道在同步质量、动画质量上的对比），也未探讨如何优化联合训练。
探测分析的深度有限：归一化熵和线性回归是相对简单的分析工具。论文断言“音素信息是必要条件”可能过于绝对，因为探测的是静态关联而非因果关系，且未充分探索非线性映射能力。
结论的强度：“音素信息是必要条件”和“无结构声学信息有害”的结论基于观察和有限的探测，更深入的机制（如Transformer如何整合这些信息）未被揭示。
部分细节未公开：如训练超参数、数据集划分、线性回归模型的具体设置等，在提供的文本中未详述，影响工作的完全透明度和复现。

← 返回 2026-06-12 语音/音乐/音频论文速递

📄 From Tokens to Faces: Investigating Discrete Speech Representations for 3D Facial Animation#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

🔬 细节详述#

⚖️ 评分理由#

🚨 局限与问题#

📎 相关论文