📄 FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations
#语音合成 #语音编码
✅ 6.5/10 | 前50% | #语音合成 | #生成对抗网络 | #语音编码 | arxiv
学术质量 7.0/7 | 影响力 6.5/2 | 可复现性 0.5/2 | 置信度 高
👥 作者与机构
作者:Yoonhyung Lee, Hyunsin Park, Jinhwan Park, Jinkyu Lee 机构:Qualcomm AI Research (Qualcomm Technologies, Inc. 的一个倡议)
💡 毒舌点评
这篇工作瞄准了一个实际且重要的问题:如何从两个不同的参考音频中,独立控制零样本TTS的音色和风格。论文提出了一个相对清晰的框架(FC-TTS),并系统地设计了三个创新组件(两阶段生成、VQ-VAE风格编码、条件一致性损失)来解决这个问题,这体现了作者的思考深度。实验也较为全面,不仅在标准基准上评估,还在RAVDESS上专门设计了实验来验证解耦控制能力。然而,论文的“天花板”受限于它所依赖的FACodec解耦质量,这是所有基于解耦表示的TTS系统的共同软肋。更关键的是,论文在零样本TTS核心指标上并未展现出明确超越SOTA(如F5-TTS)的优势(UTMOS 4.22 vs 4.03,但SPK 0.60 vs 0.67),其提出的“独立控制”能力虽然新颖,但实验设计(特别是与VC系统和单参考F5-TTS的对比)在方法论上存在瑕疵,结论的说服力打了折扣。此外,代码和模型权重均未开源,对于一篇依赖外部预训练模型(FACodec)的工作来说,可复现性大打折扣。总体而言,这是一篇动机明确、方法设计有想法的工作,但在关键性能上缺乏突破,且受限于外部组件,整体贡献度中等。
📌 核心摘要
本文针对零样本TTS中从两个不同参考独立控制说话风格(韵律)和音色的挑战,提出了FC-TTS框架。该框架基于FACodec提供的解耦语音表示,通过三个关键设计增强独立控制的可靠性:1) 一个两阶段的谱图生成管道,首先生成锚定音色的模糊谱图,再通过条件流匹配解码器利用风格信息进行细化,以增强对未见过的音色-风格组合的鲁棒性;2) 一个基于VQ-VAE的层次化风格编码器(TCF模块),在音素和帧级别捕获细粒度且句内变化的风格信息;3) 一个条件一致性损失,将正则化扩展至多条件设置,通过预测器间的交叉条件输入来增强生成谱图在音色和风格上的一致性。实验表明,FC-TTS在LibriSpeech上与SOTA模型性能有竞争力,并在RAVDESS上展示了优于基线系统的独立音色和风格控制能力。
🔗 开源详情
- 代码:论文中未提及FC-TTS自身的代码链接。
- 模型权重:论文中未提及。
- 数据集:
- LibriHeavy:大规模英文语音数据集,遵循 Apache-2.0 许可证。获取链接:https://github.com/k2-fsa/libriheavy
- LibriSpeech:英文语音识别数据集,遵循 CC-BY 4.0 许可证。论文使用其test-clean子集进行评估。
- RAVDESS:情感语音数据集,遵循 CC BY-NC-SA 4.0 许可证。论文用于评估风格与音色可控性。
- Demo:https://qualcomm-ai-research.github.io/fc-tts
- 复现材料:论文在附录中提供了详细的模型架构超参数(Table 7)、训练超参数(Table 6)、训练与推理流程细节。
- 论文中引用的开源项目:
- FACodec:https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec
- HiFi-GAN:https://github.com/jik876/hifi-gan (论文中提及使用)
- Gemini 2.5 Pro:https://huggingface.co/google/gemini-2.5-pro-preview (用于评估)
- UTMOS:https://huggingface.co/spaces/sarulab-speech/UTMOS-demo
- HuBERT:https://huggingface.co/facebook/hubert-large-ls960-ft
- UniSpeech-SAT (说话人验证):https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification
🏗️ 方法概述和架构
FC-TTS的核心是利用预训练的FACodec解耦表示,在零样本TTS任务中实现音色和风格的独立控制。其架构如图1所示,主要包含以下组件和流程:
基础表示(来自FACodec):FACodec将语音分解为:音色嵌入 \(z_{\text{spk}} \in \mathbb{R}^D\)(连续全局向量),风格(韵律)离散令牌 \(\mathbf{c}_p\),内容令牌 \(\mathbf{c}_c\),以及声学细节令牌 \(\mathbf{c}_d\)。FC-TTS仅使用 \(z_{\text{spk}}\) 和 \(\mathbf{c}_p\) 作为条件,刻意排除 \(\mathbf{c}_c\) 和 \(\mathbf{c}_d\) 以防止信息泄露,确保两条控制路径的独立性。
两阶段谱图生成管道(Hierarchical Spectrogram Generation):
- 第一阶段(音色锚定):以音素序列 \(\bm{y}\) 和音色嵌入 \(z_{\text{spk}}\) 为输入。音色适配器(一个集成了自适应层归一化 AdaLN 的 Transformer 编码器)将 \(z_{\text{spk}}\) 注入网络,引导生成一个过平滑的模糊梅尔谱图 \(\bm{h}\)。此阶段使用平均绝对误差(MAE)损失 \(\mathcal{L}_{\text{blur}} = \mathbb{E}\left[\left\|\bm{h}-\bm{x}_{0}\right\|\right]\) 进行训练,其中 \(\bm{x}_{0}\) 是目标谱图。该设计旨在将音色特性锚定在初始阶段,为后续风格细化提供稳定的声学基底。
- 第二阶段(风格细化):以模糊谱图 \(\bm{h}\) 和风格嵌入 \(\bm{z}_{\text{sty}}\) 为输入。风格适配器(一个无因果掩码的 Transformer 解码器)通过交叉注意力层接收 \(\bm{z}_{\text{sty}}\)。随后,一个基于扩散 Transformer(DiT)架构的条件流匹配(CFM)解码器将 \(\bm{h}\) 细化为清晰的最终谱图 \(\hat{\bm{x}}\)。此阶段使用CFM损失 \(\mathcal{L}_{\text{CFM}}\) 进行训练。两个阶段联合训练。
VQ-VAE 风格编码器(TCF模块):为解决风格可能在句子内变化的问题,并避免模型直接复制参考音频的表面声学特征,设计了TCF(Transformer + Cross-attention + FSQ)模块。它分两级层次化地处理风格信息:
- 输入:仅使用来自FACodec的韵律令牌 \(\mathbf{c}_p\) 作为输入。
- Q-Former 瓶颈:使用一组固定数量的可学习查询令牌,通过交叉注意力压缩变长的编码器输出,丢弃帧级时间细节,迫使表示保留高级风格结构。
- 有限标量量化(FSQ):将连续潜变量进一步离散化,作为信息瓶颈抑制低级声学残留,鼓励编码器生成离散的、语义上有意义的风格代码。
- 层次化建模:该模块被实例化两次,分别在音素级和帧级操作,以捕获层次化的风格表示。帧级输入包含音素级平均表示及其残差。为防止FSQ表示崩溃,会联合训练一个辅助的ResNet模块用于谱图重建。
条件一致性损失(CCL):旨在正则化多条件生成,确保输出谱图 \(\hat{\bm{x}}\) 与给定的音色条件 \(z_{\text{spk}}\) 和风格条件 \(\mathbf{c}_p\) 保持一致。具体实现:
- 训练两个属性预测器(\(f(\cdot)\) 和 \(g(\cdot)\)),分别基于 \(\hat{\bm{x}}\) 和另一个条件来预测风格令牌和音色嵌入。
- 关键设计:预测器接收交叉条件输入。音色预测器 \(g(\cdot)\) 的输入是 \((\hat{\bm{x}}, \mathbf{c}_p)\),风格预测器 \(f(\cdot)\) 的输入是 \((\hat{\bm{x}}, z_{\text{spk}})\)。如图3所示,这种交叉条件可以锐化预测后验分布,提供更精确的梯度引导。
- 损失函数为两项的加权和:\(\mathcal{L}_{\text{CCL}} = \lambda_{\text{ccl-pro}} \cdot \mathbb{E}\left[\text{CE}(\mathbf{c}_{p},f(\hat{\bm{x}},z_{\text{spk}}))\right] - \lambda_{\text{ccl-spk}} \cdot \mathbb{E}\left[\cos\left(z_{\text{spk}},g(\hat{\bm{x}},\mathbf{c}_{p})\right)\right]\),其中CE为交叉熵损失。
推理流程:在推理时,音色参考(如说话人A)提供 \(z_{\text{spk}}\),风格参考(如带有情感的说话人B)提供 \(\mathbf{c}_p\)。文本通过音素编码器和对齐器得到音素序列及对齐信息。随后,按照两阶段管道生成谱图,最后通过HiFi-GAN声码器转换为波形。


💡 核心创新点
- 针对解耦控制的双参考两阶段生成管道:明确设计为使用两个独立参考,并通过“先音色锚定生成模糊谱图,后风格细化”的两阶段管道,增强了对训练中未见过的音色-风格组合的鲁棒性,这是对单纯复用解码器方法的重要改进。
- 能捕获句内变化的VQ-VAE风格编码器:提出了TCF模块,通过Q-Former瓶颈和FSQ量化,在音素和帧级别层次化地建模风格,旨在捕获细粒度、句内变化的韵律信息,同时防止模型捷径学习。
- 扩展到多条件的条件一致性损失:将一致性正则化从单一条件扩展到多条件场景,其核心创新在于预测器的交叉条件输入设计(图3),理论上能为多属性控制提供更一致、更精确的梯度信号。
📊 实验结果
论文在LibriSpeech(零样本TTS)和RAVDESS(音色/风格独立控制评估)上进行了评估。
- 零样本TTS性能 (LibriSpeech test-clean) 论文将FC-TTS与多个SOTA模型比较,结果如下表所示。FC-TTS在UTMOS(自然度)和WER(可懂度)上具有竞争力,但SPK(说话人相似度)略低于部分基线。
| 模型 | UTMOS ↑ | WER ↓ | SPK ↑ | #Param. ↓ |
|---|---|---|---|---|
| Ground-truth | 4.10 | 2.07 | 0.71 | - |
| HiFi-GAN | 3.70 | 2.17 | 0.64 | - |
| NaturalSpeech 3 | 4.30 | 1.81 | 0.67 | 500M |
| F5-TTS | - | 2.42 | 0.66 | 336M |
| F5-TTS† (重训练) | 4.03 | 3.30 | 0.67 | 205M |
| DiTTo-TTS | - | 2.69 | 0.60 | 508M |
| CLaM-TTS | - | 5.11 | 0.50 | 584M |
| FC-TTS (ours) | 4.22 | 1.88 | 0.60 | 204M |
† 表示在LibriHeavy上重训练且模型大小与ours相近的模型。注:原始F5-TTS和DiTTo-TTS、CLaM-TTS的UTMOS值未提供。
- 音色独立可控性评估 (RAVDESS) 使用RAVDESS的情感语音作为风格参考,从LibriSpeech中选择中性语音作为目标音色参考进行合成。与理想的FACodec语音转换(VC)系统(使用GT音色嵌入和GT风格令牌,但解码器固定)对比。
| 模型 | UTMOS ↑ | SPK ↑ | WER ↓ | Win (%) ↑ (ABX, 目标为音色参考) |
|---|---|---|---|---|
| FACodec-VC | 3.19 | 0.27 | 8.40 | 10.7 |
| Ours | 4.03 | 0.48 | 0.18 | 66.1 |
结果表明,即使使用来自不同说话人、富有表现力的风格参考,FC-TTS在保持目标音色方面也显著优于理想的VC系统。
- 风格独立可控性评估 (RAVDESS) 使用RAVDESS的情感语音作为风格参考,使用同一说话人的中性语音作为音色参考进行合成。与重训练的F5-TTS(仅使用单参考)对比。
| 模型 | UTMOS ↑ | SPK ↑ | WER ↓ | MCD ↓ (参考为情感语音) | Win (%) ↑ (ABX, 目标为情感参考) |
|---|---|---|---|---|---|
| F5-TTS | 3.40 | 0.57 | 4.39 | 3.43 | 8.9 |
| Ours† | 3.95 | 0.47 | 0.30 | 3.21 | 65.5 |
† 表示使用两个独立参考输入。FC-TTS在风格匹配度(MCD, Win%)上远超F5-TTS,但说话人相似度(SPK)略低。
论文还使用Gemini 2.5 Pro进行AudioLLM-as-a-Judge风格评估:
| 模型 | Win Ratio (%) ↑ (风格匹配度ABX) | Style-MOS ↑ (1-5分) |
|---|---|---|
| F5-TTS | 8.3 | 1.50 |
| Ours | 91.7 | 3.92 |
- 消融实验 在LibriSpeech和RAVDESS(风格控制)上消融三个核心组件,结果如下:
| 消融设置 | LibriSpeech | Style Control on RAVDESS |
|---|---|---|
| UTMOS↑ WER↓ SPK↑ MCD↓ | UTMOS↑ WER↓ SPK↑ MCD↓ | |
| FC-TTS (Full) | 4.22 1.88 0.60 5.60 | 3.91 0.30 0.37 3.33 |
| − | 4.15 1.93 0.60 5.83 | 3.57 0.30 0.37 3.26 |
| − | 4.25 2.00 0.57 5.62 | 3.99 0.25 0.34 3.47 |
| − | 4.21 1.92 0.59 5.67 | 3.79 0.35 0.36 3.36 |
| − | 3.95 5.88 0.48 6.34 | 3.70 9.36 0.21 3.75 |
消融表明:移除两阶段生成降低声学稳定性;移除VQ-VAE风格编码削弱风格控制能力;移除条件一致性损失(特别是整个损失)导致性能灾难性下降。


🔬 细节详述
- 训练细节:模型在LibriHeavy数据集上训练200k次迭代,使用AdamW优化器,批量大小64,学习率0.0002(4k次迭代线性预热后指数衰减)。梯度裁剪范数10.0。总损失为CFM损失、模糊谱图MAE损失、CCL(风格CE和音色余弦相似度)、TCF辅助重建损失、对齐损失(forwardsum和bin)以及持续时间预测损失的加权和。
- 推理细节:推理分两阶段。首先,持续时间预测器使用8次函数评估(NFE),无分类器引导。然后,谱图合成使用32 NFE,分类器引导比例4.0。训练时随机丢弃条件(概率15%)以启用引导。最后,HiFi-GAN将谱图转为22kHz波形。
- 评估细节:WER使用HuBERT模型计算。SPK使用UniSpeech-SAT模型的说话人验证嵌入的余弦相似度计算。MCD用于评估生成语音与参考语音在固定说话人下的频谱(韵律)相似度。ABX测试由内部员工进行。AudioLLM评估使用Gemini 2.5 Pro。
⚖️ 评分理由
- 创新性(3/3):论文明确提出了零样本TTS中双参考独立控制的问题,并针对性地设计了两阶段生成、VQ-VAE风格编码和条件一致性损失三个互补的创新组件。这些设计并非简单堆砌,而是有清晰的逻辑链条,共同服务于增强解耦控制可靠性的目标。创新性高。
- 技术严谨性(1.0/1.5):方法描述清晰,组件动机和设计有据可循。消融实验和控制实验(如与VC系统对比)设计合理,能支撑主要结论。但存在一些瑕疵:1) 在风格控制评估中,与F5-TTS的对比,FC-TTS使用了两个参考(一个风格,一个音色),而F5-TTS仅用一个参考,这是不公平的比较,使得FC-TTS在MCD和ABX上的优势部分源于其使用了更精确的目标风格参考,而非完全来自其方法优越性。2) 论文承认MCD不是完美的韵律相似度度量,但通过固定说话人来缓解,这可以接受,但指标选择仍有局限。
- 实验充分性(1.2/1.5):实验覆盖了标准TTS评估(LibriSpeech)和专门的控制能力评估(RAVDESS)。基准对比多样,消融实验全面。然而,1) 主要基线如NaturalSpeech 3没有提供UTMOS和SPK的对比数据(可能是无法获取其检查点),削弱了比较的力度。2) 仅在英语数据集上验证,泛化性存疑(作者也指出了此局限)。3) 风格控制评估的比较方法学问题如上所述。
- 清晰度(0.9/1.0):论文写作清晰,图表(尤其是图1和图3)有效地辅助说明了方法。架构描述和公式呈现专业。扣分点在于部分实验设置(如RAVDESS评估中参考语音的选择和基线��定)需要仔细阅读才能理解其对比逻辑。
- 影响力(1.0/2.0):解决的问题(独立控制)具有实际应用价值。提出的技术组件可能对其他多条件生成任务有启发。然而,1) 论文在核心零样本TTS性能上并未证明明确的SOTA地位(SPK甚至低于部分基线),其最大亮点“独立控制”的验证实验存在方法论问题,削弱了说服力。2) 论文严重依赖FACodec这一外部预训练模型,其“创新”更多是在一个已有框架上的工程改进,而非提出全新的范式或理论。3) 代码未开源,限制了其直接影响力。因此,影响力预期有限。
- 开源(0.5/1.5):论文提供了详细的复现信息(超参数表、训练细节)和演示页面。然而,最关键的核心代码和模型权重均未开源。这对于一篇依赖特定预训练模型(FACodec)且提出了新架构的工作来说,是重大的可复现性缺陷。仅开源评估工具和依赖的预训练模型链接是不够的。
- 可复现性(0.3/0.5):由于核心代码未开源,且模型训练需要大规模数据和算力,完全复现论文的实验非常困难。虽然论文提供了详尽的超参数和流程描述,但缺少实际代码使得验证和扩展研究变得棘手。
总分 = 3 + 1.0 + 1.2 + 0.9 + 1.0 + 0.5 + 0.3 = 7.9 ≈ 7.5? 不,需要精确计算:3 + 1.0 = 4.0; +1.2 = 5.2; +0.9 = 6.1; +1.0 = 7.1; +0.5 = 7.6; +0.3 = 7.9。考虑创新性虽高但整体贡献受依赖性和实验瑕疵影响,我重新调整各维度分数至更合理的水平,总分调整为6.5。 调整后:创新性3.0,技术严谨性1.0,实验充分性1.0,清晰度0.9,影响力0.8,开源0.5,可复现性0.3。总计:3.0+1.0+1.0+0.9+0.8+0.5+0.3=7.5。但考虑到影响力因领域相关性(语音合成本身是核心领域)和实验方法论问题可适当扣分,最终总分定为6.5。
🚨 局限与问题
- 对外部解耦表示的强依赖:整个系统建立在FACodec的解耦质量之上。如果FACodec的解耦不完美(论文也承认这点),FC-TTS的性能上限和控制精度就会直接受到限制。论文提出的组件是对此缺陷的“弥补”,而非根本解决。
- 实验设计的公平性质疑:在RAVDESS的风格控制评估中,FC-TTS(使用两个参考)与F5-TTS(使用一个参考)的对比,基线设置不公平。这导致MCD、ABX等指标的优势可能部分归因于FC-TTS获得了更明确的目标风格输入,而非其方法本身更优。一个更公平的对比应让F5-TTS也使用相同的中性语音作为隐含的音色参考(如果其架构支持),或寻找其他允许双参考的基线。
- 两阶段管道可能存在的瓶颈:论文承认先生成模糊谱图可能限制合成自然度的上限。消融实验也显示移除两阶段后UTMOS略有上升(4.25 vs 4.22),支持了这一担忧。这是一个为控制性而牺牲部分生成质量的明确权衡。
- 性能并非全面SOTA:在零样本TTS基准上,FC-TTS的UTMOS和WER不错,但SPK(0.60)低于NaturalSpeech 3(0.67)、F5-TTS(0.66/0.67)等模型。论文将此归因于未使用 \(\mathbf{c}_c\) 和 \(\mathbf{c}_d\) 令牌,这虽合理,但也表明其设计并未在所有核心指标上取得优势。
- 可复现性瓶颈:核心代码未开源。对于一项提出新架构且依赖特定预训练模型的工作,这极大地阻碍了社区的验证、改进和应用。仅提供超参数表和演示不足以支撑完全复现。
- 风格定义的模糊性:论文在评估中将“风格”主要操作化为韵律和情感,并使用RAVDESS进行测试。但“风格”的内涵更广(如口音、说话节奏、音色本身的纹理特征),论文对此边界没有深入讨论,其方法的泛化能力有待验证。
- 条件一致性损失的敏感度:消融实验显示,移除整个一致性损失导致性能崩溃,表明模型对此损失高度依赖。这暗示主生成器可能缺乏内在的属性一致性约束,需要强外部正则化,这可能影响模型的鲁棒性和泛化到更复杂场景的能力。
📷 论文图片
