FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations
📄 FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations #语音合成 #语音编码 ✅ 6.5/10 | 前50% | #语音合成 | #生成对抗网络 | #语音编码 | arxiv 学术质量 7.0/7 | 影响力 6.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 作者:Yoonhyung Lee, Hyunsin Park, Jinhwan Park, Jinkyu Lee 机构:Qualcomm AI Research (Qualcomm Technologies, Inc. 的一个倡议) 💡 毒舌点评 这篇工作瞄准了一个实际且重要的问题:如何从两个不同的参考音频中,独立控制零样本TTS的音色和风格。论文提出了一个相对清晰的框架(FC-TTS),并系统地设计了三个创新组件(两阶段生成、VQ-VAE风格编码、条件一致性损失)来解决这个问题,这体现了作者的思考深度。实验也较为全面,不仅在标准基准上评估,还在RAVDESS上专门设计了实验来验证解耦控制能力。然而,论文的“天花板”受限于它所依赖的FACodec解耦质量,这是所有基于解耦表示的TTS系统的共同软肋。更关键的是,论文在零样本TTS核心指标上并未展现出明确超越SOTA(如F5-TTS)的优势(UTMOS 4.22 vs 4.03,但SPK 0.60 vs 0.67),其提出的“独立控制”能力虽然新颖,但实验设计(特别是与VC系统和单参考F5-TTS的对比)在方法论上存在瑕疵,结论的说服力打了折扣。此外,代码和模型权重均未开源,对于一篇依赖外部预训练模型(FACodec)的工作来说,可复现性大打折扣。总体而言,这是一篇动机明确、方法设计有想法的工作,但在关键性能上缺乏突破,且受限于外部组件,整体贡献度中等。 📌 核心摘要 本文针对零样本TTS中从两个不同参考独立控制说话风格(韵律)和音色的挑战,提出了FC-TTS框架。该框架基于FACodec提供的解耦语音表示,通过三个关键设计增强独立控制的可靠性:1) 一个两阶段的谱图生成管道,首先生成锚定音色的模糊谱图,再通过条件流匹配解码器利用风格信息进行细化,以增强对未见过的音色-风格组合的鲁棒性;2) 一个基于VQ-VAE的层次化风格编码器(TCF模块),在音素和帧级别捕获细粒度且句内变化的风格信息;3) 一个条件一致性损失,将正则化扩展至多条件设置,通过预测器间的交叉条件输入来增强生成谱图在音色和风格上的一致性。实验表明,FC-TTS在LibriSpeech上与SOTA模型性能有竞争力,并在RAVDESS上展示了优于基线系统的独立音色和风格控制能力。 🔗 开源详情 代码:论文中未提及FC-TTS自身的代码链接。 模型权重:论文中未提及。 数据集: LibriHeavy:大规模英文语音数据集,遵循 Apache-2.0 许可证。获取链接:https://github.com/k2-fsa/libriheavy LibriSpeech:英文语音识别数据集,遵循 CC-BY 4.0 许可证。论文使用其test-clean子集进行评估。 RAVDESS:情感语音数据集,遵循 CC BY-NC-SA 4.0 许可证。论文用于评估风格与音色可控性。 Demo:https://qualcomm-ai-research.github.io/fc-tts 复现材料:论文在附录中提供了详细的模型架构超参数(Table 7)、训练超参数(Table 6)、训练与推理流程细节。 论文中引用的开源项目: FACodec:https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec HiFi-GAN:https://github.com/jik876/hifi-gan (论文中提及使用) Gemini 2.5 Pro:https://huggingface.co/google/gemini-2.5-pro-preview (用于评估) UTMOS:https://huggingface.co/spaces/sarulab-speech/UTMOS-demo HuBERT:https://huggingface.co/facebook/hubert-large-ls960-ft UniSpeech-SAT (说话人验证):https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification 🏗️ 方法概述和架构 FC-TTS的核心是利用预训练的FACodec解耦表示,在零样本TTS任务中实现音色和风格的独立控制。其架构如图1所示,主要包含以下组件和流程: ...