📄 FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions #语音合成
🔥 8.5/10 | 前25% | #语音合成 | #强化学习
学术质量 6.8/7 | 选题价值 1.7/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构 第一作者:Dekun Chen(香港中文大学,深圳) 通讯作者:未明确说明(论文末尾提供了Dekun Chen和Zhizheng Wu的邮箱,但未标注“通讯作者”字样) 作者列表:Dekun Chen(香港中文大学,深圳)、Xueyao Zhang(香港中文大学,深圳)、Yuancheng Wang(香港中文大学,深圳)、Kenan Dai(华为技术有限公司)、Li Ma(华为技术有限公司)、Zhizheng Wu(香港中文大学,深圳;深圳环域研究院;澳门城市大学;Amphion Technology Co., Ltd.) 💡 毒舌点评 这篇论文最亮眼的是其“渐进式后训练”框架,像一个精心设计的课程表,一步步教会模型在指令、音色和内容三者间保持清醒,实验也证明其解耦能力确实碾压同类基线。但短板在于,对非情感类精细风格(如口音、个性)的验证主要依赖外部基准测试,自身构造的验证集场景相对单一,且核心的复杂指令奖励模型依赖于一个未经深入验证的外部大模型(Kimi-Audio),这使得整个训练管线的“闭源可控性”打了折扣。
🔗 开源详情 代码:论文中未提及具体代码链接,但表示会发布所有训练和推理代码。 模型权重:论文中未提及已公开的模型权重链接,但表示会发布模型检查点。 数据集:论文表示会发布FlexiVoice-Instruct数据集。 Demo:提供了在线演示网站 https://flexi-voice.github.io/。 复现材料:附录(A.1-A.11)提供了极其详尽的复现细节,包括模型结构、数据处理流程、训练策略、超参数设置、硬件配置和评估协议。 论文中引用的开源项目:DualCodec (Li et al., 2025), Phi-3.5-mini-instruct (Abdin et al., 2024), Flow Matching (Lipman et al., 2023), Vocos (Siuzdak, 2023), Emotion2vec-Large (Ma et al., 2024), CAM++ (Wang et al., 2023), Kimi-Audio-7B-Instruct (Ding et al., 2025), Deepseek-V3 (Liu et al., 2024a), Emilia (He et al., 2024), ParaSpeechCaps (Diwan et al., 2025), NVSpeech (Liao et al., 2025)。 总结:论文中详细阐述了开源计划,并提供了大量可复现的技术细节,但截至目前,公开发布的主要是演示页面。 📌 核心摘要 本文旨在解决零样本语音合成(TTS)中同时遵循自然语言风格指令和保持音色一致性的“风格-音色-内容冲突”问题。核心方法是提出FlexiVoice系统及其创新的“渐进式后训练”框架。该框架通过三个阶段逐步增强模型能力:1)多模态DPO建立对指令和参考语音的基本对齐;2)解耦GRPO通过构建冲突场景(如快乐指令对悲伤参考)来强制模型分离风格与音色/内容;3)指令GRPO使用音频语言模型奖励来提升对复杂、开放式指令的遵循能力。此外,论文构建了大规模指令-语音数据集FlexiVoice-Instruct。实验结果表明,在多模态控制解耦评估(英文与中文)的多个困难设置中,FlexiVoice在指令遵循准确率(ACC-I)上大幅领先基线(例如,在英文TR-hard任务上达到78.2% vs. VoxInstruct的49.7%),同时保持了高说话人验证准确率(SV)。在复杂指令跟随基准InstructTTSEval上,FlexiVoice平均准确率达79.3%(英文)和70.8%(中文),显著超越所有开源基线,并接近商业闭源系统。该工作的实际意义在于提供了一个能灵活、精准控制语音风格的零样本TTS框架。主要局限性在于其风格控制能力的验证仍以情感和预定义指令集为主,对极其抽象或文化特定指令的泛化能力有待进一步证明,且核心训练依赖外部大模型作为奖励模型,成本较高。
...