📄 FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions

#语音合成

🔥 8.5/10 | 前25% | #语音合成 | #强化学习

学术质量 6.8/7 | 选题价值 1.7/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Dekun Chen（香港中文大学，深圳）
通讯作者：未明确说明（论文末尾提供了Dekun Chen和Zhizheng Wu的邮箱，但未标注“通讯作者”字样）
作者列表：Dekun Chen（香港中文大学，深圳）、Xueyao Zhang（香港中文大学，深圳）、Yuancheng Wang（香港中文大学，深圳）、Kenan Dai（华为技术有限公司）、Li Ma（华为技术有限公司）、Zhizheng Wu（香港中文大学，深圳；深圳环域研究院；澳门城市大学；Amphion Technology Co., Ltd.）

💡 毒舌点评

这篇论文最亮眼的是其“渐进式后训练”框架，像一个精心设计的课程表，一步步教会模型在指令、音色和内容三者间保持清醒，实验也证明其解耦能力确实碾压同类基线。但短板在于，对非情感类精细风格（如口音、个性）的验证主要依赖外部基准测试，自身构造的验证集场景相对单一，且核心的复杂指令奖励模型依赖于一个未经深入验证的外部大模型（Kimi-Audio），这使得整个训练管线的“闭源可控性”打了折扣。

🔗 开源详情

代码：论文中未提及具体代码链接，但表示会发布所有训练和推理代码。
模型权重：论文中未提及已公开的模型权重链接，但表示会发布模型检查点。
数据集：论文表示会发布FlexiVoice-Instruct数据集。
Demo：提供了在线演示网站 https://flexi-voice.github.io/。
复现材料：附录（A.1-A.11）提供了极其详尽的复现细节，包括模型结构、数据处理流程、训练策略、超参数设置、硬件配置和评估协议。
论文中引用的开源项目：DualCodec (Li et al., 2025), Phi-3.5-mini-instruct (Abdin et al., 2024), Flow Matching (Lipman et al., 2023), Vocos (Siuzdak, 2023), Emotion2vec-Large (Ma et al., 2024), CAM++ (Wang et al., 2023), Kimi-Audio-7B-Instruct (Ding et al., 2025), Deepseek-V3 (Liu et al., 2024a), Emilia (He et al., 2024), ParaSpeechCaps (Diwan et al., 2025), NVSpeech (Liao et al., 2025)。
总结：论文中详细阐述了开源计划，并提供了大量可复现的技术细节，但截至目前，公开发布的主要是演示页面。

📌 核心摘要

本文旨在解决零样本语音合成（TTS）中同时遵循自然语言风格指令和保持音色一致性的“风格-音色-内容冲突”问题。核心方法是提出FlexiVoice系统及其创新的“渐进式后训练”框架。该框架通过三个阶段逐步增强模型能力：1）多模态DPO建立对指令和参考语音的基本对齐；2）解耦GRPO通过构建冲突场景（如快乐指令对悲伤参考）来强制模型分离风格与音色/内容；3）指令GRPO使用音频语言模型奖励来提升对复杂、开放式指令的遵循能力。此外，论文构建了大规模指令-语音数据集FlexiVoice-Instruct。实验结果表明，在多模态控制解耦评估（英文与中文）的多个困难设置中，FlexiVoice在指令遵循准确率（ACC-I）上大幅领先基线（例如，在英文TR-hard任务上达到78.2% vs. VoxInstruct的49.7%），同时保持了高说话人验证准确率（SV）。在复杂指令跟随基准InstructTTSEval上，FlexiVoice平均准确率达79.3%（英文）和70.8%（中文），显著超越所有开源基线，并接近商业闭源系统。该工作的实际意义在于提供了一个能灵活、精准控制语音风格的零样本TTS框架。主要局限性在于其风格控制能力的验证仍以情感和预定义指令集为主，对极其抽象或文化特定指令的泛化能力有待进一步证明，且核心训练依赖外部大模型作为奖励模型，成本较高。

🏗️ 模型架构

FlexiVoice的架构基于一个预训练的大语言模型（LLM）核心。整体输入包括三部分：文本、可选的自然语言指令（用于指定风格）和可选的参考语音（用于提供音色）。输出是生成的语音。

完整流程：

输入处理：文本和指令被格式化为LLM的输入模板。参考语音通过一个冻结的语音分词器（DualCodec）被转换为离散的语义码元序列。这些码元序列被拼接到格式化后的文本和指令之前，共同作为LLM的输入。
LLM核心生成：LLM（具体为Phi-3.5-mini-instruct）基于输入序列，自回归地生成离散的语音码元序列。
声码器合成：生成的语音码元序列经过一个基于流匹配（Flow Matching）的模块，转换为梅尔频谱图。此模块在预训练阶段使用参考语音码元作为条件。最后，梅尔频谱图通过Vocos声码器转换为最终的波形音频。

关键设计选择：

LLM作为核心：利用LLM强大的序列建模和指令理解能力来处理多模态输入（文本、指令、离散语音码）。
离散化表示：使用DualCodec将语音离散化，使得LLM能够直接处理语音信息，实现了文本、指令和语音的统一处理框架。
流匹配解码：采用流匹配而非自回归方式生成连续的梅尔频谱图，以在保持高质量的同时提升解码效率。

FlexiVoice的整体架构图3：FlexiVoice的完整结构。图中清晰展示了文本、指令和参考语音如何经过处理后输入到LLM，以及LLM输出如何通过流匹配和声码器最终生成语音。这个架构图直观地体现了其多模态输入、统一LLM处理和高质量解码的核心设计理念。

💡 核心创新点

渐进式后训练框架：这是本文最核心的创新。不同于一次性训练，PPT设计了一个分阶段的课程学习路径，系统性地解决多模态TTS中的解耦难题。它首先用DPO建立基础对齐，再用多目标GRPO在冲突场景下强制解耦，最后用ALM奖励提升复杂指令泛化能力。这种从易到难、逐步解锁能力的策略，比简单的端到端训练或混合训练更稳定有效，消融实验（表5）证明了其顺序的关键性和累积增益。
FlexiVoice-Instruct数据集：为解决缺乏高质量、自然指令-语音对的问题，论文构建了包含4316小时语音的大规模数据集。其创新之处在于利用LLM（Deepseek-V3）基于语音转录和元数据（如视频标题、游戏内角色名）自动生成自然、人类风格的指令描述，并通过“信息价值”评估进行质量过滤。这极大地丰富了训练数据的多样性与自然度。
多目标优化解决解耦冲突：在PPT的S2阶段，论文明确地将“风格一致性”和“音色一致性”形式化为两个可能冲突的奖励信号（rser和rsv），并通过归一化优势函数（Aiemo）进行联合优化。这种方法迫使模型在满足风格指令的同时，必须抑制来自参考语音和文本内容的风格泄漏，从而实现真正的解耦，而不仅仅是条件注入。

🔬 细节详述

训练数据：
- 预训练：使用Emilia（大规模、多语言）、FlexiVoice-Instruct（4316小时）、ParaSpeechCaps（2847小时）、NVSpeech（775小时）以及多个情感、年龄、口音等数据集（详见表6）。
- 后训练S1 (DPO)：主要使用情感语音数据集ESD（Zhou et al., 2021），构建“指令-中性参考-优胜/劣败语音”三元组。
- 后训练S2 (GRPO)：数据来源于NCSSD（约3万条对话），通过随机分配情感标签和参考语音（90%中性，10%情感）构造冲突场景。
- 后训练S3 (GRPO)：每种语言14000条指令-文本对，由1000条已有数据和13000条由Deepseek-V3生成的复杂指令构成。
损失函数：
- S1：DPO损失，L_DPO，直接优化策略模型与参考模型的偏好概率比。
- S2 & S3：GRPO损失，使用组内相对优势（Advantage）作为优化目标。S2的优势是归一化的SER奖励和说话人验证奖励之和；S3的优势是归一化的LLM奖励。最终损失是S2和S3数据的加权和。
训练策略：
- 预训练：仅训练LLM核心，冻结语音分词器和流匹配模块。对于无指令数据，使用默认指令“Speak the following text”。
- PPT流程：
  - S1：训练3 epochs，学习率1e-5，β=0.1。
  - S2：训练2 epochs，学习率1e-5，β=0.1，采样组大小G=8。
  - S3：训练2 epochs，采样组大小G=6，同时混入少量S2数据以防遗忘。
关键超参数：LLM基础为Phi-3.5-mini-instruct（~3.8B参数）。语音分词器使用DualCodec，码本大小16384。
训练硬件：8× NVIDIA A800 (80GB) GPUs。
训练时长：后训练总时长约3.5天（S1~~2小时，S2~~36小时，S3~42小时）。
推理细节：LLM采用自回归解码。流匹配模块和声码器（Vocos）为固定模块。

📊 实验结果

论文在两个主要评估集上进行了实验：多模态控制解耦评估集（基于MEAD/CSEMOTIONS）和复杂指令跟随基准InstructTTSEval。

表2：多模态控制与解耦评估结果（关键指标）

模型	任务类型	任务难度	ACC-I (EN)	ACC-I (ZH)	SV (EN)	SV (ZH)
FlexiVoice	Text-Only (TO)	Easy	97.4	99.8	-	-
FlexiVoice	Text-Only (TO)	Hard	89.4	98.4	-	-
FlexiVoice	Text+Reference (TR)	Easy	89.4	81.8	91.0	98.8
FlexiVoice	Text+Reference (TR)	Hard	78.2	75.8	95.8	98.4
VoxInstruct	TO	Easy	70.6	48.6	-	-
VoxInstruct	TR	Hard	49.7	18.7	90.6	59.8
FlexiVoice-Base	TR	Hard	32.2	22.4	99.4	99.2

关键结论：FlexiVoice在指令遵循准确率（ACC-I）上全面超越基线，尤其在困难场景（文本或参考语音与指令情感冲突时）优势巨大。同时，在TR任务中保持了较高的说话人验证准确率（SV），证明了其有效的解耦能力。论文还指出，SV分数较Base模型略有下降是为遵循风格指令而调整声学特征所致，属合理权衡。

表4：复杂指令跟随评估结果（InstructTTSEval）

模型	EN-APS	EN-DSD	EN-RP	EN-Avg.	ZH-Avg.
FlexiVoice	81.2	85.2	71.4	79.3	70.8
Gemini-pro (闭源)	87.6	86.0	67.2	80.3	84.8
MiMo-Audio-7B-Instruct	80.6	77.6	59.5	72.6	70.5
VoxInstruct	54.9	57.0	39.3	50.4	47.5

关键结论：FlexiVoice在复杂指令跟随方面大幅领先所有开源基线，并接近部分闭源商业系统（如Gemini-pro）的水平，展示了强大的泛化控制能力。

表5：消融实验（PPT有效性验证）

训练策略	Decoupling Avg. (EN)	InstructTTSEval Avg. (EN)
FlexiVoice-Base	54.9	66.4
+ S3 (仅复杂指令)	54.7	72.3
+ S3 -> S1	82.3	74.3
+ S1 -> S2 + S3 (联合训练)	84.1	75.5
+ S1 -> S2 -> S3 (PPT)	88.7	79.3

关键结论：消融实验清晰证明了渐进式训练顺序（P1→S2→S3）的必要性。直接进行复杂指令训练或联合训练均无法达到最优性能，验证了PPT框架设计的合理性。

表3（部分）与主观评价：FlexiVoice在语音质量MOS（Q-MOS）和对比MOS（CMOS）上表现优异，尤其在情感表达丰富的任务上CMOS为正，表明其生成的语音在自然度和指令遵循度上更受人类评审偏好。尽管WER/CER因情感语音的韵律变化略有上升，但论文指出这不代表人类可懂度下降。

⚖️ 评分理由

学术质量：6.8/7。创新性高，PPT框架设计巧妙且有效，针对性地解决了多模态TTS中的核心难题。技术细节正确、完整，实验设计全面，包含多语言、多难度、主观客观评估，并进行了详尽的消融研究。证据可信度强，结果显著。
选题价值：1.7/2。零样本、指令可控语音合成是当前语音生成领域的前沿热点，具有广泛的应用前景（如内容创作、辅助工具）。FlexiVoice为解决该场景下的关键控制冲突提供了有效方案，对学术界和工业界均有价值。
开源与复现加成：0.5/1。论文承诺开源数据集和代码，提供了极其详细的附录（包括模型架构、数据处理、超参数、训练硬件等），复现信息非常充分。但基于“承诺”而非“已发布”，且核心依赖的奖励模型（Kimi-Audio）本身需被访问或部署，故给予部分加成。

← 返回 ICLR 2026 论文分析

📄 FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文