📄 DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance
#语音合成 #扩散模型 #可控语音 #对比学习 #多任务学习
✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #可控语音 #对比学习
学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Kang Yin(中国科学技术大学),Chunyu Qiang(快手科技) (论文标注†表示同等贡献,故两位均为第一作者)
- 通讯作者:Sirui Zhao(中国科学技术大学),Tong Xu(中国科学技术大学),Chen Zhang(快手科技) (论文标注*表示通讯作者)
- 作者列表:
- Kang Yin(中国科学技术大学)
- Chunyu Qiang(快手科技)
- Sirui Zhao(中国科学技术大学)
- Xiaopeng Wang(快手科技)
- Yuzhe Liang(快手科技)
- Pengfei Cai(中国科学技术大学)
- Tong Xu(中国科学技术大学)
- Chen Zhang(快手科技)
- Enhong Chen(中国科学技术大学)
💡 毒舌点评
本文的亮点在于将风格编码、解耦训练和引导推理整合成了一套逻辑自洽且实用的方案,Style-CLAP的多任务设计和cCFG的层级控制思路清晰有效,实验数据扎实,切实推动了可控TTS在解耦方向上的进步。然而,其创新更多是“优秀的组合”而非“从零的突破”,且说话人相似度这一关键指标不及部分基线,暴露出在追求强风格表达时维持音色一致性仍是未完全攻克的难题。
📌 核心摘要
这篇论文旨在解决可控文本转语音(TTS)系统中说话人音色与说话风格难以独立控制、容易相互纠缠的核心问题。论文提出了DMP-TTS,一个基于潜在扩散Transformer(DiT)的框架,其核心创新在于引入了三个关键技术:1)Style-CLAP:一个统一的多模态风格编码器,通过对比学习和多任务监督,将音频参考和文本描述映射到共享的风格嵌入空间;2)链式无分类器指导(cCFG):一种训练时采用层级条件丢弃、推理时允许独立调节内容、音色和风格引导强度的机制;3)表示对齐(REPA):利用预训练Whisper模型的特征来指导DiT中间层的学习,以稳定训练和加速收敛。实验基于一个约300小时的中文内部数据集,结果表明,DMP-TTS在风格控制准确性(情绪、能量、语速)上显著优于CosyVoice、CosyVoice2等开源基线,同时保持了有竞争力的自然度和清晰度。消融实验证实了多任务监督主要提升风格控制,REPA主要提升清晰度并加速收敛。该工作的实际意义在于为构建更灵活、自然的个性化语音交互系统提供了新的技术路径。其主要局限性包括:说话人相似度与部分基线仍有差距;高情感表现力会诱发音色变化,揭示了表现力与音色保真之间存在内在权衡;模型训练依赖于高质量、有标注的内部数据集。
🏗️ 模型架构
DMP-TTS是一个基于潜在扩散Transformer(DiT)的端到端TTS系统,其整体架构如图1(a)所示。
图1:DMP-TTS整体架构。(a) 显示了训练和推理的数据流。(b) 展示了统一的多模态风格编码器。
系统主要由以下几个核心组件构成,其输入输出流程与数据流如下:
输入与编码:
- 内容文本:由文本编码器(Text Encoder) 编码为内容嵌入
c_text。 - 音色参考音频:由说话人编码器(Speaker Encoder,初始化自预训练Cam++模型) 编码为音色嵌入
c_spk。 - 风格提示(音频或文本):由核心组件统一多模态风格编码器(Style-CLAP) 处理。该编码器(如图1(b)所示)包含一个音频编码器(Audio Encoder) 和一个文本编码器(Text Encoder)。训练时,两者通过对比学习和多任务监督对齐;推理时,可接收音频或��本风格描述,生成统一的风格嵌入
c_style。
- 内容文本:由文本编码器(Text Encoder) 编码为内容嵌入
核心生成器(潜在扩散Transformer - DiT):
- 输入:由Mel编码器将目标语音梅尔频谱图编码为的潜在表示
z0加噪得到的z_t,以及上述三种条件嵌入(c_text,c_spk,c_style)。训练时,z_t从噪声和目标潜在表示线性插值获得(公式1)。 - 功能:作为速度网络
v_θ,预测从噪声到目标潜在表示的流速度(公式3)。其内部由堆叠的DiT块构成。 - 辅助输入:时长预测器(Duration Predictor) 基于文本和风格嵌入预测每个音素的持续时间,通过长度调节器(Length Regulator) 将文本嵌入扩展到与梅尔频谱图时间对齐。
- 表示对齐(REPA):在训练时,从DiT的第6层中间层提取学生表征
h_DiT,从预训练Whisper编码器最后一层提取教师表征h_whisper,通过上采样、线性投影和余弦相似度损失(公式7)进行对齐,以稳定训练。
- 输入:由Mel编码器将目标语音梅尔频谱图编码为的潜在表示
解码:
- 经过扩散采样过程后,DiT输出去噪的潜在表示。
- 该表示由梅尔解码器(Mel Decoder) (实为一个预训练的BigVGAN声码器)解码为最终的语音波形。
关键设计选择与动机:
- 分离的条件通路:使用独立的编码器处理内容、音色和风格,是为从架构上奠定解耦的基础。
- Flow Matching 框架:相比传统的扩散模型,Flow Matching在连续时间流上定义,训练目标更简单(公式3),且与Transformer(DiT)结合良好。
- Style-CLAP 的设计:旨在创建一个对文本和音频都通用的风格嵌入空间,并通过多任务监督(情绪分类、能量和语速回归)确保该空间对细粒度风格属性具有判别力。
- 链式CFG (cCFG):其训练采用的层级条件丢弃策略(公式6的逆向过程)和推理时的链式引导公式,是实现属性独立控制的关键。它允许模型学习从无条件到仅文本、再到文本+音色、最后到文本+音色+风格的渐进生成路径,从而在推理时可以通过不同的引导强度 (
s_text,s_spk,s_style) 独立调节每个属性的影响。
💡 核心创新点
显式解耦的多模态风格编码器(Style-CLAP):
- 是什么:一个基于CLAP的统一编码器,能同时处理音频和文本风格描述,并输出到共享嵌入空间。通过对比学习对齐模态,并通过多任务监督(情绪、能量、语速)增强嵌入的属性判别性。
- 局限:传统方法通常只支持单模态(仅音频或仅文本)风格提示,且容易将风格信息与音色信息纠缠。
- 如何起作用:对比学习确保同一风格的文本和音频描述在嵌入空间中接近。多任务监督强制编码器学习与具体风格属性相关的特征,而非仅仅是通用的“风格相似度”。
- 收益:实现了双模态(文本/音频)风格控制,并从编码器层面促进了风格与音色的分离。
链式无分类器指导(cCFG)用于独立控制:
- 是什么:一种改进的CFG方案。训练时采用层级条件丢弃(先丢风格,再丢音色,最后丢文本),并引入风格扰动。推理时,通过链式公式(公式6)独立调整内容、音色、风格的引导强度。
- 局限:标准CFG使用全局的无条件分支,对所有条件进行整体调节,无法独立控制。
- 如何起作用:层级丢弃训练了模型从不同层级的条件组合中生成语音的能力。链式引导公式将总预测分解为:无条件基础 + 内容增量 + 音色增量 + 风格增量,每个增量可由独立的引导尺度缩放。
- 收益:在推理时实现了对内容、音色、风格三个属性的连续、独立调节,提供了更精细的控制粒度。
利用预训练模型的表示对齐(REPA):
- 是什么:将预训练Whisper编码器的输出作为“教师”信号,指导TTS模型(学生)中间层的特征学习。
- 局限:从零训练的TTS模型可能难以稳定学习到丰富的声学-语义表示。
- 如何起作用:通过最小化学生(DiT中间层)和教师(Whisper最后一层)表征之间的余弦距离(公式7),将Whisper在海量语音数据上学到的声学-语义知识蒸馏到TTS模型的生成过程中。
- 收益:稳定了训练过程,加速了收敛(如消融实验和demo页面所示),并提升了生成语音的清晰度(降低WER)。
🔬 细节详述
- 训练数据:未提供公开数据集名称,为一个约300小时的中文内部高质量语音数据集,包含约1,000位说话人的25万条语句。情绪标签(高兴、悲伤、愤怒、中性、恐惧)由Qwen2.5-Omni自动标注。能量(响度,LUFS)和语速(字符数/有效时长)使用Silero VAD和pyloudnorm库计算,并离散化为三级。音素级时间戳使用强制对齐工具获取。
- 损失函数:
- TTS主损失(Flow Matching Loss):
L_flow = E_{t,z0,c} [ ||v_θ(z_t, c, t) - u||^2 ],其中u = z0 - z1(公式3)。 - Style-CLAP训练损失:
L_style = L_con + λ_cL_ce + λ_mL_mse(公式5)。L_con为InfoNCE对比损失(公式4),L_ce为情绪分类的交叉熵损失,L_mse为能量和语速回归的均方误差损失。λ_c和λ_m均设为0.5。 - 表示对齐损失:
L_repa = 1 - E_t [ sim(P(Upsample(h_DiT))_t, (h_whisper)_t) ](公式7),其中sim为余弦相似度。
- TTS主损失(Flow Matching Loss):
- 训练策略:
- Style-CLAP:在8块A800 GPU上训练,批大小128,训练50k步。学习率
1e-5,包含5k步预热。使用了共振峰扰动以减轻音色泄漏。 - TTS主模型:架构基线为F5-TTS base配置。说话人编码器初始化自预训练的Cam++。在8块A800 GPU上训练85k步,每批38,400帧。学习率
7.5e-5,包含20k步预热。采用了层级条件丢弃进行CFG训练:风格丢弃概率p_style=0.3,音色丢弃概率p_spk=0.5(在风格被丢弃时),文本丢弃概率p_text=0.5(在风格和音色均被丢弃时)。还使用了风格扰动:训练时随机将同一说话人的另一语句送入说话人编码器,以正则化。
- Style-CLAP:在8块A800 GPU上训练,批大小128,训练50k步。学习率
- 关键超参数:
- Mel-VAE:采样率44.1kHz,编码为40维潜在表示,帧率43Hz(约1024倍时序下采样)。
- Style-CLAP:基于预训练
clap-htsat-fused模型微调。 - REPA:选择DiT的第6个块的输出作为学生表征,使用Whisper Large-v3提取教师表征。
- 推理:使用链式CFG(公式6),引导尺度
s_text,s_spk,s_style可独立调节。
- 训练硬件:所有实验均在NVIDIA A800 GPU上进行。
- 推理细节:未详细说明采样步数、噪声调度等具体推理参数,但提及了使用链式CFG进行引导。解码使用预训练的BigVGAN声码器。
- 正则化或稳定训练技巧:
- 层级条件丢弃:用于训练cCFG。
- 风格扰动:在训练时对音色条件进行扰动,增强鲁棒性。
- 表示对齐(REPA):引入外部预训练模型知识,稳定和加速训练。
- 从预测器输入分离梯度:时长预测器的输入梯度被分离(detached)。
📊 实验结果
主要对比实验(表1): 实验在平衡了风格属性(情绪、能量、语速)的100个测试语句上进行,采用跨说话人风格迁移设置。
| 方法 | 参数量 | 能力 | NMOS↑ | QMOS↑ | 情绪准确率↑ | 能量准确率↑ | 语速准确率↑ | 说话人相似度↑ | WER↓ |
|---|---|---|---|---|---|---|---|---|---|
| GT | – | – | 3.86±0.21 | 3.89±0.09 | 0.68 | 1.00 | 1.00 | – | 0.028 |
| GT-Recon | – | – | 3.74±0.28 | 3.62±0.12 | 0.62 | 0.80 | 0.97 | – | 0.030 |
| CosyVoice [22] | 0.3B | ✓ | 3.83±0.26 | 4.02±0.13 | 0.29 | 0.22 | 0.51 | 0.68 | 0.059 |
| CosyVoice2 [23] | 0.5B | ✓ | 3.92±0.22 | 3.95±0.17 | 0.33 | 0.31 | 0.52 | 0.80 | 0.046* |
| IndexTTS2† [24] | 1.5B | ✓ | 4.03±0.18 | 4.09±0.13 | 0.54 | 0.40 | 0.70 | 0.76 | 0.028 |
| DMP-TTS (Audio) | 0.3B | ✓ | 3.82±0.23 | 3.83±0.14 | 0.55 | 0.82 | 0.74 | 0.72 | 0.043 |
| DMP-TTS (Text) | ✓ | 3.73±0.27 | 3.77±0.11 | 0.64 | 0.85 | 0.73 | 0.71 | 0.038 |
注:†表示IndexTTS2仅支持文本情感控制;``表示CosyVoice2的WER可能因拼接提示词而被高估,论文中已过滤。*
关键发现:
- 风格控制:DMP-TTS(文本/音频提示)在情绪准确率(0.64/0.55)、能量准确率(0.85/0.82)和语速准确率(0.73/0.74)上均超过了所有基线的最佳值(分别为0.54, 0.40, 0.70)。
- 自然度与清晰度:其NMOS和QMOS与真实录音相当,WER接近最佳基线IndexTTS2,表明在可控性提升的同时保持了良好的生成质量。
- 说话人相似度:DMP-TTS(0.71-0.72)低于CosyVoice2(0.80)和IndexTTS2(0.76)。论文指出这可能源于大规模预训练的缺乏,以及高表现力风格本身会改变发音模式从而导致音色变化。
- 模态对比:文本提示产生更稳定、略高的风格控制精度;音频提示带来更高的自然度(NMOS 3.82 vs. 3.73)。
消融实验(表2):
| 方法 | 情绪准确率↑ | 能量准确率↑ | 语速准确率↑ | 说话人相似度↑ | WER↓ |
|---|---|---|---|---|---|
| DMP-TTS (Text) | 0.64 | 0.85 | 0.73 | 0.71 | 0.038 |
| w/o Sup. (多任务监督) | 0.54 | 0.80 | 0.74 | 0.71 | 0.037 |
| w/o REPA | 0.63 | 0.82 | 0.74 | 0.70 | 0.046 |
注:消融实验均使用文本提示推理。
关键发现:
- 移除多任务监督(Sup.) 后,情绪准确率(0.64→0.54)和能量准确率(0.85→0.80)显著下降,表明其主要贡献在于增强风格属性的判别性。
- 移除REPA后,WER显著恶化(0.038→0.046),而风格指标变化不大,表明其主要贡献在于提升语言保真度和训练稳定性。
指导强度影响(图2):
图2:引导强度对(a)说话人相似度和(b)情绪准确率的影响。
图中显示,随着音色引导尺度 (s_spk) 或风格引导尺度 (s_style) 从6.0增加到21.0,对应的属性控制指标(说话人相似度、情绪准确率)通常呈上升趋势。这验证了cCFG允许通过调节引导强度来独立增强目标属性的效果。但过高的引导尺度可能导致过度条件化,降低自然度。
⚖️ 评分理由
- 学术质量:5.5/7:论文针对一个明确且重要的问题,提出了一套包含编码器、训练策略和推理机制的完整解决方案。技术路线合理,实验设计严谨,提供了充分的定量比较(基线对比、消融研究)和定性分析(引导强度影响)。创新点在于对现有技术(CLAP、CFG、REPA)的有效整合与针对TTS任务的特定优化,而非底层算法的根本性突破。在实验对比上,未与同样关注解耦的最新工作(如ControlSpeech)进行直接比较,是一个小的不足。
- 选题价值:1.5/2:可控语音合成是TTS研究的核心前沿,解耦音色与风格是提升控制灵活性的关键瓶颈。本文工作直接切入此痛点,提出的双模态提示和独立控制机制具有清晰的应用潜力,对构建更自然、个性化的语音交互系统有直接价值。
- 开源与复现加成:+0.5/1:论文明确承诺开源代码和演示,提供了关键的实现细节、超参数和评估设置,这对于该领域的研究者复现和扩展其工作非常有帮助。虽然未提及公开模型权重和数据集,但详细的复现信息足以获得加分。
🔗 开源详情
- 代码:论文中提供了未来开源的代码仓库链接:
https://y61329697.github.io/DMP-TTS/(根据论文原文)。 - 模型权重:未提及是否公开预训练模型权重。
- 数据集:使用了内部构建的约300小时中文数据集,未提及公开获取方式。
- Demo:论文承诺提供在线演示(demos),具体链接见上述URL。
- 复现材料:论文详细描述了模型架构、各组件实现细节、训练超参数(学习率、批大小、训练步数、优化器配置)、评估指标和流程,为复现提供了充分的指导。
- 论文中引用的开源项目:
- 预训练CLAP模型:
https://huggingface.co/laion/clap-htsat-fused - 预训练说话人编码器模型:Cam++(来自CosyVoice)
- 声码器:BigVGAN
- 用于情感标注的:Qwen2.5-Omni
- 用于WER评估的ASR模型:paraformer-zh (FunASR)
- 用于情感评估的:emotion2vec
- 用于VAD和语速/能量计算的:Silero VAD, pyloudnorm
- 用于强制对齐的:
https://github.com/MahmoudAshraf97/ctc-forced-aligner
- 预训练CLAP模型:
- 论文中未提及开源计划细节:如开源的具体时间、模型权重是否包含等。