DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance

#语音合成 #扩散模型 #可控语音 #对比学习 #多任务学习

✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #可控语音 #对比学习

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Kang Yin（中国科学技术大学），Chunyu Qiang（快手科技）（论文标注†表示同等贡献，故两位均为第一作者）
通讯作者：Sirui Zhao（中国科学技术大学），Tong Xu（中国科学技术大学），Chen Zhang（快手科技）（论文标注*表示通讯作者）
作者列表：
- Kang Yin（中国科学技术大学）
- Chunyu Qiang（快手科技）
- Sirui Zhao（中国科学技术大学）
- Xiaopeng Wang（快手科技）
- Yuzhe Liang（快手科技）
- Pengfei Cai（中国科学技术大学）
- Tong Xu（中国科学技术大学）
- Chen Zhang（快手科技）
- Enhong Chen（中国科学技术大学）

💡 毒舌点评

本文的亮点在于将风格编码、解耦训练和引导推理整合成了一套逻辑自洽且实用的方案，Style-CLAP的多任务设计和cCFG的层级控制思路清晰有效，实验数据扎实，切实推动了可控TTS在解耦方向上的进步。然而，其创新更多是“优秀的组合”而非“从零的突破”，且说话人相似度这一关键指标不及部分基线，暴露出在追求强风格表达时维持音色一致性仍是未完全攻克的难题。

🔗 开源详情

代码：论文中提供了未来开源的代码仓库链接：https://y61329697.github.io/DMP-TTS/（根据论文原文）。
模型权重：未提及是否公开预训练模型权重。
数据集：使用了内部构建的约300小时中文数据集，未提及公开获取方式。
Demo：论文承诺提供在线演示（demos），具体链接见上述URL。
复现材料：论文详细描述了模型架构、各组件实现细节、训练超参数（学习率、批大小、训练步数、优化器配置）、评估指标和流程，为复现提供了充分的指导。
论文中引用的开源项目：
- 预训练CLAP模型：https://huggingface.co/laion/clap-htsat-fused
- 预训练说话人编码器模型：Cam++（来自CosyVoice）
- 声码器：BigVGAN
- 用于情感标注的：Qwen2.5-Omni
- 用于WER评估的ASR模型：paraformer-zh (FunASR)
- 用于情感评估的：emotion2vec
- 用于VAD和语速/能量计算的：Silero VAD, pyloudnorm
- 用于强制对齐的：https://github.com/MahmoudAshraf97/ctc-forced-aligner
论文中未提及开源计划细节：如开源的具体时间、模型权重是否包含等。

📌 核心摘要

这篇论文旨在解决可控文本转语音（TTS）系统中说话人音色与说话风格难以独立控制、容易相互纠缠的核心问题。论文提出了DMP-TTS，一个基于潜在扩散Transformer（DiT）的框架，其核心创新在于引入了三个关键技术：1）Style-CLAP：一个统一的多模态风格编码器，通过对比学习和多任务监督，将音频参考和文本描述映射到共享的风格嵌入空间；2）链式无分类器指导（cCFG）：一种训练时采用层级条件丢弃、推理时允许独立调节内容、音色和风格引导强度的机制；3）表示对齐（REPA）：利用预训练Whisper模型的特征来指导DiT中间层的学习，以稳定训练和加速收敛。实验基于一个约300小时的中文内部数据集，结果表明，DMP-TTS在风格控制准确性（情绪、能量、语速）上显著优于CosyVoice、CosyVoice2等开源基线，同时保持了有竞争力的自然度和清晰度。消融实验证实了多任务监督主要提升风格控制，REPA主要提升清晰度并加速收敛。该工作的实际意义在于为构建更灵活、自然的个性化语音交互系统提供了新的技术路径。其主要局限性包括：说话人相似度与部分基线仍有差距；高情感表现力会诱发音色变化，揭示了表现力与音色保真之间存在内在权衡；模型训练依赖于高质量、有标注的内部数据集。

🏗️ 模型架构

DMP-TTS是一个基于潜在扩散Transformer（DiT）的端到端TTS系统，其整体架构如图1(a)所示。

DMP-TTS整体架构图图1：DMP-TTS整体架构。(a) 显示了训练和推理的数据流。(b) 展示了统一的多模态风格编码器。

系统主要由以下几个核心组件构成，其输入输出流程与数据流如下：

输入与编码：
- 内容文本：由文本编码器（Text Encoder）编码为内容嵌入 c_text。
- 音色参考音频：由说话人编码器（Speaker Encoder，初始化自预训练Cam++模型）编码为音色嵌入 c_spk。
- 风格提示（音频或文本）：由核心组件统一多模态风格编码器（Style-CLAP）处理。该编码器（如图1(b)所示）包含一个音频编码器（Audio Encoder）和一个文本编码器（Text Encoder）。训练时，两者通过对比学习和多任务监督对齐；推理时，可接收音频或��本风格描述，生成统一的风格嵌入 c_style。
核心生成器（潜在扩散Transformer - DiT）：
- 输入：由Mel编码器将目标语音梅尔频谱图编码为的潜在表示 z0 加噪得到的 z_t，以及上述三种条件嵌入（c_text, c_spk, c_style）。训练时，z_t 从噪声和目标潜在表示线性插值获得（公式1）。
- 功能：作为速度网络 v_θ，预测从噪声到目标潜在表示的流速度（公式3）。其内部由堆叠的DiT块构成。
- 辅助输入：时长预测器（Duration Predictor）基于文本和风格嵌入预测每个音素的持续时间，通过长度调节器（Length Regulator）将文本嵌入扩展到与梅尔频谱图时间对齐。
- 表示对齐（REPA）：在训练时，从DiT的第6层中间层提取学生表征 h_DiT，从预训练Whisper编码器最后一层提取教师表征 h_whisper，通过上采样、线性投影和余弦相似度损失（公式7）进行对齐，以稳定训练。
解码：
- 经过扩散采样过程后，DiT输出去噪的潜在表示。
- 该表示由梅尔解码器（Mel Decoder）（实为一个预训练的BigVGAN声码器）解码为最终的语音波形。

关键设计选择与动机：

分离的条件通路：使用独立的编码器处理内容、音色和风格，是为从架构上奠定解耦的基础。
Flow Matching 框架：相比传统的扩散模型，Flow Matching在连续时间流上定义，训练目标更简单（公式3），且与Transformer（DiT）结合良好。
Style-CLAP 的设计：旨在创建一个对文本和音频都通用的风格嵌入空间，并通过多任务监督（情绪分类、能量和语速回归）确保该空间对细粒度风格属性具有判别力。
链式CFG (cCFG)：其训练采用的层级条件丢弃策略（公式6的逆向过程）和推理时的链式引导公式，是实现属性独立控制的关键。它允许模型学习从无条件到仅文本、再到文本+音色、最后到文本+音色+风格的渐进生成路径，从而在推理时可以通过不同的引导强度 (s_text, s_spk, s_style) 独立调节每个属性的影响。

💡 核心创新点

显式解耦的多模态风格编码器（Style-CLAP）：
- 是什么：一个基于CLAP的统一编码器，能同时处理音频和文本风格描述，并输出到共享嵌入空间。通过对比学习对齐模态，并通过多任务监督（情绪、能量、语速）增强嵌入的属性判别性。
- 局限：传统方法通常只支持单模态（仅音频或仅文本）风格提示，且容易将风格信息与音色信息纠缠。
- 如何起作用：对比学习确保同一风格的文本和音频描述在嵌入空间中接近。多任务监督强制编码器学习与具体风格属性相关的特征，而非仅仅是通用的“风格相似度”。
- 收益：实现了双模态（文本/音频）风格控制，并从编码器层面促进了风格与音色的分离。
链式无分类器指导（cCFG）用于独立控制：
- 是什么：一种改进的CFG方案。训练时采用层级条件丢弃（先丢风格，再丢音色，最后丢文本），并引入风格扰动。推理时，通过链式公式（公式6）独立调整内容、音色、风格的引导强度。
- 局限：标准CFG使用全局的无条件分支，对所有条件进行整体调节，无法独立控制。
- 如何起作用：层级丢弃训练了模型从不同层级的条件组合中生成语音的能力。链式引导公式将总预测分解为：无条件基础 + 内容增量 + 音色增量 + 风格增量，每个增量可由独立的引导尺度缩放。
- 收益：在推理时实现了对内容、音色、风格三个属性的连续、独立调节，提供了更精细的控制粒度。
利用预训练模型的表示对齐（REPA）：
- 是什么：将预训练Whisper编码器的输出作为“教师”信号，指导TTS模型（学生）中间层的特征学习。
- 局限：从零训练的TTS模型可能难以稳定学习到丰富的声学-语义表示。
- 如何起作用：通过最小化学生（DiT中间层）和教师（Whisper最后一层）表征之间的余弦距离（公式7），将Whisper在海量语音数据上学到的声学-语义知识蒸馏到TTS模型的生成过程中。
- 收益：稳定了训练过程，加速了收敛（如消融实验和demo页面所示），并提升了生成语音的清晰度（降低WER）。

🔬 细节详述

训练数据：未提供公开数据集名称，为一个约300小时的中文内部高质量语音数据集，包含约1,000位说话人的25万条语句。情绪标签（高兴、悲伤、愤怒、中性、恐惧）由Qwen2.5-Omni自动标注。能量（响度，LUFS）和语速（字符数/有效时长）使用Silero VAD和pyloudnorm库计算，并离散化为三级。音素级时间戳使用强制对齐工具获取。
损失函数：
1. TTS主损失（Flow Matching Loss）：L_flow = E_{t,z0,c} [ ||v_θ(z_t, c, t) - u||^2 ]，其中 u = z0 - z1 (公式3)。
2. Style-CLAP训练损失：L_style = L_con + λ_cL_ce + λ_mL_mse (公式5)。L_con为InfoNCE对比损失（公式4），L_ce为情绪分类的交叉熵损失，L_mse为能量和语速回归的均方误差损失。λ_c和λ_m均设为0.5。
3. 表示对齐损失：L_repa = 1 - E_t [ sim(P(Upsample(h_DiT))_t, (h_whisper)_t) ] (公式7)，其中sim为余弦相似度。
训练策略：
- Style-CLAP：在8块A800 GPU上训练，批大小128，训练50k步。学习率 1e-5，包含5k步预热。使用了共振峰扰动以减轻音色泄漏。
- TTS主模型：架构基线为F5-TTS base配置。说话人编码器初始化自预训练的Cam++。在8块A800 GPU上训练85k步，每批38,400帧。学习率 7.5e-5，包含20k步预热。采用了层级条件丢弃进行CFG训练：风格丢弃概率 p_style=0.3，音色丢弃概率 p_spk=0.5（在风格被丢弃时），文本丢弃概率 p_text=0.5（在风格和音色均被丢弃时）。还使用了风格扰动：训练时随机将同一说话人的另一语句送入说话人编码器，以正则化。
关键超参数：
- Mel-VAE：采样率44.1kHz，编码为40维潜在表示，帧率43Hz（约1024倍时序下采样）。
- Style-CLAP：基于预训练clap-htsat-fused模型微调。
- REPA：选择DiT的第6个块的输出作为学生表征，使用Whisper Large-v3提取教师表征。
- 推理：使用链式CFG（公式6），引导尺度 s_text, s_spk, s_style 可独立调节。
训练硬件：所有实验均在NVIDIA A800 GPU上进行。
推理细节：未详细说明采样步数、噪声调度等具体推理参数，但提及了使用链式CFG进行引导。解码使用预训练的BigVGAN声码器。
正则化或稳定训练技巧：
1. 层级条件丢弃：用于训练cCFG。
2. 风格扰动：在训练时对音色条件进行扰动，增强鲁棒性。
3. 表示对齐（REPA）：引入外部预训练模型知识，稳定和加速训练。
4. 从预测器输入分离梯度：时长预测器的输入梯度被分离（detached）。

📊 实验结果

主要对比实验（表1）：实验在平衡了风格属性（情绪、能量、语速）的100个测试语句上进行，采用跨说话人风格迁移设置。

方法	参数量	能力	NMOS↑	QMOS↑	情绪准确率↑	能量准确率↑	语速准确率↑	说话人相似度↑	WER↓
GT	–	–	3.86±0.21	3.89±0.09	0.68	1.00	1.00	–	0.028
GT-Recon	–	–	3.74±0.28	3.62±0.12	0.62	0.80	0.97	–	0.030
CosyVoice [22]	0.3B	✓	3.83±0.26	4.02±0.13	0.29	0.22	0.51	0.68	0.059
CosyVoice2 [23]	0.5B	✓	3.92±0.22	3.95±0.17	0.33	0.31	0.52	0.80	0.046*
IndexTTS2† [24]	1.5B	✓	4.03±0.18	4.09±0.13	0.54	0.40	0.70	0.76	0.028
DMP-TTS (Audio)	0.3B	✓	3.82±0.23	3.83±0.14	0.55	0.82	0.74	0.72	0.043
DMP-TTS (Text)		✓	3.73±0.27	3.77±0.11	0.64	0.85	0.73	0.71	0.038

注：†表示IndexTTS2仅支持文本情感控制；``表示CosyVoice2的WER可能因拼接提示词而被高估，论文中已过滤。*

关键发现：

风格控制：DMP-TTS（文本/音频提示）在情绪准确率（0.64/0.55）、能量准确率（0.85/0.82）和语速准确率（0.73/0.74）上均超过了所有基线的最佳值（分别为0.54, 0.40, 0.70）。
自然度与清晰度：其NMOS和QMOS与真实录音相当，WER接近最佳基线IndexTTS2，表明在可控性提升的同时保持了良好的生成质量。
说话人相似度：DMP-TTS（0.71-0.72）低于CosyVoice2（0.80）和IndexTTS2（0.76）。论文指出这可能源于大规模预训练的缺乏，以及高表现力风格本身会改变发音模式从而导致音色变化。
模态对比：文本提示产生更稳定、略高的风格控制精度；音频提示带来更高的自然度（NMOS 3.82 vs. 3.73）。

消融实验（表2）：

方法	情绪准确率↑	能量准确率↑	语速准确率↑	说话人相似度↑	WER↓
DMP-TTS (Text)	0.64	0.85	0.73	0.71	0.038
w/o Sup. (多任务监督)	0.54	0.80	0.74	0.71	0.037
w/o REPA	0.63	0.82	0.74	0.70	0.046

注：消融实验均使用文本提示推理。

关键发现：

移除多任务监督（Sup.）后，情绪准确率（0.64→0.54）和能量准确率（0.85→0.80）显著下降，表明其主要贡献在于增强风格属性的判别性。
移除REPA后，WER显著恶化（0.038→0.046），而风格指标变化不大，表明其主要贡献在于提升语言保真度和训练稳定性。

指导强度影响（图2）：指导强度影响图图2：引导强度对（a）说话人相似度和（b）情绪准确率的影响。图中显示，随着音色引导尺度 (s_spk) 或风格引导尺度 (s_style) 从6.0增加到21.0，对应的属性控制指标（说话人相似度、情绪准确率）通常呈上升趋势。这验证了cCFG允许通过调节引导强度来独立增强目标属性的效果。但过高的引导尺度可能导致过度条件化，降低自然度。

⚖️ 评分理由

学术质量：5.5/7：论文针对一个明确且重要的问题，提出了一套包含编码器、训练策略和推理机制的完整解决方案。技术路线合理，实验设计严谨，提供了充分的定量比较（基线对比、消融研究）和定性分析（引导强度影响）。创新点在于对现有技术（CLAP、CFG、REPA）的有效整合与针对TTS任务的特定优化，而非底层算法的根本性突破。在实验对比上，未与同样关注解耦的最新工作（如ControlSpeech）进行直接比较，是一个小的不足。
选题价值：1.5/2：可控语音合成是TTS研究的核心前沿，解耦音色与风格是提升控制灵活性的关键瓶颈。本文工作直接切入此痛点，提出的双模态提示和独立控制机制具有清晰的应用潜力，对构建更自然、个性化的语音交互系统有直接价值。
开源与复现加成：+0.5/1：论文明确承诺开源代码和演示，提供了关键的实现细节、超参数和评估设置，这对于该领域的研究者复现和扩展其工作非常有帮助。虽然未提及公开模型权重和数据集，但详细的复现信息足以获得加分。

← 返回 ICASSP 2026 论文分析

📄 DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文

📄 DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance