📄 Dynamic Prosody Prediction in LLM-based TTS for Improving Speaker Similarity

#语音合成 #大语言模型

7.6/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5

✅ 7.6/10 | 前25% | #语音合成 | #大语言模型 | arxiv

👥 作者与机构

作者: Zhenwei Mou (1, †), Liping Chen (1, †, 通信作者), Yajun Hu (2), Zhen-Hua Ling (1), Xin Fang (2), Jianqing Gao (2)
机构: 1. University of Science and Technology of China, Anhui, China; 2. iFLYTEK, Anhui, China.
资助信息: 该工作得到了国家重点研发计划项目2024YFE0217200、香港特区创新科技基金MHP/048/24以及中国国家自然科学基金（Grant 62506349和U23B2053）的部分支持。

💡 毒舌点评

这篇论文的动机是清晰的，指出了现有多数基于LLM的TTS方法在说话人相似度上的一个短板——风格/韵律的静态或隐式建模。提出的动态预测范式在思路上是正确的，且实验设计相对全面（主观+客观，情感+韵律，自有数据+开源模型对比）。然而，作为一篇寻求顶级会议认可的论文，其“新颖性”的边界值得商榷。动态条件生成本身在序列建模中并不新鲜，核心创新点在于将“已生成语音”作为“韵律预测”的一个额外条件输入，这是一个具体的技术改进，但离“范式突破”尚有距离。论文最大的软肋在于缺乏深度分析和理论支撑。例如，动态预测为何比静态预测好？是因为捕捉了更长程的依赖，还是因为避免了错误累积？文中未做任何分析。实验部分虽然全面，但有些结果（如AISHELL-3上偏好测试的微弱优势）显得说服力不足。此外，代码的可复现性依赖于第三方框架CosyVoice，这无疑增加了验证成本。总体而言，这是一篇扎实但缺乏令人眼前一亮洞察的“增量式”工作，在顶会激烈的竞争环境中，可能难以获得最高评价。

📌 核心摘要

本文针对基于LLM的个性化TTS中说话人相似度（特别是说话风格）提升问题，提出了一种动态韵律预测方法。现有方法（如CosyVoice）隐式建模风格，或使用CoT提示进行静态韵律预计算，无法充分学习目标语音特有的韵律模式。本文方法在CosyVoice框架内，将当前音节的韵律预测条件化于目标文本、参考语音以及之前已生成的语音，实现了逐音节的动态韵律估计，随后利用预测的韵律令牌生成该音节的语音。实验在50k小时数据上训练，于ESD（情感丰富）、内部数据集（风格多样）和AISHELL-3（韵律中性）三个测试集上评估。结果表明，该方法在维持自然度的同时，显著提升了说话人相似度（主观偏好测试）和韵律建模能力（客观指标），并且展现出以较小数据集逼近大规模数据训练模型的潜力。

🔗 开源详情

代码：论文提供了基于CosyVoice框架的实现思路和配置，但核心的动态预测代码是否开源需查看相关链接。实际开源仓库为CosyVoice：https://github.com/FunAudioLLM/CosyVoice
模型权重：论文中未提及开源预训练模型权重。
数据集：训练所用WenetSpeech需另行申请，Emilia数据集部分公开。评估用内部数据集未公开。
Demo：https://muzw.github.io/dynapros/
复现材料：论文详细说明了训练步数（800k）、硬件（8张MLU 580 GPU）、学习率（\(10^{-4}\)）、warmup（10k）、采样参数（top-p=0.8, top-k=25/15）等，但未提供具体的训练配置文件、检查点或附录代码。
论文中引用的开源项目：
1. CosyVoice: https://github.com/FunAudioLLM/CosyVoice
2. F5-TTS: https://github.com/SWivid/F5-TTS
3. Vevo1.5 (Amphion框架): https://github.com/open-mmlab/Amphion
4. CAM++ 说话人编码器 (来自ModelScope): https://www.modelscope.cn/models/iic/speech_campplus_sv_zh-cn_16k-common
5. Whisper ASR模型: 论文中未提供链接，标准模型可从OpenAI获取。
6. emotion2vec+ 情感识别模型: 论文中提供了GitHub链接：https://github.com/ddlBoJack/emotion2vec

🏗️ 方法概述和架构

本研究在CosyVoice [du2024cosyvoice] 框架内展开，核心是为其LLM集成动态韵律预测模块。整体架构如图2(a)所示，推理时的输入与生成序列如图2(b)所示。

基础框架（CosyVoice LLM）：原始CosyVoice的LLM（图1(a)）以参考说话人嵌入 \(\bm{v}\)、音节级文本嵌入序列 \(\bm{X} = \{\bm{x}_1, \bm{x}_2, ..., \bm{x}_I\}\)（\(I\) 为音节数）以及参考语音的语音令牌为条件，自回归地生成目标语音的语音令牌。它不显式建模韵律。
动态韵律预测模块：本文方法的核心改造。为预测第 \(i\) 个音节的韵律令牌 \(q_i\)，模型引入了一个条件概率分布：
\[ \bm{y}_i = p(\mathcal{C}^{\rm p} \mid \bm{v}, \bm{X}, q_{1:i-1}, \bm{S}_{1:i-1}) \]
其中 \(\mathcal{C}^{\rm p}\) 是韵律令牌集。关键输入包括：目标音节序列 \(\bm{X}\)、参考说话人嵌入 \(\bm{v}\)，以及所有前序音节的韵律令牌序列 \(q_{1:i-1}\) 和语音令牌序列 \(\bm{S}_{1:i-1}\)（\(\bm{S}_i\) 表示第 \(i\) 音节对应的语音帧令牌索引集）。在生成第一个音节韵律时，前序序列为空。一个特殊的韵律查询嵌入（PQ）被用作输入，以触发此次韵律预测。预测得到的 \(q_i\) 是从 \(\bm{y}_i\) 采样得到的韵律令牌索引。
语音令牌生成：获得当前音节的韵律令牌 \(q_i\) 后，LLM基于所有已有信息（包括刚刚预测的 \(q_i\)）来生成该音节的语音令牌：
\[ \bm{z}_{i,t} = p(\mathcal{C}^{\rm s} \mid \bm{v}, \bm{X}, q_{1:i-1}, \bm{S}_{1:i-1}, q_i, s_{i,1:t-1}) \]
其中 \(\mathcal{C}^{\rm s}\) 是语音令牌集，\(t\) 为帧索引。模型逐帧生成语音令牌，直至遇到音节结束符（EOSL）或序列结束符（EOS）。第一个音节的第一帧（\(t=1\)）不依赖于当前音节的前序语音令牌。
韵律令牌定义：对于每个音节，提取四个特征组成向量 \(\bm{g}_i = [d_i, e_i, h_i, r_i]\)：时长 \(d_i\)、平均能量 \(e_i\)、平均音高 \(h_i\) 和音高范围 \(r_i\)（最大最小音高之差）。使用k-means聚类（在WenetSpeech上训练，聚类数512）将该连续向量量化为离散的韵律令牌 \(q_i\)。
训练损失：采用韵律令牌和语音令牌交叉熵损失的加权和：
\[ \mathcal{L} = -\alpha \frac{1}{I} \sum_{i=1}^{I} \hat{\bm{y}}_i \log \bm{y}_i - (1-\alpha) \frac{1}{\sum_{i=1}^{I}(T_i+1)} \sum_{i=1}^{I} \sum_{t=1}^{T_i+1} \hat{\bm{z}}_{i,t} \log \bm{z}_{i,t} \]
其中 \(\hat{\bm{y}}_i\) 和 \(\hat{\bm{z}}_{i,t}\) 是真实令牌的独热编码，\(T_i\) 是第 \(i\) 音节的帧数，\(\alpha\) 是权重超参数（本文设为0.5）。
推理流程：如图2(b)所示，推理时，LLM按照以下顺序交替生成令牌：1) 预测参考语音的韵律令牌序列作为条件；2) 预测目标语音第一个音节的韵律令牌 \(q_1\)；3) 基于 \(q_1\) 生成该音节的所有语音令牌 \(\bm{S}_1\)；4) 基于 \(\bm{X}\), \(\bm{v}\), \(q_1\), \(\bm{S}_1\) 预测第二个音节的韵律令牌 \(q_2\)；5) 基于 \(q_2\) 和之前的序列生成 \(\bm{S}_2\)；如此迭代，直至生成整个序列。最终，语音令牌送入流匹配模块合成波形。

💡 核心创新点

动态韵律预测范式：针对基于LLM的TTS，提出在生成当前音节语音之前，利用先前已生成的目标语音来动态预测该音节的韵律。这与传统的静态预计算（CoT）或完全隐式建模（CosyVoice基线）形成对比，旨在更好地捕捉目标语音自身连贯的、风格化的韵律模式。
将生成语音作为韵律预测条件：明确地将之前音节的语音令牌序列 \(\bm{S}_{1:i-1}\) 作为预测当前韵律令牌的条件之一，使得韵律预测能够依赖于生成过程中的实际声学内容，而不仅仅是文本和固定参考。
在标准框架内的有效集成：将该方法无缝集成到广泛使用的CosyVoice框架中，并通过对比实验验证了其相较于基线和CoT方法在提升说话人相似度方面的优越性。

📊 实验结果

训练设置：使用约50k小时数据（WenetSpeech + Emilia中文子集）在8张MLU 580 GPU上训练800k步，学习率 \(10^{-4}\)，warmup 10k步。LLM为14层Transformer，含1024维嵌入和4096维FFN。推理采用top-p (\(p=0.8\)) 和top-k (\(k=25\) for 语音, \(k=15\) for 韵律) 采样。

主观评估：MOS测试（表1）显示，所提方法在自然度上与基线持平或略有提升。

方法	ESD	Internal	AISHELL-3
录音	4.21±0.09	4.16±0.07	4.18±0.08
CosyVoice(50k)	4.01±0.07	3.97±0.07	4.06±0.06
CoT	4.00±0.09	3.98±0.08	4.03±0.10
Proposed	4.07±0.06	3.99±0.07	4.06±0.07

偏好测试（表2）中，在ESD和Internal数据集上，所提方法被显著偏好（>48%），而在韵律中性的AISHELL-3上优势不明显。

数据集	方法A	偏好A(%)	无偏好(%)	偏好B(%)
ESD	CosyVoice(50k)	28.8	19.7	51.5
	CoT	28.8	21.4	50.9
Internal	CosyVoice(50k)	33.2	18.6	48.2
	CoT	30.9	21.4	47.7
AISHELL-3	CosyVoice(50k)	20.4	45.9	33.6
	CoT	25.9	40.5	33.6

客观评估：表3显示，所提方法在三个数据集上均降低了CER（提升可懂度）。在情感评估（ESD， Internal）和韵律特征评估（ESD， AISHELL-3）上，所提方法在多数指标（SIM， ACC， Corr， RMSE）上取得最优。

数据集	模型	CER	情感 SIM↑	情感 ACC(%)↑	音高 Corr(%)↑	音高 RMSE↓	能量 Corr(%)↑	能量 RMSE↓
ESD	CosyVoice(50k)	6.38	0.875	84.32	79.52	83.61	94.08	6.42
	CoT	6.14	0.876	84.52	79.31	82.82	94.03	6.39
	Proposed	5.66	0.884	86.56	80.32	80.81	94.91	5.93
Internal	CosyVoice(50k)	13.69	0.802	52.31	-	-	-	-
	CoT	13.6	0.799	50.23	-	-	-	-
	Proposed	10.44	0.821	51.63	-	-	-	-
AISHELL-3	CosyVoice(50k)	11.59	-	-	80.41	69.92	90.59	6.66
	CoT	11.61	-	-	80.61	69.90	90.51	6.52
	Proposed	10.19	-	-	82.58	66.08	92.66	5.91

与开源模型对比：表4显示，所提模型（50k小时数据）在韵律丰富的测试集（ESD， Internal）上，主观偏好显著优于使用170k数据训练的CosyVoice开源模型，也优于使用100k数据训练的Vevo1.5和F5-TTS。

数据集	模型A	偏好A(%)	无偏好(%)	偏好B(%)	p值
ESD	Vevo1.5	27.8	19.4	52.8	<0.01
	F5-TTS	22.7	26.4	50.9	<0.01
	CosyVoice	32.7	22.4	44.8	<0.01
Internal	Vevo1.5	36.4	16.6	47.0	<0.01
	F5-TTS	24.1	15.5	60.4	<0.01
	CosyVoice	35.4	26.4	38.2	0.10
AISHELL-3	Vevo1.5	23.2	41.2	35.6	<0.01
	F5-TTS	21.4	50.0	28.6	<0.01
	CosyVoice	29.1	43.2	27.7	0.65

⚖️ 评分理由

创新性 (1.4/2)：动态条件生成的思路有其合理性，但将已生成语音作为韵律预测的条件，技术上属于对现有自回归框架的细微扩展，缺乏根本性的新机制或理论突破。创新程度属于中等。
技术严谨性 (1.3/1.5)：方法描述清晰，公式定义明确。但核心假设（加入 \(\bm{S}_{1:i-1}\) 必然能更好地预测韵律）缺乏理论分析或消融实验验证。α 超参的选取理由未充分说明。
实验充分性 (1.3/1.5)�� 实验设计全面，覆盖主观/客观、多数据集、多对比基线（包括更强的开源模型）。但在关键对比（如与更大模型CosyVoice的对比）中，部分数据集上结果不显著（AISHELL-3， Internal p=0.10）。未提供任何消融实验（如仅使用 \(q_{1:i-1}\) 或仅使用 \(\bm{S}_{1:i-1}\)）来证明每个条件的贡献。
清晰度 (1.3/1.5)：论文写作清晰，图表有助于理解。但在方法部分，对于“为什么动态预测更好”的动机阐述不够深入，更多是陈述而非论证。
影响力 (0.7/1.5)：工作对语音合成领域的具体实践者有明确价值，提供了一种改进说话人相似度的可行技术路径。但其技术方案特异性较强，主要限于基于LLM的TTS框架，对更广泛AI社区的潜在影响力有限。
开源 (0.7/1.5)：论文提供了Demo链接和基于CosyVoice的实现，这为复现提供了重要基础。但核心的训练数据、预训练模型权重（尤其是Prosody Token聚类模型）并未开源，完全复现原论文结果存在障碍。
可复现性 (0.9/1.5)：详细的训练超参、模型结构参数和推理设置已给出，结合CosyVoice的开源代码，部分复现是可能的。但训练数据的获取（WenetSpeech需申请）和处理（MFA对齐）流程较为复杂，且缺失部分关键组件（如emotion2vec+模型）的明确链接，增加了完全复现的难度。
工程/实践价值 (0.7/1.0)：方法易于在现有框架内实现，且实验显示能有效提升性能，具有直接的工程应用价值。但增加的条件计算和序列长度可能带来额外的推理开销，论文未讨论这一实践关切。

🚨 局限与问题

缺乏计算开销分析：动态预测在每个音节生成时都增加了额外的预测步骤和条件输入，理论上会增加推理时间。论文未提供任何关于推理速度（如实时率RTF）与基线的对比，这是一个重要的实践考量。
训练数据与处理噪声：论文使用约50k小时数据，但处理过程依赖自动语音识别（MFA）来获取音节边界。MFA在复杂语境下可能产生错误，这些错误会直接作为训练目标（韵律特征提取）引入噪声，但论文未讨论此问题的潜在影响及缓解措施。
韵律表示的局限性：将韵律离散化为聚类令牌是一种简化。k-means聚类基于训练集分布，其泛化能力到未见过的极端韵律模式（如特别夸张的语气）可能受限。论文未讨论聚类数量（512）选择的依据及敏感性。
评估的过度依赖：核心结论（提升说话人相似度）严重依赖主观偏好测试。虽然测试者为母语者，但未说明其专业背景（是否为语音领域专家？）。此外，在AISHELL-3（中性）上优势微弱，表明方法的提升可能特异于风格丰富的语音，其普适性需谨慎结论。
未探索的消融与分析：如前所述，缺少关键的消融实验。例如，仅使用历史韵律 \(q_{1:i-1}\) 而不用历史语音 \(\bm{S}_{1:i-1}\) 的模型表现如何？这有助于厘清性能提升究竟来自更长的条件历史，还是来自生成语音本身的声学信息。
与CoT对比的公平性：CoT方法的韵律令牌在整句生成前一次性预测。动态方法是逐步预测。这种差异可能带来模型容量和优化路径上的不同，而不仅仅是“动态”本身。论文未分析这种差异对结果的影响。

← 返回 2026-06-16 语音/音乐/音频论文速递

📄 Dynamic Prosody Prediction in LLM-based TTS for Improving Speaker Similarity#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📎 相关论文