📄 Dynamic Prosody Prediction in LLM-based TTS for Improving Speaker Similarity

#语音合成 #大语言模型

7.6/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5

7.6/10 | 前25% | #语音合成 | #大语言模型 | arxiv

👥 作者与机构

  • 作者: Zhenwei Mou (1, †), Liping Chen (1, †, 通信作者), Yajun Hu (2), Zhen-Hua Ling (1), Xin Fang (2), Jianqing Gao (2)
  • 机构: 1. University of Science and Technology of China, Anhui, China; 2. iFLYTEK, Anhui, China.
  • 资助信息: 该工作得到了国家重点研发计划项目2024YFE0217200、香港特区创新科技基金MHP/048/24以及中国国家自然科学基金(Grant 62506349和U23B2053)的部分支持。

💡 毒舌点评

这篇论文的动机是清晰的,指出了现有多数基于LLM的TTS方法在说话人相似度上的一个短板——风格/韵律的静态或隐式建模。提出的动态预测范式在思路上是正确的,且实验设计相对全面(主观+客观,情感+韵律,自有数据+开源模型对比)。然而,作为一篇寻求顶级会议认可的论文,其“新颖性”的边界值得商榷。动态条件生成本身在序列建模中并不新鲜,核心创新点在于将“已生成语音”作为“韵律预测”的一个额外条件输入,这是一个具体的技术改进,但离“范式突破”尚有距离。论文最大的软肋在于缺乏深度分析和理论支撑。例如,动态预测为何比静态预测好?是因为捕捉了更长程的依赖,还是因为避免了错误累积?文中未做任何分析。实验部分虽然全面,但有些结果(如AISHELL-3上偏好测试的微弱优势)显得说服力不足。此外,代码的可复现性依赖于第三方框架CosyVoice,这无疑增加了验证成本。总体而言,这是一篇扎实但缺乏令人眼前一亮洞察的“增量式”工作,在顶会激烈的竞争环境中,可能难以获得最高评价。

📌 核心摘要

本文针对基于LLM的个性化TTS中说话人相似度(特别是说话风格)提升问题,提出了一种动态韵律预测方法。现有方法(如CosyVoice)隐式建模风格,或使用CoT提示进行静态韵律预计算,无法充分学习目标语音特有的韵律模式。本文方法在CosyVoice框架内,将当前音节的韵律预测条件化于目标文本、参考语音以及之前已生成的语音,实现了逐音节的动态韵律估计,随后利用预测的韵律令牌生成该音节的语音。实验在50k小时数据上训练,于ESD(情感丰富)、内部数据集(风格多样)和AISHELL-3(韵律中性)三个测试集上评估。结果表明,该方法在维持自然度的同时,显著提升了说话人相似度(主观偏好测试)和韵律建模能力(客观指标),并且展现出以较小数据集逼近大规模数据训练模型的潜力。

🔗 开源详情

  • 代码:论文提供了基于CosyVoice框架的实现思路和配置,但核心的动态预测代码是否开源需查看相关链接。实际开源仓库为CosyVoice:https://github.com/FunAudioLLM/CosyVoice
  • 模型权重:论文中未提及开源预训练模型权重。
  • 数据集:训练所用WenetSpeech需另行申请,Emilia数据集部分公开。评估用内部数据集未公开。
  • Demo:https://muzw.github.io/dynapros/
  • 复现材料:论文详细说明了训练步数(800k)、硬件(8张MLU 580 GPU)、学习率(\(10^{-4}\))、warmup(10k)、采样参数(top-p=0.8, top-k=25/15)等,但未提供具体的训练配置文件、检查点或附录代码。
  • 论文中引用的开源项目:
    1. CosyVoice: https://github.com/FunAudioLLM/CosyVoice
    2. F5-TTS: https://github.com/SWivid/F5-TTS
    3. Vevo1.5 (Amphion框架): https://github.com/open-mmlab/Amphion
    4. CAM++ 说话人编码器 (来自ModelScope): https://www.modelscope.cn/models/iic/speech_campplus_sv_zh-cn_16k-common
    5. Whisper ASR模型: 论文中未提供链接,标准模型可从OpenAI获取。
    6. emotion2vec+ 情感识别模型: 论文中提供了GitHub链接:https://github.com/ddlBoJack/emotion2vec

🏗️ 方法概述和架构

本研究在CosyVoice [du2024cosyvoice] 框架内展开,核心是为其LLM集成动态韵律预测模块。整体架构如图2(a)所示,推理时的输入与生成序列如图2(b)所示。

  1. 基础框架(CosyVoice LLM):原始CosyVoice的LLM(图1(a))以参考说话人嵌入 \(\bm{v}\)、音节级文本嵌入序列 \(\bm{X} = \{\bm{x}_1, \bm{x}_2, ..., \bm{x}_I\}\)(\(I\) 为音节数)以及参考语音的语音令牌为条件,自回归地生成目标语音的语音令牌。它不显式建模韵律。

  2. 动态韵律预测模块:本文方法的核心改造。为预测第 \(i\) 个音节的韵律令牌 \(q_i\),模型引入了一个条件概率分布:

    \[ \bm{y}_i = p(\mathcal{C}^{\rm p} \mid \bm{v}, \bm{X}, q_{1:i-1}, \bm{S}_{1:i-1}) \]

    其中 \(\mathcal{C}^{\rm p}\) 是韵律令牌集。关键输入包括:目标音节序列 \(\bm{X}\)、参考说话人嵌入 \(\bm{v}\),以及所有前序音节的韵律令牌序列 \(q_{1:i-1}\) 和语音令牌序列 \(\bm{S}_{1:i-1}\)(\(\bm{S}_i\) 表示第 \(i\) 音节对应的语音帧令牌索引集)。在生成第一个音节韵律时,前序序列为空。一个特殊的韵律查询嵌入(PQ) 被用作输入,以触发此次韵律预测。预测得到的 \(q_i\) 是从 \(\bm{y}_i\) 采样得到的韵律令牌索引。

  3. 语音令牌生成:获得当前音节的韵律令牌 \(q_i\) 后,LLM基于所有已有信息(包括刚刚预测的 \(q_i\))来生成该音节的语音令牌:

    \[ \bm{z}_{i,t} = p(\mathcal{C}^{\rm s} \mid \bm{v}, \bm{X}, q_{1:i-1}, \bm{S}_{1:i-1}, q_i, s_{i,1:t-1}) \]

    其中 \(\mathcal{C}^{\rm s}\) 是语音令牌集,\(t\) 为帧索引。模型逐帧生成语音令牌,直至遇到音节结束符(EOSL)或序列结束符(EOS)。第一个音节的第一帧(\(t=1\))不依赖于当前音节的前序语音令牌。

  4. 韵律令牌定义:对于每个音节,提取四个特征组成向量 \(\bm{g}_i = [d_i, e_i, h_i, r_i]\):时长 \(d_i\)、平均能量 \(e_i\)、平均音高 \(h_i\) 和音高范围 \(r_i\)(最大最小音高之差)。使用k-means聚类(在WenetSpeech上训练,聚类数512)将该连续向量量化为离散的韵律令牌 \(q_i\)。

  5. 训练损失:采用韵律令牌和语音令牌交叉熵损失的加权和:

    \[ \mathcal{L} = -\alpha \frac{1}{I} \sum_{i=1}^{I} \hat{\bm{y}}_i \log \bm{y}_i - (1-\alpha) \frac{1}{\sum_{i=1}^{I}(T_i+1)} \sum_{i=1}^{I} \sum_{t=1}^{T_i+1} \hat{\bm{z}}_{i,t} \log \bm{z}_{i,t} \]

    其中 \(\hat{\bm{y}}_i\) 和 \(\hat{\bm{z}}_{i,t}\) 是真实令牌的独热编码,\(T_i\) 是第 \(i\) 音节的帧数,\(\alpha\) 是权重超参数(本文设为0.5)。

  6. 推理流程:如图2(b)所示,推理时,LLM按照以下顺序交替生成令牌:1) 预测参考语音的韵律令牌序列作为条件;2) 预测目标语音第一个音节的韵律令牌 \(q_1\);3) 基于 \(q_1\) 生成该音节的所有语音令牌 \(\bm{S}_1\);4) 基于 \(\bm{X}\), \(\bm{v}\), \(q_1\), \(\bm{S}_1\) 预测第二个音节的韵律令牌 \(q_2\);5) 基于 \(q_2\) 和之前的序列生成 \(\bm{S}_2\);如此迭代,直至生成整个序列。最终,语音令牌送入流匹配模块合成波形。

图1

图2

💡 核心创新点

  1. 动态韵律预测范式:针对基于LLM的TTS,提出在生成当前音节语音之前,利用先前已生成的目标语音来动态预测该音节的韵律。这与传统的静态预计算(CoT)或完全隐式建模(CosyVoice基线)形成对比,旨在更好地捕捉目标语音自身连贯的、风格化的韵律模式。
  2. 将生成语音作为韵律预测条件:明确地将之前音节的语音令牌序列 \(\bm{S}_{1:i-1}\) 作为预测当前韵律令牌的条件之一,使得韵律预测能够依赖于生成过程中的实际声学内容,而不仅仅是文本和固定参考。
  3. 在标准框架内的有效集成:将该方法无缝集成到广泛使用的CosyVoice框架中,并通过对比实验验证了其相较于基线和CoT方法在提升说话人相似度方面的优越性。

📊 实验结果

训练设置:使用约50k小时数据(WenetSpeech + Emilia中文子集)在8张MLU 580 GPU上训练800k步,学习率 \(10^{-4}\),warmup 10k步。LLM为14层Transformer,含1024维嵌入和4096维FFN。推理采用top-p (\(p=0.8\)) 和top-k (\(k=25\) for 语音, \(k=15\) for 韵律) 采样。

主观评估:MOS测试(表1)显示,所提方法在自然度上与基线持平或略有提升。

方法ESDInternalAISHELL-3
录音4.21±0.094.16±0.074.18±0.08
CosyVoice(50k)4.01±0.073.97±0.074.06±0.06
CoT4.00±0.093.98±0.084.03±0.10
Proposed4.07±0.063.99±0.074.06±0.07

偏好测试(表2)中,在ESD和Internal数据集上,所提方法被显著偏好(>48%),而在韵律中性的AISHELL-3上优势不明显。

数据集方法A偏好A(%)无偏好(%)偏好B(%)
ESDCosyVoice(50k)28.819.751.5
CoT28.821.450.9
InternalCosyVoice(50k)33.218.648.2
CoT30.921.447.7
AISHELL-3CosyVoice(50k)20.445.933.6
CoT25.940.533.6

客观评估:表3显示,所提方法在三个数据集上均降低了CER(提升可懂度)。在情感评估(ESD, Internal)和韵律特征评估(ESD, AISHELL-3)上,所提方法在多数指标(SIM, ACC, Corr, RMSE)上取得最优。

数据集模型CER情感 SIM↑情感 ACC(%)↑音高 Corr(%)↑音高 RMSE↓能量 Corr(%)↑能量 RMSE↓
ESDCosyVoice(50k)6.380.87584.3279.5283.6194.086.42
CoT6.140.87684.5279.3182.8294.036.39
Proposed5.660.88486.5680.3280.8194.915.93
InternalCosyVoice(50k)13.690.80252.31----
CoT13.60.79950.23----
Proposed10.440.82151.63----
AISHELL-3CosyVoice(50k)11.59--80.4169.9290.596.66
CoT11.61--80.6169.9090.516.52
Proposed10.19--82.5866.0892.665.91

与开源模型对比:表4显示,所提模型(50k小时数据)在韵律丰富的测试集(ESD, Internal)上,主观偏好显著优于使用170k数据训练的CosyVoice开源模型,也优于使用100k数据训练的Vevo1.5和F5-TTS。

数据集模型A偏好A(%)无偏好(%)偏好B(%)p值
ESDVevo1.527.819.452.8<0.01
F5-TTS22.726.450.9<0.01
CosyVoice32.722.444.8<0.01
InternalVevo1.536.416.647.0<0.01
F5-TTS24.115.560.4<0.01
CosyVoice35.426.438.20.10
AISHELL-3Vevo1.523.241.235.6<0.01
F5-TTS21.450.028.6<0.01
CosyVoice29.143.227.70.65

图3

图4

⚖️ 评分理由

  • 创新性 (1.4/2): 动态条件生成的思路有其合理性,但将已生成语音作为韵律预测的条件,技术上属于对现有自回归框架的细微扩展,缺乏根本性的新机制或理论突破。创新程度属于中等。
  • 技术严谨性 (1.3/1.5): 方法描述清晰,公式定义明确。但核心假设(加入 \(\bm{S}_{1:i-1}\) 必然能更好地预测韵律)缺乏理论分析或消融实验验证。α 超参的选取理由未充分说明。
  • 实验充分性 (1.3/1.5)�� 实验设计全面,覆盖主观/客观、多数据集、多对比基线(包括更强的开源模型)。但在关键对比(如与更大模型CosyVoice的对比)中,部分数据集上结果不显著(AISHELL-3, Internal p=0.10)。未提供任何消融实验(如仅使用 \(q_{1:i-1}\) 或仅使用 \(\bm{S}_{1:i-1}\))来证明每个条件的贡献。
  • 清晰度 (1.3/1.5): 论文写作清晰,图表有助于理解。但在方法部分,对于“为什么动态预测更好”的动机阐述不够深入,更多是陈述而非论证。
  • 影响力 (0.7/1.5): 工作对语音合成领域的具体实践者有明确价值,提供了一种改进说话人相似度的可行技术路径。但其技术方案特异性较强,主要限于基于LLM的TTS框架,对更广泛AI社区的潜在影响力有限。
  • 开源 (0.7/1.5): 论文提供了Demo链接和基于CosyVoice的实现,这为复现提供了重要基础。但核心的训练数据、预训练模型权重(尤其是Prosody Token聚类模型)并未开源,完全复现原论文结果存在障碍。
  • 可复现性 (0.9/1.5): 详细的训练超参、模型结构参数和推理设置已给出,结合CosyVoice的开源代码,部分复现是可能的。但训练数据的获取(WenetSpeech需申请)和处理(MFA对齐)流程较为复杂,且缺失部分关键组件(如emotion2vec+模型)的明确链接,增加了完全复现的难度。
  • 工程/实践价值 (0.7/1.0): 方法易于在现有框架内实现,且实验显示能有效提升性能,具有直接的工程应用价值。但增加的条件计算和序列长度可能带来额外的推理开销,论文未讨论这一实践关切。

🚨 局限与问题

  1. 缺乏计算开销分析:动态预测在每个音节生成时都增加了额外的预测步骤和条件输入,理论上会增加推理时间。论文未提供任何关于推理速度(如实时率RTF)与基线的对比,这是一个重要的实践考量。
  2. 训练数据与处理噪声:论文使用约50k小时数据,但处理过程依赖自动语音识别(MFA)来获取音节边界。MFA在复杂语境下可能产生错误,这些错误会直接作为训练目标(韵律特征提取)引入噪声,但论文未讨论此问题的潜在影响及缓解措施。
  3. 韵律表示的局限性:将韵律离散化为聚类令牌是一种简化。k-means聚类基于训练集分布,其泛化能力到未见过的极端韵律模式(如特别夸张的语气)可能受限。论文未讨论聚类数量(512)选择的依据及敏感性。
  4. 评估的过度依赖:核心结论(提升说话人相似度)严重依赖主观偏好测试。虽然测试者为母语者,但未说明其专业背景(是否为语音领域专家?)。此外,在AISHELL-3(中性)上优势微弱,表明方法的提升可能特异于风格丰富的语音,其普适性需谨慎结论。
  5. 未探索的消融与分析:如前所述,缺少关键的消融实验。例如,仅使用历史韵律 \(q_{1:i-1}\) 而不用历史语音 \(\bm{S}_{1:i-1}\) 的模型表现如何?这有助于厘清性能提升究竟来自更长的条件历史,还是来自生成语音本身的声学信息。
  6. 与CoT对比的公平性:CoT方法的韵律令牌在整句生成前一次性预测。动态方法是逐步预测。这种差异可能带来模型容量和优化路径上的不同,而不仅仅是“动态”本身。论文未分析这种差异对结果的影响。

← 返回 2026-06-16 语音/音乐/音频论文速递