📄 End-to-End Training for Discrete Token LLM based TTS System

#语音合成 #多任务学习 #强化学习 #流匹配

7.6/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5

7.6/10 | 前50% | #语音合成 | #多任务学习 | #强化学习 #流匹配 | arxiv

👥 作者与机构

论文作者:Changfeng Gao, Yong Ren, Jun Yuan, Ye Bai, Zhao You, ShiDong Shang。单位未在摘要或作者列表中明确列出,但论文标题和内容表明与小米AI实验室相关。根据作者信息,机构为小米AI实验室与南京大学。

💡 毒舌点评

  1. SOTA声明的谨慎性:论文声称达到“new SOTA result”,但在主实验表格(Table 1)中,与JoyVoice(WER 0.97% zh, 1.69% en)和CosyVoice3-1.5B(WER 1.12% zh, 2.21% en)等模型相比,提升幅度有限(如中文WER从0.97%降至0.78%)。考虑到其使用了0.6B参数的LLM,性能增益是合理的,但“SOTA”的表述可能需要更谨慎地限定在特定模型规模下。
  2. 实验设计的局限:论文的核心实验主要基于内部大规模数据集训练的模型进行自比较(Table 1中的Stage1/2/3和w/o E2E),以及与外部模型的有限对比。然而,论文未提供在相同数据、相同基础模型(如Qwen3-0.6B)上与非E2E训练基线(w/o E2E-training)的直接、公平对比的具体实现细节(如是否使用了完全相同的训练数据子集和超参数),这削弱了“E2E训练关键”这一结论的绝对说服力。
  3. 组件贡献的归因模糊:虽然消融研究(Table 2, 3)移除了\(L_{LM}\)或\(L_{FM}\),证明了它们的重要性,但论文未深入分析三阶段训练中每个阶段(特别是Stage 2的独立微调)对最终性能的具体贡献比例。Stage 2允许为不同模块使用不同数据,这引入了额外变量,其效果与E2E优化本身的效果未被完全解耦。
  4. 理论分析的实用性存疑:Section 2.4的信息论分析将Tokenizer训练形式化为源编码问题,概念上有趣,但公式推导(如公式14)较为初步,且与实验结果的直接关联较弱(如Table 4中H和I的微小差异如何对应显著的性能提升?)。这部分更像理论点缀,而非深入的机理分析。
  5. 开源与可复现性短板:尽管论文在训练细节上描述详尽,但完全未提供代码、模型权重或内部数据集的获取途径。对于一个声称方法更简单、性能更优的框架,缺乏开源极大地限制了社区验证和直接应用其价值。

📌 核心摘要

本文提出了一种用于基于离散令牌的LLM的TTS系统的端到端(E2E)训练框架。该框架统一优化了语音分词器、自回归LLM、基于流匹配(FM)的声码器和一个辅助奖励模型(RM)。核心方法包括:1)通过一阶损失(\(L_1\))联合训练分词器,使其直接适应下游LLM预测、FM重构和RM识别任务;2)通过二阶损失(\(L_2\))在LLM生成的令牌分布上优化系统,缓解训练-测试不匹配;3)设计了三阶段训练流程以稳定优化。实验表明,该框架在Seed-TTS-Eval基准上,使用0.6B LLM和0.5B FM模型,取得了0.78%(中文)和1.56%(英文)的WER,达到了SOTA水平。消融研究验证了各损失项和端到端优化的重要性。理论分析从信息论角度探讨了高质量语音令牌应具备高熵和强时序依赖性。

🔗 开源详情

  • 代码:论文中未提及代码链接

  • 模型权重:论文中未提及模型权重链接

  • 数据集:论文中提到使用了一个大规模的内部TTS数据集,包含约100,000小时中英文语音。数据集并非公开开源,未提供获取链接。

  • Demo:论文中未提及Demo链接

  • 复现材料:论文中未提及训练配置、检查点等具体复现材料的链接或获取方式

  • 论文中引用的开源项目:

    • Whisper-Large-V3:论文中提及用于数据转录,未提供具体链接。
    • FireRedASR:论文中提及用于数据转录,未提供具体链接。
    • DNSMOS:论文中提及用于数据质量评估,未提供具体链接。
    • Emo2Vec-Large:论文中提及用于情绪标签预测,未提供具体链接。
    • CosyVoice3:论文中多次引用作为基线模型,未提供具体链接。
    • Qwen3-0.6B:论文中提及作为语言模型的基础,未提供具体链接。
    • HiFiGAN:论文中提及用于波形合成,未提供具体链接。
    • FSQ (Finite Scalar Quantization):论文中提及用于量化模块,未提供具体链接。
    • AdamW:论文中提及作为优化器,未提供具体链接。
    • DiT (Diffusion Transformer):论文中提及作为流匹配模型架构,未提供具体链接。
    • CTC (Connectionist Temporal Classification):论文中提及作为损失函数,未提供具体链接。
    • Cosine Similarity Loss:论文中提及作为损失函数,未提供具体链接。
    • Cross Entropy Loss:论文中提及作为损失函数,未提供具体链接。
    • Gumbel-Softmax:论文中提及用于梯度传播,未提供具体链接。
    • LibriSpeech:论文中提及用于评估,未提供具体链接。
    • CommonVoice:论文中提及用于评估,未提供具体链接。
    • IEMOCAP:论文中提及用于评估,未提供具体链接。
    • MELD:论文中提及用于评估,未提供具体链接。
    • LibriTTS:论文中提及用于分析,未提供具体链接。
  • 补充链接(自动提取):

    • HuggingFace:https://huggingface.co/Systran/faster-whisper-large-v3

🏗️ 方法概述和架构

论文提出的端到端TTS训练框架旨在将传统流水线中独立训练的模块统一优化。系统架构包含四个核心组件,协同工作流程如下:

  1. 语音分词器 (Speech Tokenizer):
    • 功能:将输入语音波形序列 \(x_{1:T}\) 编码为离散令牌序列 \(c_{1:T}\) 和对应的连续量化表示序列 \(q_{1:T}\)。
    • 结构与实现:基于一个预训练的CTC-ASR系统(使用Conformer编码器),在其内部插入基于有限标量量化(FSQ)的量化模块。采用单码本设置,低秩维度为8,每维3个码,总码本大小为\(3^8 = 6561\)。量化过程为:首先将语音编码为连续表示,然后通过量化模块映射到码本中的最近邻条目,生成离散令牌\(c_i\)和对应的量化向量\(q_i\)(通过查表获得)。
    • 输入输出:输入为原始语音波形 \(x_{1:T}\),输出为离散令牌 \(c_{1:T}\) 和量化向量 \(q_{1:T}\)。
  2. 大语言模型 (LLM):
    • 功能:基于输入文本 \(y_{1:N}\) 和历史语音令牌 \(c_{1:t-1}\),以自回归方式预测下一个语音令牌 \(c_t\) 的概率分布。
    • 结构与实现:采用Qwen3-0.6B模型,并将词汇表扩展6561个语音令牌和4个特殊控制令牌。其语音令牌嵌入层通过一个轻量级线性适配层与分词器的FSQ码本绑定,确保表示空间一致。预测时,模型输出隐状态 \(h_t^{LM}\),通过计算与所有码本条目的相似度(公式8)来生成下一个令牌的概率分布。
    • 输入输出:输入为文本序列 \(y_{1:N}\) 和(量化后的)历史语音表示序列 \(q_{1:t-1}\),输出为下一令牌的概率分布 \(p(c_t | c_{1:t-1}, y_{1:N})\)。
  3. 流匹配模型 (Flow-Matching Model, FM):
    • 功能:以语音令牌序列(或其量化表示)为条件,通过学习速度场,将随机噪声逐步还原为目标语音波形(或梅尔频谱)。
    • 结构与实现:采用Diffusion Transformer (DiT) 架构,参数规模0.5B,设计参考CosyVoice3。训练时,对干净语音 \(x_{1:T}\) 添加噪声 \(n_{1:T}\) 得到噪声版本,模型预测从噪声到干净语音的速度场(公式5,6)。它直接以量化向量 \(q_{1:T}\) 或LLM隐状态作为条件输入,而非重新学习一个嵌入层。
    • 输入输出:输入为(预测的)语音表示序列(\(q_{1:T}\) 或 \(h^{LM}_{1:T}\))和带噪样本及噪声级别 \(\mu\),输出为预测的速度场。
  4. 奖励模型 (Reward Model, RM):
    • 功能:对语音分词器的输出表示 \(q_{1:T}\) 进行多任务识别,为E2E训练提供监督信号,引导分词器编码对识别任务有用的声学和语义信息。
    • 结构与实现:共享分词器的Conformer编码器。在编码器后接入三个任务头:1)ASR头,使用CTC损失 \(L_{ASR}\) 预测文本转录;2)说话人情绪识别(SER)头,使用交叉熵损失 \(L_{SER}\);3)说话人识别(SPK)头,使用余弦相似度损失 \(L_{SPK}\) 与预训练x-Vector模型的嵌入进行对齐。RM总损失为三者之和 \(L_{RM} = L_{ASR} + L_{SER} + L_{SPK}\)。
    • 输入输出:输入为分词器的量化表示 \(q_{1:T}\),输出为各任务的预测结果,用于计算损失。

数据流与交互:原始语音\(x\)进入分词器,得到\(c\)和\(q\)。\(q\)作为统一的表示,分别送入RM(进行多任务识别)、FM(进行语音重构)、LLM(进行自回归预测)。在E2E训练中,所有模块的梯度可以通过\(q\)或离散令牌(借助Gumbel-Softmax)回传,实现联合优化。

三阶段训练流程:

  • Stage 1(联合训练):使用一阶损失 \(L_1 = \alpha L_{LM} + \beta L_{RM} + \gamma L_{FM}\)(权重0.1, 1.0, 1.0)同时更新所有组件(分词器、LLM、FM、RM)的参数。目标是让分词器学习到同时适应预测、重构和识别的表示。
  • Stage 2(独立微调):冻结分词器参数。分别独立微调RM、FM和LLM。此阶段允许为各模块使用不同特性的数据(如为RM增加噪声数据,为FM/LM使用干净宽带数据)。
  • Stage 3(强化学习):冻结RM参数。引入二阶损失 \(L_2 = L_{LRM} + L_{LFM}\),其中 \(L_{LRM}\) 和 \(L_{LFM}\) 是使用LLM预测的令牌(通过Gumbel-Softmax采样或直接使用隐状态 \(h^{LM}\))计算得到的RM损失和FM损失。此阶段通过Gumbel-Softmax使梯度可反向传播回LLM,使其生成的令牌更利于FM重构和RM识别,从而缓解训练-测试不匹配。

图1

图2

💡 核心创新点

  1. 完全端到端训练框架:首次提出将语音分词器、自回归LLM、流匹配声码器和辅助奖励模型在统一框架下进行端到端优化,而非传统的独立训练级联。
  2. 基于下游任务的分词器训练:设计了一阶损失,使分词器的训练目标直接与下游LLM预测、FM语音重构和RM多任务识别任务对齐,取代了与最终TTS目标可能错位的代理任务(如纯ASR或SSL)。
  3. 基于生成分布的二阶损失强化:提出了在LLM自身的生成分布(而非真实令牌分布)上计算重构和识别损失,并通过Gumbel-Softmax实现梯度回传,从而对LLM进行强化学习,使其输出令牌更符合下游模块的需求,缓解了训练与推理时的分布偏移。
  4. 三阶段训练策略:为稳定这一复杂的E2E优化过程,设计了从联合训练到独立微调再到强化学习的三阶段流程。

📊 实验结果

论文在以下方面进行了实验验证:

  1. 零样本TTS主任务性能(Table 1):在SEED-TTS测试集上,本文提出的E2E-TTS(Stage3)取得了0.78%(中文)和1.56%(英文)的WER,在内容一致性上优于或持平于其他SOTA模型(如JoyVoice:0.97%/1.69%, CosyVoice3-1.5B:1.12%/2.21%)。说话人相似度(SS)也达到可比水平(中文0.781,英文0.705)。消融显示,去除E2E训练(w/o E2E-training)性能下降(0.87%/1.89%),证明了E2E优化的有效性。各训练阶段(Stage1->2->3)带来了持续的WER改善。

    模型test-zh CER(%)↓test-zh SS↑test-en WER(%)↓test-en SS↑test-hard CER(%)↓test-hard SS↑
    Human1.260.7552.140.734--
    Seed-TTS [1]1.120.7962.250.7627.590.776
    CosyVoice3-1.5B [5]1.120.7812.210.7205.830.758
    JoyVoice [22]0.970.7861.690.7365.550.746
    E2E-TTS-Stage11.160.7752.090.6907.680.752
    E2E-TTS-Stage20.860.7751.720.6967.210.752
    E2E-TTS-Stage30.780.7811.560.7056.610.759
    w/o E2E-training0.870.7601.890.6827.350.745
  2. FM语音重构能力(Table 2):在使用真实令牌重构的条件下,E2E训练提升了FM的质量。从Stage1到Stage2,WER和SS均有明显提升。消融表明,\(L_{FM}\)和\(L_{LM}\)对于重构质量都至关重要。

    模型test-zh CER(%)↓test-zh SS↑test-en WER(%)↓test-en SS↑CV3-Subject WER(%)↓CV3-Subject SS↑
    S3S-Tokenizer-FSQ [6]3.310.7874.090.70911.500.761
    E2E-TTS-Stage13.360.8143.420.68811.710.762
    E2E-TTS-Stage23.050.8253.260.70411.670.781
    E2E-TTS-Stage32.930.8263.080.70211.560.780
    w/o \(L_{LM}\)3.120.8123.450.69111.560.774
    w/o \(L_{LM}\) and \(L_{FM}\)3.680.7994.110.66212.300.768
  3. RM识别能力(Table 3):RM在离散表示上展现了稳健的ASR和SER性能。E2E训练(Stage2)相比基线(如S3S-Tokenizer)在中文ASR上取得了更低的WER。\(L_{FM}\)和\(L_{LM}\)对RM性能也有正面贡献。

    模型ASR WER(%)SER WA(%)
    CMV-zhCMV-enLS-cleanIEMOCAPMELD
    Whisper-large-V3 [14]12.409.662.56--
    S3S-Tokenizer-FSQ [6]7.2710.67---
    E2E-TTS-Stage16.8514.622.27--
    E2E-TTS-Stage26.5014.532.2260.855.6
    w/o \(L_{LM}\)7.1614.772.2360.254.1
    w/o \(L_{LM}\) and \(L_{FM}\)7.6916.532.9659.555.7
  4. 令牌特性分析(Table 4 & Figure 3):在LibriTTS数据集上的分析显示,E2E训练(加入\(L_{FM}\)和\(L_{LM}\))使令牌分布更平坦(图3a, b),信息熵\(H(X_n)\)和互信息\(I(X_{n+1};X_n)\)略有提高,表明码本利用更充分,时序依赖更强。

    Tokenizer\(H(X_n)\)\(I(X_{n+1};X_n)\)
    RM only10.9052.50
    RM + FM11.2542.53
    RM + FM + LM11.3632.55

图3

图4

⚖️ 评分理由

  • 创新性 (1.4/2):提出了完整的E2E训练框架,将分词器、LLM、FM和RM统一优化,并设计了巧妙的二阶损失(\(L_2\))以利用生成分布。这比现有仅部分联合训练的方法(如[18,19,22])更进一步。然而,E2E优化的概念并非全新,核心创新在于框架的完整性和\(L_2\)损失的具体实现。
  • 技术严谨性 (1.1/1.5):方法描述清晰,损失函数定义明确。三阶段训练策略考虑了优化稳定性。然而,信息论分析(Section 2.4)较为表面,未深入解释为何特定的熵和互信息提升能带来显著的TTS性能增益。Gumbel-Softmax在\(L_2\)中的具体实现细节(如温度设置)未充分讨论。
  • 实验充分性 (0.9/1.5):实验设计存在明显不足。1) 核心E2E对比(w/o E2E-training)的具体设置(是否使用完全相同的训练数据子集)未说明,削弱了结论强度。2) 缺少在公开基准(如LibriSpeech)上与其他E2E方法的直接对比。3) 主实验(Table 1)中,与部分SOTA模型(如Qwen3-TTS)的对比不完整(缺少SS)。4) 虽然消融了\(L_{LM}\)和\(L_{FM}\),但未消融关键的三阶段设计(如只用Stage1+Stage3)��\(L_{RM}\)的作用。
  • 清晰度 (1.3/1.5):论文结构清晰,公式推导和算法描述易于理解。表格和图示辅助了说明。个别术语(如“first-order loss”、“second-order loss”)的命名虽非标准,但在上下文中定义清晰。
  • 影响力 (1.0/2):该工作为改进离散令牌TTS系统提供了一个有前景的方向,特别是统一的E2E训练框架和奖励模型引导。然而,其影响力受限于:1) 依赖大规模私有数据(10万小时),限制了大多数研究者的直接验证;2) 核心实验缺少与其他E2E基线(如在相同规模模型上)的公平对比;3) 所提出的改进幅度(如WER从0.97%到0.78%)是否足以引发大规模范式转变存疑。
  • 开源 (0.2/1.5):论文未提供任何代码、模型权重或训练配置的链接。内部数据集也未开放。这几乎完全阻止了社区的复现和跟进,严重降低了该工作的即时可用价值。 可复现性 (1.1/1.5):论文在模型架构(参数量)、训练超参数(优化器、学习率、权重)、损失函数细节上提供了非常详尽的描述,理论上在拥有相同数据和计算资源(64H20 GPU)的条件下可以复现。然而,未开源代码和数据集使得实际复现对绝大多数读者而言不可能。
  • 工程/实践价值 (1.5/1.5):该工作的工程价值很高。它提出了一套完整的、可实践的E2E训练流程,并提供了详细的超参数设置,这对工业界开发高效、高性能的TTS系统具有直接指导意义。其简化训练流程的宣称也具有吸引力。

🚨 局限与问题

  1. 数据不透明与可复现性鸿沟:最大的局限在于依赖约10万小时的未公开内部数据集进行训练。这使得外部研究者无法复现其核心实验结果,也无法在其他数据集或场景下验证该方法的泛化能力。论文声称方法“更简单”,但数据优势是其成功的关键因素之一,这一点未被充分讨论。
  2. 评估指标的局限性:论文主要依赖客观指标(WER/CER, SS)。对于TTS系统,尤其是声称改善“表达力”和“自然度”的系统,缺少人类主观评估(MOS, CMOS)是一个重大缺陷。仅靠客观指标无法完全反映合成语音的整体质量和用户体验。
  3. 训练-测试不匹配的缓解程度未量化:\(L_2\)损失旨在缓解训练(用真实令牌)与测试(用预测令牌)之间的不匹配。然而,论文未设计实验来直接测量这种不匹配的减少程度(例如,比较FM在训练和测试时接受不同分布输入时的性能差异),因此无法量化\(L_2\)损失在这方面的具体贡献。
  4. 三阶段训练的必要性存疑:Stage 2(冻结分词器,独立微调)的必要性未被充分证明。它引入了一个额外的步骤,并允许使用不同数据,这可能混淆了E2E优化和数据增强的效果。是否有更简单的一阶段或两阶段E2E训练能达到类似效果?
  5. 模型规模的普适性未验证:论文仅展示了0.6B LLM + 0.5B FM的模型规模。该E2E训练框架在更大规模模型(如7B LLM)上是否依然有效且高效?在小模型(如<100M参数)上是否也能带来显著增益?这关乎方法的普适性。
  6. 奖励模型的任务局限:RM仅包含ASR、SER和SPK任务。是否涵盖了TTS质量的关键维度?例如,韵律自然度、发音清晰度等是否可以通过更合适的任务来建模?多任务损失简单求和(公式4)是否是最优的组合方式?

← 返回 2026-06-09 语音/音乐/音频论文速递