📄 WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

#语音合成 #端到端 #扩散模型 #流匹配 #语音生成 #多模态模型

9.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5

🔥 9.2/10 | 前25% | #语音合成 | #端到端 | #扩散模型 #流匹配 | arxiv

👥 作者与机构

作者: Wenxi Chen, Dongya Jia, Yushen Chen, Zhikang Niu, Yuzhe Liang, Xiquan Li, Ruiqi Yan, Ziyang Ma, Guanrou Yang, Sanyuan Chen, Yue Wang, Zhuo Chen, Kai Yu, Xie Chen. 机构: 1) 上海交通大学, 2) 上海创新研究院, 3) 字节跳动 Seed.

💡 毒舌点评

这篇论文像一位执着的极客,非要绕开所有“近路”(VAE,神经编解码器),直接在原始的、未压缩的音频波形上“硬碰硬”地构建一个扩散模型。其核心故事线——“直接建模原始波形是可行的,且能接近当前最优”——是清晰且有吸引力的。论文在技术细节的打磨上(如方差对齐、噪声调度)下足了功夫,实验也比较扎实。然而,审稿人会指出几个关键点:1)“首个接近SOTA”的说法需要更严谨地界定“接近”的程度,尤其是在说话人相似度上仍有可见差距;2)方法部分的一些创新(如多尺度梅尔损失)属于已有技术的合理组合,而非根本性突破;3)论文声称的“简化流水线”优势,在工程实现和训练效率上是否真的成立,缺乏深入讨论。总体而言,这是一项扎实的工程性贡献,为波形建模这条路铺下了重要基石,但距离颠覆现有范式尚有距离。

📌 核心摘要

WavTTS是一个端到端的零样本文本到语音合成框架,其核心主张是:在不依赖预训练自编码器、神经编解码器或声码器等中间压缩表示的情况下,直接对原始波形进行建模,也能实现高质量的语音生成。为此,论文基于流匹配(Flow Matching)和扩散Transformer(DiT)架构,提出了一系列针对波形空间优化的关键设计,包括波形分块、直接预测干净波形的xx-prediction目标、多尺度梅尔谱图感知监督、信号噪声方差对齐以及噪声偏移时间调度。实验表明,WavTTS在标准零样本TTS基准测试上,在可懂度(WER)和自然度(UTMOS)上取得了优异成绩,甚至在某些指标上超过了Ground Truth,证明了直接在高维波形空间进行生成建模的可行性。

🔗 开源详情

  • 代码:https://github.com/cwx-worst-one/WavTTS (论文中明确提供)
  • 模型权重:论文中未提供具体的模型权重托管链接(如HuggingFace或ModelScope)。项目页面(https://wavtts.github.io)可能存在权重链接,但论文正文未提及。
  • 数据集:
    • 训练数据集:Emilia数据集(约95K小时),通过引用的论文获取。
    • 评估数据集:Seed-TTS test-en和test-zh。这些是用于零样本评估的基准集,其获取方式未在论文中详细说明。
  • Demo:论文提供了项目页面链接:https://wavtts.github.io,可能包含演示。
  • 复现材料:论文在附录7(Implementation Details)中提供了非常详细的模型架构和训练配置。

🏗️ 方法概述和架构

WavTTS是一个非自回归(NAR)的零样本TTS模型,其架构和训练流程可概括为以下核心组件与数据流:

  1. 问题定义与建模范式:模型旨在解决文本到语音的生成任务,采用基于流匹配(Flow Matching) 的扩散模型范式。具体而言,使用线性插值路径 \(x_t = (1-t)x_0 + t x_1\),其中 \(x_1\) 是目标干净波形,\(x_0\) 是标准高斯噪声,\(t \in [0, 1]\) 是时间步。

  2. 预测目标:xx-prediction:与传统预测速度场 \(v_t = x_1 - x_0\) 的流匹配目标不同,WavTTS采用 xx-prediction,即网络直接预测干净波形 \(x_1\)。网络输出 \(x_{\theta} = \mathrm{net}_{\theta}(x_t, t)\),其对应的速度场通过 \(v_{\theta} = (x_{\theta} - x_t)/(1-t)\) 计算。训练损失为:

    \[\mathcal{L}_{\mathrm{FM}} = \mathbb{E}_{t,x_0,x_1}\left[\left\|\frac{(x_{\theta} - x_1)\odot m}{1-t}\right\|_2^2\right]\]

    其中 \(m\) 是掩码,表示只在需要生成的语音区域计算损失。这种目标便于与多尺度梅尔谱图损失结合。

  3. 输入处理:波形分块(Patchification):为了解决原始波形序列过长的问题,输入的高维波形被切分为非重叠的块。具体地,1D波形被分块为长度 \(F=160\) 的片段,得到形状为 \(\mathbb{R}^{N \times F}\) 的序列,其中 \(N = \lceil T/F \rceil\)(\(T\) 为波形总采样点数)。这使得序列长度减少了160倍(对于16kHz音频,帧率从16000 Hz降至100 Hz)。

  4. 条件注入与对齐:

    • 文本条件:文本(双语拼音/字母)经过 ConvNeXt V2 文本编码器编码,然后通过填充与音频块序列长度对齐,实现隐式的文本-音频对齐。
    • 音频上下文:在零样本语音填充(Speech-Infilling)任务中,参考音频(prompt)作为上下文提供,与加噪的波形一同输入。
    • 时间步条件:采样得到的时间步 \(t\) 通过 adaLN-Zero 机制注入到Transformer中。
  5. 骨干网络:扩散Transformer(DiT):核心生成网络采用 DiT 架构,并集成了 RMSNorm 和 RoPE。输入是拼接后的音频块嵌入和文本嵌入。网络通过多层Transformer块进行去噪预测,最终通过线性层输出与输入音频块同形状的预测结果。

  6. 辅助监督:多尺度梅尔谱图损失:为了提供感知引导,加速收敛并提升自然度,引入辅助损失。利用xx-prediction直接得到预测波形 \(x_{\theta}\),计算其与目标波形 \(x_1\) 在多个频谱分辨率下的梅尔谱图L1距离。损失计算仅限于掩码区域 \(m\)。最终训练目标为 \(\mathcal{L} = \mathcal{L}_{\mathrm{FM}} + \lambda_{\mathrm{mel}}\mathcal{L}_{\mathrm{mel}}\)。

  7. 训练优化:信号噪声方差对齐与噪声调度:

    • 方差对齐:由于波形方差(~0.12)远小于高斯噪声方差(1),训练前对目标波形 \(x_1\) 进行常数缩放 \(x'_1 = k \cdot x_1\),使得 \(\sigma_{x'_1} \approx 1\)。这改善了信噪比(SNR)轨迹。计算梅尔损失时使用缩放前的原始波形。
    • 时间步采样:训练时不采用均匀采样,而是从LogitNormal分布 \(t \sim \mathrm{LogitNormal}(\mu, \sigma^2)\) 采样时间步,其中 \(\mu < 0\)。这相当于对损失函数进行隐式重加权,使模型更关注高噪声(低SNR)区域,学习粗结构。
  8. 推理过程:从高斯噪声 \(x_0\) 出发,使用欧拉方法在离散时间步上求解常微分方程(ODE)。推理时间步序列由PolyShift调度生成,该调度结合了多项式变换和时间偏移函数,将更多的求解步数分配到高噪声的初始阶段,以改善生成质量。同时使用分类器引导(CFG) 来增强条件生成。

图1

图2

💡 核心创新点

  1. 范式探索:首次系统性地证明,在先进的流匹配和DiT框架下,直接对原始波形进行建模,能够实现性能接近(在某些指标上甚至超越)主流基于压缩表示的SOTA零样本TTS模型,挑战了“必须依赖中间压缩表示”的常规假设。
  2. 针对性设计:提出并验证了一系列为高维波形空间生成优化的关键技术组合:
    • xx-prediction目标:替代传统速度场预测,更稳定且便于集成辅助损失。
    • 多尺度梅尔谱图监督:作为感知损失,提供频谱层面的引导,有效提升收敛速度和语音自然度。
    • 信号噪声方差对齐:通过简单缩放解决波形与噪声的尺度不匹配问题,优化SNR轨迹。
    • 噪声偏移时间调度:在训练和推理阶段均将计算资源向高噪声区域倾斜,这对波形生成的质量至关重要。
  3. 实证分析:进行了全面的消融研究和对比实验,不仅验证了上述设计的有效性,还对比了波形、STFT、MDCT等不同声学表示在流匹配框架下的表现,突出了直接波形建模的简洁与高效。

📊 实验结果

论文在多个基准上进行了评估,主要结果如下:

  1. 零样本TTS基准测试 (Seed-TTS benchmark)
    ModelParamsData (hrs)Seed-TTS test-enSeed-TTS test-zh

| Ground Truth | – | – | 1.79 | 0.73 | 3.53 | 1.25 | 0.75 | 2.78 | | AR Models† | | | | | | | | | | CosyVoice | 416M | 170K Multi. | 4.29 | 0.61 | – | 3.63 | 0.72 | – | | CosyVoice 2 | 618M | 167K Multi. | 2.57 | 0.65 | – | 1.45 | 0.75 | – | | Llasa-1B | 1370M | 250K Multi. | 3.22 | 0.57 | – | 1.89 | 0.67 | – | | Spark-TTS | 507M | 102K Multi. | 1.98 | 0.58 | – | 1.20 | 0.67 | – | | NAR Latent/Mel-Spectrogram Models | | | | | | | | | | MaskGCT | 1048M | 100K Emilia | 2.36 | 0.71 | 3.57 | 2.48 | 0.77 | 2.64 | | E2-TTS | 333M | 100K Emilia | 2.21 | 0.71 | 3.20 | 1.97 | 0.73 | 2.27 | | F5-TTS | 336M | 100K Emilia | 1.65 | 0.66 | 3.73 | 1.55 | 0.75 | 2.94 | | ZipVoice | 123M | 100K Emilia | 1.60 | 0.70 | 3.83 | 1.40 | 0.75 | 3.15 | | LongCat-AudioDiT | 1420M | 100K Multi. | 1.94 | 0.76 | 3.80 | 1.10 | 0.81 | 3.16 | | NAR Waveform Space Models | | | | | | | | | | WavTTS | 673M | 100K Emilia | 1.50 | 0.65 | 3.92 | 1.59 | 0.73 | 3.08 |

  1. 与端到端语音生成模型比较

    ModelLJSpeechLibriSpeech-PC
    WER(%) ↓UTMOS ↑
    Ground Truth3.424.36
    WaveGrad 225.193.24
    VITS\(_{\mathrm{VCTK}}\)9.344.06
    VITS\(_{\mathrm{LJ}}\)3.724.37
    JETS3.734.36
    WavTTS3.434.39
  2. 核心消融实验

  • 预测目标与梅尔损失权重:xx-prediction优于v-prediction;梅尔损失权重 \(\lambda_{\mathrm{mel}}=0.05\) 取得最佳平衡,无梅尔损失(\(\lambda_{\mathrm{mel}}=0\))导致性能全面下降,过大权重(0.2, 0.5)同样有害。
  • 波形缩放因子k:\(k=9\) (与Emilia数据方差匹配) 效果最佳;\(k=1\) (无缩放) 导致严重性能下降;\(k=5\) 虽然WER略低,但SIM-o和UTMOS更差且有听觉伪影。
  • 训练时间步调度:采用LogitNormal分布 (\(\mu<0\)) 采样时间步(如\(\mu=-0.8, \sigma=0.8\))显著加速收敛并提升性能,过于激进的偏移 (\(\mu=-1.2\)) 则损害说话人相似度和自然度。
  • 推理时间步调度:提出的PolyShift调度优于均匀采样和Sway Sampling,能在WER、SIM-o和UTMOS间取得更好平衡。
  1. 缩放行为:数据规模(从585小时的LibriTTS到100K小时的Emilia)和模型规模(从340M到673M)的增加都能带来性能提升,但模型缩放的效益依赖于足够的数据量。

  2. 声学表示对比:在相同流匹配框架下,直接波形建模在收敛速度和最终性能上均优于STFT和MDCT等无损频域表示,也优于常用的有损梅尔谱图表示。

图3

图4

⚖️ 评分理由

  • 创新性 (1.6/2):论文的核心创新在于将先进的流匹配-DiT框架成功应用于高维原始波形的零样本TTS,并证明了其可行性,这对简化TTS流水线有指导意义。其中的xx-prediction、方差对齐、噪声调度等设计是有效的工程优化,但部分灵感来源于视觉生成领域(如JiT),原创性略有折扣。
  • 技术严谨性 (1.3/1.5):理论推导清晰,从FM目标到xx-prediction的等价转换,以及噪声调度的隐式损失重加权解释都很扎实。实验设计全面,消融研究充分验证了每个设计选择。不足之处在于对多尺度梅尔损失的计算开销、方差对齐中固定\(k\)值的潜在局限性讨论不足。
  • 实验充分性 (1.4/1.5):实验非常充分。在标准零样本基准、与传统端到端模型的对比、以及多方面的消融研究(目标、调度、缩放、表示)上都提供了详实的数据。覆盖了英语和中文。主要缺陷是缺乏对推理速度(NFE与质量权衡)和训练成本的定量分析与讨论。
  • 清晰度 (1.3/1.5):论文结构清晰,图表(如图2, 4, 6)有效辅助了方法理解。然而,方法部分(Section 3)的信息密度很高,一些关键细节(如CFG的实现、文本编码器的具体结构)需要仔细阅读附录才能完全把握。
  • 影响力 (1.5/1.5):影响力显著。它为“是否需要中间表示”这一TTS领域的基本问题提供了一个有说服力的新答案,开辟了直接波形生成这一有潜力的方向,可能激励后续在效率、质量和应用范围上的进一步探索。
  • 开源 (1.0/1.5):论文提供了代码仓库链接(https://github.com/cwx-worst-one/WavTTS),这是值得肯定的。然而,未明确提供预训练模型权重的下载链接(如HuggingFace),也未说明评估数据集(Seed-TTS)的获取方式,这限制了复现的便利性。
  • 可复现性 (0.8/1.0):论文在附录中提供了详细的实现细节(模型配置、训练超参),代码也已开源,这为复现奠定了良好基础。主要障碍是缺乏预训练模型和评估数据集的直接获取途径。
  • 工程/实践价值 (0.9/1.0):工程价值很高。它展示了一种更简洁的端到端TTS实现路径,避免了多个预训练模型的复杂流水线。提出的各项优化技术(分块、调度、对齐)具有通用性,可为其他波形生成任务提供参考。但训练一个高质量的波形模型所需的数据和计算资源门槛依然很高。

🚨 局限与问题

  1. 说话人相似度瓶颈:尽管在可懂度和自然度上表现出色,WavTTS的SIM-o指标仍显著落后于LongCat-AudioDiT等顶尖的潜在空间模型。论文将此归因于波形空间的高维复杂性,但这实际上暴露了该方法在音色建模能力上的核心局限,可能需要专门的架构或损失来针对性提升。
  2. 训练与推理效率未被充分讨论:论文声称简化了流水线,但未报告模型的训练时间、FLOPs以及推理延迟(RTF)。直接在原始波形上操作(即使分块后)的计算成本很可能高于在压缩表示上操作,这是一个重要的实践考量,缺失讨论。
  3. 泛化性验证不足:论文主要在英语和中文上验证。对于声调语言、节奏更复杂或低资源语言,模型的表现未知。此外,评估数据集(如Seed-TTS)的具体构成和来源未详细说明,可能影响结果的普遍性。
  4. 消融实验的深度局限:虽然进行了大量消融,但一些关键设计选择缺乏更深层次的探索。例如:
    • 梅尔损失的尺度:为何选择这七个特定的梅尔尺度?是否有更优的配置?
    • 固定缩放因子\(k\):\(k=9\)是针对Emilia数据集统计得出的,对于其他数据分布是否普适?是否可采用自适应方差对齐?
    • 噪声调度的动态性:论文最后提到探索“动态采样调度”,但未在当前工作中实现,这是一个有价值的未来方向。
  5. 对比基线的潜在不公平性:在表2中,与VITS和JETS等“端到端”模型比较时,WavTTS使用了一个固定的LJSpeech音频作为prompt进行零样本合成,而这些基线是在单说话人数据上监督训练的。这种比较设置虽然有其道理(展示零样本能力),但可能低估了监督训练模型在目标域内的潜力,需要更细致的对比分析。
  6. 声称与差距:论文声称“接近SOTA”,这在WER和UTMOS上是成立的,但SIM-o上的差距是明确的。结论应更平衡地反映这一现状,避免给读者造成“全面超越或持平”的错误印象。

📷 论文图片

图5


← 返回 2026-06-03 语音/音乐/音频论文速递