📄 WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

#语音合成 #端到端 #扩散模型 #流匹配 #语音生成 #多模态模型

9.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5

🔥 9.2/10 | 前25% | #语音合成 | #端到端 | #扩散模型 #流匹配 | arxiv

👥 作者与机构

作者: Wenxi Chen, Dongya Jia, Yushen Chen, Zhikang Niu, Yuzhe Liang, Xiquan Li, Ruiqi Yan, Ziyang Ma, Guanrou Yang, Sanyuan Chen, Yue Wang, Zhuo Chen, Kai Yu, Xie Chen. 机构: 1) 上海交通大学, 2) 上海创新研究院, 3) 字节跳动 Seed.

💡 毒舌点评

这篇论文像一位执着的极客，非要绕开所有“近路”（VAE，神经编解码器），直接在原始的、未压缩的音频波形上“硬碰硬”地构建一个扩散模型。其核心故事线——“直接建模原始波形是可行的，且能接近当前最优”——是清晰且有吸引力的。论文在技术细节的打磨上（如方差对齐、噪声调度）下足了功夫，实验也比较扎实。然而，审稿人会指出几个关键点：1）“首个接近SOTA”的说法需要更严谨地界定“接近”的程度，尤其是在说话人相似度上仍有可见差距；2）方法部分的一些创新（如多尺度梅尔损失）属于已有技术的合理组合，而非根本性突破；3）论文声称的“简化流水线”优势，在工程实现和训练效率上是否真的成立，缺乏深入讨论。总体而言，这是一项扎实的工程性贡献，为波形建模这条路铺下了重要基石，但距离颠覆现有范式尚有距离。

📌 核心摘要

WavTTS是一个端到端的零样本文本到语音合成框架，其核心主张是：在不依赖预训练自编码器、神经编解码器或声码器等中间压缩表示的情况下，直接对原始波形进行建模，也能实现高质量的语音生成。为此，论文基于流匹配（Flow Matching）和扩散Transformer（DiT）架构，提出了一系列针对波形空间优化的关键设计，包括波形分块、直接预测干净波形的xx-prediction目标、多尺度梅尔谱图感知监督、信号噪声方差对齐以及噪声偏移时间调度。实验表明，WavTTS在标准零样本TTS基准测试上，在可懂度（WER）和自然度（UTMOS）上取得了优异成绩，甚至在某些指标上超过了Ground Truth，证明了直接在高维波形空间进行生成建模的可行性。

🔗 开源详情

代码：https://github.com/cwx-worst-one/WavTTS （论文中明确提供）
模型权重：论文中未提供具体的模型权重托管链接（如HuggingFace或ModelScope）。项目页面（https://wavtts.github.io）可能存在权重链接，但论文正文未提及。
数据集：
- 训练数据集：Emilia数据集（约95K小时），通过引用的论文获取。
- 评估数据集：Seed-TTS test-en和test-zh。这些是用于零样本评估的基准集，其获取方式未在论文中详细说明。
Demo：论文提供了项目页面链接：https://wavtts.github.io，可能包含演示。
复现材料：论文在附录7（Implementation Details）中提供了非常详细的模型架构和训练配置。

🏗️ 方法概述和架构

WavTTS是一个非自回归（NAR）的零样本TTS模型，其架构和训练流程可概括为以下核心组件与数据流：

问题定义与建模范式：模型旨在解决文本到语音的生成任务，采用基于流匹配（Flow Matching）的扩散模型范式。具体而言，使用线性插值路径 \(x_t = (1-t)x_0 + t x_1\)，其中 \(x_1\) 是目标干净波形，\(x_0\) 是标准高斯噪声，\(t \in [0, 1]\) 是时间步。
预测目标：xx-prediction：与传统预测速度场 \(v_t = x_1 - x_0\) 的流匹配目标不同，WavTTS采用 xx-prediction，即网络直接预测干净波形 \(x_1\)。网络输出 \(x_{\theta} = \mathrm{net}_{\theta}(x_t, t)\)，其对应的速度场通过 \(v_{\theta} = (x_{\theta} - x_t)/(1-t)\) 计算。训练损失为：
\[\mathcal{L}_{\mathrm{FM}} = \mathbb{E}_{t,x_0,x_1}\left[\left\|\frac{(x_{\theta} - x_1)\odot m}{1-t}\right\|_2^2\right]\]
其中 \(m\) 是掩码，表示只在需要生成的语音区域计算损失。这种目标便于与多尺度梅尔谱图损失结合。
输入处理：波形分块（Patchification）：为了解决原始波形序列过长的问题，输入的高维波形被切分为非重叠的块。具体地，1D波形被分块为长度 \(F=160\) 的片段，得到形状为 \(\mathbb{R}^{N \times F}\) 的序列，其中 \(N = \lceil T/F \rceil\)（\(T\) 为波形总采样点数）。这使得序列长度减少了160倍（对于16kHz音频，帧率从16000 Hz降至100 Hz）。
条件注入与对齐：
- 文本条件：文本（双语拼音/字母）经过 ConvNeXt V2 文本编码器编码，然后通过填充与音频块序列长度对齐，实现隐式的文本-音频对齐。
- 音频上下文：在零样本语音填充（Speech-Infilling）任务中，参考音频（prompt）作为上下文提供，与加噪的波形一同输入。
- 时间步条件：采样得到的时间步 \(t\) 通过 adaLN-Zero 机制注入到Transformer中。
骨干网络：扩散Transformer（DiT）：核心生成网络采用 DiT 架构，并集成了 RMSNorm 和 RoPE。输入是拼接后的音频块嵌入和文本嵌入。网络通过多层Transformer块进行去噪预测，最终通过线性层输出与输入音频块同形状的预测结果。
辅助监督：多尺度梅尔谱图损失：为了提供感知引导，加速收敛并提升自然度，引入辅助损失。利用xx-prediction直接得到预测波形 \(x_{\theta}\)，计算其与目标波形 \(x_1\) 在多个频谱分辨率下的梅尔谱图L1距离。损失计算仅限于掩码区域 \(m\)。最终训练目标为 \(\mathcal{L} = \mathcal{L}_{\mathrm{FM}} + \lambda_{\mathrm{mel}}\mathcal{L}_{\mathrm{mel}}\)。
训练优化：信号噪声方差对齐与噪声调度：
- 方差对齐：由于波形方差（~0.12）远小于高斯噪声方差（1），训练前对目标波形 \(x_1\) 进行常数缩放 \(x'_1 = k \cdot x_1\)，使得 \(\sigma_{x'_1} \approx 1\)。这改善了信噪比（SNR）轨迹。计算梅尔损失时使用缩放前的原始波形。
- 时间步采样：训练时不采用均匀采样，而是从LogitNormal分布 \(t \sim \mathrm{LogitNormal}(\mu, \sigma^2)\) 采样时间步，其中 \(\mu < 0\)。这相当于对损失函数进行隐式重加权，使模型更关注高噪声（低SNR）区域，学习粗结构。
推理过程：从高斯噪声 \(x_0\) 出发，使用欧拉方法在离散时间步上求解常微分方程（ODE）。推理时间步序列由PolyShift调度生成，该调度结合了多项式变换和时间偏移函数，将更多的求解步数分配到高噪声的初始阶段，以改善生成质量。同时使用分类器引导（CFG）来增强条件生成。

💡 核心创新点

范式探索：首次系统性地证明，在先进的流匹配和DiT框架下，直接对原始波形进行建模，能够实现性能接近（在某些指标上甚至超越）主流基于压缩表示的SOTA零样本TTS模型，挑战了“必须依赖中间压缩表示”的常规假设。
针对性设计：提出并验证了一系列为高维波形空间生成优化的关键技术组合：
- xx-prediction目标：替代传统速度场预测，更稳定且便于集成辅助损失。
- 多尺度梅尔谱图监督：作为感知损失，提供频谱层面的引导，有效提升收敛速度和语音自然度。
- 信号噪声方差对齐：通过简单缩放解决波形与噪声的尺度不匹配问题，优化SNR轨迹。
- 噪声偏移时间调度：在训练和推理阶段均将计算资源向高噪声区域倾斜，这对波形生成的质量至关重要。
实证分析：进行了全面的消融研究和对比实验，不仅验证了上述设计的有效性，还对比了波形、STFT、MDCT等不同声学表示在流匹配框架下的表现，突出了直接波形建模的简洁与高效。

📊 实验结果

论文在多个基准上进行了评估，主要结果如下：

零样本TTS基准测试 (Seed-TTS benchmark)
Model Params Data (hrs) Seed-TTS test-en Seed-TTS test-zh

| Ground Truth | – | – | 1.79 | 0.73 | 3.53 | 1.25 | 0.75 | 2.78 | | AR Models† | | | | | | | | | | CosyVoice | 416M | 170K Multi. | 4.29 | 0.61 | – | 3.63 | 0.72 | – | | CosyVoice 2 | 618M | 167K Multi. | 2.57 | 0.65 | – | 1.45 | 0.75 | – | | Llasa-1B | 1370M | 250K Multi. | 3.22 | 0.57 | – | 1.89 | 0.67 | – | | Spark-TTS | 507M | 102K Multi. | 1.98 | 0.58 | – | 1.20 | 0.67 | – | | NAR Latent/Mel-Spectrogram Models | | | | | | | | | | MaskGCT | 1048M | 100K Emilia | 2.36 | 0.71 | 3.57 | 2.48 | 0.77 | 2.64 | | E2-TTS | 333M | 100K Emilia | 2.21 | 0.71 | 3.20 | 1.97 | 0.73 | 2.27 | | F5-TTS | 336M | 100K Emilia | 1.65 | 0.66 | 3.73 | 1.55 | 0.75 | 2.94 | | ZipVoice | 123M | 100K Emilia | 1.60 | 0.70 | 3.83 | 1.40 | 0.75 | 3.15 | | LongCat-AudioDiT | 1420M | 100K Multi. | 1.94 | 0.76 | 3.80 | 1.10 | 0.81 | 3.16 | | NAR Waveform Space Models | | | | | | | | | | WavTTS | 673M | 100K Emilia | 1.50 | 0.65 | 3.92 | 1.59 | 0.73 | 3.08 |

与端到端语音生成模型比较
Model LJSpeech LibriSpeech-PC
WER(%) ↓ UTMOS ↑
Ground Truth 3.42 4.36
WaveGrad 2 25.19 3.24
VITS\(_{\mathrm{VCTK}}\) 9.34 4.06
VITS\(_{\mathrm{LJ}}\) 3.72 4.37
JETS 3.73 4.36
WavTTS 3.43 4.39
核心消融实验

Model	LJSpeech	LibriSpeech-PC
	WER(%) ↓	UTMOS ↑
Ground Truth	3.42	4.36
WaveGrad 2	25.19	3.24
VITS\(_{\mathrm{VCTK}}\)	9.34	4.06
VITS\(_{\mathrm{LJ}}\)	3.72	4.37
JETS	3.73	4.36
WavTTS	3.43	4.39

预测目标与梅尔损失权重：xx-prediction优于v-prediction；梅尔损失权重 \(\lambda_{\mathrm{mel}}=0.05\) 取得最佳平衡，无梅尔损失（\(\lambda_{\mathrm{mel}}=0\)）导致性能全面下降，过大权重（0.2, 0.5）同样有害。
波形缩放因子k：\(k=9\) (与Emilia数据方差匹配) 效果最佳；\(k=1\) (无缩放) 导致严重性能下降；\(k=5\) 虽然WER略低，但SIM-o和UTMOS更差且有听觉伪影。
训练时间步调度：采用LogitNormal分布 (\(\mu<0\)) 采样时间步（如\(\mu=-0.8, \sigma=0.8\)）显著加速收敛并提升性能，过于激进的偏移 (\(\mu=-1.2\)) 则损害说话人相似度和自然度。
推理时间步调度：提出的PolyShift调度优于均匀采样和Sway Sampling，能在WER、SIM-o和UTMOS间取得更好平衡。

缩放行为：数据规模（从585小时的LibriTTS到100K小时的Emilia）和模型规模（从340M到673M）的增加都能带来性能提升，但模型缩放的效益依赖于足够的数据量。
声学表示对比：在相同流匹配框架下，直接波形建模在收敛速度和最终性能上均优于STFT和MDCT等无损频域表示，也优于常用的有损梅尔谱图表示。

⚖️ 评分理由

创新性 (1.6/2)：论文的核心创新在于将先进的流匹配-DiT框架成功应用于高维原始波形的零样本TTS，并证明了其可行性，这对简化TTS流水线有指导意义。其中的xx-prediction、方差对齐、噪声调度等设计是有效的工程优化，但部分灵感来源于视觉生成领域（如JiT），原创性略有折扣。
技术严谨性 (1.3/1.5)：理论推导清晰，从FM目标到xx-prediction的等价转换，以及噪声调度的隐式损失重加权解释都很扎实。实验设计全面，消融研究充分验证了每个设计选择。不足之处在于对多尺度梅尔损失的计算开销、方差对齐中固定\(k\)值的潜在局限性讨论不足。
实验充分性 (1.4/1.5)：实验非常充分。在标准零样本基准、与传统端到端模型的对比、以及多方面的消融研究（目标、调度、缩放、表示）上都提供了详实的数据。覆盖了英语和中文。主要缺陷是缺乏对推理速度（NFE与质量权衡）和训练成本的定量分析与讨论。
清晰度 (1.3/1.5)：论文结构清晰，图表（如图2， 4， 6）有效辅助了方法理解。然而，方法部分（Section 3）的信息密度很高，一些关键细节（如CFG的实现、文本编码器的具体结构）需要仔细阅读附录才能完全把握。
影响力 (1.5/1.5)：影响力显著。它为“是否需要中间表示”这一TTS领域的基本问题提供了一个有说服力的新答案，开辟了直接波形生成这一有潜力的方向，可能激励后续在效率、质量和应用范围上的进一步探索。
开源 (1.0/1.5)：论文提供了代码仓库链接（https://github.com/cwx-worst-one/WavTTS），这是值得肯定的。然而，未明确提供预训练模型权重的下载链接（如HuggingFace），也未说明评估数据集（Seed-TTS）的获取方式，这限制了复现的便利性。
可复现性 (0.8/1.0)：论文在附录中提供了详细的实现细节（模型配置、训练超参），代码也已开源，这为复现奠定了良好基础。主要障碍是缺乏预训练模型和评估数据集的直接获取途径。
工程/实践价值 (0.9/1.0)：工程价值很高。它展示了一种更简洁的端到端TTS实现路径，避免了多个预训练模型的复杂流水线。提出的各项优化技术（分块、调度、对齐）具有通用性，可为其他波形生成任务提供参考。但训练一个高质量的波形模型所需的数据和计算资源门槛依然很高。

🚨 局限与问题

说话人相似度瓶颈：尽管在可懂度和自然度上表现出色，WavTTS的SIM-o指标仍显著落后于LongCat-AudioDiT等顶尖的潜在空间模型。论文将此归因于波形空间的高维复杂性，但这实际上暴露了该方法在音色建模能力上的核心局限，可能需要专门的架构或损失来针对性提升。
训练与推理效率未被充分讨论：论文声称简化了流水线，但未报告模型的训练时间、FLOPs以及推理延迟（RTF）。直接在原始波形上操作（即使分块后）的计算成本很可能高于在压缩表示上操作，这是一个重要的实践考量，缺失讨论。
泛化性验证不足：论文主要在英语和中文上验证。对于声调语言、节奏更复杂或低资源语言，模型的表现未知。此外，评估数据集（如Seed-TTS）的具体构成和来源未详细说明，可能影响结果的普遍性。
消融实验的深度局限：虽然进行了大量消融，但一些关键设计选择缺乏更深层次的探索。例如：
- 梅尔损失的尺度：为何选择这七个特定的梅尔尺度？是否有更优的配置？
- 固定缩放因子\(k\)：\(k=9\)是针对Emilia数据集统计得出的，对于其他数据分布是否普适？是否可采用自适应方差对齐？
- 噪声调度的动态性：论文最后提到探索“动态采样调度”，但未在当前工作中实现，这是一个有价值的未来方向。
对比基线的潜在不公平性：在表2中，与VITS和JETS等“端到端”模型比较时，WavTTS使用了一个固定的LJSpeech音频作为prompt进行零样本合成，而这些基线是在单说话人数据上监督训练的。这种比较设置虽然有其道理（展示零样本能力），但可能低估了监督训练模型在目标域内的潜力，需要更细致的对比分析。
声称与差距：论文声称“接近SOTA”，这在WER和UTMOS上是成立的，但SIM-o上的差距是明确的。结论应更平衡地反映这一现状，避免给读者造成“全面超越或持平”的错误印象。

📷 论文图片

← 返回 2026-06-03 语音/音乐/音频论文速递

📄 WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📷 论文图片#

📎 相关论文