📄 ZONOS2 Technical Report

#语音合成 #多语言 #自回归模型

10/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5

🔥 10/10 | 前25% | #语音合成 | #多语言 | #自回归模型 | arxiv

👥 作者与机构

作者:Gabriel Clark, Sofian Mejjoute, Mohamed Osman, George Close, Beren Millidge 机构:Zyphra

💡 毒舌点评

这篇技术报告读起来像一份精心包装的产品发布说明书,而非一篇严谨的学术论文。最大的槽点在于“过度声明”与“选择性对比”:摘要中声称“state-of-the-art naturalness, prosody, and voice cloning fidelity”,但结果表(IV, V)显示,在关键指标如WER和UTMOS上,ZONOS2在多个语言上显著落后于闭源模型(如Eleven Labs V3, Gemini 3.1 Flash)和部分开源模型(如Fish S2 Pro, VoxCPM 2)。其所谓“竞争力”高度依赖自家提出的ZTTS1-Eval基准,而在这个基准上,其“Quality Mode”虽提升了一些指标,但往往以牺牲说话人相似度为代价(对比表IV/ V 中“8B”与“Quality Mode”行)。此外,将80%以上的英文训练数据(图3)归因于“公开语音语料库、播客”等,却未提供这些数据集的任何链接或开源协议,使得“开源”光环下的数据透明度大打折扣,存在“数据黑箱”的嫌疑。讨论部分(VII)对MoE训练不稳定性的承认倒是挺实在的。

📌 核心摘要

ZONOS2 8B 是 Zyphra 发布的开源文本转语音(TTS)模型,旨在平衡生成质量、可控性和推理效率。其核心是采用混合专家(MoE)Transformer架构,总参数8B,激活参数900M。模型在超过626万小时的海量数据上进行多阶段训练。技术亮点包括:使用字节级文本分词以提升多语言鲁棒性;通过ECAPA-TDNN说话人嵌入结合LDA变换实现零样本语音克隆;采用延迟模式(delay pattern)处理RVQ音频码本以支持并行解码;以及引入“质量模式”条件。作者还提出了一个新的多语言TTS评估基准ZTTS1-Eval。模型在ZTTS1-Eval等基准上展示了具有竞争力的性能,尤其在说话人相似度和韵律多样性上表现突出。模型权重和示例代码以Apache 2.0许可证开源。

🔗 开源详情

  • 代码:论文明确提供了示例推理代码的GitHub仓库链接:https://github.com/Zyphra/ZONOS2/
  • 模型权重:模型权重在Hugging Face上发布,链接为:https://huggingface.co/Zyphra/ZONOS2。论文明确指出权重在Apache 2.0许可证下发布。
  • 数据集:
    • ZTTS1-Eval基准测试集:论文发布了一个新的TTS评测基准,其GitHub仓库链接为:https://github.com/Zyphra/ZTTS1-Eval。
    • 训练数据:论文详细介绍了用于训练ZONOS2的数据处理流程和数据集构成(总计6.26百万小时,包含公开语音语料库、播客、有声读物等),但论文中未提及这些原始训练数据的公开获取链接或开源协议。
  • Demo:论文中未提及在线演示链接。
  • 复现材料:论文详细描述了模型架构(表II)、训练阶段(预训练、中期训练、微调)和评估结果。模型细节见附录。然而,论文中未提及具体的训练配置脚本、检查点或其他可供直接复现训练过程的材料链接。

🏗️ 方法概述和架构

ZONOS2是一个基于自回归语言建模的解码器-only Transformer模型,其骨干网络采用混合专家(MoE)架构,旨在将参数规模扩展到8B(总参数),同时将每次前向传播的计算量控制在900M激活参数的水平,以保持高吞吐量和低推理延迟。以下是其核心组件和数据流的详细描述:

  1. 音频分词与表示:模型使用高保真神经音频分词器 Descript Audio Codec (DAC)。DAC编码器将原始波形编码为潜在表示,然后通过残差向量量化(RVQ)策略量化为 \(N=9\) 个码本。每个时间帧 \(t\) 的音频由 \(N\) 个码本令牌 \(X[t, j]\) 表示。为了实现高效的并行生成,ZONOS2引入了延迟模式(Delay Pattern)。该模式通过一个剪切操作 \(Y[t, j] = X[t-j, j]\)(对于 \(t \ge j\))将帧内码本间的依赖关系转化为序列上的自回归依赖:模型在生成代码 \(j+1\) 时,可以直接条件于同一帧的前序代码 \(j\)。这使得多个码本可以在同一时间步内被预测。在DAC解码前,进行逆操作以恢复对齐的令牌序列:\(\hat{X}[t, j] = Y[t+j, j]\)。此设计要求流式解码时需前瞻 \(N-1\) 帧。

  2. 文本分词:为避免传统音素转换(G2P)在多语言、代码切换或罕见词上的失败(如论文表I所示),ZONOS2采用字节级分词器。输入字符串被编码为UTF-8字节序列 \((b_1, \ldots, b_L)\),每个字节 \(b_i \in [0, 255]\)。这种表示法使模型能够处理任意Unicode输入,无需特定语言的前端处理,并增强了对低资源语言和鲁棒性。推断时,会应用文本规范化以处理方程式、数字等。

  3. 说话人嵌入(零样本克隆):条件生成通过一个预训练的ECAPA-TDNN模型提取2048维说话人嵌入向量 \(\mathbf{e}_{\mathrm{x}}\)。该向量被放置在输入序列的开头,不随参考音频长度增加而增长,避免了占用生成上下文。为减少嵌入中泄露的非说话人信息(如停顿、内容、噪声),通过一个在说话人标签数据上训练的线性判别分析(LDA)变换,将其投影到1024维向量 \(\hat{\mathbf{e}}_{\mathrm{x}}\)。LDA保留了区分说话人的方向,同时抑制了同一说话人不同录音间的差异因素。最终,通过一个学习的线性投影层映射到Transformer隐藏维度 \(d_{\mathrm{model}}\):\(h_{\mathrm{spk}} = W_{\mathrm{spk}} \hat{\mathbf{e}}_{\mathrm{x}} + b_{\mathrm{spk}}\),并作为序列的第一个令牌。

  4. 其他条件输入:

    • 语速条件:将语速(UTF-8字节数/秒)量化为离散桶,并将其对应的令牌前置到文本令牌序列中。
    • 质量条件:为应对低质量克隆音频带来的问题,引入了两种机制:(a) 训练时,对克隆音频施加随机声学增强(如混入噪声、音乐、压缩、混响),迫使模型学习从有噪声的嵌入中恢复干净语音;(b) 将估计的SNR、音量、带宽、静音帧等声学属性编码为合成文本令牌。在最终退火阶段,对最高质量子集的数据引入一个特殊的“Quality Mode”令牌,允许用户在推理时选择以牺牲克隆能力为代价提升清晰度。
  5. MoE Transformer骨干:主干网络是一个28层的Transformer。前3层和最后1层是密集层,中间层为MoE层。每层MoE层包含16个专家,采用top-1路由,但最后一个MoE层使用top-2路由。路由设计借鉴了ZAYA1,使用指数深度平均(EDA)在层间平滑路由器状态。注意力机制使用分组查询注意力(GQA),并结合了Qwen门控(headwise位置)。位置编码使用旋转位置编码(RoPE)。输入表示由每个延迟音频码本帧的嵌入向量相加构成,若使用说话人条件,则将其投影嵌入置于序列开头,经RMSNorm归一化后送入Transformer栈。

  6. 训练目标:模型以标准的自回归条件语言模型方式训练,预测下一个延迟音频码本帧 \(Y[t+1, n]\) 的概率分布。损失函数是掩码负对数似然 \(\mathcal{L}_{\mathrm{NLL}}\),仅针对非填充音频目标进行计算。对于MoE层,额外使用一个辅助的路由平衡损失 \(\mathcal{L}_{\mathrm{bal}}\),通过维护一个偏置向量 \(b_\ell\) 并最小化其与专家使用率均匀分布的差异来稳定训练。总损失为 \(\mathcal{L} = \mathcal{L}_{\mathrm{NLL}} + \mathcal{L}_{\mathrm{bal}}\)。

  7. 多阶段训练流程:训练分为四个阶段:(1) 大规模预训练(77500步,2.9T令牌):无条件,目标是学习通用的语言到音频映射。(2) 中期训练(15000步,~560B令牌):提高转录一致性过滤阈值,并调整子数据集权重。(3) 条件微调-阶段1(10000步):引入说话人嵌入、语速和质量条件。为防止说话人嵌入“作弊”,此阶段仅嵌入目标音频的随机片段,并掩码该片段的损失。(4) 条件微调-阶段2(10000步):说话人嵌入覆盖整个目标序列,移除损失掩码,并引入“Quality Mode”条件。此分阶段策略旨在逐步建立条件控制能力并缓解过拟合。

图1

图2

💡 核心创新点

  1. MoE在开源TTS中的首次应用:将混合专家架构引入开源TTS领域,实现了参数规模(8B)与高效推理(900M激活参数)的平衡,是模型扩展的关键架构创新。
  2. 海量数据与改进训练流程:将训练数据规模从200K小时扩展到超过626万小时,并设计了从预训练到条件微调的多阶段训练策略,特别是针对说话人嵌入的两阶段训练和损失掩码机制,以稳定克隆学习。
  3. 鲁棒的文本与说话人建模:采用字节级文本分词,提升多语言和罕见词鲁棒性,避免了G2P的失败模式。设计了基于LDA的说话人嵌入处理流水线,有效减少信息泄露,延长了克隆训练的有效窗口。
  4. 新的评估基准ZTTS1-Eval:提出了一个覆盖9种朗读语言和17种自发语言的TTS评估基准,采用了更新的评估模型(Qwen3-ASR, ReDimNet, MSR-UTMOS)并引入了韵律(TTSDS2)和多样性(DS-WED)度量,弥补了现有基准在语言覆盖和评估维度上的不足。
  5. 完整的开源发布:在Apache 2.0许可证下开源了模型权重、示例推理代码以及ZTTS1-Eval基准,为社区提供了强大的基线模型和评估工具。

📊 实验结果

作者在多个基准上评估了ZONOS2,包括其提出的ZTTS1-Eval,以及CosyVoice 3 Eval和Seed-TTS-Eval。主要基线包括Qwen 3 TTS 1.7B, Fish S2 Pro, VoxCPM 2, Cartesia Sonic 3.5, Eleven Labs V3, Gemini 3.1 Flash, Inworld TTS 2。

ZTTS1-Eval Clean 结果(表IV):

ModelMetricenhard_enzhhard_zhdeesfritjakoru
ReferenceWER ↓3.531.042.831.284.683.233.035.094.062.886.12
UTMOS ↑3.662.733.262.633.333.203.473.073.473.293.30
ZONOS2 8BWER ↓2.7615.0415.6226.235.674.7813.186.538.2718.968.26
UTMOS ↑3.402.573.102.293.232.963.272.893.233.132.97
Spk. sim. ↑78.662.173.374.678.379.470.077.781.373.380.2
ZONOS2 8B Quality ModeWER ↓3.992.686.7314.413.743.254.303.527.674.146.99
UTMOS ↑3.472.943.212.653.362.943.312.923.313.183.02
Spk. sim. ↑74.458.281.173.476.279.075.978.082.083.079.4
Qwen 3 TTS 1.7BWER ↓1.941.262.916.042.781.983.082.193.782.854.25
UTMOS ↑3.863.333.713.163.723.433.643.383.713.533.49
Spk. sim. ↑68.360.279.775.869.769.272.075.281.079.374.1
Fish S2 ProWER ↓3.605.004.337.953.043.735.904.174.203.927.74
UTMOS ↑3.473.063.233.003.263.013.223.023.373.183.09
Spk. sim. ↑76.964.782.976.078.582.878.079.385.483.980.6
VoxCPM 2WER ↓4.230.945.015.214.844.445.105.804.923.997.43
UTMOS ↑3.512.823.122.553.072.853.252.713.233.042.83
Spk. sim. ↑65.266.877.377.579.775.475.880.883.383.180.4
Cartesia Sonic 3.5WER ↓2.560.864.537.663.143.213.413.053.653.246.01
UTMOS ↑3.623.193.173.013.182.973.292.903.363.113.05
Spk. sim. ↑79.967.185.480.082.885.983.183.487.586.484.2
Eleven Labs V3WER ↓2.350.754.208.313.793.243.622.704.264.575.63
UTMOS ↑3.593.533.313.373.543.253.293.193.453.363.15
Spk. sim.* ↑7.26.836.929.417.118.021.921.936.338.625.4
Gemini 3.1 FlashWER ↓2.500.804.095.633.614.414.773.243.793.066.58
UTMOS ↑3.873.793.543.373.713.433.523.393.653.513.37
Spk. sim.* ↑12.79.836.628.617.719.520.920.433.636.223.5
Inworld TTS 2WER ↓3.141.964.047.864.054.384.953.985.633.137.08
UTMOS ↑3.533.153.142.943.273.053.332.953.273.113.01
Spk. sim. ↑65.854.874.867.168.473.068.570.477.778.369.8
  • 说话人相似度:在Clean集上,ZONOS2(无质量模式)在英语(en)上取得了开源模型最佳、整体第二好的说话人相似度(78.6),表明其克隆保真度高。
  • 自然度(UTMOS):ZONOS2在多个语言上的UTMOS分数低于参考音频,也常低于闭源最佳模型(如Gemini 3.1 Flash),表明在生成音频的自然度方面仍有差距。
  • 可懂度(WER):在默认模式下,ZONOS2在“hard”子集上的WER较高(如hard_en: 15.04, hard_zh: 26.23),表明处理复杂文本时存在问题。“质量模式”显著改善了大多数语言(特别是zh)的WER,但通常以牺牲说话人相似度为代价(如en从78.6降至74.4)。

ZTTS1-Eval In-The-Wild (ITW) 结果(表V)(仅展示部分关键数据):

ModelMetricenzhardeesfrhiiditjakoplptruthtltr
ReferenceWER ↓5.617.7821.056.777.348.0814.2017.236.949.188.8614.107.5612.3886.4125.7520.86
UTMOS ↑2.482.392.222.522.222.272.222.142.192.272.482.412.232.232.402.242.27
Spk. sim. ↑75.982.181.078.578.077.678.780.078.782.379.782.579.579.282.578.980.8
ZONOS2 8BWER ↓4.703.1921.435.845.384.5615.5011.845.6110.187.4510.166.737.8012.8723.4910.46
UTMOS ↑2.442.432.222.522.422.372.472.252.322.342.552.482.332.302.432.522.41
Spk. sim. ↑67.074.367.469.469.467.766.371.969.270.972.172.970.470.968.468.572.1
ZONOS2 8B Quality ModeWER ↓2.212.7713.943.372.102.799.046.482.518.704.595.852.944.325.9316.057.47
UTMOS ↑2.992.682.512.922.722.742.732.662.632.692.782.762.752.622.742.882.64
Spk. sim. ↑56.970.663.863.163.361.262.367.663.870.067.369.063.867.768.365.067.7
Qwen 3 TTS 1.7BWER ↓1.050.992.111.772.6212.462.852.322.8082.042.203.889.6118.0483.20
UTMOS ↑3.202.903.122.872.842.942.762.862.972.922.852.742.933.132.70
Spk. sim. ↑61.575.368.365.867.167.471.975.273.762.769.472.873.160.562.1
Fish S2 ProWER ↓2.091.2615.592.652.973.4511.6911.022.792.173.488.252.865.2874.1219.137.64
UTMOS ↑2.922.732.582.902.692.672.692.722.542.732.762.672.572.562.752.892.58
Spk. sim. ↑65.075.572.069.468.268.369.971.470.475.072.873.571.872.475.564.974.2
VoxCPM 2WER ↓1.691.4412.182.843.194.547.136.433.504.564.897.284.095.374.7415.706.26
UTMOS ↑2.512.402.252.602.392.362.412.302.262.302.512.352.322.302.392.512.32
Spk. sim. ↑68.178.774.772.870.472.273.476.974.577.174.878.073.575.978.673.076.9
Cartesia Sonic 3.5WER ↓1.401.173.002.372.527.872.403.633.385.302.103.754.84
UTMOS ↑3.052.762.982.712.692.712.602.692.862.732.682.642.57
Spk. sim. ↑70.279.176.775.475.576.177.278.477.879.577.678.278.5
Eleven Labs V3WER ↓1.351.2212.192.501.582.177.365.982.362.843.934.662.064.283.8417.767.78
UTMOS ↑3.613.363.413.573.343.283.473.343.213.493.403.373.393.263.483.513.44
Spk. sim.* ↑6.329.724.415.316.413.616.326.219.628.628.723.622.119.733.913.126.4
Gemini 3.1 FlashWER ↓2.121.4510.512.401.943.568.732.082.722.275.333.213.776.92
UTMOS ↑3.783.553.403.673.413.453.603.453.563.453.473.433.363.66
Spk. sim.* ↑10.229.926.317.520.515.018.119.128.329.226.224.120.926.7
Inworld TTS 2WER ↓1.891.4214.853.542.674.4010.143.466.934.167.653.875.3219.56
UTMOS ↑3.022.712.703.032.832.762.652.712.812.862.802.702.662.99
Spk. sim. ↑53.066.460.558.756.254.960.556.063.362.660.661.461.859.5
  • “质量模式”的显著效果:在ITW集上,“质量模式”全面提升了ZONOS2的WER(如en从4.70降至2.21)和UTMOS(如en从2.44升至2.99),使其在多个语言上的可懂度接近或超过闭源模型,但说话人相似度普遍下降。
  • 韵律与多样性:论文图5显示ZONOS2在ITW集上的TTSDS2韵律得分最佳。图6显示ZONOS2在DS-WED(生成多样性)上显著优于所有其他模型。图7的Allosaurus SR距离分布显示,ZONOS2生成的说话人特征分布最接近源音频。
  • CosyVoice 3 Eval 与 Seed-TTS-Eval(表VII):ZONOS2在这些现有基准上取得了有竞争力的结果,例如在Seed-TTS-Eval Test-ZH上获得了58.20的说话人相似度。其“情绪零样本”任务的情绪准确率约为37%。

图3

图4

⚖️ 评分理由

  • 创新性 (1.5/2):将MoE架构引入开源TTS、字节级文本分词、基于LDA的说话人嵌入去偏策略以及提出ZTTS1-Eval基准均具有明确的创新点。其中,MoE的应用和数据规模的扩展是较为显著的工程和方法贡献。
  • 技术严谨性 (1.3/1.5):论文详细描述了模型架构(图2,表II)、训练流程和评估方法,公式推导清晰(如延迟模式、损失函数)。然而,对于MoE在音频数据上不稳定性的根本原因(“reasons we do not fully understand”)缺乏更深入的分析。说话人嵌入过拟合的解决方案(LDA+两阶段训练)虽然有效,但理论解释稍显不足。
  • 实验充分性 (1.5/1.5):实验非常充分。不仅在自家提出的、覆盖广的ZTTS1-Eval(Clean & ITW)上进行了详尽评估,还在CosyVoice 3 Eval和Seed-TTS-Eval上进行了对比。基线选择广泛,包含开源和闭源模型。报告了WER、UTMOS、说话人相似度、TTSDS2、DS-WED等多维度指标。
  • 清晰度 (1.4/1.5):结构清晰,从模型、数据、训练到评估、结果、讨论,逻辑流畅。图表(如图1, 2, 3, 4)对理解架构和训练过程很有帮助。部分技术细节(如EDA路由器)需要一定的领域知识。
  • 影响力 (1.4/1.5):作为高质量的开源TTS模型,ZONOS2及其评估基准将对语音合成研究社区产生积极影响,为多语言、可控TTS提供了强基线。其影响力主要集中在语音合成领域内。
  • 开源 (1.5/1.5):在Apache 2.0许可证下开源了模型权重、示例推理代码以及ZTTS1-Eval基准,并提供了明确的HuggingFace和GitHub链接。这是完全意义上的开源贡献。
  • 可复现性 (1.4/1.5):提供了模型权重、推理代码和评估基准,对于复现其评估结果是高度可复现的。然而,论文未提供完整的训练配置脚本、检查点或原始训练数据,因此复现训练过程的可能性较低。
  • 工程/实践价值 (1.3/1.5):MoE架构在保持高推理效率的同时提升了模型容量,具有实际部署价值。“质量模式”等条件控制机制也增加了实用性。开源策略降低了使用门槛。

🚨 局限与问题

  1. 评估基准偏向性:ZTTS1-Eval作为自家提出的基准,虽然设计全面,但ZONOS2是在该数据上训练和调优的模型之一(尽管作者声称未使用评估集音频),其性能优势可能部分源于对评估协议和指标的熟悉。与其他模型(尤其是闭源模型)在完全“盲测”条件下的公平性存疑。
  2. 数据不透明性:尽管声称使用了超过6M小时的公开数据,但论文未提供这些原始数据集的具体列表、获取链接或清洗协议。这阻碍了社区对数据质量和偏见的分析,也使得完整复现训练数据准备过程成为不可能,削弱了“开源”的深度。
  3. 模型可解释性与分析不足:论文对MoE路由在音频数据上为何特别不稳定缺乏深入的机制分析和可视化。对说话人嵌入LDA变换的具体效果(如不同奇异值对应的语义)也缺乏更细粒度的消融实验。
  4. “质量模式”的权衡未充分讨论:虽然展示了“质量模式”能提升可懂度,但其普遍降低说话人相似度的副作用被呈现为一种权衡,而非潜在问题。这可能意味着模型在极端清晰度和高保真克隆之间尚未找到完美的平衡点。
  5. 情绪与韵律控制的局限性:虽然提到了“表达性”训练数据,并在CosyVoice 3 Eval上报告了情绪准确率(~37%),但论文并未详细阐述模型是如何控制具体情绪或韵律风格的,暗示这方面的控制能力可能仍较初级。
  6. 闭源模型对比的公平性:部分闭源模型(如Eleven Labs V3, Gemini 3.1 Flash)的说话人相似度指标标有星号(*),注明“不支持零样本语音克隆”。这意味着在克隆任务上,它们可能使用了不同的协议或后端,直接对比其“Spk. sim.”分数可能并不完全公平。论文未对此进行充分讨论。

📷 论文图片

图5


← 返回 2026-06-24 语音/音乐/音频论文速递