📄 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems
#语音合成 #模型评估 #基准测试 #多语言
✅ 7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估
学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Christoph Minixhofer(爱丁堡大学语音技术研究中心)
- 通讯作者:论文中未明确指定,根据作者邮箱统一格式,可能为同一机构课题组
- 作者列表:Christoph Minixhofer(爱丁堡大学语音技术研究中心)、Ondrej Klejch(爱丁堡大学语音技术研究中心)、Peter Bell(爱丁堡大学语音技术研究中心)
💡 毒舌点评
亮点在于构建了首个覆盖14种语言、横跨多个真实世界域(含噪声、野生、儿童语音)的TTS客观评估基准与自动化流水线,实用价值高。但核心创新点(TTSDS2)是对原有TTSDS指标的增量改进,更多是工程优化和鲁棒性验证,而非提出全新评估范式,且其计算开销(CPU-bound)限制了快速迭代。
🔗 开源详情
- 代码:提供代码仓库链接(github.com/ttsds/pipeline),用于自动化数据创建和基准测试。
- 模型权重:论文评估的20个系统多为开源,TTSDS2本身不涉及需训练的模型,但依赖的特征提取模型(如mHuBERT-147)是公开的。
- 数据集:公开发布了包含11,282条评分的人类评估数据集(hf.co/datasets/ttsds/listening_test)。自动化流水线可创建多语言数据集。
- Demo:提供在线基准排行榜网站(ttsdsbenchmark.com)。
- 复现材料:论文详细描述了评估设置、问卷内容、流水线算法(Algorithm 1)、特征选择标准,并提供了特征分布可视化示例(图1)。
- 论文中引用的开源项目:大量引用了开源工具和模型,如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。
📌 核心摘要
- 解决的问题:现代文本转语音(TTS)系统已能生成以假乱真的语音,导致传统主观评估(如MOS)难以跨研究对比,而常用的客观指标缺乏在多领域、多语言下的鲁棒性验证。
- 方法核心:提出TTSDS2,一个改进的分布评估指标。它通过比较合成语音与真实语音在通用性、说话人、韵律、可懂度四个因子上多个特征分布的2-Wasserstein距离,综合评分。得分越高表明合成语音分布越接近真实语音分布而非噪声分布。
- 与已有的方法相比新在哪里:
- 特征集升级:相较于TTSDS,替换了表现不佳的特征(如用Whisper和wav2vec 2.0的ASR激活替代WER),并为多语言场景引入了mHuBERT-147和XLSR-53等模型。
- 跨域鲁棒性验证:在CLEAN(干净朗读)、NOISY(噪声)、WILD(野生/对话)、KIDS(儿童语音)四个不同域上验证了指标与人类评分的相关性。
- 自动化多语言基准:发布了一个可重复运行的流水线,用于自动创建多语言YouTube数据集并生成持续更新的TTS系统排名,覆盖14种语言。
- 主要实验结果:
- 在20个开源TTS系统、16个客观指标的对比中,TTSDS2是唯一一个在所有4个域、3种主观评分(MOS, CMOS, SMOS)上均取得Spearman相关系数ρ > 0.50的指标,平均ρ ≈ 0.67。
- 与次优的说话人相似度指标(RawNet3, X-Vector)平均相关性0.6相比,TTSDS2更具一致性和连续性。
- 消融实验表明,简单的因子平均策略比学习权重策略在未见域上泛化更好。
- 多语言TTSDS2分数与语言学距离(Uriel+)相关性(ρ = -0.51)高于原版TTSDS(ρ = -0.39)。
| Metric | Clean (MOS) | Clean (CMOS) | Clean (SMOS) | Noisy (MOS) | Noisy (CMOS) | Noisy (SMOS) | Wild (MOS) | Wild (CMOS) | Wild (SMOS) | Kids (MOS) | Kids (CMOS) | Kids (SMOS) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| TTSDS2 (Ours) | 0.75 | 0.69 | 0.73 | 0.59 | 0.54 | 0.71 | 0.75 | 0.71 | 0.75 | 0.61 | 0.50 | 0.70 |
| TTSDS (Original) | 0.60 | 0.62 | 0.52 | 0.49 | 0.61 | 0.66 | 0.67 | 0.57 | 0.67 | 0.70 | 0.52 | 0.60 |
| RawNet3 | 0.36 | 0.26 | 0.52 | 0.44 | 0.37 | 0.82 | 0.85 | 0.80 | 0.64 | 0.73 | 0.61 | 0.77 |
| X-Vector | 0.46 | 0.42 | 0.56 | 0.40 | 0.29 | 0.77 | 0.82 | 0.82 | 0.62 | 0.70 | 0.57 | 0.75 |
| SQUIM | 0.68 | 0.46 | 0.37 | 0.48 | 0.48 | 0.60 | 0.62 | 0.75 | 0.79 | 0.57 | 0.55 | 0.45 |
表:主要客观指标与主观评分的Spearman相关系数对比(节选)。TTSDS2在所有条件下均保持高于0.50的强相关。
图1:TTSDS2评估原理示意图:展示真实、合成与噪声数据在F0特征上的分布差异。
- 实际意义:为TTS社区提供了一个更可靠、跨域、跨语言的客观评估工具和持续更新的排行榜,有助于系统开发者公平比较模型,并推动研究向更真实、更多样的语音场景迈进。
- 主要局限性:计算成本较高(CPU-bound,约9.4分钟/系统);评估上限受限于主观测试本身的噪声(最高相关系数约0.8);当前无法检测特定转录失败案例;不支持长语音评估。
🏗️ 模型架构
TTSDS2本身不是一个生成模型,而是一个评估指标。其“架构”指的是评估流程和框架。
整体评估流程:输入为合成语音数据集($\tilde{D}$)、对应的真实语音参考数据集($D$)和一个预设的噪声数据集集合($D_{NOISE}$)。输出为一个0-100的TTSDS2分数。
核心组件与流程:
- 特征提取:对每个数据集中的语音,提取四个因子下的多个特征表示(见下表)。
- 分布距离计算:对于每个特征,计算合成分布与真实分布之间的2-Wasserstein距离($W^2_{REAL}$),以及合成分布与每个噪声分布的最小Wasserstein距离($W^2_{NOISE}$)。
- 特征分数归一化:使用公式 $TTSDS2 = 100 \times \frac{W^2_{NOISE}}{W^2_{REAL} + W^2_{NOISE}}$ 将每个特征的距离转换为0-100的分数。
- 因子分数计算:对每个因子下的多个特征分数取平均值。
- 总分计算:对四个因子分数取无权重算术平均,得到最终TTSDS2分数。
因子与特征集(TTSDS2):
| 因子 | 特征 |
|---|---|
| GENERIC (通用性) | mHuBERT-147 激活, XLSR-53 激活, WavLM 激活 (均为主干模型中间层表征) |
| SPEAKER (说话人) | d-Vector, WeSpeaker (说话人嵌入向量) |
| PROSODY (韵律) | WORLD F0 (基频), HuBERT语速 (token数/帧数), Allosaurus语速, Prosody embeddings |
| INTELLIGIBILITY (可懂度) | wav2vec 2.0 ASR 激活, Whisper (small) ASR 激活 (均为ASR模型最终层表征) |
关键设计选择:
- 分布式而非成对评估:灵感来自FID,旨在捕捉合成语音的“整体感觉”,而非逐句比较。
- 因子化与多特征集成:将语音质量分解为多个可解释的感知维度,并使用多个特征来提升鲁棒性,减少对单一特征的过拟合。
- 噪声作为负样本锚点:使用多种类型的噪声(均匀噪声、高斯噪声等)作为分数下界(0分),确保分数有意义。
- 无权重平均:消融实验表明,简单的平均比学习到的权重在跨域泛化上更稳定,避免了过拟合。

图2:三个代表性客观指标与MOS相关性的散点图对比。TTSDS2显示出更均匀的连续预测能力。
💡 核心创新点
- 更鲁棒的分布评估指标TTSDS2:通过优化特征集(如用ASR激活替代WER用于可懂度评估),显著提升了原始TTSDS在不同语音域(噪声、野生、儿童语音)上与人类评分的一致性,成为首个在所有测试条件下相关系数ρ > 0.5的指标。
- 首个跨域、多语言TTS评估基准与自动化流水线:构建了一个涵盖14种语言的基准,并发布了可自动抓取、清洗、合成和评分的流水线。这解决了TTS评估中数据污染和跨研究不可比的问题,为持续、公平地跟踪领域进展提供了基础设施。
- 大规模、可控的多维度人类评估数据集:发布了超过11,000条匿名评分,覆盖20个系统、4个域、3种主观测试(MOS, CMOS, SMOS)。该数据集专注于已接近人类水平的最新系统,为训练和评估新的MOS预测模型提供了宝贵资源。
🔬 细节详述
- 训练数据:
- TTS评估数据:4个域各60个说话人,每人2句话。CLEAN来自LibriTTS测试集;NOISY来自2025年LibriVox新录音(无SNR过滤);WILD来自2025年YouTube视频(自动抓取);KIDS来自儿童教育语料(MyST)。
- 多语言基准数据:通过自动化流水线从YouTube抓取,每种语言50个说话人对。
- 评估策略:
- 主观测试:通过Prolific平台招募200名英语母语者(每域50人),进行MOS(5分制)、CMOS(-3到+3比较)、SMOS(5分制说话人相似度)测试。有注意力检查机制。
- 客观指标:使用VERSA工具包评估了16个指标,涵盖信号类、MOS预测类、分布类、说话人相似度类等。
- 关键超参数:特征提取使用预训练模型(HuBERT, wav2vec2等)。每个特征计算Wasserstein距离时,使用多变量高斯分布近似。
- 训练硬件与计算:合成所有样本(跨系统、数据集、语言)使用28.8小时单A100 GPU。计算单个TTSDS2分数(CPU)约9.4分钟(Intel Xeon E5-2620 v4)。
- 正则化/稳定技巧:因子分数平均作为集成,平滑了单个特征的不稳定性。
📊 实验结果
主要实验为TTSDS2与其他15个客观指标在人类评分(MOS, CMOS, SMOS)上的相关性对比。
核心相关性结果(已在核心摘要部分表格列出)。
消融实验:因子权重策略 对比简单平均与学习权重(线性回归)在留一域交叉验证下的表现。
| 持留域 | 简单平均 (基线) | 学习权重 (LOOCV) |
|---|---|---|
| CLEAN | 0.747 | 0.645 |
| NOISY | 0.590 | 0.514 |
| WILD | 0.752 | 0.658 |
| KIDS | 0.666 | 0.853 |
表:简单平均在三个未见域上优于学习权重,表明学习权重易过拟合。
多语言验证 TTSDS2分数(作为距离)与Uriel+语言学距离的Spearman相关系数:原版TTSDS为-0.39,多语言TTSDS2为-0.51(均p<0.05),表明多语言版本更好捕获了语言差异。

图3:14种语言真实语音的TTSDS2分数分布,显示基准的跨语言一致性。

图8:语言距离的多维尺度可视化,对比语言学距离、原版TTSDS2距离和多语言TTSDS2距离。
TTS系统排名结果(平均MOS与TTSDS2分数)
| System | MOS | CMOS | SMOS | TTSDS2 |
|---|---|---|---|---|
| Ground Truth | 3.70 | 0.00 | 4.37 | 93.21 |
| E2-TTS | 3.41 | -0.23 | 4.37 | 91.73 |
| Vevo | 3.36 | 0.08 | 4.01 | 90.20 |
| F5-TTS | 3.33 | -0.34 | 4.10 | 91.16 |
| MaskGCT | 3.28 | -0.17 | 4.39 | 91.76 |
| FishSpeech | 3.24 | -0.43 | 3.58 | 89.88 |
| … | … | … | … | … |
| SpeechT5 | 1.98 | -1.56 | 2.63 | 84.84 |
表:20个系统在主要测试集上的平均主观分数与TTSDS2分数(节选)。TTSDS2分数与MOS/CMOS排名趋势一致。
⚖️ 评分理由
- 学术质量:5.5/7
- 创新性(3/3):工作扎实,创新点明确。TTSDS2是对已有TTSDS的合理改进与系统化验证;自动化流水线和大规模人类评估数据的发布是重要贡献。但核心指标TTSDS2本身并非革命性创新,更多是工程优化和严谨验证。
- 技术正确性(1.5/2):方法设计有理论依据(Wasserstein距离),实验对比全面(16个指标,4个域),消融实验合理(因子权重、特征选择)。
- 实验充分性(1/2):实验非常充分,覆盖了多语言、多系统、多维度评估。唯一不足是多语言部分缺少直接的黄金标准MOS标签进行验证。
- 选题价值:1.5/2
- TTS评估是重要且持续存在的问题,尤其在系统质量逼近人类时更具挑战。该工作直接回应了这一需求,提供了实用工具和基准,对TTS社区有较高价值。但“评估指标”本身并非最前沿的研究热点。
- 开源与复现加成:0.5/1
- 论文开源情况非常好:提供了完整的代码仓库(流水线)、发布的数据集(11k+评分)、在线基准网站、复现所需的模型和细节描述。这极大地促进了复现和后续研究。