ICLR 2026 - 语音合成评估

1 篇论文

← 返回 ICLR 2026 总览


排名论文评分分档
🥇TTSDS2: Resources and Benchmark for Evaluating Human-Quality7.5分前25%

📋 论文详情

🥇 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估

👥 作者与机构

  • 第一作者:Christoph Minixhofer(爱丁堡大学语音技术研究中心)
  • 通讯作者:论文中未明确指定,根据作者邮箱统一格式,可能为同一机构课题组
  • 作者列表:Christoph Minixhofer(爱丁堡大学语音技术研究中心)、Ondrej Klejch(爱丁堡大学语音技术研究中心)、Peter Bell(爱丁堡大学语音技术研究中心)

💡 毒舌点评

亮点在于构建了首个覆盖14种语言、横跨多个真实世界域(含噪声、野生、儿童语音)的TTS客观评估基准与自动化流水线,实用价值高。但核心创新点(TTSDS2)是对原有TTSDS指标的增量改进,更多是工程优化和鲁棒性验证,而非提出全新评估范式,且其计算开销(CPU-bound)限制了快速迭代。

🔗 开源详情

  • 代码:提供代码仓库链接(github.com/ttsds/pipeline),用于自动化数据创建和基准测试。
  • 模型权重:论文评估的20个系统多为开源,TTSDS2本身不涉及需训练的模型,但依赖的特征提取模型(如mHuBERT-147)是公开的。
  • 数据集:公开发布了包含11,282条评分的人类评估数据集(hf.co/datasets/ttsds/listening_test)。自动化流水线可创建多语言数据集。
  • Demo:提供在线基准排行榜网站(ttsdsbenchmark.com)。
  • 复现材料:论文详细描述了评估设置、问卷内容、流水线算法(Algorithm 1)、特征选择标准,并提供了特征分布可视化示例(图1)。
  • 论文中引用的开源项目:大量引用了开源工具和模型,如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。

📌 核心摘要

  1. 解决的问题:现代文本转语音(TTS)系统已能生成以假乱真的语音,导致传统主观评估(如MOS)难以跨研究对比,而常用的客观指标缺乏在多领域、多语言下的鲁棒性验证。
  2. 方法核心:提出TTSDS2,一个改进的分布评估指标。它通过比较合成语音与真实语音在通用性、说话人、韵律、可懂度四个因子上多个特征分布的2-Wasserstein距离,综合评分。得分越高表明合成语音分布越接近真实语音分布而非噪声分布。
  3. 与已有的方法相比新在哪里:
    • 特征集升级:相较于TTSDS,替换了表现不佳的特征(如用Whisper和wav2vec 2.0的ASR激活替代WER),并为多语言场景引入了mHuBERT-147和XLSR-53等模型。
    • 跨域鲁棒性验证:在CLEAN(干净朗读)、NOISY(噪声)、WILD(野生/对话)、KIDS(儿童语音)四个不同域上验证了指标与人类评分的相关性。
    • 自动化多语言基准:发布了一个可重复运行的流水线,用于自动创建多语言YouTube数据集并生成持续更新的TTS系统排名,覆盖14种语言。
  4. 主要实验结果:
    • 在20个开源TTS系统、16个客观指标的对比中,TTSDS2是唯一一个在所有4个域、3种主观评分(MOS, CMOS, SMOS)上均取得Spearman相关系数ρ > 0.50的指标,平均ρ ≈ 0.67。
    • 与次优的说话人相似度指标(RawNet3, X-Vector)平均相关性0.6相比,TTSDS2更具一致性和连续性。
    • 消融实验表明,简单的因子平均策略比学习权重策略在未见域上泛化更好。
    • 多语言TTSDS2分数与语言学距离(Uriel+)相关性(ρ = -0.51)高于原版TTSDS(ρ = -0.39)。
MetricClean (MOS)Clean (CMOS)Clean (SMOS)Noisy (MOS)Noisy (CMOS)Noisy (SMOS)Wild (MOS)Wild (CMOS)Wild (SMOS)Kids (MOS)Kids (CMOS)Kids (SMOS)
TTSDS2 (Ours)0.750.690.730.590.540.710.750.710.750.610.500.70
TTSDS (Original)0.600.620.520.490.610.660.670.570.670.700.520.60
RawNet30.360.260.520.440.370.820.850.800.640.730.610.77
X-Vector0.460.420.560.400.290.770.820.820.620.700.570.75
SQUIM0.680.460.370.480.480.600.620.750.790.570.550.45

表:主要客观指标与主观评分的Spearman相关系数对比(节选)。TTSDS2在所有条件下均保持高于0.50的强相关。

图表显示了地面真值、合成和噪声数据集在F0(基频)特征上的分布。地面真值(蓝色)与合成(橙色)分布重叠,而噪声(绿色)分布与之显著不同,这直观地展示了TTSDS2基于分布距离进行评估的原理。 图1:TTSDS2评估原理示意图:展示真实、合成与噪声数据在F0特征上的分布差异。

  1. 实际意义:为TTS社区提供了一个更可靠、跨域、跨语言的客观评估工具和持续更新的排行榜,有助于系统开发者公平比较模型,并推动研究向更真实、更多样的语音场景迈进。
  2. 主要局限性:计算成本较高(CPU-bound,约9.4分钟/系统);评估上限受限于主观测试本身的噪声(最高相关系数约0.8);当前无法检测特定转录失败案例;不支持长语音评估。