ICLR 2026 - 语音合成评估

共 1 篇论文

← 返回 ICLR 2026 总览

排名	论文	评分	分档
🥇	TTSDS2: Resources and Benchmark for Evaluating Human-Quality	7.5分	前25%

📋 论文详情

🥇 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

✅ 7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估

👥 作者与机构

第一作者：Christoph Minixhofer（爱丁堡大学语音技术研究中心）
通讯作者：论文中未明确指定，根据作者邮箱统一格式，可能为同一机构课题组
作者列表：Christoph Minixhofer（爱丁堡大学语音技术研究中心）、Ondrej Klejch（爱丁堡大学语音技术研究中心）、Peter Bell（爱丁堡大学语音技术研究中心）

💡 毒舌点评

亮点在于构建了首个覆盖14种语言、横跨多个真实世界域（含噪声、野生、儿童语音）的TTS客观评估基准与自动化流水线，实用价值高。但核心创新点（TTSDS2）是对原有TTSDS指标的增量改进，更多是工程优化和鲁棒性验证，而非提出全新评估范式，且其计算开销（CPU-bound）限制了快速迭代。

🔗 开源详情

代码：提供代码仓库链接（github.com/ttsds/pipeline），用于自动化数据创建和基准测试。
模型权重：论文评估的20个系统多为开源，TTSDS2本身不涉及需训练的模型，但依赖的特征提取模型（如mHuBERT-147）是公开的。
数据集：公开发布了包含11,282条评分的人类评估数据集（hf.co/datasets/ttsds/listening_test）。自动化流水线可创建多语言数据集。
Demo：提供在线基准排行榜网站（ttsdsbenchmark.com）。
复现材料：论文详细描述了评估设置、问卷内容、流水线算法（Algorithm 1）、特征选择标准，并提供了特征分布可视化示例（图1）。
论文中引用的开源项目：大量引用了开源工具和模型，如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。

📌 核心摘要

解决的问题：现代文本转语音（TTS）系统已能生成以假乱真的语音，导致传统主观评估（如MOS）难以跨研究对比，而常用的客观指标缺乏在多领域、多语言下的鲁棒性验证。
方法核心：提出TTSDS2，一个改进的分布评估指标。它通过比较合成语音与真实语音在通用性、说话人、韵律、可懂度四个因子上多个特征分布的2-Wasserstein距离，综合评分。得分越高表明合成语音分布越接近真实语音分布而非噪声分布。
与已有的方法相比新在哪里：
- 特征集升级：相较于TTSDS，替换了表现不佳的特征（如用Whisper和wav2vec 2.0的ASR激活替代WER），并为多语言场景引入了mHuBERT-147和XLSR-53等模型。
- 跨域鲁棒性验证：在CLEAN（干净朗读）、NOISY（噪声）、WILD（野生/对话）、KIDS（儿童语音）四个不同域上验证了指标与人类评分的相关性。
- 自动化多语言基准：发布了一个可重复运行的流水线，用于自动创建多语言YouTube数据集并生成持续更新的TTS系统排名，覆盖14种语言。
主要实验结果：
- 在20个开源TTS系统、16个客观指标的对比中，TTSDS2是唯一一个在所有4个域、3种主观评分（MOS, CMOS, SMOS）上均取得Spearman相关系数ρ > 0.50的指标，平均ρ ≈ 0.67。
- 与次优的说话人相似度指标（RawNet3, X-Vector）平均相关性0.6相比，TTSDS2更具一致性和连续性。
- 消融实验表明，简单的因子平均策略比学习权重策略在未见域上泛化更好。
- 多语言TTSDS2分数与语言学距离（Uriel+）相关性（ρ = -0.51）高于原版TTSDS（ρ = -0.39）。

Metric	Clean (MOS)	Clean (CMOS)	Clean (SMOS)	Noisy (MOS)	Noisy (CMOS)	Noisy (SMOS)	Wild (MOS)	Wild (CMOS)	Wild (SMOS)	Kids (MOS)	Kids (CMOS)	Kids (SMOS)
TTSDS2 (Ours)	0.75	0.69	0.73	0.59	0.54	0.71	0.75	0.71	0.75	0.61	0.50	0.70
TTSDS (Original)	0.60	0.62	0.52	0.49	0.61	0.66	0.67	0.57	0.67	0.70	0.52	0.60
RawNet3	0.36	0.26	0.52	0.44	0.37	0.82	0.85	0.80	0.64	0.73	0.61	0.77
X-Vector	0.46	0.42	0.56	0.40	0.29	0.77	0.82	0.82	0.62	0.70	0.57	0.75
SQUIM	0.68	0.46	0.37	0.48	0.48	0.60	0.62	0.75	0.79	0.57	0.55	0.45

表：主要客观指标与主观评分的Spearman相关系数对比（节选）。TTSDS2在所有条件下均保持高于0.50的强相关。

图表显示了地面真值、合成和噪声数据集在F0（基频）特征上的分布。地面真值（蓝色）与合成（橙色）分布重叠，而噪声（绿色）分布与之显著不同，这直观地展示了TTSDS2基于分布距离进行评估的原理。图1：TTSDS2评估原理示意图：展示真实、合成与噪声数据在F0特征上的分布差异。

实际意义：为TTS社区提供了一个更可靠、跨域、跨语言的客观评估工具和持续更新的排行榜，有助于系统开发者公平比较模型，并推动研究向更真实、更多样的语音场景迈进。
主要局限性：计算成本较高（CPU-bound，约9.4分钟/系统）；评估上限受限于主观测试本身的噪声（最高相关系数约0.8）；当前无法检测特定转录失败案例；不支持长语音评估。

ICLR 2026 - 语音合成评估#

📋 论文详情#

🥇 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems#

📎 相关论文

ICLR 2026 - 语音合成评估

📋 论文详情

🥇 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems