ICLR 2026 - 语音合成评估
共 1 篇论文
| 排名 | 论文 | 评分 | 分档 |
|---|---|---|---|
| 🥇 | TTSDS2: Resources and Benchmark for Evaluating Human-Quality | 7.5分 | 前25% |
📋 论文详情
🥇 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems
✅ 7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估
👥 作者与机构
- 第一作者:Christoph Minixhofer(爱丁堡大学语音技术研究中心)
- 通讯作者:论文中未明确指定,根据作者邮箱统一格式,可能为同一机构课题组
- 作者列表:Christoph Minixhofer(爱丁堡大学语音技术研究中心)、Ondrej Klejch(爱丁堡大学语音技术研究中心)、Peter Bell(爱丁堡大学语音技术研究中心)
💡 毒舌点评
亮点在于构建了首个覆盖14种语言、横跨多个真实世界域(含噪声、野生、儿童语音)的TTS客观评估基准与自动化流水线,实用价值高。但核心创新点(TTSDS2)是对原有TTSDS指标的增量改进,更多是工程优化和鲁棒性验证,而非提出全新评估范式,且其计算开销(CPU-bound)限制了快速迭代。
🔗 开源详情
- 代码:提供代码仓库链接(github.com/ttsds/pipeline),用于自动化数据创建和基准测试。
- 模型权重:论文评估的20个系统多为开源,TTSDS2本身不涉及需训练的模型,但依赖的特征提取模型(如mHuBERT-147)是公开的。
- 数据集:公开发布了包含11,282条评分的人类评估数据集(hf.co/datasets/ttsds/listening_test)。自动化流水线可创建多语言数据集。
- Demo:提供在线基准排行榜网站(ttsdsbenchmark.com)。
- 复现材料:论文详细描述了评估设置、问卷内容、流水线算法(Algorithm 1)、特征选择标准,并提供了特征分布可视化示例(图1)。
- 论文中引用的开源项目:大量引用了开源工具和模型,如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。
📌 核心摘要
- 解决的问题:现代文本转语音(TTS)系统已能生成以假乱真的语音,导致传统主观评估(如MOS)难以跨研究对比,而常用的客观指标缺乏在多领域、多语言下的鲁棒性验证。
- 方法核心:提出TTSDS2,一个改进的分布评估指标。它通过比较合成语音与真实语音在通用性、说话人、韵律、可懂度四个因子上多个特征分布的2-Wasserstein距离,综合评分。得分越高表明合成语音分布越接近真实语音分布而非噪声分布。
- 与已有的方法相比新在哪里:
- 特征集升级:相较于TTSDS,替换了表现不佳的特征(如用Whisper和wav2vec 2.0的ASR激活替代WER),并为多语言场景引入了mHuBERT-147和XLSR-53等模型。
- 跨域鲁棒性验证:在CLEAN(干净朗读)、NOISY(噪声)、WILD(野生/对话)、KIDS(儿童语音)四个不同域上验证了指标与人类评分的相关性。
- 自动化多语言基准:发布了一个可重复运行的流水线,用于自动创建多语言YouTube数据集并生成持续更新的TTS系统排名,覆盖14种语言。
- 主要实验结果:
- 在20个开源TTS系统、16个客观指标的对比中,TTSDS2是唯一一个在所有4个域、3种主观评分(MOS, CMOS, SMOS)上均取得Spearman相关系数ρ > 0.50的指标,平均ρ ≈ 0.67。
- 与次优的说话人相似度指标(RawNet3, X-Vector)平均相关性0.6相比,TTSDS2更具一致性和连续性。
- 消融实验表明,简单的因子平均策略比学习权重策略在未见域上泛化更好。
- 多语言TTSDS2分数与语言学距离(Uriel+)相关性(ρ = -0.51)高于原版TTSDS(ρ = -0.39)。
| Metric | Clean (MOS) | Clean (CMOS) | Clean (SMOS) | Noisy (MOS) | Noisy (CMOS) | Noisy (SMOS) | Wild (MOS) | Wild (CMOS) | Wild (SMOS) | Kids (MOS) | Kids (CMOS) | Kids (SMOS) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| TTSDS2 (Ours) | 0.75 | 0.69 | 0.73 | 0.59 | 0.54 | 0.71 | 0.75 | 0.71 | 0.75 | 0.61 | 0.50 | 0.70 |
| TTSDS (Original) | 0.60 | 0.62 | 0.52 | 0.49 | 0.61 | 0.66 | 0.67 | 0.57 | 0.67 | 0.70 | 0.52 | 0.60 |
| RawNet3 | 0.36 | 0.26 | 0.52 | 0.44 | 0.37 | 0.82 | 0.85 | 0.80 | 0.64 | 0.73 | 0.61 | 0.77 |
| X-Vector | 0.46 | 0.42 | 0.56 | 0.40 | 0.29 | 0.77 | 0.82 | 0.82 | 0.62 | 0.70 | 0.57 | 0.75 |
| SQUIM | 0.68 | 0.46 | 0.37 | 0.48 | 0.48 | 0.60 | 0.62 | 0.75 | 0.79 | 0.57 | 0.55 | 0.45 |
表:主要客观指标与主观评分的Spearman相关系数对比(节选)。TTSDS2在所有条件下均保持高于0.50的强相关。
图1:TTSDS2评估原理示意图:展示真实、合成与噪声数据在F0特征上的分布差异。
- 实际意义:为TTS社区提供了一个更可靠、跨域、跨语言的客观评估工具和持续更新的排行榜,有助于系统开发者公平比较模型,并推动研究向更真实、更多样的语音场景迈进。
- 主要局限性:计算成本较高(CPU-bound,约9.4分钟/系统);评估上限受限于主观测试本身的噪声(最高相关系数约0.8);当前无法检测特定转录失败案例;不支持长语音评估。