ICLR 2026 - 语音合成评估 论文列表
ICLR 2026 - 语音合成评估 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TTSDS2: Resources and Benchmark for Evaluating Human-Quality 7.5分 前25% 📋 论文详情 🥇 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems ✅ 7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估 👥 作者与机构 第一作者:Christoph Minixhofer(爱丁堡大学语音技术研究中心) 通讯作者:论文中未明确指定,根据作者邮箱统一格式,可能为同一机构课题组 作者列表:Christoph Minixhofer(爱丁堡大学语音技术研究中心)、Ondrej Klejch(爱丁堡大学语音技术研究中心)、Peter Bell(爱丁堡大学语音技术研究中心) 💡 毒舌点评 亮点在于构建了首个覆盖14种语言、横跨多个真实世界域(含噪声、野生、儿童语音)的TTS客观评估基准与自动化流水线,实用价值高。但核心创新点(TTSDS2)是对原有TTSDS指标的增量改进,更多是工程优化和鲁棒性验证,而非提出全新评估范式,且其计算开销(CPU-bound)限制了快速迭代。 🔗 开源详情 代码:提供代码仓库链接(github.com/ttsds/pipeline),用于自动化数据创建和基准测试。 模型权重:论文评估的20个系统多为开源,TTSDS2本身不涉及需训练的模型,但依赖的特征提取模型(如mHuBERT-147)是公开的。 数据集:公开发布了包含11,282条评分的人类评估数据集(hf.co/datasets/ttsds/listening_test)。自动化流水线可创建多语言数据集。 Demo:提供在线基准排行榜网站(ttsdsbenchmark.com)。 复现材料:论文详细描述了评估设置、问卷内容、流水线算法(Algorithm 1)、特征选择标准,并提供了特征分布可视化示例(图1)。 论文中引用的开源项目:大量引用了开源工具和模型,如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。 📌 核心摘要 ...