语音合成评估

ICLR 2026 - 语音合成评估共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 TTSDS2: Resources and Benchmark for Evaluating Human-Quality 7.5分前25% 📋 论文详情 🥇 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems ✅ 7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估 👥 作者与机构第一作者：Christoph Minixhofer（爱丁堡大学语音技术研究中心）通讯作者：论文中未明确指定，根据作者邮箱统一格式，可能为同一机构课题组作者列表：Christoph Minixhofer（爱丁堡大学语音技术研究中心）、Ondrej Klejch（爱丁堡大学语音技术研究中心）、Peter Bell（爱丁堡大学语音技术研究中心） 💡 毒舌点评亮点在于构建了首个覆盖14种语言、横跨多个真实世界域（含噪声、野生、儿童语音）的TTS客观评估基准与自动化流水线，实用价值高。但核心创新点（TTSDS2）是对原有TTSDS指标的增量改进，更多是工程优化和鲁棒性验证，而非提出全新评估范式，且其计算开销（CPU-bound）限制了快速迭代。 🔗 开源详情代码：提供代码仓库链接（github.com/ttsds/pipeline），用于自动化数据创建和基准测试。模型权重：论文评估的20个系统多为开源，TTSDS2本身不涉及需训练的模型，但依赖的特征提取模型（如mHuBERT-147）是公开的。数据集：公开发布了包含11,282条评分的人类评估数据集（hf.co/datasets/ttsds/listening_test）。自动化流水线可创建多语言数据集。 Demo：提供在线基准排行榜网站（ttsdsbenchmark.com）。复现材料：论文详细描述了评估设置、问卷内容、流水线算法（Algorithm 1）、特征选择标准，并提供了特征分布可视化示例（图1）。论文中引用的开源项目：大量引用了开源工具和模型，如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。 📌 核心摘要 ...

📄 TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis #语音合成评估 #指令微调 #推理链 #数据集 ✅ 7.0/10 | 前25% | #语音合成评估 | #指令微调 | #推理链 #数据集 | arxiv 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Xi Wang（清华大学，xi-wang24@mails.tsinghua.edu.cn）通讯作者：Zhiyong Wu（清华大学，zywu@sz.tsinghua.edu.cn）作者列表： Xi Wang（清华大学） Jie Wang（论文中未明确所属机构，根据邮箱格式推测可能与Xi Wang同单位或合作单位，但文本未说明） Xingchen Song（论文中未明确所属机构，根据邮箱格式推测可能与Xi Wang同单位或合作单位，但文本未说明） Baijun Song（论文中未明确所属机构，根据邮箱格式推测可能与Xi Wang同单位或合作单位，但文本未说明） Jingran Xie（论文中未明确所属机构，根据邮箱格式推测可能与Xi Wang同单位或合作单位，但文本未说明） Jiahe Shao（论文中未明确所属机构，根据邮箱格式推测可能与Xi Wang同单位或合作单位，但文本未说明） Zijian Lin（论文中未明确所属机构，根据邮箱格式推测可能与Xi Wang同单位或合作单位，但文本未说明） Di Wu（论文中未明确所属机构，根据邮箱格式推测可能与Xi Wang同单位或合作单位，但文本未说明） Meng Meng（东京大学，The University of Tokyo） Jian Luan（小米MiLM Plus，MiLM Plus, Xiaomi Inc.） Zhiyong Wu（清华大学） 💡 毒舌点评亮点：这是一篇目标明确、框架完整的“工具型”论文，它没有试图去颠覆TTS生成模型本身，而是敏锐地抓住了“如何诊断TTS模型”这个下游关键痛点，并给出了一个相当系统、可操作且带有细粒度评分标准的解决方案，这种务实的研究风格值得肯定。短板：然而，论文所构建的“诊断标准”本身仍根植于主观感知，虽然通过“明确的容差阈值”试图客观化，但其本质仍是将人类专家的共识固化为标签，这决定了TTS-PRISM的上限无法超越其训练数据中的评估者水平。此外，模型在“发音准确性”这一最基础维度上的短板（预训练偏见导致），恰恰点明了用一个为“理解/容忍误差”而优化的模型去“诊断/识别误差”时存在的根本性矛盾。 ...