Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration
📄 Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration #语音合成 #模型评估 #基准测试 #自监督学习 🔥 8.0/10 | 前25% | #语音合成 | #模型评估 | #基准测试 #自监督学习 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yifan Yang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室) 通讯作者:Xie Chen(上海交通大学 X-LANCE实验室,上海创新研究院) 作者列表:Yifan Yang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Bing Han(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Hui Wang(南开大学),Long Zhou(腾讯混元),Wei Wang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Mingyu Cui(腾讯混元),Xu Tan(腾讯混元),Xie Chen(上海交通大学 X-LANCE实验室,上海创新研究院) *注:原文作者姓名“Mingyu Cui”在页脚签名中显示为“Mingyu Cui”,但参考文献中显示为“Mingyu Cui”。此处按页脚信息记录。 💡 毒舌点评 这篇论文最大的价值在于为“韵律多样性”这个有点玄学的概念建立了一套扎实的客观评估体系(DS-WED指标+ProsodyEval数据集),让社区有了统一的比较标尺,而不仅仅是依赖主观听感或片面的F0/MCD指标。但必须指出,其构建的“黄金标准”ProsodyEval数据集仅覆盖了7个模型和英语语音,其泛化到更多语言、更嘈杂或更具表现力场景的有效性尚未验证,这是其作为通用基准的主要短板。 🔗 开源详情 代码:是,提供了代码仓库链接:https://github.com/yfyeung/DS-WED。 模型权重:论文未提及公开其训练的任何模型权重(如DS-WED评估流水线中使用的k-means聚类模型)。所评测的各TTS系统为第三方开源模型,论文中提供了其官方链接。 数据集:是,提供了ProsodyEval评测数据集的访问链接:https://prosodyeval.github.io。 Demo:未提及在线演示。 复现材料:论文提供了详细的评测设置(如DS-WED使用的SSL层、聚类数)、基准测试所用的语音来源(LibriSpeech test-clean, Seed-TTS test-en),以及消融实验的具体配置。 论文中引用的开源项目:Silero-VAD (用于语音活动检测)、HuBERT、WavLM (用于语音表示)、以及所评测的TTS系统(XTTS-v2, CosyVoice, MaskGCT, E2 TTS, F5-TTS, ZipVoice)。 📌 核心摘要 问题:零样本语音合成(TTS)中韵律多样性(即同一文本不同合成结果间的语调、节奏等差异)对自然表现力至关重要,但缺乏与人类感知高度相关、且能全面捕捉韵律信息的客观评估指标。 方法核心:提出ProsodyEval人类标注数据集和DS-WED(离散语音加权编辑距离)指标。DS-WED首先使用自监督模型(如HuBERT)对语音进行离散化得到语义token序列,然后通过计算两段语音token序列间的加权编辑距离来量化韵律差异。 创新点:1) DS-WED相比传统声学指标(如log F0 RMSE、MCD)与人类评分相关性显著更高;2) 提供了首个系统性的零样本TTS韵律多样性基准测试;3) 发现了生成范式(AR vs NAR)、持续时间控制、强化学习(DPO)等因素对韵律多样性的关键影响。 实验结果:在ProsodyEval数据集上,DS-WED与人类平均意见分(PMOS)的平均皮尔逊相关系数达0.77,远高于MCD(0.66)和log F0 RMSE(0.30)。基准测试显示,自回归(AR)模型在韵律多样性上普遍优于基于流匹配的非自回归(NAR)模型,但MaskGCT(掩码生成模型)表现突出。此外,DPO对齐会降低韵律多样性(例如CosyVoice 2下降18.8%)。具体数据见下表: 表1:不同指标与人工评分PMOS的相关性对比(平均皮尔逊系数及其95%置信区间) ...