PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech
📄 PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech #语音合成 #模型评估 #自监督学习 #多语言 #基准测试 🔥 9.0/10 | 前25% | #语音合成 | #模型评估 | #自监督学习 #多语言 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Venkata Pushpak Teja Menta(未说明) 通讯作者:Venkata Pushpak Teja Menta(未说明) 作者列表:Venkata Pushpak Teja Menta(未说明) 💡 毒舌点评 亮点:这篇论文精准地抓住了印度语言TTS评估中“可懂度高但口音不地道”的痛点,提出的PSP框架将“口音”拆解得明明白白,并用自动化声学探针方法替代了不靠谱的ASR,设计思路非常清晰务实。短板:V1版本的实验规模(每种语言10句话)实在太小,使得统计显著性存疑,论文自己也承认排名差异在5个百分点内无法区分,更像是一个“概念验证”而非最终的权威评测报告。 🔗 开源详情 代码:提供了完整的开源代码仓库链接:github.com/praxelhq/psp-eval,包含评分、引导采样和模态相关代码,采用MIT许可证。 模型权重:未提及发布PSP评估框架本身的模型权重(它是一个评估流程,依赖预训练模型如XLS-R,但未修改或发布这些权重)。 数据集:已公开发布。包括: 原生语音质心(CC-BY许可证):Praxel/psp-native-centroids on HuggingFace。 用于FAD的1000片段语料库级XLS-R嵌入。 用于PSD的500片段语料库级韵律特征矩阵。 每种语言300句的“黄金测试集”文本文件。 Demo:论文中未提及在线���示。 复现材料:提供了详细的复现说明(见GitHub仓库README),包括所需的Modal账户设置和运行命令。论文中提到了所有关键超参数(如提取层、坍缩阈值)。 论文中引用的开源项目/模型: Wav2Vec2-XLS-R:用作嵌入提取器。 CTC对齐器:引用了多个社区模型(anuragshas/wav2vec2-large-xlsr-53-telugu, ai4bharat/indicwav2vec-hindi, Harveenchadha/vakyansh-wav2vec2-tamil-tam-250)。 Chatterbox:Praxy Voice系统所基于的开源TTS框架。 Indic Parler-TTS:作为被评估的开源基线系统。 📌 核心摘要 问题:现有的文本转语音(TTS)评估指标(如WER、MOS)无法有效量化合成语音的“口音”是否地道,尤其是在印度语言中,卷舌音、送气音、元音长度等音韵特征对本地听众至关重要。 方法核心:提出PSP(音素替换档案),一个可解释的、按音韵维度分解的印度语言TTS口音评估基准。它定义了六个维度:卷舌音坍缩率(RR)、送气保真度(AF)、长度保真度(LF)、泰米尔语“ழ”保真度(ZF)、Fréchet音频距离(FAD)和韵律特征发散度(PSD)。前四个维度通过强制对齐提取音素片段,计算其在Wav2Vec2-XLS-R嵌入空间中与本地人质心和替代音素质心的相似度来评估;后两个维度在语料库级别计算分布距离。 与已有方法相比新在哪里:与针对美式-英式英语的、基于规则的PSR基准不同,PSP是基于声学探针的、针对印度语言的,并且将评估分解为多个可解释的音韵维度,而非单一标量。它不依赖高精度的目标语言ASR。 主要实验结果:在印地语、泰卢固语、泰米尔语的10句测试集上,对四个商业系统和一个开源系统(Praxy Voice)进行基准测试。关键结果包括:卷舌音错误率随语言难度单调增长(印地语1%,泰卢固语40%,泰米尔语~68%);PSP排序与WER排序不一致,例如,WER最优的ElevenLabs在印地语上FAD排名第二,在泰卢固语上PSD表现极差(韵律扁平);没有一个系统在所有六个维度上都最优。例如在泰米尔语,Indic Parler-TTS在RR、ZF、LF、PSD四个维度领先,而Sarvam在FAD上领先。 语言 系统 RR坍缩率↓ FAD↓ PSD↓ 泰卢固语 Praxy R6 + Sarvam参考 26.7% 291.3 13.1 泰卢固语 Sarvam Bulbul 33.3% 250.4 11.1 泰卢固语 Indic Parler-TTS 33.3% 325.0 10.4 泰卢固语 Cartesia Sonic-3 50.0% 458.1 33.8 泰米尔语 Indic Parler-TTS 64.3% 233.1 27.1 泰米尔语 Sarvam Bulbul 70.5% 200.3 72.3 印地语 所有系统 ≤4.5% 211.8~267.4 未提供 5. 实际意义:为印度语言TTS系统开发和优化提供了一个可解释的诊断工具,能够精确定位系统在哪些音韵特征上失分,指导针对性的改进(如提示词、训练数据调整)。 6. 主要局限性:V1版本使用小规模测试集(10句/语言),统计效力有限;依赖的CTC对齐器在泰卢固语和泰米尔语上精度较低,导致本地语音的PSP分数存在较高的“噪声地板”;未与主观MOS测试进行正式相关性校准。 🏗️ 模型架构 本文提出的不是生成模型,而是一个评估框架/基准。其核心架构流程如下: ...