TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis
📄 TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis #语音质量评估 #指令微调 #基准测试 #开源工具 #语音合成 ✅ 7.5/10 | 前25% | #语音质量评估 | #指令微调 | #基准测试 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未明确排序,但根据邮箱 xi-wang24@mails.tsinghua.edu.cn 和作者列表首位推测,第一作者可能为 Xi Wang)。 通讯作者:未说明(论文作者列表未明确标注,根据邮箱 zywu@sz.tsinghua.edu.cn 推测,通讯作者可能为 Zhiyong Wu)。 作者列表:Xi Wang (1, 2), Jie Wang (3), Xingchen Song (2), Baijun Song (1), Jingran Xie (1), Jiahe Shao (1), Zijian Lin (1), Di Wu (1), Meng Meng (1), Jian Luan (2), Zhiyong Wu (1)。 机构列表:1. 清华大学,中国;2. 小米公司 MiLM Plus,中国;3. 东京大学,日本。 💡 毒舌点评 这篇论文像一个严谨的“语音体检医生”,为TTS系统量身定做了一套包含12个指标的“体检表”和基于大模型生成数据的“训练集”,确实让评估从“整体印象”走向了“分项诊断”。但尴尬的是,这位“医生”自己在“发音”这个最基础的体检项目上却可能受制于自身的“学术出身”(ASR预训练偏差),体检结论的权威性打了点折扣。 ...