SpeechJudge: Towards Human-Level Judgment for Speech Naturalness
📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #模型评估 #强化学习 #奖励模型 #大语言模型 #语音合成 🔥 8.0/10 | 前25% | #模型评估 | #强化学习 | #奖励模型 #大语言模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xueyao Zhang(香港中文大学(深圳)) 通讯作者:Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd) 作者列表: Xueyao Zhang(香港中文大学(深圳)) Chaoren Wang(香港中文大学(深圳)) Huan Liao(香港中文大学(深圳)) Ziniu Li(香港中文大学(深圳)) Yuancheng Wang(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Dongya Jia(字节跳动 Seed) Yuanzhe Chen(字节跳动 Seed) Xiulin Li(DataBaker Technology) Zhuo Chen(字节跳动 Seed) Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd) 💡 毒舌点评 亮点:工作非常“接地气”且系统,从最基础的“数据集-基准-模型”三位一体入手,解决了语音合成对齐中缺乏大规模人类偏好数据的关键瓶颈,且承诺全部开源,这对领域发展是扎实的贡献。 短板:核心的奖励模型训练依赖闭源的Gemini-2.5-Flash生成CoT数据进行“冷启动”,其“教学”质量直接决定了“学生”GRM的上限,这使得方法的独立性和可复现性打了点折扣;同时,数据集的语言(中英)和风格覆盖仍有明显局限。 ...