SpeechJudge: Towards Human-Level Judgment for Speech Naturalness
📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #语音合成 #强化学习 #数据集 #基准测试 #奖励模型 🔥 8.5/10 | 前10% | #语音合成 | #强化学习 | #数据集 #基准测试 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xueyao Zhang(香港中文大学(深圳)) 通讯作者:Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.) 作者列表: Xueyao Zhang(香港中文大学(深圳)) Chaoren Wang(香港中文大学(深圳)) Huan Liao(香港中文大学(深圳)) Ziniu Li(香港中文大学(深圳)) Yuancheng Wang(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Dongya Jia(ByteDance Seed) Yuanzhe Chen(ByteDance Seed) Xiulin Li(DataBaker Technology) Zhuo Chen(ByteDance Seed) Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.) 💡 毒舌点评 这篇论文的“基建”价值很高,99K规模的高质量人类偏好数据集和开源承诺堪称语音合成对齐研究的“粮草先行”。但核心的奖励模型架构(基于现有Qwen2.5-Omni的微调)创新稍显有限,更像是一个强大但“组装式”的解决方案,而非从头设计的、能深刻洞察自然度内在结构的新架构。 ...