SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #语音合成 #强化学习 #数据集 #基准测试 #奖励模型 🔥 8.5/10 | 前10% | #语音合成 | #强化学习 | #数据集 #基准测试 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xueyao Zhang(香港中文大学(深圳)) 通讯作者:Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.) 作者列表: Xueyao Zhang(香港中文大学(深圳)) Chaoren Wang(香港中文大学(深圳)) Huan Liao(香港中文大学(深圳)) Ziniu Li(香港中文大学(深圳)) Yuancheng Wang(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Dongya Jia(ByteDance Seed) Yuanzhe Chen(ByteDance Seed) Xiulin Li(DataBaker Technology) Zhuo Chen(ByteDance Seed) Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.) 💡 毒舌点评 这篇论文的“基建”价值很高,99K规模的高质量人类偏好数据集和开源承诺堪称语音合成对齐研究的“粮草先行”。但核心的奖励模型架构(基于现有Qwen2.5-Omni的微调)创新稍显有限,更像是一个强大但“组装式”的解决方案,而非从头设计的、能深刻洞察自然度内在结构的新架构。 ...

2026-05-04 · 更新于 2026-05-19 · 3 min · 619 words

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #模型评估 #强化学习 #奖励模型 #大语言模型 #语音合成 🔥 8.0/10 | 前25% | #模型评估 | #强化学习 | #奖励模型 #大语言模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xueyao Zhang(香港中文大学(深圳)) 通讯作者:Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd) 作者列表: Xueyao Zhang(香港中文大学(深圳)) Chaoren Wang(香港中文大学(深圳)) Huan Liao(香港中文大学(深圳)) Ziniu Li(香港中文大学(深圳)) Yuancheng Wang(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Dongya Jia(字节跳动 Seed) Yuanzhe Chen(字节跳动 Seed) Xiulin Li(DataBaker Technology) Zhuo Chen(字节跳动 Seed) Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd) 💡 毒舌点评 亮点:工作非常“接地气”且系统,从最基础的“数据集-基准-模型”三位一体入手,解决了语音合成对齐中缺乏大规模人类偏好数据的关键瓶颈,且承诺全部开源,这对领域发展是扎实的贡献。 短板:核心的奖励模型训练依赖闭源的Gemini-2.5-Flash生成CoT数据进行“冷启动”,其“教学”质量直接决定了“学生”GRM的上限,这使得方法的独立性和可复现性打了点折扣;同时,数据集的语言(中英)和风格覆盖仍有明显局限。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 349 words