奖励模型 | 语音/音乐/音频论文速递

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #语音合成 #强化学习 #数据集 #基准测试 #奖励模型 🔥 8.5/10 | 前10% | #语音合成 | #强化学习 | #数据集 #基准测试学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Xueyao Zhang（香港中文大学（深圳））通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.）作者列表： Xueyao Zhang（香港中文大学（深圳）） Chaoren Wang（香港中文大学（深圳）） Huan Liao（香港中文大学（深圳）） Ziniu Li（香港中文大学（深圳）） Yuancheng Wang（香港中文大学（深圳）） Li Wang（香港中文大学（深圳）） Dongya Jia（ByteDance Seed） Yuanzhe Chen（ByteDance Seed） Xiulin Li（DataBaker Technology） Zhuo Chen（ByteDance Seed） Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.） 💡 毒舌点评这篇论文的“基建”价值很高，99K规模的高质量人类偏好数据集和开源承诺堪称语音合成对齐研究的“粮草先行”。但核心的奖励模型架构（基于现有Qwen2.5-Omni的微调）创新稍显有限，更像是一个强大但“组装式”的解决方案，而非从头设计的、能深刻洞察自然度内在结构的新架构。 ...

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #模型评估 #强化学习 #奖励模型 #大语言模型 #语音合成 🔥 8.0/10 | 前25% | #模型评估 | #强化学习 | #奖励模型 #大语言模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Xueyao Zhang（香港中文大学（深圳））通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd）作者列表： Xueyao Zhang（香港中文大学（深圳）） Chaoren Wang（香港中文大学（深圳）） Huan Liao（香港中文大学（深圳）） Ziniu Li（香港中文大学（深圳）） Yuancheng Wang（香港中文大学（深圳）） Li Wang（香港中文大学（深圳）） Dongya Jia（字节跳动 Seed） Yuanzhe Chen（字节跳动 Seed） Xiulin Li（DataBaker Technology） Zhuo Chen（字节跳动 Seed） Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd） 💡 毒舌点评亮点：工作非常“接地气”且系统，从最基础的“数据集-基准-模型”三位一体入手，解决了语音合成对齐中缺乏大规模人类偏好数据的关键瓶颈，且承诺全部开源，这对领域发展是扎实的贡献。短板：核心的奖励模型训练依赖闭源的Gemini-2.5-Flash生成CoT数据进行“冷启动”，其“教学”质量直接决定了“学生”GRM的上限，这使得方法的独立性和可复现性打了点折扣；同时，数据集的语言（中英）和风格覆盖仍有明显局限。 ...