📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness
#语音合成 #强化学习 #数据集 #基准测试 #奖励模型
🔥 8.5/10 | 前10% | #语音合成 | #强化学习 | #数据集 #基准测试
学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高
👥 作者与机构
- 第一作者:Xueyao Zhang(香港中文大学(深圳))
- 通讯作者:Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.)
- 作者列表:
- Xueyao Zhang(香港中文大学(深圳))
- Chaoren Wang(香港中文大学(深圳))
- Huan Liao(香港中文大学(深圳))
- Ziniu Li(香港中文大学(深圳))
- Yuancheng Wang(香港中文大学(深圳))
- Li Wang(香港中文大学(深圳))
- Dongya Jia(ByteDance Seed)
- Yuanzhe Chen(ByteDance Seed)
- Xiulin Li(DataBaker Technology)
- Zhuo Chen(ByteDance Seed)
- Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.)
💡 毒舌点评
这篇论文的“基建”价值很高,99K规模的高质量人类偏好数据集和开源承诺堪称语音合成对齐研究的“粮草先行”。但核心的奖励模型架构(基于现有Qwen2.5-Omni的微调)创新稍显有限,更像是一个强大但“组装式”的解决方案,而非从头设计的、能深刻洞察自然度内在结构的新架构。
📌 核心摘要
- 要解决的问题:当前语音合成模型缺乏大规模、专注于“自然度”这一核心主观指标的人类偏好数据集,导致难以有效对齐人类感知,现有自动评估方法与人类判断存在显著差距。
- 方法核心:构建了SpeechJudge套件,包括:(1) SpeechJudge-Data:一个包含99K语音对、涵盖多语言和多风格的大型人类偏好数据集;(2) SpeechJudge-Eval:一个高质量的评估基准;(3) SpeechJudge-GRM:一个基于Qwen2.5-Omni-7B的生成式奖励模型,通过“监督微调(SFT)+基于人类反馈的强化学习(RL)”两阶段训练得到。
- 与已有方法相比新在哪里:
- 数据:是首个专门针对语音“自然度”的大规模(~100K对)配对偏好数据集,而非传统的点状MOS评分。
- 评估:建立了标准化的基准任务(给定文本和两个语音,判断哪个更自然),并系统评估了现有指标(WER, FAD等)和多个AudioLLMs,揭示了巨大性能差距。
- 模型:提出的GRM不仅给出分数,还能生成“思维链”解释,并支持通过多数投票进行推理时缩放,性能优于传统的Bradley-Terry奖励模型。
- 主要实验结果:
- 基准测试:在SpeechJudge-Eval上,最强的闭源模型Gemini-2.5-Flash与人类判断的一致性低于70%。
- GRM性能:SpeechJudge-GRM达到77.2%的准确率,使用多数投票(@10)后提升至79.4%,显著优于相同的BTRM基线(72.7%)。
- 下游应用:将GRM用作奖励函数对TTS模型(Qwen2.5-0.5B-TTS)进行后训练,相比使用原始数据集或BTRM,能带来更显著的自然度提升(主观CMOS)。
- 关键数据对比如下表所示:
| 模型 | 在 SpeechJudge-Eval 上的准确率 (%) |
|---|---|
| Gemini-2.5-Flash (最佳基线) | 69.1 |
| SpeechJudge-BTRM | 72.7 |
| SpeechJudge-GRM (SFT) | 75.3 |
| SpeechJudge-GRM (SFT+RL) | 77.2 |
| SpeechJudge-GRM (SFT+RL, Voting@10) | 79.4 |
- 实际意义:为语音生成领域提供了对齐人类偏好的关键基础设施(数据、基准、模型),有助于推动生成更自然、更符合人类听感的语音,并提供了可解释的自动评估工具。
- 主要局限性:数据集主要基于中文母语标注员对合成语音的评估,可能对其他语言文化群体的代表性不足;奖励模型的推理链(CoT)质量继承自教师模型(Gemini),未经大规模人工验证;模型主要进行句子级的粗粒度判断,无法定位语音内部的局部瑕疵。
详细分析
SpeechJudge-GRM 的核心是一个在预训练AudioLLM基础上进行后训练的生成式奖励模型(Generative Reward Model, GRM)。其训练流程分为两个关键阶段,整体架构与训练数据流如图4所示。

监督微调(SFT)阶段(冷启动):
- 输入:从SpeechJudge-Data中筛选出的、教师模型(Gemini-2.5-Flash)判断与人类偏好一致的样本(约25K对)。输入格式为“思维链提示(Table 1的CoT prompt)+ 教师生成的推理输出”。
- 过程:对基础模型Qwen2.5-Omni-7B (Thinker) 进行LoRA微调。训练目标是让模型学会遵循指令、进行推理,并输出格式化的自然度判断。此阶段旨在提升模型的基础指令遵循和推理能力。
- 输出:一个初步具备自然度判断和CoT推理能力的模型
SpeechJudge-GRM (SFT)。
基于人类反馈的强化学习(RL)阶段:
- 输入:SpeechJudge-Data中教师模型判断与人类不一致的“困难样本”(约17K对)的提示词(CoT prompt)。
- 过程:以SFT模型为策略模型,使用GRPO算法进行训练。对于每个提示,模型生成多个回答(rollout)。将模型最终输出的偏好判断(解析得到)与人类标注的偏好进行比对,作为可验证奖励(奖励为+1或-1)。
- 核心思想:允许模型通过自主探索,学习如何生成更准确的最终判断和更有效的推理过程,以在困难样本上获得正奖励。
- 输出:最终模型
SpeechJudge-GRM (SFT+RL),其判断准确性和推理质量得到进一步提升。
组件交互与数据流:数据集中的语音对(a1, a2)和文本t通过精心设计的提示词输入模型。模型以自回归方式生成包含推理步骤和最终结论的文本序列。在SFT阶段,损失仅作用于教师生成的输出序列;在RL阶段,奖励信号基于最终输出的准确性计算,反向传播以优化整个生成策略。
- 构建首个大规模语音“自然度”偏好数据集:针对语音合成领域缺乏以“自然度”为核心的、大规模、高质量配对偏好数据的空白,构建了包含99K对、涵盖多种零样本TTS模型、多语言、多风格的SpeechJudge-Data。数据构建过程严谨,包含多轮标注与一致性分析。
- 建立标准化的语音自然度评估基准:设计了SpeechJudge-Eval基准任务(给定文本和两个语音,判断哪个更自然),并系统评测了传统指标(WER, FAD)、MOS预测器、声纹检测器和多个前沿AudioLLMs。揭示了当前技术(即使是最强的闭源AudioLLMs)在该任务上与人类判断的显著差距,明确了研究方向。
- 提出并验证了用于自然度判断的生成式奖励模型(GRM):突破了传统Bradley-Terry奖励模型仅输出一个标量分数的限制。提出的GRM能生成可解释的“思维链”推理,并支持通过推理时多次采样与多数投票(inference-time scaling)来提升判断准确性。实验证明GRM在准确率和实用性(如作为下游TTS的奖励函数)上均优于BTRM。
- 训练数据:
- SpeechJudge-Data (raw):99K语音对,由6个不同的先进零样本TTS模型(ARS, CosyVoice2, CosyVoice2-INTP, Ints-INTP, F5-TTS, MaskGCT)生成。语音参考来自Emilia-Large(常规)、ParaSpeechCaps/L2-Arctic/KeSpeech/原神语音(表现性)等。目标文本包含中、英、中英混合,涵盖单语和跨语言合成场景。由69名标注员进行为期两个月的标注,平均每对获得2.49个标注。
- 子集划分:
SpeechJudge-Data (pref):79K对,移除了标注为“平局(Tie)”的样本,只保留明确的偏好数据。SpeechJudge-Data (hq):44K对,在pref基础上,进一步筛选了WER差异小于12%的样本,以排除清晰度差异对自然度判断的干扰,使标签更纯粹地反映自然度。SpeechJudge-Data (train):42K对,用于训练。从hq中筛选,并通过投票确定最终标签。SpeechJudge-Eval:1K对,用于评估。从hq中采用分层抽样选取“完全一致(FA)”级别的样本构成,确保高质量的基准真值。
- 损失函数:
- SFT阶段:标准的自回归语言模型负对数似然损失(Next Token Prediction),仅对教师生成的输出序列
Oteacher计算损失。 - RL阶段:采用GRPO算法的损失函数,其奖励为二元奖励(正确判断为+1,错误为-1)。论文未给出具体公式,但说明奖励仅基于最终判断的正确性,不约束中间推理过程。
- SFT阶段:标准的自回归语言模型负对数似然损失(Next Token Prediction),仅对教师生成的输出序列
- 训练策略:
- SFT阶段:使用LoRA(rank=128)对Qwen2.5-Omni-7B进行微调。优化器为AdamW,学习率为5e-5,最大序列长度4000 tokens。
- RL阶段:初始化策略模型为SFT模型,使用LoRA(rank=64)。每个提示的rollout数(采样数)为8,batch size为32,学习率为5e-6。采用DAPO(GRPO的增强变体)算法。
- 关键超参数:基础模型为Qwen2.5-Omni-7B(Thinker),一个参数量为70亿的多模态模型。
- 训练硬件:论文未明确说明训练所使用的GPU型号、数量和总训练时长。
- 推理细节:评估时,对于GRM,采用CoT提示引导模型生成推理过程和最终判断。支持推理时缩放:通过生成多个(如10个)独立输出,并采用多数投票确定最终结果(Voting@10),可有效提升准确率。
- 正则化或稳定训练技巧:SFT和RL阶段均使用LoRA进行高效微调。RL阶段的奖励函数设计简单(二元奖励),有助于训练稳定性。
- 基准测试:现有方法在SpeechJudge-Eval上的表现 下表完整列出了论文中各类模型在SpeechJudge-Eval基准上的性能。评估任务为二选一判断哪个语音更自然。
| 类别 | 模型 | Regular (%) | Expressive (%) | Total (%) |
|---|---|---|---|---|
| 客观指标 | WER ↓ | 59.3 | 57.0 | 57.9 |
| SIM ↑ | 47.5 | 42.5 | 44.5 | |
| FAD ↓ | 50.3 | 47.5 | 48.6 | |
| MOS预测器 | DNSMOS | 61.0 | 55.8 | 57.9 |
| UTMOS | 54.0 | 53.5 | 53.7 | |
| Content Enjoyment (CE) | 69.3 | 55.2 | 60.8 | |
| 深度伪造检测器 | AASIST | 40.5 | 50.8 | 46.7 |
| ADV | 35.3 | 40.3 | 38.3 | |
| AudioLLMs (开源) | Qwen2.5-Omni-7B | 62.0 | 59.7 | 60.6 |
| Kimi-Audio-7B-Instruct | 65.5 | 68.0 | 67.0 | |
| MiMo-Audio-7B-Instruct | 61.3 | 49.3 | 54.1 | |
| AudioLLMs (闭源) | Gemini-2.5-Flash | 73.5 | 66.2 | 69.1 |
| GPT-4o Audio | 71.5 | 64.7 | 67.4 |
关键结论:即使是最强的闭源模型Gemini-2.5-Flash,准确率也低于70%,表明语音自然度判断是一个极具挑战性的任务。传统客观指标和MOS预测器表现不佳。
所提方法:SpeechJudge-GRM 的性能
模型 Regular (%) Expressive (%) Total (%) Qwen2.5-Omni-7B (基础) 62.0 59.7 60.6 Gemini-2.5-Flash (教师) 73.5 66.2 69.1 SpeechJudge-BTRM 77.5 69.5 72.7 SpeechJudge-GRM (SFT) 77.8 73.7 75.3 SpeechJudge-GRM (SFT) w/ Voting@10 77.4 77.6 77.6 SpeechJudge-GRM (SFT+RL) 79.0 76.0 77.2 SpeechJudge-GRM (SFT+RL) w/ Voting@10 80.5 78.7 79.4 图5展示了使用不同奖励模型从100个生成样本中选出最佳样本后,与随机样本进行对比的主观评估结果。SpeechJudge-GRM选出的样本显著优于随机样本(“Win”比例更高),且优于SpeechJudge-BTRM。
方法 Text Accuracy (T-ACC) Naturalness CMOS (N-CMOS) Qwen2.5-0.5B-TTS (基线) 84.0% 0.00 ±0.00 w/ INTP (DPO) 87.0% 0.18 ±0.07 w/ SpeechJudge-Data (DPO) 91.0% 0.16 ±0.08 w/ SpeechJudge-GRM (offline DPO) 91.0% 0.21 ±0.12 w/ SpeechJudge-GRM (online DPO) 90.0% 0.25 ±0.09 表格(来自图6a)和图6b展示了将SpeechJudge-GRM作为奖励函数对TTS模型进行后训练的效果。所有方法都提升了文本准确性和自然度,其中使用GRM作为在线奖励(online DPO)的方法在自然度CMOS上提升最大(+0.25),同时保持了较高的文本准确性。
- 学术质量:6.5/7:论文工作扎实,从数据构建、基准定义到模型训练形成了一个完整的研究闭环。创新点清晰,实验设计全面,既有横向对比(各类基线),也有纵向消融(GRM的不同阶段),还有下游应用验证。主要扣分点在于:1) GRM的主体架构是基于现有模型的适配与微调,架构本身的原创性有限;2) 核心的两阶段训练策略(SFT+RL)是近期强化学习领域的常见范式,非本文独创;3) 部分关键实验细节(如RL训练硬件、完整超参数搜索)未完全披露。
- 选题价值:2/2:选题切中语音合成领域的核心痛点——如何对齐人类对于“自然度”的感知。构建大规模偏好数据集和有效的奖励模型是推动该领域从“能用”到“好用”发展的关键。本工作提供了重要的开源资源,对后续研究有很高的价值。
- 开源与复现加成���1/1:论文明确承诺开源所有资源(数据、模型、代码、评估集),并在论文中提供了极其详尽的数据集构建指南、模型训练细节(包括LoRA rank、学习率、rollout数等)和评估协议。这为完全复现提供了极大便利,是开源贡献的典范。
开源详情
- 代码:论文明确声明将公开所有代码,包括奖励模型训练和下游实验的代码。论文中未直接给出代码链接,但提供了项目主页和GitHub链接。
- 模型权重:论文明确声明将公开训练好的SpeechJudge-GRM模型检查点。
- 数据集:论文明确声明将公开SpeechJudge-Data(全部子集)和SpeechJudge-Eval基准数据集。
- Demo:论文提供了项目网站用于展示音频样本。
- 复现材料:论文在附录中提供了极其详细的实验设置,包括标注指南、训练超参数(学习率、batch size、LoRA rank、rollout数等)、模型选择、评估协议等。
- 论文中引用的开源项目:主要依赖Qwen2.5-Omni-7B作为基础模型,并使用了ms-swift工具包进行RL训练。还引用了多个开源的TTS模型(CosyVoice2, F5-TTS等)和评估工具(如DNSMOS、audiobox-aesthetics)。
- 整体开源情况:论文的开源承诺非常彻底,覆盖了数据、模型、代码和复现指南,对社区非常友好。
🔗 开源详情
- 代码:论文明确声明将公开所有代码,包括奖励模型训练和下游实验的代码。论文中未直接给出代码链接,但提供了项目主页和GitHub链接。
- 模型权重:论文明确声明将公开训练好的SpeechJudge-GRM模型检查点。
- 数据集:论文明确声明将公开SpeechJudge-Data(全部子集)和SpeechJudge-Eval基准数据集。
- Demo:论文提供了项目网站用于展示音频样本。
- 复现材料:论文在附录中提供了极其详细的实验设置,包括标注指南、训练超参数(学习率、batch size、LoRA rank、rollout数等)、模型选择、评估协议等。
- 论文中引用的开源项目:主要依赖Qwen2.5-Omni-7B作为基础模型,并使用了ms-swift工具包进行RL训练。还引用了多个开源的TTS模型(CosyVoice2, F5-TTS等)和评估工具(如DNSMOS、audiobox-aesthetics)。
- 整体开源情况:论文的开源承诺非常彻底,覆盖了数据、模型、代码和复现指南,对社区非常友好。
🏗️ 模型架构
SpeechJudge-GRM 的核心是一个在预训练AudioLLM基础上进行后训练的生成式奖励模型(Generative Reward Model, GRM)。其训练流程分为两个关键阶段,整体架构与训练数据流如图4所示。
监督微调(SFT)阶段(冷启动):
- 输入:从SpeechJudge-Data中筛选出的、教师模型(Gemini-2.5-Flash)判断与人类偏好一致的样本(约25K对)。输入格式为“思维链提示(Table 1的CoT prompt)+ 教师生成的推理输出”。
- 过程:对基础模型Qwen2.5-Omni-7B (Thinker) 进行LoRA微调。训练目标是让模型学会遵循指令、进行推理,并输出格式化的自然度判断。此阶段旨在提升模型的基础指令遵循和推理能力。
- 输出:一个初步具备自然度判断和CoT推理能力的模型
SpeechJudge-GRM (SFT)。
基于人类反馈的强化学习(RL)阶段:
- 输入:SpeechJudge-Data中教师模型判断与人类不一致的“困难样本”(约17K对)的提示词(CoT prompt)。
- 过程:以SFT模型为策略模型,使用GRPO算法进行训练。对于每个提示,模型生成多个回答(rollout)。将模型最终输出的偏好判断(解析得到)与人类标注的偏好进行比对,作为可验证奖励(奖励为+1或-1)。
- 核心思想:允许模型通过自主探索,学习如何生成更准确的最终判断和更有效的推理过程,以在困难样本上获得正奖励。
- 输出:最终模型
SpeechJudge-GRM (SFT+RL),其判断准确性和推理质量得到进一步提升。
组件交互与数据流:数据集中的语音对(a1, a2)和文本t通过精心设计的提示词输入模型。模型以自回归方式生成包含推理步骤和最终结论的文本序列。在SFT阶段,损失仅作用于教师生成的输出序列;在RL阶段,奖励信号基于最终输出的准确性计算,反向传播以优化整个生成策略。
💡 核心创新点
- 构建首个大规模语音“自然度”偏好数据集:针对语音合成领域缺乏以“自然度”为核心的、大规模、高质量配对偏好数据的空白,构建了包含99K对、涵盖多种零样本TTS模型、多语言、多风格的SpeechJudge-Data。数据构建过程严谨,包含多轮标注与一致性分析。
- 建立标准化的语音自然度评估基准:设计了SpeechJudge-Eval基准任务(给定文本和两个语音,判断哪个更自然),并系统评测了传统指标(WER, FAD)、MOS预测器、声纹检测器和多个前沿AudioLLMs。揭示了当前技术(即使是最强的闭源AudioLLMs)在该任务上与人类判断的显著差距,明确了研究方向。
- 提出并验证了用于自然度判断的生成式奖励模型(GRM):突破了传统Bradley-Terry奖励模型仅输出一个标量分数的限制。提出的GRM能生成可解释的“思维链”推理,并支持通过推理时多次采样与多数投票(inference-time scaling)来提升判断准确性。实验证明GRM在准确率和实用性(如作为下游TTS的奖励函数)上均优于BTRM。
🔬 细节详述
- 训练数据:
- SpeechJudge-Data (raw):99K语音对,由6个不同的先进零样本TTS模型(ARS, CosyVoice2, CosyVoice2-INTP, Ints-INTP, F5-TTS, MaskGCT)生成。语音参考来自Emilia-Large(常规)、ParaSpeechCaps/L2-Arctic/KeSpeech/原神语音(表现性)等。目标文本包含中、英、中英混合,涵盖单语和跨语言合成场景。由69名标注员进行为期两个月的标注,平均每对获得2.49个标注。
- 子集划分:
SpeechJudge-Data (pref):79K对,移除了标注为“平局(Tie)”的样本,只保留明确的偏好数据。SpeechJudge-Data (hq):44K对,在pref基础上,进一步筛选了WER差异小于12%的样本,以排除清晰度差异对自然度判断的干扰,使标签更纯粹地反映自然度。SpeechJudge-Data (train):42K对,用于训练。从hq中筛选,并通过投票确定最终标签。SpeechJudge-Eval:1K对,用于评估。从hq中采用分层抽样选取“完全一致(FA)”级别的样本构成,确保高质量的基准真值。
- 损失函数:
- SFT阶段:标准的自回归语言模型负对数似然损失(Next Token Prediction),仅对教师生成的输出序列
Oteacher计算损失。 - RL阶段:采用GRPO算法的损失函数,其奖励为二元奖励(正确判断为+1,错误为-1)。论文未给出具体公式,但说明奖励仅基于最终判断的正确性,不约束中间推理过程。
- SFT阶段:标准的自回归语言模型负对数似然损失(Next Token Prediction),仅对教师生成的输出序列
- 训练策略:
- SFT阶段:使用LoRA(rank=128)对Qwen2.5-Omni-7B进行微调。优化器为AdamW,学习率为5e-5,最大序列长度4000 tokens。
- RL阶段:初始化策略模型为SFT模型,使用LoRA(rank=64)。每个提示的rollout数(采样数)为8,batch size为32,学习率为5e-6。采用DAPO(GRPO的增强变体)算法。
- 关键超参数:基础模型为Qwen2.5-Omni-7B(Thinker),一个参数量为70亿的多模态模型。
- 训练硬件:论文未明确说明训练所使用的GPU型号、数量和总训练时长。
- 推理细节:评估时,对于GRM,采用CoT提示引导模型生成推理过程和最终判断。支持推理时缩放:通过生成多个(如10个)独立输出,并采用多数投票确定最终结果(Voting@10),可有效提升准确率。
- 正则化或稳定训练技巧:SFT和RL阶段均使用LoRA进行高效微调。RL阶段的奖励函数设计简单(二元奖励),有助于训练稳定性。
📊 实验结果
- 基准测试:现有方法在SpeechJudge-Eval上的表现 下表完整列出了论文中各类模型在SpeechJudge-Eval基准上的性能。评估任务为二选一判断哪个语音更自然。
| 类别 | 模型 | Regular (%) | Expressive (%) | Total (%) |
|---|---|---|---|---|
| 客观指标 | WER ↓ | 59.3 | 57.0 | 57.9 |
| SIM ↑ | 47.5 | 42.5 | 44.5 | |
| FAD ↓ | 50.3 | 47.5 | 48.6 | |
| MOS预测器 | DNSMOS | 61.0 | 55.8 | 57.9 |
| UTMOS | 54.0 | 53.5 | 53.7 | |
| Content Enjoyment (CE) | 69.3 | 55.2 | 60.8 | |
| 深度伪造检测器 | AASIST | 40.5 | 50.8 | 46.7 |
| ADV | 35.3 | 40.3 | 38.3 | |
| AudioLLMs (开源) | Qwen2.5-Omni-7B | 62.0 | 59.7 | 60.6 |
| Kimi-Audio-7B-Instruct | 65.5 | 68.0 | 67.0 | |
| MiMo-Audio-7B-Instruct | 61.3 | 49.3 | 54.1 | |
| AudioLLMs (闭源) | Gemini-2.5-Flash | 73.5 | 66.2 | 69.1 |
| GPT-4o Audio | 71.5 | 64.7 | 67.4 |
关键结论:即使是最强的闭源模型Gemini-2.5-Flash,准确率也低于70%,表明语音自然度判断是一个极具挑战性的任务。传统客观指标和MOS预测器表现不佳。
所提方法:SpeechJudge-GRM 的性能
模型 Regular (%) Expressive (%) Total (%) Qwen2.5-Omni-7B (基础) 62.0 59.7 60.6 Gemini-2.5-Flash (教师) 73.5 66.2 69.1 SpeechJudge-BTRM 77.5 69.5 72.7 SpeechJudge-GRM (SFT) 77.8 73.7 75.3 SpeechJudge-GRM (SFT) w/ Voting@10 77.4 77.6 77.6 SpeechJudge-GRM (SFT+RL) 79.0 76.0 77.2 SpeechJudge-GRM (SFT+RL) w/ Voting@10 80.5 78.7 79.4 图5展示了使用不同奖励模型从100个生成样本中选出最佳样本后,与随机样本进行对比的主观评估结果。SpeechJudge-GRM选出的样本显著优于随机样本(“Win”比例更高),且优于SpeechJudge-BTRM。
方法 Text Accuracy (T-ACC) Naturalness CMOS (N-CMOS) Qwen2.5-0.5B-TTS (基线) 84.0% 0.00 ±0.00 w/ INTP (DPO) 87.0% 0.18 ±0.07 w/ SpeechJudge-Data (DPO) 91.0% 0.16 ±0.08 w/ SpeechJudge-GRM (offline DPO) 91.0% 0.21 ±0.12 w/ SpeechJudge-GRM (online DPO) 90.0% 0.25 ±0.09 表格(来自图6a)和图6b展示了将SpeechJudge-GRM作为奖励函数对TTS模型进行后训练的效果。所有方法都提升了文本准确性和自然度,其中使用GRM作为在线奖励(online DPO)的方法在自然度CMOS上提升最大(+0.25),同时保持了较高的文本准确性。
⚖️ 评分理由
- 学术质量:6.5/7:论文工作扎实,从数据构建、基准定义到模型训练形成了一个完整的研究闭环。创新点清晰,实验设计全面,既有横向对比(各类基线),也有纵向消融(GRM的不同阶段),还有下游应用验证。主要扣分点在于:1) GRM的主体架构是基于现有模型的适配与微调,架构本身的原创性有限;2) 核心的两阶段训练策略(SFT+RL)是近期强化学习领域的常见范式,非本文独创;3) 部分关键实验细节(如RL训练硬件、完整超参数搜索)未完全披露。
- 选题价值:2/2:选题切中语音合成领域的核心痛点——如何对齐人类对于“自然度”的感知。构建大规模偏好数据集和有效的奖励模型是推动该领域从“能用”到“好用”发展的关键。本工作提供了重要的开源资源,对后续研究有很高的价值。
- 开源与复现加成���1/1:论文明确承诺开源所有资源(数据、模型、代码、评估集),并在论文中提供了极其详尽的数据集构建指南、模型训练细节(包括LoRA rank、学习率、rollout数等)和评估协议。这为完全复现提供了极大便利,是开源贡献的典范。