奖励模型 on 语音/音频论文速递

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

Mon, 04 May 2026 00:00:00 +0000

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

#语音合成 #强化学习 #数据集 #基准测试 #奖励模型

🔥 8.5/10 | 前10% | #语音合成 | #强化学习 | #数据集 #基准测试

学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高

👥 作者与机构

第一作者：Xueyao Zhang（香港中文大学（深圳））
通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.）
作者列表：
- Xueyao Zhang（香港中文大学（深圳））
- Chaoren Wang（香港中文大学（深圳））
- Huan Liao（香港中文大学（深圳））
- Ziniu Li（香港中文大学（深圳））
- Yuancheng Wang（香港中文大学（深圳））
- Li Wang（香港中文大学（深圳））
- Dongya Jia（ByteDance Seed）
- Yuanzhe Chen（ByteDance Seed）
- Xiulin Li（DataBaker Technology）
- Zhuo Chen（ByteDance Seed）
- Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.）

💡 毒舌点评

这篇论文的“基建”价值很高，99K规模的高质量人类偏好数据集和开源承诺堪称语音合成对齐研究的“粮草先行”。但核心的奖励模型架构（基于现有Qwen2.5-Omni的微调）创新稍显有限，更像是一个强大但“组装式”的解决方案，而非从头设计的、能深刻洞察自然度内在结构的新架构。

📌 核心摘要

要解决的问题：当前语音合成模型缺乏大规模、专注于“自然度”这一核心主观指标的人类偏好数据集，导致难以有效对齐人类感知，现有自动评估方法与人类判断存在显著差距。
方法核心：构建了SpeechJudge套件，包括：(1) SpeechJudge-Data：一个包含99K语音对、涵盖多语言和多风格的大型人类偏好数据集；(2) SpeechJudge-Eval：一个高质量的评估基准；(3) SpeechJudge-GRM：一个基于Qwen2.5-Omni-7B的生成式奖励模型，通过“监督微调（SFT）+基于人类反馈的强化学习（RL）”两阶段训练得到。
与已有方法相比新在哪里：
- 数据：是首个专门针对语音“自然度”的大规模（~100K对）配对偏好数据集，而非传统的点状MOS评分。
- 评估：建立了标准化的基准任务（给定文本和两个语音，判断哪个更自然），并系统评估了现有指标（WER, FAD等）和多个AudioLLMs，揭示了巨大性能差距。
- 模型：提出的GRM不仅给出分数，还能生成“思维链”解释，并支持通过多数投票进行推理时缩放，性能优于传统的Bradley-Terry奖励模型。
主要实验结果：
- 基准测试：在SpeechJudge-Eval上，最强的闭源模型Gemini-2.5-Flash与人类判断的一致性低于70%。
- GRM性能：SpeechJudge-GRM达到77.2%的准确率，使用多数投票（@10）后提升至79.4%，显著优于相同的BTRM基线（72.7%）。
- 下游应用：将GRM用作奖励函数对TTS模型（Qwen2.5-0.5B-TTS）进行后训练，相比使用原始数据集或BTRM，能带来更显著的自然度提升（主观CMOS）。
- 关键数据对比如下表所示：

模型	在 SpeechJudge-Eval 上的准确率 (%)
Gemini-2.5-Flash (最佳基线)	69.1
SpeechJudge-BTRM	72.7
SpeechJudge-GRM (SFT)	75.3
SpeechJudge-GRM (SFT+RL)	77.2
SpeechJudge-GRM (SFT+RL, Voting@10)	79.4

实际意义：为语音生成领域提供了对齐人类偏好的关键基础设施（数据、基准、模型），有助于推动生成更自然、更符合人类听感的语音，并提供了可解释的自动评估工具。
主要局限性：数据集主要基于中文母语标注员对合成语音的评估，可能对其他语言文化群体的代表性不足；奖励模型的推理链（CoT）质量继承自教师模型（Gemini），未经大规模人工验证；模型主要进行句子级的粗粒度判断，无法定位语音内部的局部瑕疵。

详细分析

SpeechJudge-GRM 的核心是一个在预训练AudioLLM基础上进行后训练的生成式奖励模型（Generative Reward Model, GRM）。其训练流程分为两个关键阶段，整体架构与训练数据流如图4所示。

监督微调（SFT）阶段（冷启动）：
- 输入：从SpeechJudge-Data中筛选出的、教师模型（Gemini-2.5-Flash）判断与人类偏好一致的样本（约25K对）。输入格式为“思维链提示（Table 1的CoT prompt）+ 教师生成的推理输出”。
- 过程：对基础模型Qwen2.5-Omni-7B (Thinker) 进行LoRA微调。训练目标是让模型学会遵循指令、进行推理，并输出格式化的自然度判断。此阶段旨在提升模型的基础指令遵循和推理能力。
- 输出：一个初步具备自然度判断和CoT推理能力的模型 SpeechJudge-GRM (SFT)。
基于人类反馈的强化学习（RL）阶段：
- 输入：SpeechJudge-Data中教师模型判断与人类不一致的“困难样本”（约17K对）的提示词（CoT prompt）。
- 过程：以SFT模型为策略模型，使用GRPO算法进行训练。对于每个提示，模型生成多个回答（rollout）。将模型最终输出的偏好判断（解析得到）与人类标注的偏好进行比对，作为可验证奖励（奖励为+1或-1）。
- 核心思想：允许模型通过自主探索，学习如何生成更准确的最终判断和更有效的推理过程，以在困难样本上获得正奖励。
- 输出：最终模型 SpeechJudge-GRM (SFT+RL)，其判断准确性和推理质量得到进一步提升。

组件交互与数据流：数据集中的语音对(a1, a2)和文本t通过精心设计的提示词输入模型。模型以自回归方式生成包含推理步骤和最终结论的文本序列。在SFT阶段，损失仅作用于教师生成的输出序列；在RL阶段，奖励信号基于最终输出的准确性计算，反向传播以优化整个生成策略。

构建首个大规模语音“自然度”偏好数据集：针对语音合成领域缺乏以“自然度”为核心的、大规模、高质量配对偏好数据的空白，构建了包含99K对、涵盖多种零样本TTS模型、多语言、多风格的SpeechJudge-Data。数据构建过程严谨，包含多轮标注与一致性分析。
建立标准化的语音自然度评估基准：设计了SpeechJudge-Eval基准任务（给定文本和两个语音，判断哪个更自然），并系统评测了传统指标（WER, FAD）、MOS预测器、声纹检测器和多个前沿AudioLLMs。揭示了当前技术（即使是最强的闭源AudioLLMs）在该任务上与人类判断的显著差距，明确了研究方向。
提出并验证了用于自然度判断的生成式奖励模型（GRM）：突破了传统Bradley-Terry奖励模型仅输出一个标量分数的限制。提出的GRM能生成可解释的“思维链”推理，并支持通过推理时多次采样与多数投票（inference-time scaling）来提升判断准确性。实验证明GRM在准确率和实用性（如作为下游TTS的奖励函数）上均优于BTRM。

训练数据：
- SpeechJudge-Data (raw)：99K语音对，由6个不同的先进零样本TTS模型（ARS, CosyVoice2, CosyVoice2-INTP, Ints-INTP, F5-TTS, MaskGCT）生成。语音参考来自Emilia-Large（常规）、ParaSpeechCaps/L2-Arctic/KeSpeech/原神语音（表现性）等。目标文本包含中、英、中英混合，涵盖单语和跨语言合成场景。由69名标注员进行为期两个月的标注，平均每对获得2.49个标注。
- 子集划分：
  - SpeechJudge-Data (pref)：79K对，移除了标注为“平局（Tie）”的样本，只保留明确的偏好数据。
  - SpeechJudge-Data (hq)：44K对，在pref基础上，进一步筛选了WER差异小于12%的样本，以排除清晰度差异对自然度判断的干扰，使标签更纯粹地反映自然度。
  - SpeechJudge-Data (train)：42K对，用于训练。从hq中筛选，并通过投票确定最终标签。
  - SpeechJudge-Eval：1K对，用于评估。从hq中采用分层抽样选取“完全一致（FA）”级别的样本构成，确保高质量的基准真值。
损失函数：
- SFT阶段：标准的自回归语言模型负对数似然损失（Next Token Prediction），仅对教师生成的输出序列Oteacher计算损失。
- RL阶段：采用GRPO算法的损失函数，其奖励为二元奖励（正确判断为+1，错误为-1）。论文未给出具体公式，但说明奖励仅基于最终判断的正确性，不约束中间推理过程。
训练策略：
- SFT阶段：使用LoRA（rank=128）对Qwen2.5-Omni-7B进行微调。优化器为AdamW，学习率为5e-5，最大序列长度4000 tokens。
- RL阶段：初始化策略模型为SFT模型，使用LoRA（rank=64）。每个提示的rollout数（采样数）为8，batch size为32，学习率为5e-6。采用DAPO（GRPO的增强变体）算法。
关键超参数：基础模型为Qwen2.5-Omni-7B（Thinker），一个参数量为70亿的多模态模型。
训练硬件：论文未明确说明训练所使用的GPU型号、数量和总训练时长。
推理细节：评估时，对于GRM，采用CoT提示引导模型生成推理过程和最终判断。支持推理时缩放：通过生成多个（如10个）独立输出，并采用多数投票确定最终结果（Voting@10），可有效提升准确率。
正则化或稳定训练技巧：SFT和RL阶段均使用LoRA进行高效微调。RL阶段的奖励函数设计简单（二元奖励），有助于训练稳定性。

基准测试：现有方法在SpeechJudge-Eval上的表现下表完整列出了论文中各类模型在SpeechJudge-Eval基准上的性能。评估任务为二选一判断哪个语音更自然。

类别	模型	Regular (%)	Expressive (%)	Total (%)
客观指标	WER ↓	59.3	57.0	57.9
	SIM ↑	47.5	42.5	44.5
	FAD ↓	50.3	47.5	48.6
MOS预测器	DNSMOS	61.0	55.8	57.9
	UTMOS	54.0	53.5	53.7
	Content Enjoyment (CE)	69.3	55.2	60.8
深度伪造检测器	AASIST	40.5	50.8	46.7
	ADV	35.3	40.3	38.3
AudioLLMs (开源)	Qwen2.5-Omni-7B	62.0	59.7	60.6
	Kimi-Audio-7B-Instruct	65.5	68.0	67.0
	MiMo-Audio-7B-Instruct	61.3	49.3	54.1
AudioLLMs (闭源)	Gemini-2.5-Flash	73.5	66.2	69.1
	GPT-4o Audio	71.5	64.7	67.4

关键结论：即使是最强的闭源模型Gemini-2.5-Flash，准确率也低于70%，表明语音自然度判断是一个极具挑战性的任务。传统客观指标和MOS预测器表现不佳。

所提方法：SpeechJudge-GRM 的性能

模型	Regular (%)	Expressive (%)	Total (%)
Qwen2.5-Omni-7B (基础)	62.0	59.7	60.6
Gemini-2.5-Flash (教师)	73.5	66.2	69.1
SpeechJudge-BTRM	77.5	69.5	72.7
SpeechJudge-GRM (SFT)	77.8	73.7	75.3
SpeechJudge-GRM (SFT) w/ Voting@10	77.4	77.6	77.6
SpeechJudge-GRM (SFT+RL)	79.0	76.0	77.2
SpeechJudge-GRM (SFT+RL) w/ Voting@10	80.5	78.7	79.4

图5展示了使用不同奖励模型从100个生成样本中选出最佳样本后，与随机样本进行对比的主观评估结果。SpeechJudge-GRM选出的样本显著优于随机样本（“Win”比例更高），且优于SpeechJudge-BTRM。

方法	Text Accuracy (T-ACC)	Naturalness CMOS (N-CMOS)
Qwen2.5-0.5B-TTS (基线)	84.0%	0.00 ±0.00
w/ INTP (DPO)	87.0%	0.18 ±0.07
w/ SpeechJudge-Data (DPO)	91.0%	0.16 ±0.08
w/ SpeechJudge-GRM (offline DPO)	91.0%	0.21 ±0.12
w/ SpeechJudge-GRM (online DPO)	90.0%	0.25 ±0.09
表格（来自图6a）和图6b展示了将SpeechJudge-GRM作为奖励函数对TTS模型进行后训练的效果。所有方法都提升了文本准确性和自然度，其中使用GRM作为在线奖励（online DPO）的方法在自然度CMOS上提升最大（+0.25），同时保持了较高的文本准确性。

学术质量：6.5/7：论文工作扎实，从数据构建、基准定义到模型训练形成了一个完整的研究闭环。创新点清晰，实验设计全面，既有横向对比（各类基线），也有纵向消融（GRM的不同阶段），还有下游应用验证。主要扣分点在于：1) GRM的主体架构是基于现有模型的适配与微调，架构本身的原创性有限；2) 核心的两阶段训练策略（SFT+RL）是近期强化学习领域的常见范式，非本文独创；3) 部分关键实验细节（如RL训练硬件、完整超参数搜索）未完全披露。
选题价值：2/2：选题切中语音合成领域的核心痛点——如何对齐人类对于“自然度”的感知。构建大规模偏好数据集和有效的奖励模型是推动该领域从“能用”到“好用”发展的关键。本工作提供了重要的开源资源，对后续研究有很高的价值。
开源与复现加成��1/1：论文明确承诺开源所有资源（数据、模型、代码、评估集），并在论文中提供了极其详尽的数据集构建指南、模型训练细节（包括LoRA rank、学习率、rollout数等）和评估协议。这为完全复现提供了极大便利，是开源贡献的典范。

开源详情

代码：论文明确声明将公开所有代码，包括奖励模型训练和下游实验的代码。论文中未直接给出代码链接，但提供了项目主页和GitHub链接。
模型权重：论文明确声明将公开训练好的SpeechJudge-GRM模型检查点。
数据集：论文明确声明将公开SpeechJudge-Data（全部子集）和SpeechJudge-Eval基准数据集。
Demo：论文提供了项目网站用于展示音频样本。
复现材料：论文在附录中提供了极其详细的实验设置，包括标注指南、训练超参数（学习率、batch size、LoRA rank、rollout数等）、模型选择、评估协议等。
论文中引用的开源项目：主要依赖Qwen2.5-Omni-7B作为基础模型，并使用了ms-swift工具包进行RL训练。还引用了多个开源的TTS模型（CosyVoice2, F5-TTS等）和评估工具（如DNSMOS、audiobox-aesthetics）。
整体开源情况：论文的开源承诺非常彻底，覆盖了数据、模型、代码和复现指南，对社区非常友好。

🔗 开源详情

代码：论文明确声明将公开所有代码，包括奖励模型训练和下游实验的代码。论文中未直接给出代码链接，但提供了项目主页和GitHub链接。
模型权重：论文明确声明将公开训练好的SpeechJudge-GRM模型检查点。
数据集：论文明确声明将公开SpeechJudge-Data（全部子集）和SpeechJudge-Eval基准数据集。
Demo：论文提供了项目网站用于展示音频样本。
复现材料：论文在附录中提供了极其详细的实验设置，包括标注指南、训练超参数（学习率、batch size、LoRA rank、rollout数等）、模型选择、评估协议等。
论文中引用的开源项目：主要依赖Qwen2.5-Omni-7B作为基础模型，并使用了ms-swift工具包进行RL训练。还引用了多个开源的TTS模型（CosyVoice2, F5-TTS等）和评估工具（如DNSMOS、audiobox-aesthetics）。
整体开源情况：论文的开源承诺非常彻底，覆盖了数据、模型、代码和复现指南，对社区非常友好。

🏗️ 模型架构

监督微调（SFT）阶段（冷启动）：
- 输入：从SpeechJudge-Data中筛选出的、教师模型（Gemini-2.5-Flash）判断与人类偏好一致的样本（约25K对）。输入格式为“思维链提示（Table 1的CoT prompt）+ 教师生成的推理输出”。
- 过程：对基础模型Qwen2.5-Omni-7B (Thinker) 进行LoRA微调。训练目标是让模型学会遵循指令、进行推理，并输出格式化的自然度判断。此阶段旨在提升模型的基础指令遵循和推理能力。
- 输出：一个初步具备自然度判断和CoT推理能力的模型 SpeechJudge-GRM (SFT)。
基于人类反馈的强化学习（RL）阶段：
- 输入：SpeechJudge-Data中教师模型判断与人类不一致的“困难样本”（约17K对）的提示词（CoT prompt）。
- 过程：以SFT模型为策略模型，使用GRPO算法进行训练。对于每个提示，模型生成多个回答（rollout）。将模型最终输出的偏好判断（解析得到）与人类标注的偏好进行比对，作为可验证奖励（奖励为+1或-1）。
- 核心思想：允许模型通过自主探索，学习如何生成更准确的最终判断和更有效的推理过程，以在困难样本上获得正奖励。
- 输出：最终模型 SpeechJudge-GRM (SFT+RL)，其判断准确性和推理质量得到进一步提升。

💡 核心创新点

构建首个大规模语音“自然度”偏好数据集：针对语音合成领域缺乏以“自然度”为核心的、大规模、高质量配对偏好数据的空白，构建了包含99K对、涵盖多种零样本TTS模型、多语言、多风格的SpeechJudge-Data。数据构建过程严谨，包含多轮标注与一致性分析。
建立标准化的语音自然度评估基准：设计了SpeechJudge-Eval基准任务（给定文本和两个语音，判断哪个更自然），并系统评测了传统指标（WER, FAD）、MOS预测器、声纹检测器和多个前沿AudioLLMs。揭示了当前技术（即使是最强的闭源AudioLLMs）在该任务上与人类判断的显著差距，明确了研究方向。
提出并验证了用于自然度判断的生成式奖励模型（GRM）：突破了传统Bradley-Terry奖励模型仅输出一个标量分数的限制。提出的GRM能生成可解释的“思维链”推理，并支持通过推理时多次采样与多数投票（inference-time scaling）来提升判断准确性。实验证明GRM在准确率和实用性（如作为下游TTS的奖励函数）上均优于BTRM。

🔬 细节详述

训练数据：
- SpeechJudge-Data (raw)：99K语音对，由6个不同的先进零样本TTS模型（ARS, CosyVoice2, CosyVoice2-INTP, Ints-INTP, F5-TTS, MaskGCT）生成。语音参考来自Emilia-Large（常规）、ParaSpeechCaps/L2-Arctic/KeSpeech/原神语音（表现性）等。目标文本包含中、英、中英混合，涵盖单语和跨语言合成场景。由69名标注员进行为期两个月的标注，平均每对获得2.49个标注。
- 子集划分：
  - SpeechJudge-Data (pref)：79K对，移除了标注为“平局（Tie）”的样本，只保留明确的偏好数据。
  - SpeechJudge-Data (hq)：44K对，在pref基础上，进一步筛选了WER差异小于12%的样本，以排除清晰度差异对自然度判断的干扰，使标签更纯粹地反映自然度。
  - SpeechJudge-Data (train)：42K对，用于训练。从hq中筛选，并通过投票确定最终标签。
  - SpeechJudge-Eval：1K对，用于评估。从hq中采用分层抽样选取“完全一致（FA）”级别的样本构成，确保高质量的基准真值。
损失函数：
- SFT阶段：标准的自回归语言模型负对数似然损失（Next Token Prediction），仅对教师生成的输出序列Oteacher计算损失。
- RL阶段：采用GRPO算法的损失函数，其奖励为二元奖励（正确判断为+1，错误为-1）。论文未给出具体公式，但说明奖励仅基于最终判断的正确性，不约束中间推理过程。
训练策略：
- SFT阶段：使用LoRA（rank=128）对Qwen2.5-Omni-7B进行微调。优化器为AdamW，学习率为5e-5，最大序列长度4000 tokens。
- RL阶段：初始化策略模型为SFT模型，使用LoRA（rank=64）。每个提示的rollout数（采样数）为8，batch size为32，学习率为5e-6。采用DAPO（GRPO的增强变体）算法。
关键超参数：基础模型为Qwen2.5-Omni-7B（Thinker），一个参数量为70亿的多模态模型。
训练硬件：论文未明确说明训练所使用的GPU型号、数量和总训练时长。
推理细节：评估时，对于GRM，采用CoT提示引导模型生成推理过程和最终判断。支持推理时缩放：通过生成多个（如10个）独立输出，并采用多数投票确定最终结果（Voting@10），可有效提升准确率。
正则化或稳定训练技巧：SFT和RL阶段均使用LoRA进行高效微调。RL阶段的奖励函数设计简单（二元奖励），有助于训练稳定性。

📊 实验结果

基准测试：现有方法在SpeechJudge-Eval上的表现下表完整列出了论文中各类模型在SpeechJudge-Eval基准上的性能。评估任务为二选一判断哪个语音更自然。

类别	模型	Regular (%)	Expressive (%)	Total (%)
客观指标	WER ↓	59.3	57.0	57.9
	SIM ↑	47.5	42.5	44.5
	FAD ↓	50.3	47.5	48.6
MOS预测器	DNSMOS	61.0	55.8	57.9
	UTMOS	54.0	53.5	53.7
	Content Enjoyment (CE)	69.3	55.2	60.8
深度伪造检测器	AASIST	40.5	50.8	46.7
	ADV	35.3	40.3	38.3
AudioLLMs (开源)	Qwen2.5-Omni-7B	62.0	59.7	60.6
	Kimi-Audio-7B-Instruct	65.5	68.0	67.0
	MiMo-Audio-7B-Instruct	61.3	49.3	54.1
AudioLLMs (闭源)	Gemini-2.5-Flash	73.5	66.2	69.1
	GPT-4o Audio	71.5	64.7	67.4

关键结论：即使是最强的闭源模型Gemini-2.5-Flash，准确率也低于70%，表明语音自然度判断是一个极具挑战性的任务。传统客观指标和MOS预测器表现不佳。

所提方法：SpeechJudge-GRM 的性能

模型	Regular (%)	Expressive (%)	Total (%)
Qwen2.5-Omni-7B (基础)	62.0	59.7	60.6
Gemini-2.5-Flash (教师)	73.5	66.2	69.1
SpeechJudge-BTRM	77.5	69.5	72.7
SpeechJudge-GRM (SFT)	77.8	73.7	75.3
SpeechJudge-GRM (SFT) w/ Voting@10	77.4	77.6	77.6
SpeechJudge-GRM (SFT+RL)	79.0	76.0	77.2
SpeechJudge-GRM (SFT+RL) w/ Voting@10	80.5	78.7	79.4

方法	Text Accuracy (T-ACC)	Naturalness CMOS (N-CMOS)
Qwen2.5-0.5B-TTS (基线)	84.0%	0.00 ±0.00
w/ INTP (DPO)	87.0%	0.18 ±0.07
w/ SpeechJudge-Data (DPO)	91.0%	0.16 ±0.08
w/ SpeechJudge-GRM (offline DPO)	91.0%	0.21 ±0.12
w/ SpeechJudge-GRM (online DPO)	90.0%	0.25 ±0.09
表格（来自图6a）和图6b展示了将SpeechJudge-GRM作为奖励函数对TTS模型进行后训练的效果。所有方法都提升了文本准确性和自然度，其中使用GRM作为在线奖励（online DPO）的方法在自然度CMOS上提升最大（+0.25），同时保持了较高的文本准确性。

⚖️ 评分理由

学术质量：6.5/7：论文工作扎实，从数据构建、基准定义到模型训练形成了一个完整的研究闭环。创新点清晰，实验设计全面，既有横向对比（各类基线），也有纵向消融（GRM的不同阶段），还有下游应用验证。主要扣分点在于：1) GRM的主体架构是基于现有模型的适配与微调，架构本身的原创性有限；2) 核心的两阶段训练策略（SFT+RL）是近期强化学习领域的常见范式，非本文独创；3) 部分关键实验细节（如RL训练硬件、完整超参数搜索）未完全披露。
选题价值：2/2：选题切中语音合成领域的核心痛点——如何对齐人类对于“自然度”的感知。构建大规模偏好数据集和有效的奖励模型是推动该领域从“能用”到“好用”发展的关键。本工作提供了重要的开源资源，对后续研究有很高的价值。
开源与复现加成��1/1：论文明确承诺开源所有资源（数据、模型、代码、评估集），并在论文中提供了极其详尽的数据集构建指南、模型训练细节（包括LoRA rank、学习率、rollout数等）和评估协议。这为完全复现提供了极大便利，是开源贡献的典范。

← 返回 ICLR 2026 论文分析

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

Sat, 02 May 2026 00:00:00 +0000

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

#模型评估 #强化学习 #奖励模型 #大语言模型 #语音合成

🔥 8.0/10 | 前25% | #模型评估 | #强化学习 | #奖励模型 #大语言模型

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高

👥 作者与机构

第一作者：Xueyao Zhang（香港中文大学（深圳））
通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd）
作者列表：
- Xueyao Zhang（香港中文大学（深圳））
- Chaoren Wang（香港中文大学（深圳））
- Huan Liao（香港中文大学（深圳））
- Ziniu Li（香港中文大学（深圳））
- Yuancheng Wang（香港中文大学（深圳））
- Li Wang（香港中文大学（深圳））
- Dongya Jia（字节跳动 Seed）
- Yuanzhe Chen（字节跳动 Seed）
- Xiulin Li（DataBaker Technology）
- Zhuo Chen（字节跳动 Seed）
- Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd）

💡 毒舌点评

亮点：工作非常“接地气”且系统，从最基础的“数据集-基准-模型”三位一体入手，解决了语音合成对齐中缺乏大规模人类偏好数据的关键瓶颈，且承诺全部开源，这对领域发展是扎实的贡献。短板：核心的奖励模型训练依赖闭源的Gemini-2.5-Flash生成CoT数据进行“冷启动”，其“教学”质量直接决定了“学生”GRM的上限，这使得方法的独立性和可复现性打了点折扣；同时，数据集的语言（中英）和风格覆盖仍有明显局限。

🔗 开源详情

代码：论文明确承诺将开源，代码仓库链接为 https://github.com/AmphionTeam/SpeechJudge。
模型权重：论文明确承诺将发布训练好的SpeechJudge-GRM模型检查点。
数据集：论文明确承诺将公开SpeechJudge-Data数据集。
Demo：论文提供了音频样本的在线演示网站 https://speechjudge.github.io/。
复现材料：论文在正文中描述了数据集构建协议，并在附录F中提供了详尽的SFT和RL训练细节（学习率、优化器、LoRA秩、batch size等）。
论文中引用的开源项目：
- 基础模型：Qwen2.5-Omni-7B
- 教师模型（API调用）：Gemini-2.5-Flash
- 训练工具包：ms-swift
- TTS模型（用于生成数据）：CosyVoice2, F5-TTS, MaskGCT等
- 评估工具：Whisper, Paraformer, WavLM, UTMOS, AASIST等

📌 核心摘要

问题：语音合成领域缺乏大规模、以“自然度”为核心的人类偏好反馈数据集，这严重阻碍了能真正与人类感知对齐的模型的开发与评估。
方法：本文提出了SpeechJudge套件，包含三部分：a) SpeechJudge-Data：使用多种先进零样本TTS模型生成语音对，并由人工标注可懂度与自然度偏好，构建了99K对的大规模数据集。b) SpeechJudge-Eval：从数据集中筛选高质量样本构成基准，用于评估模型判断语音自然度的能力。c) SpeechJudge-GRM：一个基于Qwen2.5-Omni-7B的生成式奖励模型，通过两阶段后训练（监督微调+基于人类偏好的强化学习）来提升自然度判断能力。
创新性：与先前工作相比，a) 首次构建了大规模、多风格、多语言、以自然度为核心的人类偏好数据集；b) 提出了具有挑战性的自动化评估基准，并揭示了当前最佳AudioLLM（Gemini-2.5-Flash）的一致性不足70%；c) 提出的GRM模型结合了链式思维推理和推理时缩放，在性能上显著优于经典的Bradley-Terry奖励模型。
主要实验结果：
- SpeechJudge-Eval基准测试：现有指标和模型表现不佳，最强闭源模型Gemini-2.5-Flash准确率为69.1%。
- SpeechJudge-GRM性能：经两阶段训练后，准确率达77.2%；使用推理时缩放（Voting@10）后，进一步提升至79.4%（表3）。
- 下游应用：作为奖励模型用于语音合成模型的后训练，能有效提升生成语音的自然度（图6）；用于样本选择时，优于BTRM基线（图5）。
实际意义：为语音合成的对齐与评估提供了关键基础设施（数据与基准），并证明了一个更优的奖励模型可以用于改进语音生成模型本身，形成“评估促进生成”的闭环。
主要局限性：数据集和标注者群体主要集中于中英双语，对其他语言和文化背景的覆盖不足；奖励模型的能力依赖于闭源教师模型（Gemini）生成的训练数据；模型在处理极端表达风格或细微自然度差异时仍有错误。

🏗️ 模型架构

SpeechJudge-GRM是一个生成式奖励模型（Generative Reward Model, GRM），其核心是一个经过专门微调的音频-文本多模态大语言模型。

图1：数据集构建与任务示意。左侧展示了数据集构建流程：使用多种TTS模型基于参考语音和目标文本生成语音对，人工标注进行可懂度（点式标注）和自然度（成对偏好）评估。右侧展示了GRM的任务：输入目标文本和两个音频，通过链式思维推理，输出自然度判断。

图2：数据集分布。展示了数据集在(a) TTS模型、(b) 参考语音来源、(c) 语言设置上的分布，体现了多样性。

完整输入输出流程：

输入：一个文本字符串t（目标句子）和两个音频片段a1, a2（由不同TTS模型生成的合成语音）。
处理流程：
1. 输入被构造成一个包含任务指令和要求的提示（Prompt），该指令要求模型分析两个音频在韵律、节奏、发音清晰度和整体自然度方面的表现，并给出评分（1-10分）。
2. 模型（Qwen2.5-Omni-7B）对输入进行处理，利用其多模态理解能力同时处理文本和两个音频。
3. 模型进行链式思维（Chain-of-Thought, CoT）推理，生成一段解释其判断理由的文本。
4. 最终，从模型输出的推理文本中解析出自然度偏好判断（a1更好或a2更好）。
输出：一个自然语言推理过程（可选，用于可解释性）和一个二元偏好判断结果。

主要组件与训练阶段：

基础模型：Qwen2.5-Omni-7B（Thinker），一个开源的音频-文本多模态大语言模型，具备处理音频和文本的能力。
SFT阶段（冷启动）：
- 目标：提升模型的指令遵循、推理和语音自然度理解能力。
- 数据：使用Gemini-2.5-Flash（闭源模型）作为教师，为训练集中的样本生成CoT推理数据。选取教师判断与人类一致的数据（约25K样本）作为SFT数据。
- 训练：对Qwen2.5-Omni-7B进行LoRA微调，训练时仅计算生成部分（CoT推理）的损失。
RL阶段：
- 目标：利用更难的样本（教师判断与人类不一致的约17K样本）进一步优化模型。
- 奖励：将人类标注的偏好视为可验证奖励（Verifiable Reward）。对于模型生成的判断，奖励为+1（与人类一致）或-1（不一致）。
- 算法：采用GRPO（一种简化的PPO变体）算法，基于SFT后的模型进行强化学习训练。

💡 核心创新点

大规模、高质量的语音自然度人类偏好数据集（SpeechJudge-Data）：
- 之前局限：现有语音MOS数据集规模小、使用旧模型生成、缺乏直接的成对偏好标注，且很少专注于“自然度”这一整体性指标。
- 如何起作用：使用多种先进TTS模型（6种不同架构）生成语音，覆盖多种风格（常规、情感、口音、耳语、游戏角色）、语言（中、英、混合）和语音对类型（模型内、模型间）。由69名专业标注员进行可懂度点标注和自然度成对偏好标注，获得99K对数据，平均每对2.49个标注。
- 收益：提供了该领域迄今最大规模、最多样的自然度偏好语料库，为后续研究和模型训练奠定了基础。
具有挑战性的语音自然度判断基准（SpeechJudge-Eval）：
- 之前局限：缺乏统一的、高质量的自动化评估基准来衡量模型判断语音自然度的能力。
- 如何起作用：从数据集中筛选出人类标注者达成完全一致的高质量样本（1000对），作为黄金标准测试集。
- 收益：揭示了当前尖端模型（如Gemini-2.5-Flash）在该任务上的性能天花板（<70%准确率），明确了研究差距，为后续工作提供了明确的评估标尺。
两阶段训练的生成式奖励模型（SpeechJudge-GRM）：
- 之前局限：传统的Bradley-Terry奖励模型（BTRM）是判别式的，不输出解释，且推理时无法缩放；直接使用AudioLLM进行零样本判断性能不足。
- 如何起作用：提出“SFT+RL”的两阶段训练范式。SFT阶段利用教师模型的CoT数据教会模型如何“思考和解释”；RL阶段在困难样本上，以人类偏好为奖励信号，直接优化模型的最终判断准确性。
- 收益：GRM不仅判断准确率（77.2%）显著高于BTRM（72.7%），还能输出推理过程增强可解释性，并支持通过多次采样投票（Voting@10）进一步提升性能（79.4%），展示了生成式奖励模型的优势。

🔬 细节详述

训练数据：
- 来源：SpeechJudge-Data (train)，包含约42K个语音对及其人类偏好标签，是从99K原始数据中经过过滤（去除完全分歧样本、Tie样本，控制WER差异）得到的。
- 预处理：对于SFT数据，使用Gemini-2.5-Flash生成CoT推理文本，并将人类标签与之对齐。对于RL数据，仅使用提示（Prompt）和人类标签。
损失函数：
- SFT阶段：标准的语言模型下一个token预测损失（交叉熵），但仅在模型输出的CoT推理部分计算损失。
- RL阶段：基于GRPO算法的损失函数，其核心是最大化策略模型在给定提示下生成获得更高奖励（+1）的响应的概率。奖励函数是二元的（正确+1，错误-1）。
训练策略：
- SFT：使用AdamW优化器，学习率5e-5。使用LoRA进行参数高效微调，LoRA秩为128。最大batch token数为4000。
- RL (GRPO)：使用DAPO（GRPO的增强变体）进行训练。学习率5e-6。LoRA秩为64。每个提示的rollout数（生成数量）为8，batch size为32。
关键超参数：
- 模型大小：基于7B参数的Qwen2.5-Omni-7B。
- LoRA秩：SFT阶段128，RL阶段64。
训练硬件：论文中未具体说明GPU型号、数量及训练时长。
推理细节：
- 解码策略：标准解码（论文未指定具体温度、top-p等）。
- 推理时缩放：支持通过多数投票提升性能，即对一个输入生成10次输出，取其中多数判断作为最终结果（Voting@10）。
正则化或稳定训练技巧：论文中未明确说明。

📊 实验结果

基准测试（SpeechJudge-Eval）结果论文在SpeechJudge-Eval上评估了各类模型，结果如下表所示：

模型类型	模型名称	Regular (准确率%)	Expressive (准确率%)	Total (准确率%)
客观指标	WER	59.3	57.0	57.9
	SIM	47.5	42.5	44.5
	FAD	50.3	47.5	48.6
MOS预测器	DNSMOS	61.0	55.8	57.9
	UTMOS	54.0	53.5	53.7
深度伪造检测器	AASIST	40.5	50.8	46.7
	ADV	35.3	40.3	38.3
AudioLLMs (开源)	Qwen2.5-Omni-7B	62.0	59.7	60.6
	Kimi-Audio-7B-Instruct	65.5	68.0	67.0
AudioLLMs (闭源)	Gemini-2.5-Flash	73.5	66.2	69.1
	GPT-4o Audio	71.5	64.7	67.4

结论：现有最佳模型（Gemini-2.5-Flash）准确率不足70%，表明语音自然度判断是极具挑战的任务。传统指标（WER, FAD等）和深度伪造检测器在此任务上关联性很弱。

SpeechJudge-GRM性能对比论文将GRM与基线BTRM和教师模型进行了对比：

模型	Regular	Expressive	Total
Gemini-2.5-Flash	73.5	66.2	69.1
SpeechJudge-BTRM	77.5	69.5	72.7
SpeechJudge-GRM (SFT)	77.8	73.7	75.3
SpeechJudge-GRM (SFT) w/ Voting@10	77.4	77.6	77.6
SpeechJudge-GRM (SFT+RL)	79.0	76.0	77.2
SpeechJudge-GRM (SFT+RL) w/ Voting@10	80.5	78.7	79.4

结论：GRM在相同训练数据上显著优于BTRM（77.2% vs 72.7%）。SFT+RL两阶段训练有效提升了性能，且推理时缩放（Voting@10）能带来约2个百分点的额外增益。

分布外（OOD）测试：人类语音 vs TTS克隆论文额外测试了模型在区分真实人类录音和高质量语音克隆（SeedTTS）时的表现：

模型	Character1	Character2	Avg
AASIST	97.2	100	98.6
Kimi-Audio-7B-Instruct	85.2	85.6	85.4
SpeechJudge-BTRM	55.6	45.2	50.4
SpeechJudge-GRM (SFT+RL)	57.6	67.2	62.4
SpeechJudge-GRM (SFT+RL) w/ Voting@10	59.8	67.5	63.7

结论：专门训练用于区分“合成vs合成”的自然度奖励模型，在区分“合成vs真实”的任务上性能有限，但比BTRM基线更好。这表明不同的判断任务需要不同的专门模型。

下游应用：语音合成模型后训练使用Qwen2.5-0.5B-TTS作为基础模型，对比了不同对齐方法的效果：图6：使用SpeechJudge进行后训练的效果。 (a) 显示文本准确率和自然度CMOS分数。(b) 显示说话人相似度的胜/负/平比例。结论：使用SpeechJudge-GRM作为奖励模型（无论是离线标注还是在线RL）进行后训练，在提升自然度的同时，保持或略微提升了说话人相似度。GRM-based方法在自然度提升上优于仅使用现有数据（INTP）的方法。

⚖️ 评分理由

学术质量：5.5/7：论文工作系统、完整且扎实。它没有提出颠覆性的新模型架构，而是精心构建了该领域的关键基础设施（数据集、基准），并基于现有强大基座模型，通过有效的训练范式（SFT+RL）训练出了一个性能优越的专用模型。实验设计全面，消融清晰（SFT vs SFT+RL，BTRM vs GRM，支持Voting），并探索了下游应用，证据可信。主要扣分点在于GRM训练过程中对闭源教师模型（Gemini）的依赖。
选题价值：1.5/2：语音自然度判断是语音合成评估与对齐的基石问题。本文工作直接针对这一核心痛点，提供了大规模资源和性能更优的解决方案，对推动语音合成系统向人类水平发展有明确价值。选题重要且应用空间明确。
开源与复现加成：1.0/1：论文承诺开源所有资源（数据、基准、模型、代码），并提供了极其详尽的训练细节、超参数和复现步骤（附录F）。这对于社区后续研究和应用是巨大的促进，复现门槛低，加成满分。

← 返回 ICLR 2026 论文分析