<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>奖励模型 on 语音/音频论文速递</title>
    <link>https://nanless.github.io/audio-paper-digest-blog/tags/%E5%A5%96%E5%8A%B1%E6%A8%A1%E5%9E%8B/</link>
    <description>每日 AI 自动生成的语音/AI 领域论文深度分析</description>
    <language>zh-cn</language>
    <lastBuildDate>Mon, 04 May 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://nanless.github.io/audio-paper-digest-blog/tags/%E5%A5%96%E5%8A%B1%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>SpeechJudge: Towards Human-Level Judgment for Speech Naturalness</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-speechjudge-towards-human-level-judgment-for/</link>
      <pubDate>Mon, 04 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-speechjudge-towards-human-level-judgment-for/</guid>
      <description>&lt;h1 id=&#34;-speechjudge-towards-human-level-judgment-for-speech-naturalness&#34;&gt;📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness&lt;/h1&gt;
&lt;p&gt;#语音合成 #强化学习 #数据集 #基准测试 #奖励模型&lt;/p&gt;
&lt;p&gt;🔥 &lt;strong&gt;8.5/10&lt;/strong&gt; | 前10% | #语音合成 | #强化学习 | #数据集 #基准测试&lt;/p&gt;
&lt;p&gt;学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高&lt;/p&gt;
&lt;h3 id=&#34;-作者与机构&#34;&gt;👥 作者与机构&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Xueyao Zhang（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.）&lt;/li&gt;
&lt;li&gt;作者列表：
&lt;ul&gt;
&lt;li&gt;Xueyao Zhang（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;Chaoren Wang（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;Huan Liao（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;Ziniu Li（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;Yuancheng Wang（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;Li Wang（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;Dongya Jia（ByteDance Seed）&lt;/li&gt;
&lt;li&gt;Yuanzhe Chen（ByteDance Seed）&lt;/li&gt;
&lt;li&gt;Xiulin Li（DataBaker Technology）&lt;/li&gt;
&lt;li&gt;Zhuo Chen（ByteDance Seed）&lt;/li&gt;
&lt;li&gt;Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.）&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;&lt;/h1&gt;
&lt;h3 id=&#34;-毒舌点评&#34;&gt;💡 毒舌点评&lt;/h3&gt;
&lt;p&gt;这篇论文的“基建”价值很高，99K规模的高质量人类偏好数据集和开源承诺堪称语音合成对齐研究的“粮草先行”。但核心的奖励模型架构（基于现有Qwen2.5-Omni的微调）创新稍显有限，更像是一个强大但“组装式”的解决方案，而非从头设计的、能深刻洞察自然度内在结构的新架构。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="-speechjudge-towards-human-level-judgment-for-speech-naturalness">📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness</h1>
<p>#语音合成 #强化学习 #数据集 #基准测试 #奖励模型</p>
<p>🔥 <strong>8.5/10</strong> | 前10% | #语音合成 | #强化学习 | #数据集 #基准测试</p>
<p>学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高</p>
<h3 id="-作者与机构">👥 作者与机构</h3>
<ul>
<li>第一作者：Xueyao Zhang（香港中文大学（深圳））</li>
<li>通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.）</li>
<li>作者列表：
<ul>
<li>Xueyao Zhang（香港中文大学（深圳））</li>
<li>Chaoren Wang（香港中文大学（深圳））</li>
<li>Huan Liao（香港中文大学（深圳））</li>
<li>Ziniu Li（香港中文大学（深圳））</li>
<li>Yuancheng Wang（香港中文大学（深圳））</li>
<li>Li Wang（香港中文大学（深圳））</li>
<li>Dongya Jia（ByteDance Seed）</li>
<li>Yuanzhe Chen（ByteDance Seed）</li>
<li>Xiulin Li（DataBaker Technology）</li>
<li>Zhuo Chen（ByteDance Seed）</li>
<li>Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.）</li>
</ul>
</li>
</ul>
<h1></h1>
<h3 id="-毒舌点评">💡 毒舌点评</h3>
<p>这篇论文的“基建”价值很高，99K规模的高质量人类偏好数据集和开源承诺堪称语音合成对齐研究的“粮草先行”。但核心的奖励模型架构（基于现有Qwen2.5-Omni的微调）创新稍显有限，更像是一个强大但“组装式”的解决方案，而非从头设计的、能深刻洞察自然度内在结构的新架构。</p>
<h3 id="-核心摘要">📌 核心摘要</h3>
<ol>
<li>要解决的问题：当前语音合成模型缺乏大规模、专注于“自然度”这一核心主观指标的人类偏好数据集，导致难以有效对齐人类感知，现有自动评估方法与人类判断存在显著差距。</li>
<li>方法核心：构建了SpeechJudge套件，包括：(1) SpeechJudge-Data：一个包含99K语音对、涵盖多语言和多风格的大型人类偏好数据集；(2) SpeechJudge-Eval：一个高质量的评估基准；(3) SpeechJudge-GRM：一个基于Qwen2.5-Omni-7B的生成式奖励模型，通过“监督微调（SFT）+基于人类反馈的强化学习（RL）”两阶段训练得到。</li>
<li>与已有方法相比新在哪里：
<ul>
<li>数据：是首个专门针对语音“自然度”的大规模（~100K对）配对偏好数据集，而非传统的点状MOS评分。</li>
<li>评估：建立了标准化的基准任务（给定文本和两个语音，判断哪个更自然），并系统评估了现有指标（WER, FAD等）和多个AudioLLMs，揭示了巨大性能差距。</li>
<li>模型：提出的GRM不仅给出分数，还能生成“思维链”解释，并支持通过多数投票进行推理时缩放，性能优于传统的Bradley-Terry奖励模型。</li>
</ul>
</li>
<li>主要实验结果：
<ul>
<li>基准测试：在SpeechJudge-Eval上，最强的闭源模型Gemini-2.5-Flash与人类判断的一致性低于70%。</li>
<li>GRM性能：SpeechJudge-GRM达到77.2%的准确率，使用多数投票（@10）后提升至79.4%，显著优于相同的BTRM基线（72.7%）。</li>
<li>下游应用：将GRM用作奖励函数对TTS模型（Qwen2.5-0.5B-TTS）进行后训练，相比使用原始数据集或BTRM，能带来更显著的自然度提升（主观CMOS）。</li>
<li>关键数据对比如下表所示：</li>
</ul>
</li>
</ol>
<table>
  <thead>
      <tr>
          <th style="text-align: left">模型</th>
          <th style="text-align: left">在 SpeechJudge-Eval 上的准确率 (%)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">Gemini-2.5-Flash (最佳基线)</td>
          <td style="text-align: left">69.1</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-BTRM</td>
          <td style="text-align: left">72.7</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT)</td>
          <td style="text-align: left">75.3</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT+RL)</td>
          <td style="text-align: left">77.2</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT+RL, Voting@10)</td>
          <td style="text-align: left">79.4</td>
      </tr>
  </tbody>
</table>
<ol start="5">
<li>实际意义：为语音生成领域提供了对齐人类偏好的关键基础设施（数据、基准、模型），有助于推动生成更自然、更符合人类听感的语音，并提供了可解释的自动评估工具。</li>
<li>主要局限性：数据集主要基于中文母语标注员对合成语音的评估，可能对其他语言文化群体的代表性不足；奖励模型的推理链（CoT）质量继承自教师模型（Gemini），未经大规模人工验证；模型主要进行句子级的粗粒度判断，无法定位语音内部的局部瑕疵。</li>
</ol>
<h2 id="详细分析">详细分析</h2>
<p>SpeechJudge-GRM 的核心是一个在预训练AudioLLM基础上进行后训练的生成式奖励模型（Generative Reward Model, GRM）。其训练流程分为两个关键阶段，整体架构与训练数据流如图4所示。</p>
<p><img alt="SpeechJudge-GRM的两阶段训练流程图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-04/I9ED9VWZq6-4.png"></p>
<ol>
<li>
<p>监督微调（SFT）阶段（冷启动）：</p>
<ul>
<li>输入：从SpeechJudge-Data中筛选出的、教师模型（Gemini-2.5-Flash）判断与人类偏好一致的样本（约25K对）。输入格式为“思维链提示（Table 1的CoT prompt）+ 教师生成的推理输出”。</li>
<li>过程：对基础模型Qwen2.5-Omni-7B (Thinker) 进行LoRA微调。训练目标是让模型学会遵循指令、进行推理，并输出格式化的自然度判断。此阶段旨在提升模型的基础指令遵循和推理能力。</li>
<li>输出：一个初步具备自然度判断和CoT推理能力的模型 <code>SpeechJudge-GRM (SFT)</code>。</li>
</ul>
</li>
<li>
<p>基于人类反馈的强化学习（RL）阶段：</p>
<ul>
<li>输入：SpeechJudge-Data中教师模型判断与人类不一致的“困难样本”（约17K对）的提示词（CoT prompt）。</li>
<li>过程：以SFT模型为策略模型，使用GRPO算法进行训练。对于每个提示，模型生成多个回答（rollout）。将模型最终输出的偏好判断（解析得到）与人类标注的偏好进行比对，作为可验证奖励（奖励为+1或-1）。</li>
<li>核心思想：允许模型通过自主探索，学习如何生成更准确的最终判断和更有效的推理过程，以在困难样本上获得正奖励。</li>
<li>输出：最终模型 <code>SpeechJudge-GRM (SFT+RL)</code>，其判断准确性和推理质量得到进一步提升。</li>
</ul>
</li>
</ol>
<p>组件交互与数据流：数据集中的语音对<code>(a1, a2)</code>和文本<code>t</code>通过精心设计的提示词输入模型。模型以自回归方式生成包含推理步骤和最终结论的文本序列。在SFT阶段，损失仅作用于教师生成的输出序列；在RL阶段，奖励信号基于最终输出的准确性计算，反向传播以优化整个生成策略。</p>
<ol>
<li>构建首个大规模语音“自然度”偏好数据集：针对语音合成领域缺乏以“自然度”为核心的、大规模、高质量配对偏好数据的空白，构建了包含99K对、涵盖多种零样本TTS模型、多语言、多风格的SpeechJudge-Data。数据构建过程严谨，包含多轮标注与一致性分析。</li>
<li>建立标准化的语音自然度评估基准：设计了SpeechJudge-Eval基准任务（给定文本和两个语音，判断哪个更自然），并系统评测了传统指标（WER, FAD）、MOS预测器、声纹检测器和多个前沿AudioLLMs。揭示了当前技术（即使是最强的闭源AudioLLMs）在该任务上与人类判断的显著差距，明确了研究方向。</li>
<li>提出并验证了用于自然度判断的生成式奖励模型（GRM）：突破了传统Bradley-Terry奖励模型仅输出一个标量分数的限制。提出的GRM能生成可解释的“思维链”推理，并支持通过推理时多次采样与多数投票（inference-time scaling）来提升判断准确性。实验证明GRM在准确率和实用性（如作为下游TTS的奖励函数）上均优于BTRM。</li>
</ol>
<ul>
<li>训练数据：
<ul>
<li>SpeechJudge-Data (raw)：99K语音对，由6个不同的先进零样本TTS模型（ARS, CosyVoice2, CosyVoice2-INTP, Ints-INTP, F5-TTS, MaskGCT）生成。语音参考来自Emilia-Large（常规）、ParaSpeechCaps/L2-Arctic/KeSpeech/原神语音（表现性）等。目标文本包含中、英、中英混合，涵盖单语和跨语言合成场景。由69名标注员进行为期两个月的标注，平均每对获得2.49个标注。</li>
<li>子集划分：
<ul>
<li><code>SpeechJudge-Data (pref)</code>：79K对，移除了标注为“平局（Tie）”的样本，只保留明确的偏好数据。</li>
<li><code>SpeechJudge-Data (hq)</code>：44K对，在pref基础上，进一步筛选了WER差异小于12%的样本，以排除清晰度差异对自然度判断的干扰，使标签更纯粹地反映自然度。</li>
<li><code>SpeechJudge-Data (train)</code>：42K对，用于训练。从hq中筛选，并通过投票确定最终标签。</li>
<li><code>SpeechJudge-Eval</code>：1K对，用于评估。从hq中采用分层抽样选取“完全一致（FA）”级别的样本构成，确保高质量的基准真值。</li>
</ul>
</li>
</ul>
</li>
<li>损失函数：
<ul>
<li>SFT阶段：标准的自回归语言模型负对数似然损失（Next Token Prediction），仅对教师生成的输出序列<code>Oteacher</code>计算损失。</li>
<li>RL阶段：采用GRPO算法的损失函数，其奖励为二元奖励（正确判断为+1，错误为-1）。论文未给出具体公式，但说明奖励仅基于最终判断的正确性，不约束中间推理过程。</li>
</ul>
</li>
<li>训练策略：
<ul>
<li>SFT阶段：使用LoRA（rank=128）对Qwen2.5-Omni-7B进行微调。优化器为AdamW，学习率为5e-5，最大序列长度4000 tokens。</li>
<li>RL阶段：初始化策略模型为SFT模型，使用LoRA（rank=64）。每个提示的rollout数（采样数）为8，batch size为32，学习率为5e-6。采用DAPO（GRPO的增强变体）算法。</li>
</ul>
</li>
<li>关键超参数：基础模型为Qwen2.5-Omni-7B（Thinker），一个参数量为70亿的多模态模型。</li>
<li>训练硬件：论文未明确说明训练所使用的GPU型号、数量和总训练时长。</li>
<li>推理细节：评估时，对于GRM，采用CoT提示引导模型生成推理过程和最终判断。支持推理时缩放：通过生成多个（如10个）独立输出，并采用多数投票确定最终结果（Voting@10），可有效提升准确率。</li>
<li>正则化或稳定训练技巧：SFT和RL阶段均使用LoRA进行高效微调。RL阶段的奖励函数设计简单（二元奖励），有助于训练稳定性。</li>
</ul>
<ol>
<li>基准测试：现有方法在SpeechJudge-Eval上的表现
下表完整列出了论文中各类模型在SpeechJudge-Eval基准上的性能。评估任务为二选一判断哪个语音更自然。</li>
</ol>
<table>
  <thead>
      <tr>
          <th style="text-align: left">类别</th>
          <th style="text-align: left">模型</th>
          <th style="text-align: left">Regular (%)</th>
          <th style="text-align: left">Expressive (%)</th>
          <th style="text-align: left">Total (%)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">客观指标</td>
          <td style="text-align: left">WER ↓</td>
          <td style="text-align: left">59.3</td>
          <td style="text-align: left">57.0</td>
          <td style="text-align: left">57.9</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">SIM ↑</td>
          <td style="text-align: left">47.5</td>
          <td style="text-align: left">42.5</td>
          <td style="text-align: left">44.5</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">FAD ↓</td>
          <td style="text-align: left">50.3</td>
          <td style="text-align: left">47.5</td>
          <td style="text-align: left">48.6</td>
      </tr>
      <tr>
          <td style="text-align: left">MOS预测器</td>
          <td style="text-align: left">DNSMOS</td>
          <td style="text-align: left">61.0</td>
          <td style="text-align: left">55.8</td>
          <td style="text-align: left">57.9</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">UTMOS</td>
          <td style="text-align: left">54.0</td>
          <td style="text-align: left">53.5</td>
          <td style="text-align: left">53.7</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Content Enjoyment (CE)</td>
          <td style="text-align: left">69.3</td>
          <td style="text-align: left">55.2</td>
          <td style="text-align: left">60.8</td>
      </tr>
      <tr>
          <td style="text-align: left">深度伪造检测器</td>
          <td style="text-align: left">AASIST</td>
          <td style="text-align: left">40.5</td>
          <td style="text-align: left">50.8</td>
          <td style="text-align: left">46.7</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">ADV</td>
          <td style="text-align: left">35.3</td>
          <td style="text-align: left">40.3</td>
          <td style="text-align: left">38.3</td>
      </tr>
      <tr>
          <td style="text-align: left">AudioLLMs (开源)</td>
          <td style="text-align: left">Qwen2.5-Omni-7B</td>
          <td style="text-align: left">62.0</td>
          <td style="text-align: left">59.7</td>
          <td style="text-align: left">60.6</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Kimi-Audio-7B-Instruct</td>
          <td style="text-align: left">65.5</td>
          <td style="text-align: left">68.0</td>
          <td style="text-align: left">67.0</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">MiMo-Audio-7B-Instruct</td>
          <td style="text-align: left">61.3</td>
          <td style="text-align: left">49.3</td>
          <td style="text-align: left">54.1</td>
      </tr>
      <tr>
          <td style="text-align: left">AudioLLMs (闭源)</td>
          <td style="text-align: left">Gemini-2.5-Flash</td>
          <td style="text-align: left">73.5</td>
          <td style="text-align: left">66.2</td>
          <td style="text-align: left">69.1</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">GPT-4o Audio</td>
          <td style="text-align: left">71.5</td>
          <td style="text-align: left">64.7</td>
          <td style="text-align: left">67.4</td>
      </tr>
  </tbody>
</table>
<p>关键结论：即使是最强的闭源模型Gemini-2.5-Flash，准确率也低于70%，表明语音自然度判断是一个极具挑战性的任务。传统客观指标和MOS预测器表现不佳。</p>
<ol start="2">
<li>
<p>所提方法：SpeechJudge-GRM 的性能</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">模型</th>
          <th style="text-align: left">Regular (%)</th>
          <th style="text-align: left">Expressive (%)</th>
          <th style="text-align: left">Total (%)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">Qwen2.5-Omni-7B (基础)</td>
          <td style="text-align: left">62.0</td>
          <td style="text-align: left">59.7</td>
          <td style="text-align: left">60.6</td>
      </tr>
      <tr>
          <td style="text-align: left">Gemini-2.5-Flash (教师)</td>
          <td style="text-align: left">73.5</td>
          <td style="text-align: left">66.2</td>
          <td style="text-align: left">69.1</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-BTRM</td>
          <td style="text-align: left">77.5</td>
          <td style="text-align: left">69.5</td>
          <td style="text-align: left">72.7</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT)</td>
          <td style="text-align: left">77.8</td>
          <td style="text-align: left">73.7</td>
          <td style="text-align: left">75.3</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT) w/ Voting@10</td>
          <td style="text-align: left">77.4</td>
          <td style="text-align: left">77.6</td>
          <td style="text-align: left">77.6</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT+RL)</td>
          <td style="text-align: left">79.0</td>
          <td style="text-align: left">76.0</td>
          <td style="text-align: left">77.2</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT+RL) w/ Voting@10</td>
          <td style="text-align: left">80.5</td>
          <td style="text-align: left">78.7</td>
          <td style="text-align: left">79.4</td>
      </tr>
  </tbody>
</table>
<p>图5展示了使用不同奖励模型从100个生成样本中选出最佳样本后，与随机样本进行对比的主观评估结果。SpeechJudge-GRM选出的样本显著优于随机样本（“Win”比例更高），且优于SpeechJudge-BTRM。</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">Text Accuracy (T-ACC)</th>
          <th style="text-align: left">Naturalness CMOS (N-CMOS)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">Qwen2.5-0.5B-TTS (基线)</td>
          <td style="text-align: left">84.0%</td>
          <td style="text-align: left">0.00 ±0.00</td>
      </tr>
      <tr>
          <td style="text-align: left">w/ INTP (DPO)</td>
          <td style="text-align: left">87.0%</td>
          <td style="text-align: left">0.18 ±0.07</td>
      </tr>
      <tr>
          <td style="text-align: left">w/ SpeechJudge-Data (DPO)</td>
          <td style="text-align: left">91.0%</td>
          <td style="text-align: left">0.16 ±0.08</td>
      </tr>
      <tr>
          <td style="text-align: left">w/ SpeechJudge-GRM (offline DPO)</td>
          <td style="text-align: left">91.0%</td>
          <td style="text-align: left">0.21 ±0.12</td>
      </tr>
      <tr>
          <td style="text-align: left">w/ SpeechJudge-GRM (online DPO)</td>
          <td style="text-align: left">90.0%</td>
          <td style="text-align: left">0.25 ±0.09</td>
      </tr>
      <tr>
          <td style="text-align: left">表格（来自图6a）和图6b展示了将SpeechJudge-GRM作为奖励函数对TTS模型进行后训练的效果。所有方法都提升了文本准确性和自然度，其中使用GRM作为在线奖励（online DPO）的方法在自然度CMOS上提升最大（+0.25），同时保持了较高的文本准确性。</td>
          <td></td>
          <td></td>
      </tr>
  </tbody>
</table>
</li>
</ol>
<ul>
<li>学术质量：6.5/7：论文工作扎实，从数据构建、基准定义到模型训练形成了一个完整的研究闭环。创新点清晰，实验设计全面，既有横向对比（各类基线），也有纵向消融（GRM的不同阶段），还有下游应用验证。主要扣分点在于：1) GRM的主体架构是基于现有模型的适配与微调，架构本身的原创性有限；2) 核心的两阶段训练策略（SFT+RL）是近期强化学习领域的常见范式，非本文独创；3) 部分关键实验细节（如RL训练硬件、完整超参数搜索）未完全披露。</li>
<li>选题价值：2/2：选题切中语音合成领域的核心痛点——如何对齐人类对于“自然度”的感知。构建大规模偏好数据集和有效的奖励模型是推动该领域从“能用”到“好用”发展的关键。本工作提供了重要的开源资源，对后续研究有很高的价值。</li>
<li>开源与复现加成���1/1：论文明确承诺开源所有资源（数据、模型、代码、评估集），并在论文中提供了极其详尽的数据集构建指南、模型训练细节（包括LoRA rank、学习率、rollout数等）和评估协议。这为完全复现提供了极大便利，是开源贡献的典范。</li>
</ul>
<h3 id="开源详情">开源详情</h3>
<ul>
<li>代码：论文明确声明将公开所有代码，包括奖励模型训练和下游实验的代码。论文中未直接给出代码链接，但提供了项目主页和GitHub链接。</li>
<li>模型权重：论文明确声明将公开训练好的SpeechJudge-GRM模型检查点。</li>
<li>数据集：论文明确声明将公开SpeechJudge-Data（全部子集）和SpeechJudge-Eval基准数据集。</li>
<li>Demo：论文提供了项目网站用于展示音频样本。</li>
<li>复现材料：论文在附录中提供了极其详细的实验设置，包括标注指南、训练超参数（学习率、batch size、LoRA rank、rollout数等）、模型选择、评估协议等。</li>
<li>论文中引用的开源项目：主要依赖Qwen2.5-Omni-7B作为基础模型，并使用了ms-swift工具包进行RL训练。还引用了多个开源的TTS模型（CosyVoice2, F5-TTS等）和评估工具（如DNSMOS、audiobox-aesthetics）。</li>
<li>整体开源情况：论文的开源承诺非常彻底，覆盖了数据、模型、代码和复现指南，对社区非常友好。</li>
</ul>
<h3 id="-开源详情">🔗 开源详情</h3>
<ul>
<li>代码：论文明确声明将公开所有代码，包括奖励模型训练和下游实验的代码。论文中未直接给出代码链接，但提供了项目主页和GitHub链接。</li>
<li>模型权重：论文明确声明将公开训练好的SpeechJudge-GRM模型检查点。</li>
<li>数据集：论文明确声明将公开SpeechJudge-Data（全部子集）和SpeechJudge-Eval基准数据集。</li>
<li>Demo：论文提供了项目网站用于展示音频样本。</li>
<li>复现材料：论文在附录中提供了极其详细的实验设置，包括标注指南、训练超参数（学习率、batch size、LoRA rank、rollout数等）、模型选择、评估协议等。</li>
<li>论文中引用的开源项目：主要依赖Qwen2.5-Omni-7B作为基础模型，并使用了ms-swift工具包进行RL训练。还引用了多个开源的TTS模型（CosyVoice2, F5-TTS等）和评估工具（如DNSMOS、audiobox-aesthetics）。</li>
<li>整体开源情况：论文的开源承诺非常彻底，覆盖了数据、模型、代码和复现指南，对社区非常友好。</li>
</ul>
<h3 id="-模型架构">🏗️ 模型架构</h3>
<p>SpeechJudge-GRM 的核心是一个在预训练AudioLLM基础上进行后训练的生成式奖励模型（Generative Reward Model, GRM）。其训练流程分为两个关键阶段，整体架构与训练数据流如图4所示。</p>
<ol>
<li>
<p>监督微调（SFT）阶段（冷启动）：</p>
<ul>
<li>输入：从SpeechJudge-Data中筛选出的、教师模型（Gemini-2.5-Flash）判断与人类偏好一致的样本（约25K对）。输入格式为“思维链提示（Table 1的CoT prompt）+ 教师生成的推理输出”。</li>
<li>过程：对基础模型Qwen2.5-Omni-7B (Thinker) 进行LoRA微调。训练目标是让模型学会遵循指令、进行推理，并输出格式化的自然度判断。此阶段旨在提升模型的基础指令遵循和推理能力。</li>
<li>输出：一个初步具备自然度判断和CoT推理能力的模型 <code>SpeechJudge-GRM (SFT)</code>。</li>
</ul>
</li>
<li>
<p>基于人类反馈的强化学习（RL）阶段：</p>
<ul>
<li>输入：SpeechJudge-Data中教师模型判断与人类不一致的“困难样本”（约17K对）的提示词（CoT prompt）。</li>
<li>过程：以SFT模型为策略模型，使用GRPO算法进行训练。对于每个提示，模型生成多个回答（rollout）。将模型最终输出的偏好判断（解析得到）与人类标注的偏好进行比对，作为可验证奖励（奖励为+1或-1）。</li>
<li>核心思想：允许模型通过自主探索，学习如何生成更准确的最终判断和更有效的推理过程，以在困难样本上获得正奖励。</li>
<li>输出：最终模型 <code>SpeechJudge-GRM (SFT+RL)</code>，其判断准确性和推理质量得到进一步提升。</li>
</ul>
</li>
</ol>
<p>组件交互与数据流：数据集中的语音对<code>(a1, a2)</code>和文本<code>t</code>通过精心设计的提示词输入模型。模型以自回归方式生成包含推理步骤和最终结论的文本序列。在SFT阶段，损失仅作用于教师生成的输出序列；在RL阶段，奖励信号基于最终输出的准确性计算，反向传播以优化整个生成策略。</p>
<h3 id="-核心创新点">💡 核心创新点</h3>
<ol>
<li>构建首个大规模语音“自然度”偏好数据集：针对语音合成领域缺乏以“自然度”为核心的、大规模、高质量配对偏好数据的空白，构建了包含99K对、涵盖多种零样本TTS模型、多语言、多风格的SpeechJudge-Data。数据构建过程严谨，包含多轮标注与一致性分析。</li>
<li>建立标准化的语音自然度评估基准：设计了SpeechJudge-Eval基准任务（给定文本和两个语音，判断哪个更自然），并系统评测了传统指标（WER, FAD）、MOS预测器、声纹检测器和多个前沿AudioLLMs。揭示了当前技术（即使是最强的闭源AudioLLMs）在该任务上与人类判断的显著差距，明确了研究方向。</li>
<li>提出并验证了用于自然度判断的生成式奖励模型（GRM）：突破了传统Bradley-Terry奖励模型仅输出一个标量分数的限制。提出的GRM能生成可解释的“思维链”推理，并支持通过推理时多次采样与多数投票（inference-time scaling）来提升判断准确性。实验证明GRM在准确率和实用性（如作为下游TTS的奖励函数）上均优于BTRM。</li>
</ol>
<h3 id="-细节详述">🔬 细节详述</h3>
<ul>
<li>训练数据：
<ul>
<li>SpeechJudge-Data (raw)：99K语音对，由6个不同的先进零样本TTS模型（ARS, CosyVoice2, CosyVoice2-INTP, Ints-INTP, F5-TTS, MaskGCT）生成。语音参考来自Emilia-Large（常规）、ParaSpeechCaps/L2-Arctic/KeSpeech/原神语音（表现性）等。目标文本包含中、英、中英混合，涵盖单语和跨语言合成场景。由69名标注员进行为期两个月的标注，平均每对获得2.49个标注。</li>
<li>子集划分：
<ul>
<li><code>SpeechJudge-Data (pref)</code>：79K对，移除了标注为“平局（Tie）”的样本，只保留明确的偏好数据。</li>
<li><code>SpeechJudge-Data (hq)</code>：44K对，在pref基础上，进一步筛选了WER差异小于12%的样本，以排除清晰度差异对自然度判断的干扰，使标签更纯粹地反映自然度。</li>
<li><code>SpeechJudge-Data (train)</code>：42K对，用于训练。从hq中筛选，并通过投票确定最终标签。</li>
<li><code>SpeechJudge-Eval</code>：1K对，用于评估。从hq中采用分层抽样选取“完全一致（FA）”级别的样本构成，确保高质量的基准真值。</li>
</ul>
</li>
</ul>
</li>
<li>损失函数：
<ul>
<li>SFT阶段：标准的自回归语言模型负对数似然损失（Next Token Prediction），仅对教师生成的输出序列<code>Oteacher</code>计算损失。</li>
<li>RL阶段：采用GRPO算法的损失函数，其奖励为二元奖励（正确判断为+1，错误为-1）。论文未给出具体公式，但说明奖励仅基于最终判断的正确性，不约束中间推理过程。</li>
</ul>
</li>
<li>训练策略：
<ul>
<li>SFT阶段：使用LoRA（rank=128）对Qwen2.5-Omni-7B进行微调。优化器为AdamW，学习率为5e-5，最大序列长度4000 tokens。</li>
<li>RL阶段：初始化策略模型为SFT模型，使用LoRA（rank=64）。每个提示的rollout数（采样数）为8，batch size为32，学习率为5e-6。采用DAPO（GRPO的增强变体）算法。</li>
</ul>
</li>
<li>关键超参数：基础模型为Qwen2.5-Omni-7B（Thinker），一个参数量为70亿的多模态模型。</li>
<li>训练硬件：论文未明确说明训练所使用的GPU型号、数量和总训练时长。</li>
<li>推理细节：评估时，对于GRM，采用CoT提示引导模型生成推理过程和最终判断。支持推理时缩放：通过生成多个（如10个）独立输出，并采用多数投票确定最终结果（Voting@10），可有效提升准确率。</li>
<li>正则化或稳定训练技巧：SFT和RL阶段均使用LoRA进行高效微调。RL阶段的奖励函数设计简单（二元奖励），有助于训练稳定性。</li>
</ul>
<h3 id="-实验结果">📊 实验结果</h3>
<ol>
<li>基准测试：现有方法在SpeechJudge-Eval上的表现
下表完整列出了论文中各类模型在SpeechJudge-Eval基准上的性能。评估任务为二选一判断哪个语音更自然。</li>
</ol>
<table>
  <thead>
      <tr>
          <th style="text-align: left">类别</th>
          <th style="text-align: left">模型</th>
          <th style="text-align: left">Regular (%)</th>
          <th style="text-align: left">Expressive (%)</th>
          <th style="text-align: left">Total (%)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">客观指标</td>
          <td style="text-align: left">WER ↓</td>
          <td style="text-align: left">59.3</td>
          <td style="text-align: left">57.0</td>
          <td style="text-align: left">57.9</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">SIM ↑</td>
          <td style="text-align: left">47.5</td>
          <td style="text-align: left">42.5</td>
          <td style="text-align: left">44.5</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">FAD ↓</td>
          <td style="text-align: left">50.3</td>
          <td style="text-align: left">47.5</td>
          <td style="text-align: left">48.6</td>
      </tr>
      <tr>
          <td style="text-align: left">MOS预测器</td>
          <td style="text-align: left">DNSMOS</td>
          <td style="text-align: left">61.0</td>
          <td style="text-align: left">55.8</td>
          <td style="text-align: left">57.9</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">UTMOS</td>
          <td style="text-align: left">54.0</td>
          <td style="text-align: left">53.5</td>
          <td style="text-align: left">53.7</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Content Enjoyment (CE)</td>
          <td style="text-align: left">69.3</td>
          <td style="text-align: left">55.2</td>
          <td style="text-align: left">60.8</td>
      </tr>
      <tr>
          <td style="text-align: left">深度伪造检测器</td>
          <td style="text-align: left">AASIST</td>
          <td style="text-align: left">40.5</td>
          <td style="text-align: left">50.8</td>
          <td style="text-align: left">46.7</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">ADV</td>
          <td style="text-align: left">35.3</td>
          <td style="text-align: left">40.3</td>
          <td style="text-align: left">38.3</td>
      </tr>
      <tr>
          <td style="text-align: left">AudioLLMs (开源)</td>
          <td style="text-align: left">Qwen2.5-Omni-7B</td>
          <td style="text-align: left">62.0</td>
          <td style="text-align: left">59.7</td>
          <td style="text-align: left">60.6</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Kimi-Audio-7B-Instruct</td>
          <td style="text-align: left">65.5</td>
          <td style="text-align: left">68.0</td>
          <td style="text-align: left">67.0</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">MiMo-Audio-7B-Instruct</td>
          <td style="text-align: left">61.3</td>
          <td style="text-align: left">49.3</td>
          <td style="text-align: left">54.1</td>
      </tr>
      <tr>
          <td style="text-align: left">AudioLLMs (闭源)</td>
          <td style="text-align: left">Gemini-2.5-Flash</td>
          <td style="text-align: left">73.5</td>
          <td style="text-align: left">66.2</td>
          <td style="text-align: left">69.1</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">GPT-4o Audio</td>
          <td style="text-align: left">71.5</td>
          <td style="text-align: left">64.7</td>
          <td style="text-align: left">67.4</td>
      </tr>
  </tbody>
</table>
<p>关键结论：即使是最强的闭源模型Gemini-2.5-Flash，准确率也低于70%，表明语音自然度判断是一个极具挑战性的任务。传统客观指标和MOS预测器表现不佳。</p>
<ol start="2">
<li>
<p>所提方法：SpeechJudge-GRM 的性能</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">模型</th>
          <th style="text-align: left">Regular (%)</th>
          <th style="text-align: left">Expressive (%)</th>
          <th style="text-align: left">Total (%)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">Qwen2.5-Omni-7B (基础)</td>
          <td style="text-align: left">62.0</td>
          <td style="text-align: left">59.7</td>
          <td style="text-align: left">60.6</td>
      </tr>
      <tr>
          <td style="text-align: left">Gemini-2.5-Flash (教师)</td>
          <td style="text-align: left">73.5</td>
          <td style="text-align: left">66.2</td>
          <td style="text-align: left">69.1</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-BTRM</td>
          <td style="text-align: left">77.5</td>
          <td style="text-align: left">69.5</td>
          <td style="text-align: left">72.7</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT)</td>
          <td style="text-align: left">77.8</td>
          <td style="text-align: left">73.7</td>
          <td style="text-align: left">75.3</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT) w/ Voting@10</td>
          <td style="text-align: left">77.4</td>
          <td style="text-align: left">77.6</td>
          <td style="text-align: left">77.6</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT+RL)</td>
          <td style="text-align: left">79.0</td>
          <td style="text-align: left">76.0</td>
          <td style="text-align: left">77.2</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT+RL) w/ Voting@10</td>
          <td style="text-align: left">80.5</td>
          <td style="text-align: left">78.7</td>
          <td style="text-align: left">79.4</td>
      </tr>
  </tbody>
</table>
<p>图5展示了使用不同奖励模型从100个生成样本中选出最佳样本后，与随机样本进行对比的主观评估结果。SpeechJudge-GRM选出的样本显著优于随机样本（“Win”比例更高），且优于SpeechJudge-BTRM。</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">Text Accuracy (T-ACC)</th>
          <th style="text-align: left">Naturalness CMOS (N-CMOS)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">Qwen2.5-0.5B-TTS (基线)</td>
          <td style="text-align: left">84.0%</td>
          <td style="text-align: left">0.00 ±0.00</td>
      </tr>
      <tr>
          <td style="text-align: left">w/ INTP (DPO)</td>
          <td style="text-align: left">87.0%</td>
          <td style="text-align: left">0.18 ±0.07</td>
      </tr>
      <tr>
          <td style="text-align: left">w/ SpeechJudge-Data (DPO)</td>
          <td style="text-align: left">91.0%</td>
          <td style="text-align: left">0.16 ±0.08</td>
      </tr>
      <tr>
          <td style="text-align: left">w/ SpeechJudge-GRM (offline DPO)</td>
          <td style="text-align: left">91.0%</td>
          <td style="text-align: left">0.21 ±0.12</td>
      </tr>
      <tr>
          <td style="text-align: left">w/ SpeechJudge-GRM (online DPO)</td>
          <td style="text-align: left">90.0%</td>
          <td style="text-align: left">0.25 ±0.09</td>
      </tr>
      <tr>
          <td style="text-align: left">表格（来自图6a）和图6b展示了将SpeechJudge-GRM作为奖励函数对TTS模型进行后训练的效果。所有方法都提升了文本准确性和自然度，其中使用GRM作为在线奖励（online DPO）的方法在自然度CMOS上提升最大（+0.25），同时保持了较高的文本准确性。</td>
          <td></td>
          <td></td>
      </tr>
  </tbody>
</table>
</li>
</ol>
<h3 id="-评分理由">⚖️ 评分理由</h3>
<ul>
<li>学术质量：6.5/7：论文工作扎实，从数据构建、基准定义到模型训练形成了一个完整的研究闭环。创新点清晰，实验设计全面，既有横向对比（各类基线），也有纵向消融（GRM的不同阶段），还有下游应用验证。主要扣分点在于：1) GRM的主体架构是基于现有模型的适配与微调，架构本身的原创性有限；2) 核心的两阶段训练策略（SFT+RL）是近期强化学习领域的常见范式，非本文独创；3) 部分关键实验细节（如RL训练硬件、完整超参数搜索）未完全披露。</li>
<li>选题价值：2/2：选题切中语音合成领域的核心痛点——如何对齐人类对于“自然度”的感知。构建大规模偏好数据集和有效的奖励模型是推动该领域从“能用”到“好用”发展的关键。本工作提供了重要的开源资源，对后续研究有很高的价值。</li>
<li>开源与复现加成���1/1：论文明确承诺开源所有资源（数据、模型、代码、评估集），并在论文中提供了极其详尽的数据集构建指南、模型训练细节（包括LoRA rank、学习率、rollout数等）和评估协议。这为完全复现提供了极大便利，是开源贡献的典范。</li>
</ul>
<h1></h1>
<hr>
<p><a href="/audio-paper-digest-blog/posts/iclr2026-summary/">← 返回 ICLR 2026 论文分析</a></p>
]]></content:encoded>
      <category>语音合成</category>
      <category>强化学习</category>
      <category>数据集</category>
      <category>基准测试</category>
      <category>奖励模型</category>
    </item>
    <item>
      <title>SpeechJudge: Towards Human-Level Judgment for Speech Naturalness</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-02-speechjudge-towards-human-level-judgment-for/</link>
      <pubDate>Sat, 02 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-02-speechjudge-towards-human-level-judgment-for/</guid>
      <description>&lt;h1 id=&#34;-speechjudge-towards-human-level-judgment-for-speech-naturalness&#34;&gt;📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness&lt;/h1&gt;
&lt;p&gt;#模型评估 #强化学习 #奖励模型 #大语言模型 #语音合成&lt;/p&gt;
&lt;p&gt;🔥 &lt;strong&gt;8.0/10&lt;/strong&gt; | 前25% | #模型评估 | #强化学习 | #奖励模型 #大语言模型&lt;/p&gt;
&lt;p&gt;学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高&lt;/p&gt;
&lt;h3 id=&#34;-作者与机构&#34;&gt;👥 作者与机构&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Xueyao Zhang（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd）&lt;/li&gt;
&lt;li&gt;作者列表：
&lt;ul&gt;
&lt;li&gt;Xueyao Zhang（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;Chaoren Wang（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;Huan Liao（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;Ziniu Li（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;Yuancheng Wang（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;Li Wang（香港中文大学（深圳））&lt;/li&gt;
&lt;li&gt;Dongya Jia（字节跳动 Seed）&lt;/li&gt;
&lt;li&gt;Yuanzhe Chen（字节跳动 Seed）&lt;/li&gt;
&lt;li&gt;Xiulin Li（DataBaker Technology）&lt;/li&gt;
&lt;li&gt;Zhuo Chen（字节跳动 Seed）&lt;/li&gt;
&lt;li&gt;Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd）&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-毒舌点评&#34;&gt;💡 毒舌点评&lt;/h3&gt;
&lt;p&gt;亮点：工作非常“接地气”且系统，从最基础的“数据集-基准-模型”三位一体入手，解决了语音合成对齐中缺乏大规模人类偏好数据的关键瓶颈，且承诺全部开源，这对领域发展是扎实的贡献。
短板：核心的奖励模型训练依赖闭源的Gemini-2.5-Flash生成CoT数据进行“冷启动”，其“教学”质量直接决定了“学生”GRM的上限，这使得方法的独立性和可复现性打了点折扣；同时，数据集的语言（中英）和风格覆盖仍有明显局限。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="-speechjudge-towards-human-level-judgment-for-speech-naturalness">📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness</h1>
<p>#模型评估 #强化学习 #奖励模型 #大语言模型 #语音合成</p>
<p>🔥 <strong>8.0/10</strong> | 前25% | #模型评估 | #强化学习 | #奖励模型 #大语言模型</p>
<p>学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高</p>
<h3 id="-作者与机构">👥 作者与机构</h3>
<ul>
<li>第一作者：Xueyao Zhang（香港中文大学（深圳））</li>
<li>通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd）</li>
<li>作者列表：
<ul>
<li>Xueyao Zhang（香港中文大学（深圳））</li>
<li>Chaoren Wang（香港中文大学（深圳））</li>
<li>Huan Liao（香港中文大学（深圳））</li>
<li>Ziniu Li（香港中文大学（深圳））</li>
<li>Yuancheng Wang（香港中文大学（深圳））</li>
<li>Li Wang（香港中文大学（深圳））</li>
<li>Dongya Jia（字节跳动 Seed）</li>
<li>Yuanzhe Chen（字节跳动 Seed）</li>
<li>Xiulin Li（DataBaker Technology）</li>
<li>Zhuo Chen（字节跳动 Seed）</li>
<li>Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd）</li>
</ul>
</li>
</ul>
<h3 id="-毒舌点评">💡 毒舌点评</h3>
<p>亮点：工作非常“接地气”且系统，从最基础的“数据集-基准-模型”三位一体入手，解决了语音合成对齐中缺乏大规模人类偏好数据的关键瓶颈，且承诺全部开源，这对领域发展是扎实的贡献。
短板：核心的奖励模型训练依赖闭源的Gemini-2.5-Flash生成CoT数据进行“冷启动”，其“教学”质量直接决定了“学生”GRM的上限，这使得方法的独立性和可复现性打了点折扣；同时，数据集的语言（中英）和风格覆盖仍有明显局限。</p>
<h3 id="-开源详情">🔗 开源详情</h3>
<ul>
<li>代码：论文明确承诺将开源，代码仓库链接为 <code>https://github.com/AmphionTeam/SpeechJudge</code>。</li>
<li>模型权重：论文明确承诺将发布训练好的SpeechJudge-GRM模型检查点。</li>
<li>数据集：论文明确承诺将公开SpeechJudge-Data数据集。</li>
<li>Demo：论文提供了音频样本的在线演示网站 <code>https://speechjudge.github.io/</code>。</li>
<li>复现材料：论文在正文中描述了数据集构建协议，并在附录F中提供了详尽的SFT和RL训练细节（学习率、优化器、LoRA秩、batch size等）。</li>
<li>论文中引用的开源项目：
<ul>
<li>基础模型：Qwen2.5-Omni-7B</li>
<li>教师模型（API调用）：Gemini-2.5-Flash</li>
<li>训练工具包：ms-swift</li>
<li>TTS模型（用于生成数据）：CosyVoice2, F5-TTS, MaskGCT等</li>
<li>评估工具：Whisper, Paraformer, WavLM, UTMOS, AASIST等</li>
</ul>
</li>
</ul>
<h3 id="-核心摘要">📌 核心摘要</h3>
<ol>
<li>问题：语音合成领域缺乏大规模、以“自然度”为核心的人类偏好反馈数据集，这严重阻碍了能真正与人类感知对齐的模型的开发与评估。</li>
<li>方法：本文提出了SpeechJudge套件，包含三部分：a) SpeechJudge-Data：使用多种先进零样本TTS模型生成语音对，并由人工标注可懂度与自然度偏好，构建了99K对的大规模数据集。b) SpeechJudge-Eval：从数据集中筛选高质量样本构成基准，用于评估模型判断语音自然度的能力。c) SpeechJudge-GRM：一个基于Qwen2.5-Omni-7B的生成式奖励模型，通过两阶段后训练（监督微调+基于人类偏好的强化学习）来提升自然度判断能力。</li>
<li>创新性：与先前工作相比，a) 首次构建了大规模、多风格、多语言、以自然度为核心的人类偏好数据集；b) 提出了具有挑战性的自动化评估基准，并揭示了当前最佳AudioLLM（Gemini-2.5-Flash）的一致性不足70%；c) 提出的GRM模型结合了链式思维推理和推理时缩放，在性能上显著优于经典的Bradley-Terry奖励模型。</li>
<li>主要实验结果：
<ul>
<li>SpeechJudge-Eval基准测试：现有指标和模型表现不佳，最强闭源模型Gemini-2.5-Flash准确率为69.1%。</li>
<li>SpeechJudge-GRM性能：经两阶段训练后，准确率达77.2%；使用推理时缩放（Voting@10）后，进一步提升至79.4%（表3）。</li>
<li>下游应用：作为奖励模型用于语音合成模型的后训练，能有效提升生成语音的自然度（图6）；用于样本选择时，优于BTRM基线（图5）。</li>
</ul>
</li>
<li>实际意义：为语音合成的对齐与评估提供了关键基础设施（数据与基准），并证明了一个更优的奖励模型可以用于改进语音生成模型本身，形成“评估促进生成”的闭环。</li>
<li>主要局限性：数据集和标注者群体主要集中于中英双语，对其他语言和文化背景的覆盖不足；奖励模型的能力依赖于闭源教师模型（Gemini）生成的训练数据；模型在处理极端表达风格或细微自然度差异时仍有错误。</li>
</ol>
<h3 id="-模型架构">🏗️ 模型架构</h3>
<p>SpeechJudge-GRM是一个生成式奖励模型（Generative Reward Model, GRM），其核心是一个经过专门微调的音频-文本多模态大语言模型。</p>
<p><img alt="图1: SpeechJudge-Data构建与任务示意" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/I9ED9VWZq6-0.png">
图1：数据集构建与任务示意。 左侧展示了数据集构建流程：使用多种TTS模型基于参考语音和目标文本生成语音对，人工标注进行可懂度（点式标注）和自然度（成对偏好）评估。右侧展示了GRM的任务：输入目标文本和两个音频，通过链式思维推理，输出自然度判断。</p>
<p><img alt="图2: SpeechJudge-Data分布" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/I9ED9VWZq6-1.png">
图2：数据集分布。 展示了数据集在(a) TTS模型、(b) 参考语音来源、(c) 语言设置上的分布，体现了多样性。</p>
<p>完整输入输出流程：</p>
<ul>
<li>输入：一个文本字符串<code>t</code>（目标句子）和两个音频片段<code>a1</code>, <code>a2</code>（由不同TTS模型生成的合成语音）。</li>
<li>处理流程：
<ol>
<li>输入被构造成一个包含任务指令和要求的提示（Prompt），该指令要求模型分析两个音频在韵律、节奏、发音清晰度和整体自然度方面的表现，并给出评分（1-10分）。</li>
<li>模型（Qwen2.5-Omni-7B）对输入进行处理，利用其多模态理解能力同时处理文本和两个音频。</li>
<li>模型进行链式思维（Chain-of-Thought, CoT）推理，生成一段解释其判断理由的文本。</li>
<li>最终，从模型输出的推理文本中解析出自然度偏好判断（<code>a1</code>更好或<code>a2</code>更好）。</li>
</ol>
</li>
<li>输出：一个自然语言推理过程（可选，用于可解释性）和一个二元偏好判断结果。</li>
</ul>
<p>主要组件与训练阶段：</p>
<ol>
<li>基础模型：Qwen2.5-Omni-7B（Thinker），一个开源的音频-文本多模态大语言模型，具备处理音频和文本的能力。</li>
<li>SFT阶段（冷启动）：
<ul>
<li>目标：提升模型的指令遵循、推理和语音自然度理解能力。</li>
<li>数据：使用Gemini-2.5-Flash（闭源模型）作为教师，为训练集中的样本生成CoT推理数据。选取教师判断与人类一致的数据（约25K样本）作为SFT数据。</li>
<li>训练：对Qwen2.5-Omni-7B进行LoRA微调，训练时仅计算生成部分（CoT推理）的损失。</li>
</ul>
</li>
<li>RL阶段：
<ul>
<li>目标：利用更难的样本（教师判断与人类不一致的约17K样本）进一步优化模型。</li>
<li>奖励：将人类标注的偏好视为可验证奖励（Verifiable Reward）。对于模型生成的判断，奖励为+1（与人类一致）或-1（不一致）。</li>
<li>算法：采用GRPO（一种简化的PPO变体）算法，基于SFT后的模型进行强化学习训练。</li>
</ul>
</li>
</ol>
<h3 id="-核心创新点">💡 核心创新点</h3>
<ol>
<li>
<p>大规模、高质量的语音自然度人类偏好数据集（SpeechJudge-Data）：</p>
<ul>
<li>之前局限：现有语音MOS数据集规模小、使用旧模型生成、缺乏直接的成对偏好标注，且很少专注于“自然度”这一整体性指标。</li>
<li>如何起作用：使用多种先进TTS模型（6种不同架构）生成语音，覆盖多种风格（常规、情感、口音、耳语、游戏角色）、语言（中、英、混合）和语音对类型（模型内、模型间）。由69名专业标注员进行可懂度点标注和自然度成对偏好标注，获得99K对数据，平均每对2.49个标注。</li>
<li>收益：提供了该领域迄今最大规模、最多样的自然度偏好语料库，为后续研究和模型训练奠定了基础。</li>
</ul>
</li>
<li>
<p>具有挑战性的语音自然度判断基准（SpeechJudge-Eval）：</p>
<ul>
<li>之前局限：缺乏统一的、高质量的自动化评估基准来衡量模型判断语音自然度的能力。</li>
<li>如何起作用：从数据集中筛选出人类标注者达成完全一致的高质量样本（1000对），作为黄金标准测试集。</li>
<li>收益：揭示了当前尖端模型（如Gemini-2.5-Flash）在该任务上的性能天花板（&lt;70%准确率），明确了研究差距，为后续工作提供了明确的评估标尺。</li>
</ul>
</li>
<li>
<p>两阶段训练的生成式奖励模型（SpeechJudge-GRM）：</p>
<ul>
<li>之前局限：传统的Bradley-Terry奖励模型（BTRM）是判别式的，不输出解释，且推理时无法缩放；直接使用AudioLLM进行零样本判断性能不足。</li>
<li>如何起作用：提出“SFT+RL”的两阶段训练范式。SFT阶段利用教师模型的CoT数据教会模型如何“思考和解释”；RL阶段在困难样本上，以人类偏好为奖励信号，直接优化模型的最终判断准确性。</li>
<li>收益：GRM不仅判断准确率（77.2%）显著高于BTRM（72.7%），还能输出推理过程增强可解释性，并支持通过多次采样投票（Voting@10）进一步提升性能（79.4%），展示了生成式奖励模型的优势。</li>
</ul>
</li>
</ol>
<h3 id="-细节详述">🔬 细节详述</h3>
<ul>
<li>训练数据：
<ul>
<li>来源：SpeechJudge-Data (train)，包含约42K个语音对及其人类偏好标签，是从99K原始数据中经过过滤（去除完全分歧样本、Tie样本，控制WER差异）得到的。</li>
<li>预处理：对于SFT数据，使用Gemini-2.5-Flash生成CoT推理文本，并将人类标签与之对齐。对于RL数据，仅使用提示（Prompt）和人类标签。</li>
</ul>
</li>
<li>损失函数：
<ul>
<li>SFT阶段：标准的语言模型下一个token预测损失（交叉熵），但仅在模型输出的CoT推理部分计算损失。</li>
<li>RL阶段：基于GRPO算法的损失函数，其核心是最大化策略模型在给定提示下生成获得更高奖励（+1）的响应的概率。奖励函数是二元的（正确+1，错误-1）。</li>
</ul>
</li>
<li>训练策略：
<ul>
<li>SFT：使用AdamW优化器，学习率<code>5e-5</code>。使用LoRA进行参数高效微调，LoRA秩为128。最大batch token数为4000。</li>
<li>RL (GRPO)：使用DAPO（GRPO的增强变体）进行训练。学习率<code>5e-6</code>。LoRA秩为64。每个提示的rollout数（生成数量）为8，batch size为32。</li>
</ul>
</li>
<li>关键超参数：
<ul>
<li>模型大小：基于7B参数的Qwen2.5-Omni-7B。</li>
<li>LoRA秩：SFT阶段128，RL阶段64。</li>
</ul>
</li>
<li>训练硬件：论文中未具体说明GPU型号、数量及训练时长。</li>
<li>推理细节：
<ul>
<li>解码策略：标准解码（论文未指定具体温度、top-p等）。</li>
<li>推理时缩放：支持通过多数投票提升性能，即对一个输入生成10次输出，取其中多数判断作为最终结果（Voting@10）。</li>
</ul>
</li>
<li>正则化或稳定训练技巧：论文中未明确说明。</li>
</ul>
<h3 id="-实验结果">📊 实验结果</h3>
<ol>
<li>基准测试（SpeechJudge-Eval）结果
论文在SpeechJudge-Eval上评估了各类模型，结果如下表所示：</li>
</ol>
<table>
  <thead>
      <tr>
          <th style="text-align: left">模型类型</th>
          <th style="text-align: left">模型名称</th>
          <th style="text-align: center">Regular (准确率%)</th>
          <th style="text-align: center">Expressive (准确率%)</th>
          <th style="text-align: center">Total (准确率%)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">客观指标</td>
          <td style="text-align: left">WER</td>
          <td style="text-align: center">59.3</td>
          <td style="text-align: center">57.0</td>
          <td style="text-align: center">57.9</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">SIM</td>
          <td style="text-align: center">47.5</td>
          <td style="text-align: center">42.5</td>
          <td style="text-align: center">44.5</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">FAD</td>
          <td style="text-align: center">50.3</td>
          <td style="text-align: center">47.5</td>
          <td style="text-align: center">48.6</td>
      </tr>
      <tr>
          <td style="text-align: left">MOS预测器</td>
          <td style="text-align: left">DNSMOS</td>
          <td style="text-align: center">61.0</td>
          <td style="text-align: center">55.8</td>
          <td style="text-align: center">57.9</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">UTMOS</td>
          <td style="text-align: center">54.0</td>
          <td style="text-align: center">53.5</td>
          <td style="text-align: center">53.7</td>
      </tr>
      <tr>
          <td style="text-align: left">深度伪造检测器</td>
          <td style="text-align: left">AASIST</td>
          <td style="text-align: center">40.5</td>
          <td style="text-align: center">50.8</td>
          <td style="text-align: center">46.7</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">ADV</td>
          <td style="text-align: center">35.3</td>
          <td style="text-align: center">40.3</td>
          <td style="text-align: center">38.3</td>
      </tr>
      <tr>
          <td style="text-align: left">AudioLLMs (开源)</td>
          <td style="text-align: left">Qwen2.5-Omni-7B</td>
          <td style="text-align: center">62.0</td>
          <td style="text-align: center">59.7</td>
          <td style="text-align: center">60.6</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">Kimi-Audio-7B-Instruct</td>
          <td style="text-align: center">65.5</td>
          <td style="text-align: center">68.0</td>
          <td style="text-align: center">67.0</td>
      </tr>
      <tr>
          <td style="text-align: left">AudioLLMs (闭源)</td>
          <td style="text-align: left">Gemini-2.5-Flash</td>
          <td style="text-align: center">73.5</td>
          <td style="text-align: center">66.2</td>
          <td style="text-align: center">69.1</td>
      </tr>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: left">GPT-4o Audio</td>
          <td style="text-align: center">71.5</td>
          <td style="text-align: center">64.7</td>
          <td style="text-align: center">67.4</td>
      </tr>
  </tbody>
</table>
<p>结论：现有最佳模型（Gemini-2.5-Flash）准确率不足70%，表明语音自然度判断是极具挑战的任务。传统指标（WER, FAD等）和深度伪造检测器在此任务上关联性很弱。</p>
<ol start="2">
<li>SpeechJudge-GRM性能对比
论文将GRM与基线BTRM和教师模型进行了对比：</li>
</ol>
<table>
  <thead>
      <tr>
          <th style="text-align: left">模型</th>
          <th style="text-align: center">Regular</th>
          <th style="text-align: center">Expressive</th>
          <th style="text-align: center">Total</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">Gemini-2.5-Flash</td>
          <td style="text-align: center">73.5</td>
          <td style="text-align: center">66.2</td>
          <td style="text-align: center">69.1</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-BTRM</td>
          <td style="text-align: center">77.5</td>
          <td style="text-align: center">69.5</td>
          <td style="text-align: center">72.7</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT)</td>
          <td style="text-align: center">77.8</td>
          <td style="text-align: center">73.7</td>
          <td style="text-align: center">75.3</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT) w/ Voting@10</td>
          <td style="text-align: center">77.4</td>
          <td style="text-align: center">77.6</td>
          <td style="text-align: center">77.6</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT+RL)</td>
          <td style="text-align: center">79.0</td>
          <td style="text-align: center">76.0</td>
          <td style="text-align: center">77.2</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT+RL) w/ Voting@10</td>
          <td style="text-align: center">80.5</td>
          <td style="text-align: center">78.7</td>
          <td style="text-align: center">79.4</td>
      </tr>
  </tbody>
</table>
<p>结论：GRM在相同训练数据上显著优于BTRM（77.2% vs 72.7%）。SFT+RL两阶段训练有效提升了性能，且推理时缩放（Voting@10）能带来约2个百分点的额外增益。</p>
<ol start="3">
<li>分布外（OOD）测试：人类语音 vs TTS克隆
论文额外测试了模型在区分真实人类录音和高质量语音克隆（SeedTTS）时的表现：</li>
</ol>
<table>
  <thead>
      <tr>
          <th style="text-align: left">模型</th>
          <th style="text-align: center">Character1</th>
          <th style="text-align: center">Character2</th>
          <th style="text-align: center">Avg</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">AASIST</td>
          <td style="text-align: center">97.2</td>
          <td style="text-align: center">100</td>
          <td style="text-align: center">98.6</td>
      </tr>
      <tr>
          <td style="text-align: left">Kimi-Audio-7B-Instruct</td>
          <td style="text-align: center">85.2</td>
          <td style="text-align: center">85.6</td>
          <td style="text-align: center">85.4</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-BTRM</td>
          <td style="text-align: center">55.6</td>
          <td style="text-align: center">45.2</td>
          <td style="text-align: center">50.4</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT+RL)</td>
          <td style="text-align: center">57.6</td>
          <td style="text-align: center">67.2</td>
          <td style="text-align: center">62.4</td>
      </tr>
      <tr>
          <td style="text-align: left">SpeechJudge-GRM (SFT+RL) w/ Voting@10</td>
          <td style="text-align: center">59.8</td>
          <td style="text-align: center">67.5</td>
          <td style="text-align: center">63.7</td>
      </tr>
  </tbody>
</table>
<p>结论：专门训练用于区分“合成vs合成”的自然度奖励模型，在区分“合成vs真实”的任务上性能有限，但比BTRM基线更好。这表明不同的判断任务需要不同的专门模型。</p>
<ol start="4">
<li>下游应用：语音合成模型后训练
使用Qwen2.5-0.5B-TTS作为基础模型，对比了不同对齐方法的效果：
<img alt="图6: 语音合成模型后训练结果" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/I9ED9VWZq6-1.png">
图6：使用SpeechJudge进行后训练的效果。 (a) 显示文本准确率和自然度CMOS分数。(b) 显示说话人相似度的胜/负/平比例。
结论：使用SpeechJudge-GRM作为奖励模型（无论是离线标注还是在线RL）进行后训练，在提升自然度的同时，保持或略微提升了说话人相似度。GRM-based方法在自然度提升上优于仅使用现有数据（INTP）的方法。</li>
</ol>
<h3 id="-评分理由">⚖️ 评分理由</h3>
<ul>
<li>学术质量：5.5/7：论文工作系统、完整且扎实。它没有提出颠覆性的新模型架构，而是精心构建了该领域的关键基础设施（数据集、基准），并基于现有强大基座模型，通过有效的训练范式（SFT+RL）训练出了一个性能优越的专用模型。实验设计全面，消融清晰（SFT vs SFT+RL，BTRM vs GRM，支持Voting），并探索了下游应用，证据可信。主要扣分点在于GRM训练过程中对闭源教师模型（Gemini）的依赖。</li>
<li>选题价值：1.5/2：语音自然度判断是语音合成评估与对齐的基石问题。本文工作直接针对这一核心痛点，提供了大规模资源和性能更优的解决方案，对推动语音合成系统向人类水平发展有明确价值。选题重要且应用空间明确。</li>
<li>开源与复现加成：1.0/1：论文承诺开源所有资源（数据、基准、模型、代码），并提供了极其详尽的训练细节、超参数和复现步骤（附录F）。这对于社区后续研究和应用是巨大的促进，复现门槛低，加成满分。</li>
</ul>
<hr>
<p><a href="/audio-paper-digest-blog/posts/iclr2026-summary/">← 返回 ICLR 2026 论文分析</a></p>
]]></content:encoded>
      <category>模型评估</category>
      <category>强化学习</category>
      <category>奖励模型</category>
      <category>大语言模型</category>
      <category>语音合成</category>
    </item>
  </channel>
</rss>
