📄 No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS

#语音合成 #强化学习 #偏好学习 #数据集

🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #偏好学习 #数据集

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Seungyoun Shin(Channel Corporation, Seoul, South Korea)
  • 通讯作者:Sungwook Jeon(NAVER Cloud, South Korea)†
  • 作者列表:Seungyoun Shin(Channel Corporation),Dongha Ahn(Kernelspace),Jiwoo Kim(成均馆大学, Sungkyunkwan University),Sungwook Jeon(NAVER Cloud)

💡 毒舌点评

论文精准地“诊断”了现有RL训练TTS的通病——用CER/NLL当奖励,模型就只会当“背稿机器”,丢了人说话的腔调。提出的“每轮用200对人类偏好对打补丁”的迭代DPO方案,确实用最小的数据代价把韵律给“救”回来了,ELO分数吊打一众基线,这是其最大亮点。但短板在于,DPO本身已不是新方法,论文的创新更多是“对症下药”的工程应用和验证,而非方法论上的突破,且每轮都要人工标注,扩展性存疑。

📌 核心摘要

  1. 要解决什么问题:在神经TTS中,使用基于转录错误率(CER)和负对数似然(NLL)的强化学习(如GRPO)优化模型,虽然提升了语音识别准确性,但会导致生成的语音韵律单调、不自然(“韵律坍塌”)。同时,简单加入说话人相似度奖励会破坏训练稳定性。

  2. 方法核心是什么:提出迭代的直接偏好优化(DPO)方案。从当前模型出发生成候选语音,由人工标注偏好对(更自然 vs. 不自然),然后使用DPO损失直接优化模型,使其倾向于生成被偏好的语音。该过程迭代进行,每轮使用少量(约200对)新鲜的偏好数据。

  3. 与已有方法相比新在哪里:不同于以往将重点放在设计复杂的复合奖励函数上,本文指出瓶颈在于“奖励设计”,并采用了一种无需单独训练奖励模型、直接使用人类偏好作为可验证信号的优化路径。该路径通过迭代进行,能有效平衡韵律自然度与转录鲁棒性。

  4. 主要实验结果如何:在全新的KoCC-TTS评测集上,迭代DPO方法在人类偏好(ELO分数)上取得了最高分(Round 2: 1190.1),显著优于GRPO(753.7)和商业系统(如Supertone: 1046.9)。同时,其字符错误率(CER)保持在有竞争力的水平(Round 2: 3.60%),远优于GRPO的扩展版本(42.63%)。

    模型/方法CER ↓ (%)ELO
    商业/开源基线
    ElevenLabs (Multilingual v2)4.74955.1
    Supertone2.981046.9
    GPT-4o-mini-tts (sage)2.91848.9
    Llasa-8B3.24
    Llasa-3B3.47
    Llasa-1B10.45
    内部模型
    channel-base2.901150.1
    GRPO (clean)2.20753.7
    GRPO-sim extension42.63878.7
    channel-base-dpo-v15.801096.5
    channel-base-dpo-v23.601190.1
    channel-base-dpo-v33.301064.2
  5. 实际意义是什么:为提升对话式TTS的自然度提供了一种实用、数据高效的后训练方案。证明了在自动指标不可靠的领域,人类偏好优化是可靠路径。发布的KoCC-TTS数据集为评估韩语任务导向对话TTS提供了新基准。

  6. 主要局限性是什么:1)依赖人工标注,每轮都需要新的偏好数据,持续优化成本较高;2)论文未深入分析偏好对选择的具体标准,以及标注者间一致性对结果的影响;3)方法在多语言和更广泛场景下的泛化能力未验证。

🏗️ 模型架构

论文未提出全新的神经网络架构,而是将现有技术应用于特定问题。其核心工作流程涉及以下组件:

  1. 基础模型 (channel-base):基于Llasa架构。这是一个以Transformer(从LLaMA初始化)为解码器的模型,生成离散语音token,再通过XCodec2解码为波形。该模型先在36k小时的韩语通用语料上进行持续预训练,再在18小时的单说话人对话数据上微调,得到初始模型channel-base
  2. GRPO优化阶段:在channel-base基础上,使用Group Relative Policy Optimization (GRPO) 进行强化学习训练。
    • 输入:文本提示。
    • 奖励信号:论文设计了两种奖励函数: 基础奖励 (Eq.2):结合字符错误率(CER,来自ASR)和负对数似然(NLL)的调和平均。公式为 R = (λ_c + λ_ℓ) / (λ_c/U_c + λ_ℓ/U_ℓ),其中 U_c = 1 - tanh(τ_c c)U_ℓ = exp(-ℓ/τ_ℓ)。这是一种惩罚高误差、奖励高似然的设计。
      • 扩展奖励 (Eq.4):在基础奖励上加入说话人相似度(余弦相似度)项。公式为 R = (λ_c + λ_ℓ + λ_s) / (λ_c/U_c + λ_ℓ/U_ℓ + λ_s/U_s)
    • 输出:更新后的策略模型(如GRPO (clean)GRPO-sim extension)。
  3. 迭代DPO优化阶段:
    • 初始化:从channel-base或上一轮DPO后的模型(π_{θ_{r-1}})开始。
    • 数据收集:用当前模型生成候选语音,由人工标注者从每对中选出更自然的一个(基于音高和韵律流),形成约200个偏好三元组 {(x, y+, y-)}
    • 优化:使用DPO损失函数更新模型。DPO损失为 L_{DPO}(θ) = -E [log σ(β[Δℓ_θ(x, y+, y-) - Δℓ_{ref}(x, y+, y-)])],其中 Δℓ_θ 是当前模型下,偏好与非偏好语音的对数概率差;Δℓ_{ref} 是参考模型(即上一轮模型)下的对应差值;β控制偏好强度。该损失鼓励模型增加偏好语音相对于非偏好语音的概率,同时隐式地将策略正则化到参考模型附近,防止偏离过远。
    • 输出:更新后的策略模型(如channel-base-dpo-v1, v2, v3)。每轮数据不重复使用。

数据流:文本 → 基础模型/上一轮模型生成候选语音 → 人工标注偏好对 → DPO损失计算并更新模型 → 新模型用于下一轮生成。

💡 核心创新点

  1. 精准诊断GRPO的韵律坍塌问题:明确指出,当使用CER/NLL等转录导向的奖励训练GRPO时,模型会“优化所衡量的(可懂度),而坍塌未衡量的(韵律变化)”,导致单调语音。这为后续改进提供了明确靶向。
  2. 提出基于迭代DPO的韵律恢复方案:针对“韵律无法被自动可靠奖励”的瓶颈,采用可直接验证的人类偏好作为优化信号。通过迭代、小批量的DPO训练(每轮约200对),在不显著牺牲CER的情况下,有效恢复了语音的自然韵律。
  3. 发布面向对话的TTS评测集KoCC-TTS:创建了一个由真实韩语客服对话片段构成的50样本高质量评测集,专门用于评估任务导向语音合成中的转录鲁棒性和会话韵律,填补了该领域评测资源的空白。

🔬 细节详述

  • 训练数据:
    • 通用预训练:约36k小时公开的韩语(文本,音频)对,来源AIHUB。
    • 单说话人微调:18小时专有的单说话人(女声)数据,仅保留对话中的管理者声道,使用pyannote.audio提取语音活跃区域,Whisper-large-v3转录,得到配对数据。
  • 损失函数:
    • GRPO阶段:使用上述设计的复合奖励函数(Eq. 2 和 Eq. 4)作为RL的奖励信号,具体RL算法为GRPO。
    • DPO阶段:使用标准DPO损失(Eq. 7),β为控制偏好锐度的超参数。
  • 训练策略:
    • 预训练与微调细节:论文未说明学习率、warmup、优化器等具体细节。
    • GRPO训练:使用160万条文本提示进行训练。
    • 迭代DPO训练:共3轮。每轮从上一轮模型初始化,收集200对新的人类偏好标注,进行优化。参考模型 π_ref 就是上一轮的模型。
  • 关键超参数:
    • GRPO基础奖励权重:(λ_c, λ_ℓ) = (0.6, 0.4)
    • GRPO扩展奖励权重:(λ_c, λ_ℓ, λ_s) = (0.5, 0.3, 0.2)
    • τ_c, τ_ℓ在验证集上调整,具体值未说明。
    • DPO中的β值未说明。
    • 模型架构基于Llasa-1B,具体层数、维度等未说明。
  • 训练硬件:未提及具体GPU/TPU型号、数量及训练时长。
  • 推理细节:论文未详细说明解码策略(如温度、beam size)。所有对比系统使用相同的文本规范化规则,固定语速和标点处理,采用各供应商的默认采样配置。
  • 评估方法:采用类似Chatbot Arena的盲测A/B比较。27名参与者(20-60岁)共投出596票,根据音高和韵律流选择更自然的样本,投票结果聚合为ELO分数。

📊 实验结果

主要实验在自建的KoCC-TTS测试集上进行,对比了12个系统。

表1: KoCC-TTS测试集结果

模型/方法CER ↓ (%)ELO
商业/开源基线
ElevenLabs (Multilingual v2)4.74955.1
Supertone2.981046.9
GPT-4o-mini-tts (sage)2.91848.9
Llasa-8B3.24
Llasa-3B3.47
Llasa-1B10.45
内部模型
channel-base2.901150.1
GRPO (clean)2.20753.7
GRPO-sim extension42.63878.7
channel-base-dpo-v15.801096.5
channel-base-dpo-v23.601190.1
channel-base-dpo-v33.301064.2

关键结果分析:

  1. GRPO导致韵律坍塌:GRPO (clean)的CER最低(2.20%),但ELO分数也最低(753.7),远低于基线channel-base。图2的logF0分布可视化证实了其音高变化范围显著收窄,趋于单调。
  2. 说话人相似度奖励破坏训练:GRPO-sim extension的CER急剧恶化至42.63%,且ELO分数(878.7)也低于基线,表明训练不稳定。
  3. 迭代DPO有效恢复韵律:
    • Round 1:模型开始探索更多样化的韵律,CER暂时上升(5.80%),但ELO分数显著提升(1096.5),接近最强商业系统Supertone(1046.9)。
    • Round 2:达到了最佳平衡点,ELO分数达到所有系统最高(1190.1),CER回落至3.60%,优于所有商业系统和基线模型(除GRPO外)。
    • Round 3:CER继续改善(3.30%),但ELO分数下降(1064.2),表明偏好学习收益出现递减。
    • 结论:仅用约600对偏好标注(3轮×200对),迭代DPO就在保持竞争性CER的同时,实现了最优的人类偏好得分。

⚖️ 评分理由

  • 学术质量:6.0/7:问题定义清晰,解决方案针对性强,实验设计合理且包含新的评测集,结果具有说服力。主要扣分点在于核心方法(DPO)是应用而非创新,以及对实验现象(如Round 2峰值)的分析深度不足。
  • 选题价值:1.5/2:聚焦于TTS落地应用中的关键痛点(对话韵律),研究方向具有明确的实用价值和前沿性。提出的“人类偏好作为可验证奖励”的思路对相关领域有借鉴意义。
  • 开源与复现加成:+0.5/1:发布了新的、有价值的评测数据集KoCC-TTS,并提供了演示链接。但未开源训练代码和模型权重,一定程度上限制了完全复现。

🔗 开源详情

  • 代码:论文中未提及代码仓库链接。
  • 模型权重:未提及。
  • 数据集:论文发布了新的评测集KoCC-TTS,并给出了HuggingFace链接:https://huggingface.co/datasets/channelcorp/KoCC-TTS-testset
  • Demo:提供了演示页面链接:https://tts.ch.dev
  • 复现材料:论文提供了训练数据的大致规模(36k小时公开数据,18小时专有数据)、模型架构基础(Llasa-1B)、以及关键实验设置(如DPO的迭代流程、偏好对数量)。��未提供完整的训练超参数、配置文件或模型检查点。
  • 论文中引用的开源项目:

← 返回 ICASSP 2026 论文分析