No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS
📄 No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS #语音合成 #强化学习 #偏好学习 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #偏好学习 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Seungyoun Shin(Channel Corporation, Seoul, South Korea) 通讯作者:Sungwook Jeon(NAVER Cloud, South Korea)† 作者列表:Seungyoun Shin(Channel Corporation),Dongha Ahn(Kernelspace),Jiwoo Kim(成均馆大学, Sungkyunkwan University),Sungwook Jeon(NAVER Cloud) 💡 毒舌点评 论文精准地“诊断”了现有RL训练TTS的通病——用CER/NLL当奖励,模型就只会当“背稿机器”,丢了人说话的腔调。提出的“每轮用200对人类偏好对打补丁”的迭代DPO方案,确实用最小的数据代价把韵律给“救”回来了,ELO分数吊打一众基线,这是其最大亮点。但短板在于,DPO本身已不是新方法,论文的创新更多是“对症下药”的工程应用和验证,而非方法论上的突破,且每轮都要人工标注,扩展性存疑。 📌 核心摘要 要解决什么问题:在神经TTS中,使用基于转录错误率(CER)和负对数似然(NLL)的强化学习(如GRPO)优化模型,虽然提升了语音识别准确性,但会导致生成的语音韵律单调、不自然(“韵律坍塌”)。同时,简单加入说话人相似度奖励会破坏训练稳定性。 方法核心是什么:提出迭代的直接偏好优化(DPO)方案。从当前模型出发生成候选语音,由人工标注偏好对(更自然 vs. 不自然),然后使用DPO损失直接优化模型,使其倾向于生成被偏好的语音。该过程迭代进行,每轮使用少量(约200对)新鲜的偏好数据。 与已有方法相比新在哪里:不同于以往将重点放在设计复杂的复合奖励函数上,本文指出瓶颈在于“奖励设计”,并采用了一种无需单独训练奖励模型、直接使用人类偏好作为可验证信号的优化路径。该路径通过迭代进行,能有效平衡韵律自然度与转录鲁棒性。 主要实验结果如何:在全新的KoCC-TTS评测集上,迭代DPO方法在人类偏好(ELO分数)上取得了最高分(Round 2: 1190.1),显著优于GRPO(753.7)和商业系统(如Supertone: 1046.9)。同时,其字符错误率(CER)保持在有竞争力的水平(Round 2: 3.60%),远优于GRPO的扩展版本(42.63%)。 ...