RRPO: Robust Reward Policy Optimization for LLM-Based Emotional TTS
📄 RRPO: Robust Reward Policy Optimization for LLM-Based Emotional TTS #语音合成 #强化学习 #大语言模型 #鲁棒性 #数据增强 ✅ 7.5/10 | 前25% | #语音合成 | #强化学习 | #大语言模型 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Cong Wang(北京邮电大学) 通讯作者:Ya Li(北京邮电大学) 作者列表:Cong Wang(北京邮电大学),Changfeng Gao(未说明),Yang Xiang(未说明),Zhihao Du(未说明),Keyu An(未说明),Han Zhao(未说明),Qian Chen(未说明),Xiangang Li(未说明),Yingming Gao(北京邮电大学),Ya Li(北京邮电大学) 💡 毒舌点评 这篇论文的亮点在于它对可微分强化学习在TTS中应用的“奖励黑客”现象进行了细致入微的病理分析,并开出了一剂对症的“混合正则化”药方,实验也清晰地展示了“药到病除”的效果。然而,其短板在于实验规模(单说话人、单语言、10k样本)相对局限,且核心的“鲁棒性”验证严重依赖下游SER任务的跨语言泛化作为代理指标,而非直接衡量生成语音对多种黑客攻击的抵抗力,说服力尚有提升空间。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及数据集公开计划,但描述了所用数据集的规模、来源(单说话人、10k样本)和标注方式。 Demo:提供了在线演示页面链接:https://lrwinr.github.io/RRPO-CosyVoice。 复现材料:给出了关键的训练超参数(ε, ε_adv, α, 学习率)和硬件信息(8x A800),但缺少模型架构细节、训练日志和最终检查点。算法1详细描述了能量自适应混合(EAM)的流程。 引用的开源项目:论文未明确列出其依赖的开源工具或模型,但提到了CosyVoice2作为基线模型。 📌 核心摘要 本文旨在解决基于大语言模型的情感TTS中,采用可微分奖励优化(DiffRO)方法时出现的“奖励黑客”问题。即策略模型会学习生成一些能欺骗奖励模型(RM)获得高分但实际听感不佳的声学伪影(如不自然的唇齿音)。为此,作者提出了鲁棒奖励策略优化(RRPO) 框架,其核心是采用混合正则化方案对预训练的RM进行微调,从标签置信度、决策边界脆弱性和扰动敏感性三个层面纠正RM的偏差,使其奖励信号更贴近人类感知。与直接优化或简单SFT相比,该方法的新颖之处在于构建了一个更难被“黑客攻击”的可靠奖励信号。实验表明,RRPO在情感表达(E-MOS)和自然度(N-MOS)上均优于基线(CosyVoice2, SFT, DiffRO)。具体地,RRPO的E-MOS达到3.78±0.08,N-MOS达到3.81±0.09,而存在奖励黑客现象的DiffRO基线N-MOS仅为3.61±0.13。消融研究证实了混合正则化显著提升了RM在多个跨语言情感识别数据集上的泛化能力。该工作为强化学习在TTS中的安全应用提供了有效方案,但其在更多样化场景下的泛化能力和对更复杂攻击的抵御能力有待进一步验证。 ...