EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion Control in LLM-based TTS
📄 EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion Control in LLM-based TTS #语音合成 #强化学习 #语音情感识别 #大语言模型 🔥 8.5/10 | 前25% | #语音合成 | #强化学习 | #语音情感识别 #大语言模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Haoxun Li(杭州高等研究院、中国科学院大学) 通讯作者:Taihao Li(杭州高等研究院、中国科学院大学) 作者列表:Haoxun Li(杭州高等研究院、中国科学院大学)、Yu Liu(未说明具体机构)、Yuqing Sun(未说明具体机构)、Hanlei Shi(未说明具体机构)、Leyuan Qu(未说明具体机构)、Taihao Li(杭州高等研究院、中国科学院大学) 💡 毒舌点评 亮点:本文创新性地将强化学习(GRPO)引入LLM-TTS,为解决其“离散Token难以表达连续情感”的痛点提供了优雅的框架,并首次实现了同时控制VAD全局强度和局部词强调,实验数据全面且显著优于基线。 短板:论文声称是“本地PDF”,但缺乏对代码和模型权重公开的明确承诺,严重阻碍了社区的复现与跟进;另外,对“惊讶”等少数情感的强调控制效果较弱,表明模型的泛化能力仍有提升空间。 🔗 开源详情 代码:论文中未提及代码链接。仅提供了一个Demo页面(https://wd-233.github.io/EMORL-TTS_DEMO/)。 模型权重:未提及是否公开模型权重。 数据集:使用的ESD和Expresso是公开数据集,但GRPO阶段构建的1000句带强调标注的文本语料未公开。 Demo:提供了在线合成演示页面。 复现材料:论文详细描述了两阶段训练流程、损失函数、奖励设计公式和主要超参数,这为复现提供了较好的理论指导。但缺乏训练脚本、具体配置文件和模型检查点。 论文中引用的开源项目/工具:依赖的基座模型 Spark-TTS,情感识别模型 Emotion2vec,强制对齐工具 NeMo Forced Aligner,以及VAD预测器均为开源或已有工作。 📌 核心摘要 问题:基于大语言模型的语音合成系统虽能实现高质量零样本合成,但由于其依赖离散语音Token,难以实现对情感的细粒度控制(如连续强度、重点词强调)。 方法核心:提出EMORL-TTS框架,通过监督微调(SFT)与强化学习(GRPO)相结合的方式,统一建模全局情感强度(在VAD空间)与局部语音强调(通过音高和能量特征)。强化学习阶段使用三个任务特定奖励:情感分类准确性、全局VAD强度匹配度和局部强调清晰度。 创新点:a) 首次将VAD空间的全局情感强度控制引入LLM-TTS;b) 设计了基于韵律特征的局部强调控制机制;c) 构建了融合全局与局部控制的统一框架。 实验结果:实验表明,EMORL-TTS在情感准确性(目标与感知准确率均达0.88以上)、强度区分度(平均识别率0.71)和强调清晰度(平均准确率0.75)上均显著优于CosyVoice2、Emosphere++等强基线,同时MOS(4.94)和NISQA(4.11)分数与之相当,证明控制能力提升未牺牲合成质量。具体关键数据如下表所示: 表1:情感准确性客观评估(Emotion2vec准确率) ...