Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech
📄 Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech #语音合成 #情感语音合成 9.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.3/10 | 前50% | #语音合成 | #情感语音合成 | arxiv 👥 作者与机构 第一作者:Yihang Lin(香港中文大学(深圳));通讯作者:Li Zhou(香港中文大学(深圳));共同作者包括Congwei Cao, Dongchu Xie(香港中文大学(深圳));Xiaoxue Gao(新加坡科技研究局);Chen Zhang, Haizhou Li(新加坡国立大学、深圳大数据研究院、深圳湾区研究院)。主要单位为中国香港中文大学(深圳)。 💡 毒舌点评 这是一篇动机明确、工程性较强的系统论文,但存在以下核心问题: 创新性有限:将列表偏好优化(LiPO)应用于情绪强度控制,是一个直接且合理的迁移,但缺乏对LiPO本身或情绪建模的算法层面新贡献。核心创新更偏向“应用新场景”和“构建新数据集”。 理论深度不足:论文声称将问题“formulate as a learning-to-rank problem”,但方法描述更像一个启发式的列表构建和损失设计,缺乏对LTR理论在语音生成任务中的适配性分析。 实验天花板与claim:在ESD-plus这一自建数据集上进行评估,虽然必要,但难以客观衡量泛化能力。与SOTA的比较局限于有限的自实现基线(如Emo-DPO的几种变体),未与更广泛的非LLM TTS或最新情感TTS系统比较。论文声称“significantly improves”,但绝对指标提升有限(如Recall-ft从37.21到39.54),且人类评估的胜率在面对强基线(如Emo-DPO (I))时优势减弱。 细节可复现性:尽管提供了代码和数据集链接,但论文对核心模型(CosyVoice-300M-Instruct)的具体微调配置、超参数搜索过程、人类评估的具体协议(如标注者间一致性)描述不足,影响严格复现。 局限性挖掘浅:论文结论过于乐观,未深入讨论列表偏好监督在生成长语音或更复杂情感(如混合情感)时的潜在问题,也未讨论自建数据集可能引入的偏置(如使用TTS合成监督数据,而非自然语音)。 📌 核心摘要 本文针对LLM基TTS系统在利用文本提示进行细粒度情绪强度控制时存在的“语义-声学鸿沟”问题,提出了Emo-LiPO框架。该方法将情绪强度控制任务建模为一个学习排序问题,采用列表偏好优化(LiPO)来对齐文本提示的相对情绪强度与生成的语音。其核心在于通过一个规则构建的、包含同情绪不同强度、中性及反例语音的偏好列表,以及一个距离感知的加权损失函数,显式建模全局强度排序。为支持该任务,论文构建了ESD-plus多说话人数据集,包含45,500个带有明确强度变化(3级)的语音样本。实验表明,在ESD-plus数据集上,Emo-LiPO在情绪相关性指标(特别是Recall-ft)和人类评估胜率上优于监督基线和DPO变体,尤其在高强度水平优势明显,并能保持语音质量。 ...