Emotional Dimension Control in Language Model-Based Text-To-Speech: Spanning a Broad Spectrum of Human Emotions
📄 Emotional Dimension Control in Language Model-Based Text-To-Speech: Spanning a Broad Spectrum of Human Emotions #语音合成 #流匹配 #预训练 #零样本 #语音情感识别 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #预训练 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Kun Zhou(阿里巴巴集团通义实验室,新加坡) 通讯作者:未说明 作者列表:Kun Zhou(阿里巴巴集团通义实验室,新加坡)、You Zhang(美国罗切斯特大学)、Dianwen Ng(阿里巴巴集团通义实验室,新加坡)、Shengkui Zhao(阿里巴巴集团通义实验室,新加坡)、Hao Wang(阿里巴巴集团通义实验室,新加坡)、Bin Ma(阿里巴巴集团通义实验室,新加坡) 💡 毒舌点评 亮点在于将经典心理学理论(PAD模型)与前沿的语言模型TTS框架深度结合,实现了从离散情感标签到连续情感空间控制的优雅跳转,为情感语音合成提供了更富表现力的控制范式。短板是实验部分更像一场“理论验证秀”(如图2展示合成语音的声学特征与理论吻合),但在与当前最强系统(如使用大规模情感数据或更强解码方法的模型)的“硬碰硬”对比和系统性消融实验上显得保守和不足,使得其宣称的优势说服力打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了公开的ESD和LibriTTS数据集。情感维度预测器的训练数据(ESD子集)是公开的,TTS训练数据(LibriTTS)也是公开的。 Demo:提供了在线演示页面:https://demos46.github.io/emotion_pad/ 复现材料:提供了模型架构描述、关键超参数(如ED预测器的训练设置、TTS模型各组件维度)、数据集规模等信息。但未提供完整的训练脚本、配置文件或预训练检查点。 论文中引用的开源项目:引用了CosyVoice、HiFi-GAN、3D-Speaker(用于说话人嵌入)、WavLM、UMAP等开源模型和工具。 📌 核心摘要 要解决什么问题:当前的情感语音合成(TTS)系统受限于数据集中的少量离散情感标签(如喜怒哀乐),无法覆盖人类丰富(理论上有约34000种)且微妙的情感光谱,导致生成语音的情感表达有限、不自然。 方法核心是什么:本文提出一个基于语言模型的TTS框架,核心是引入情感维度(ED)预测器和连续情感维度控制。ED预测器利用心理学期理论(PAD模型:愉悦度-唤醒度-支配度),将语音数据集中的离散情感标签映射为连续的3维向量。在TTS训练和推理时,将ED向量作为额外条件输入语言模型,从而引导语音合成。 与已有方法相比新在哪里:相比传统基于离散标签的监督学习或基于参考语音的风格迁移方法,本文方法无需在TTS训练阶段使用显式情感标签,仅通过连续的ED向量即可在推理时灵活控制生成语音的情感风格,且能探索训练数据中未出现过的情感组合。 主要实验结果如何:在零样本情感克隆任务上,本文方法的语音自然度MOS(4.54)优于基线CosyVoice(4.36)。在情感可懂度(E-MOS)主观评估中,本方法在所有测试情感上得分均高于CosyVoice基线。XAB测试表明,系统能较好地区分PAD维度相近的情感对(如愤怒vs焦虑,正确匹配率约84%)。客观上,合成语音的音高和频谱通量统计特征与理论预期相符(如图2所示)。 实际意义是什么:该框架使得TTS系统能够更精细、灵活地合成多样化的情感语音,无需依赖大规模标注数据,有望提升对话系统、有声读物、虚拟助手等应用的情感交互自然度和用户体验。 主要局限性是什么:1) 情感维度预测器依赖于已有的离散情感标签数据集进行训练,其质量可能受限于原始标签的噪声和偏差;2) 实验评估中,与最先进的情感TTS系统(如CosyVoice的情感扩展版本EmoCtrl-TTS)的直接对比缺失,且缺乏关键模块的消融研究;3) 当前工作主要在英语单语种上进行验证,多语言适应性未探讨。 🏗️ 模型架构 本论文的框架包含两个主要阶段:情感维度(ED)预测器训练和TTS模型训练/推理。 ...