EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis
📄 EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis #语音合成 #激活引导 #大语言模型 #流匹配 #轻量级 ✅ 7.0/10 | 前50% | #语音合成 | #激活引导 | #大语言模型 #流匹配 学术质量 6.0/7 | 选题价值 1.2/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Li Zhou(香港中文大学,深圳分校) 通讯作者:Haizhou Li(香港中文大学,深圳分校) 作者列表:Li Zhou†(香港中文大学,深圳分校)、Hao Jiang†(香港中文大学,深圳分校)、Junjie Li(香港理工大学)、Tianrui Wang(天津大学)、Haizhou Li*(香港中文大学,深圳分校) 💡 毒舌点评 亮点在于用仅10M参数(全微调的1/30)在情感表现力上超越了基线,且证明了通过调节引导系数α可实现情感强度的连续控制,这为参数高效的情感语��合成提供了一个优雅的方案。短板则是其“即插即用”的优势目前仅在一个中等规模、多情感的单语言数据集(ESD)上得到验证,对于更复杂的复合情感、跨语言场景或更大规模的基础模型的适用性有待考察。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用公开的ESD数据集,但未提供获取方式或预处理脚本。 Demo:未提及在线演示。 复现材料:提供了关键方法框架、部分超参数(ε, α, 学习率, 轮数)和实验设置描述,但缺少优化器、batch size、硬件、完整数据处理流程等细节。 论文中引用的开源项目:CosyVoice(骨干模型)、Whisper-Large-v3(ASR评估)、WavLM-Base(SpkSIM计算)、DNSMOS(质量评估)、emotion2vec(情感识别评估)。 总结:论文中未提及开源计划。 📌 核心摘要 这篇论文针对情感语音合成中模型难以直接建模情感特有潜在动态的问题,提出了EmoShift框架。其核心是在基于LLM的TTS模型中引入一个名为EmoSteer的轻量层,该层为每种目标情感学习一个特定的转向向量,用于在输出嵌入空间中捕获相对于中性表达的潜在偏移量。与以往通过缩放固定情感嵌入或依赖外部指导的方法不同,EmoShift直接学习并注入情感特异性的激活偏移,实现了更精确和一致的控制。在ESD数据集上的实验表明,EmoShift以仅10M的可训练参数,在情感分类准确率(如整体从69.68%提升至74.26%)和主观情感评分(Emo-MOS从3.67提升至3.96)上均优于零样本和全参数微调基线。此外,分析显示,通过在推理时调整缩放因子α,可以平滑调节情感强度。该方法的意义在于提供了一种参数高效、可解释且即插即用的情感控制方案。主要局限性在于实验仅在单一英文数据集和有限的五种情感上进行验证。 🏗️ 模型架构 EmoShift的框架如图2所示,其核心是在一个基于LLM的自回归语音合成模型(骨干为CosyVoice-300M-Instruct)中插入了一个EmoSteer层。 ...