EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis

📄 EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis #语音合成 #激活引导 #大语言模型 #流匹配 #轻量级 ✅ 7.0/10 | 前50% | #语音合成 | #激活引导 | #大语言模型 #流匹配 学术质量 6.0/7 | 选题价值 1.2/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Li Zhou(香港中文大学,深圳分校) 通讯作者:Haizhou Li(香港中文大学,深圳分校) 作者列表:Li Zhou†(香港中文大学,深圳分校)、Hao Jiang†(香港中文大学,深圳分校)、Junjie Li(香港理工大学)、Tianrui Wang(天津大学)、Haizhou Li*(香港中文大学,深圳分校) 💡 毒舌点评 亮点在于用仅10M参数(全微调的1/30)在情感表现力上超越了基线,且证明了通过调节引导系数α可实现情感强度的连续控制,这为参数高效的情感语��合成提供了一个优雅的方案。短板则是其“即插即用”的优势目前仅在一个中等规模、多情感的单语言数据集(ESD)上得到验证,对于更复杂的复合情感、跨语言场景或更大规模的基础模型的适用性有待考察。 📌 核心摘要 这篇论文针对情感语音合成中模型难以直接建模情感特有潜在动态的问题,提出了EmoShift框架。其核心是在基于LLM的TTS模型中引入一个名为EmoSteer的轻量层,该层为每种目标情感学习一个特定的转向向量,用于在输出嵌入空间中捕获相对于中性表达的潜在偏移量。与以往通过缩放固定情感嵌入或依赖外部指导的方法不同,EmoShift直接学习并注入情感特异性的激活偏移,实现了更精确和一致的控制。在ESD数据集上的实验表明,EmoShift以仅10M的可训练参数,在情感分类准确率(如整体从69.68%提升至74.26%)和主观情感评分(Emo-MOS从3.67提升至3.96)上均优于零样本和全参数微调基线。此外,分析显示,通过在推理时调整缩放因子α,可以平滑调节情感强度。该方法的意义在于提供了一种参数高效、可解释且即插即用的情感控制方案。主要局限性在于实验仅在单一英文数据集和有限的五种情感上进行验证。 🏗️ 模型架构 EmoShift的框架如图2所示,其核心是在一个基于LLM的自回归语音合成模型(骨干为CosyVoice-300M-Instruct)中插入了一个EmoSteer层。 输入与建模流程: 输入编码:模型接收三种条件信息并编码为嵌入:说话人嵌入 s、情感提示 Q(如“happy”)的提示嵌入序列 {q_i},以及文本 X 的文本嵌入 {x_j}。 序列组织:这些嵌入与特殊标记(S, P, T, E)组合成输入序列:[ S, s, {q_i}, P, {x_j}, T, {y_k}, E ]。训练时包含真实语音令牌 {y_k}(teacher-forcing),推理时从 T 之后开始自回归生成。 自回归生成:LLM骨干根据输入条件,自回归地生成离散的语音令牌序列 {y'_k},直至预测出结束符 E。 声码器解码:生成的语音令牌通过一个基于流匹配的声码器转换为最终的语音波形 Y'。 EmoSteer层(核心组件): ...

2026-04-29