📄 Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation

#语音合成 #情感语音合成 #特征调制 #流匹配 #多任务学习 #数据集

✅ 7.5/10 | 前25% | #语音合成 | #特征调制 | #情感语音合成 #流匹配

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高

👥 作者与机构

第一作者：Sirui Wang（哈尔滨工业大学）
通讯作者：Tiejun Zhao*（哈尔滨工业大学）
作者列表：Sirui Wang（哈尔滨工业大学）、Andong Chen（哈尔滨工业大学）、Tiejun Zhao（哈尔滨工业大学）

💡 毒舌点评

亮点：论文首次在LLM-TTS框架中实现了单词级的情感动态控制，概念清晰，并通过构建专用的FEDD数据集和详实的消融实验，有力地证明了其方法的有效性，实验设计相当规范。短板：然而，整个框架严重依赖于一个未完全公开细节的预训练模型（CosyVoice2），且代码和模型均未开源，这使得其“可复现性”大打折扣，更像是在现有强大基座上添加了一个精巧的模块，而非一个能独立复现和推广的完整解决方案。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及公开权重。
数据集：论文中提及构建了FEDD数据集，但未说明是否公开及获取方式。
Demo：论文中未提及在线演示。
复现材料：给出了部分训练细节（优化器、batch size、epoch），但关键模型架构（基于CosyVoice2）和更详尽的超参数配置未说明，不足以完全复现。
论文中引用的开源项目：明确提及并使用了emotion2vec（特征提取）、CosyVoice2（生成框架）、Montreal Forced Aligner (MFA)（对齐）、HiFi-GAN（声码器）、Whisper-Large-v3（WER评估）等开源工具或模型。
整体开源计划：论文中未提及开源计划。

📌 核心摘要

本文针对现有情感语音合成（E-TTS）方法大多依赖句子级全局情感控制（如标签、参考音频或提示）无法捕捉句内情感动态变化的问题，提出了Emo-FiLM框架。该方法的核心是：1）利用预训练的emotion2vec模型提取帧级情感特征，并通过一个轻量级Transformer模型将其对齐到单词，生成单词级的情感类别和强度标注；2）在预训练的LLM-TTS（CosyVoice2）框架中引入一个情感特征线性调制（E-FiLM）模块，将单词级的情感信息映射为文本嵌入的缩放和偏移参数，从而实现对语音生成过程的细粒度调制。为评估动态情感合成能力，论文构建了首个包含情感转折标注的Fine-grained Emotion Dynamics Dataset (FEDD)。实验表明，在FEDD数据集上，Emo-FiLM在情感动态匹配（DTW）指标上比最强基线（CosyVoice2）提升了9.1%（从54.57降至49.62），在主观情感相似度（EMOS）和自然度（NMOS）上也取得最佳成绩（4.19和4.23）。消融实验证实，单词级数据监督、情感损失和FiLM调制层均为关键组件。该工作为生成更自然、更具表现力的合成语音提供了新的方向，其主要局限在于依赖特定预训练模型且未开源代码，限制了复现与推广。

🏗️ 模型架构

Emo-FiLM框架整体分为两个核心阶段（如图2所示）：

细粒度情感标注模块：
- 输入：语音波形及其对应的转录文本。
- 核心组件：
  - Emotion2Vec特征提取器：一个预训练的自监督模型，用于从语音中提取高维的帧级情感特征序列。
  - Montreal Forced Aligner (MFA)：用于获取文本单词与语音帧的精确对齐。
  - 轻量级Transformer模型：接收对齐后的帧级特征序列，通过多头自注意力机制建模上下文依赖，输出增强的帧级表示。
  - 掩码平均池化层：将每个单词对应的可变长度帧级特征序列聚合为一个固定维度的单词级情感向量。
  - 双输出头：一个分类头预测离散情感类别（如快乐、悲伤），一个回归头预测连续情感强度（归一化到[0,1]）。
- 输出：每个单词对应的动态情感注释（类别和强度）。
- 关键设计：此模块将传统句子级标签“提升”到单词级，为生成模块提供了精细的控制信号。
情感调制生成模块：
- 输入：文本序列和上述单词级情感注释。
- 核心组件：
  - Emotion Encoder：将离散的情感类别和连续强度标签分别通过嵌入层映射为稠密向量，并与文本嵌入进行融合，形成统一的带情感的特征序列。
  - E-FiLM层：这是本方法的核心调制机制。它接收融合后的情感特征序列，通过两个线性投影层生成逐维度的缩放因子(γ)和偏移因子(β)。然后对文本隐藏状态 htext 进行仿射调制：˜htext = γ ⊙htext + β。这使得文本表示在特征维度上直接融入情感信息。
  - LLM-TTS解码器：基于预训练的CosyVoice2框架（采用流匹配和HiFi-GAN）。解码器以调制后的文本特征为条件，自回归地生成语音Token序列。
- 损失函数：采用多任务学习。
  - LTTS：语音生成损失，使用标签平滑交叉熵预测下一个语音Token。
  - Lemo：情感分类损失，在每个解码时间步预测情感类别。
  - 总损失：L = LTTS + λ * Lemo，其中λ为平衡系数。
- 输出：合成的情感动态变化语音。
- 整体流程（参考图1和图2）：论文通过对比直观展示了全局控制（如使用一个<happy>标签）与细粒度控制（如<happy,high>...</>,<surprise,slight>...</>）的区别，并说明了本方法如何实现后者。

💡 核心创新点

单词级细粒度情感控制：
- 是什么：首次在LLM-TTS框架中提出并实现了基于单词的、动态的情感调制。
- 局限：现有方法（如预定义标签、参考音频、自然语言提示）只能提供句子级别的全局情感指令，无法处理句子内部“先惊喜后高兴”等情感转换。
- 如何起作用：通过细粒度标注模块生成每个单词的情感信号，并在生成时通过FiLM层直接调制文本嵌入，从而在语音合成过程中动态改变情感状态。
- 收益/证据：在FEDD（专门评估情感动态的数据集）上，Emo-FiLM的DTW分数（49.62）显著优于所有基线（最低54.57），且主观评分（EMOS 4.19, NMOS 4.23）也最高，直观案例（图4）显示其F0曲线更贴近真实语音的起伏。
基于情感2vec的单词级情感标注方法：
- 是什么：利用预训练的语音情感识别模型（emotion2vec）和强制对齐技术，自动为语音中的每个单词生成情感标签和强度。
- 局限：绝大多数现有数据集只有句子级标注，缺乏细粒度监督信号。
- 如何起作用：将帧级的连续情感特征与单词边界对齐，再通过一个轻量模型映射为离散的类别和连续的强度值，解决了细粒度数据稀缺问题。
- 收益/证据：消融实验（表2）显示，移除单词级数据（- Word Level Data Tuning）会导致FEDD上的DTW值从49.62暴增至133.97，性能严重退化，证明了该标注方法的必要性。
构建FEDD数据集：
- 是什么：为评估动态情感合成能力而专门构建的测试集，包含1000个带有情感转折标注的英文语音。
- 局限：现有基准数据集（如ESD）缺乏对情感动态变化的评估。
- 如何起作用：包含500个自然语言指令产生的轻度转折和500个通过拼接同一说话人不同情感片段产生的强转折语音，提供了评估细粒度控制的黄金标准。
- 收益/证据：填补了领域内动态情感评估的空白，使得对模型“动态控制”能力的定量和定性评估成为可能。

🔬 细节详述

训练数据：
- 情感标注模型训练数据：使用IEMOCAP和ESD数据集中的句子级情感标签，通过伪标注方式生成训练所需的单词级标签对（论文中提及，具体过程未详细说明）。
- Emo-FiLM训练数据：基于CosyVoice2框架，论文未明确说明其预训练阶段使用的数据，仅说明在微调时使用了上述伪标注的细粒度数据。
损失函数：
- L = λcls · LCE(ŷclass, yclass) + λreg · LMSE(ŷdim, ydim)（情感标注模型）
- L = LTTS + λLemo（生成模型）
- 权重 λ 的具体取值未说明。
训练策略：
- 优化器：Adam。
- Batch Size：4。
- 训练轮数：5 epochs。
- 学习率、warmup策略等未说明。
关键超参数：模型具体层数、隐藏维度、注意力头数等未说明，因为核心建立在闭源的CosyVoice2之上。
训练硬件：未说明。
推理细节：解码采用自回归方式（由LLM-TTS框架决定），具体温度、beam size等参数未说明。
正则化技巧：生成模型使用了标签平滑（label-smoothing）交叉熵损失。

📊 实验结果

主要实验在两个数据集上进行：ESD（全球任务）和FEDD（细粒度任务）。

表1：不同情感TTS模型在ESD和FEDD数据集上的性能对比

Model	Emotion	Dataset	Emo SIM(%)	DTW	WER(%)	EMOS	NMOS
EmoSpeech	Label	ESD	98.25	47.34	7.92	4.09	3.93
GenerSpeech	Audio	ESD	97.84	42.68	12.35	3.72	3.81
CosyVoice2	Prompt	ESD	98.73	27.48	6.21	4.07	4.19
Emo-FiLM	Global Label	ESD	98.78	23.98	3.12	4.13	4.23
EmoSpeech	Label	FEDD	98.33	59.89	8.04	3.99	3.96
GenerSpeech	Audio	FEDD	98.17	65.63	9.58	3.62	3.82
CosyVoice2	Prompt	FEDD	99.13	54.57	9.93	3.84	4.17
Emo-FiLM	Fine-grained Label	FEDD	99.32	49.62	7.32	4.19	4.23

关键结论：Emo-FiLM在ESD全球任务和FEDD动态任务上均取得最佳或极具竞争力的结果。特别是在FEDD上，其DTW（49.62）比最强基线CosyVoice2（54.57）有显著降低（越低越好，表示情感轨迹匹配度更高），WER也最低（7.32%），主观评分（EMOS, NMOS）最高。

表2：Emo-FiLM消融实验结果

Model	ESD (Emo SIM, DTW)	FEDD (Emo SIM, DTW)
Emo-FiLM (Full)	98.78, 23.98	99.32, 49.62
- Global Level Data Tuning	98.45, 30.08	99.20, 52.72
- Word Level Data Tuning	98.45, 34.00	95.28, 133.97
- Emo Loss	98.58, 25.96	98.99, 55.91
- Film Layer	98.26, 34.36	98.83, 73.96

关键结论：移除任何关键组件（单词级数据、情感损失、FiLM层）都会导致性能下降，尤其是在FEDD任务上DTW值显著上升，证实了各设计的必要性。

图3：不同模型在ESD数据集上的情感分类准确率对比] （注：因无法访问原始图片，此处为占位描述。实际图��ID为pdf-image-page4-idx8）

关键结论：Emo-FiLM（蓝色柱）在Happy, Surprise, Angry, Neutral四个情感类别上均取得最高的分类准确率，尤其在Neutral（78.5%）和Happy（65.6%）上优势明显，说明其情感表达更精确、区分度更强。

图4：不同模型合成语音的梅尔频谱图和F0曲线可视化] （注：因无法访问原始图片，此处为占位描述。实际图片ID为pdf-image-page4-idx9）

关键结论：对于一句包含情感转折的文本，CosyVoice2和EmoSpeech生成的F0曲线相对平坦，未能体现情感变化；而Emo-FiLM生成的F0曲线与真实语音（Ground Truth）的轮廓和波动趋势高度吻合，直观证明了其细粒度情感动态建模能力。

⚖️ 评分理由

学术质量：6.0/7
- 创新性：提出将细粒度情感控制引入LLM-TTS的完整方案，思路清晰，有一定新颖性。
- 技术正确性：方法设计合理，各模块作用明确，消融实验验证了技术选择的有效性。
- 实验充分性：实验对比充分，构建了新的评估数据集，进行了多维度（客观、主观、可视化）的评估和消融分析。但缺乏对基础模型更多细节的讨论和跨语言/跨域的验证。
- 证据可信度：实验数据详实，指标选择恰当，案例研究直观。主要扣分点在于核心模型和代码未开源，无法完全由第三方验证。
选题价值：1.5/2
- 前沿性与应用空间：细粒度情感合成是E-TTS的重要发展趋势，能显著提升人机交互体验，在娱乐、教育、客服等领域有广阔应用前景。
- 读者相关性：对语音合成领域的研究者和开发者有较高参考价值。
开源与复现加成：0/1
- 论文未提供代码、模型权重或FEDD数据集的获取方式。关键训练细节（如基础模型架构、超参数）不完整，复现难度大。

← 返回 ICASSP 2026 论文分析

📄 Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文