📄 EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion Control in LLM-based TTS

#语音合成 #强化学习 #语音情感识别 #大语言模型

🔥 8.5/10 | 前25% | #语音合成 | #强化学习 | #语音情感识别 #大语言模型

学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高

👥 作者与机构

  • 第一作者:Haoxun Li(杭州高等研究院、中国科学院大学)
  • 通讯作者:Taihao Li(杭州高等研究院、中国科学院大学)
  • 作者列表:Haoxun Li(杭州高等研究院、中国科学院大学)、Yu Liu(未说明具体机构)、Yuqing Sun(未说明具体机构)、Hanlei Shi(未说明具体机构)、Leyuan Qu(未说明具体机构)、Taihao Li(杭州高等研究院、中国科学院大学)

💡 毒舌点评

亮点:本文创新性地将强化学习(GRPO)引入LLM-TTS,为解决其“离散Token难以表达连续情感”的痛点提供了优雅的框架,并首次实现了同时控制VAD全局强度和局部词强调,实验数据全面且显著优于基线。 短板:论文声称是“本地PDF”,但缺乏对代码和模型权重公开的明确承诺,严重阻碍了社区的复现与跟进;另外,对“惊讶”等少数情感的强调控制效果较弱,表明模型的泛化能力仍有提升空间。

📌 核心摘要

  1. 问题:基于大语言模型的语音合成系统虽能实现高质量零样本合成,但由于其依赖离散语音Token,难以实现对情感的细粒度控制(如连续强度、重点词强调)。
  2. 方法核心:提出EMORL-TTS框架,通过监督微调(SFT)与强化学习(GRPO)相结合的方式,统一建模全局情感强度(在VAD空间)与局部语音强调(通过音高和能量特征)。强化学习阶段使用三个任务特定奖励:情感分类准确性、全局VAD强度匹配度和局部强调清晰度。
  3. 创新点:a) 首次将VAD空间的全局情感强度控制引入LLM-TTS;b) 设计了基于韵律特征的局部强调控制机制;c) 构建了融合全局与局部控制的统一框架。
  4. 实验结果:实验表明,EMORL-TTS在情感准确性(目标与感知准确率均达0.88以上)、强度区分度(平均识别率0.71)和强调清晰度(平均准确率0.75)上均显著优于CosyVoice2、Emosphere++等强基线,同时MOS(4.94)和NISQA(4.11)分数与之相当,证明控制能力提升未牺牲合成质量。具体关键数据如下表所示:

表1:情感准确性客观评估(Emotion2vec准确率)

模型平均中性生气开心悲伤惊讶
CosyVoice20.630.990.560.700.480.44
EMORL-TTS w/o GRPO0.810.910.780.860.750.76
Emosphere++0.850.970.930.780.800.77
EMORL-TTS0.880.990.930.910.780.81

表3:情感强度区分度主观评估(正确选择更强样本的比例)

情感模型弱<中中<强弱<强
生气Relative Attribute0.540.540.68
Emosphere++0.740.780.78
EMORL-TTS0.560.820.82
平均Relative Attribute0.500.520.58
Emosphere++0.560.470.50
EMORL-TTS0.710.650.72

表5:语音质量评估

模型MOS (↑)NISQA (↑)
Spark-TTS4.964.15
CosyVoice24.964.14
EMORL-TTS4.944.11
  1. 实际意义:该工作将LLM-TTS的可控性从类别推向了连续强度和局部韵律层面,为生成更自然、更具表现力的语音合成(如个性化对话、有声内容创作)奠定了技术基础。
  2. 主要局限性:a) 未开源代码与模型权重,可复现性存疑;b) 对部分情感(如惊讶)的强调控制效果有待提升;c) 强化学习训练依赖人工标注的强调文本,可能限制其在无标注场景的应用。

🏗️ 模型架构

EMORL-TTS的架构如图1所示,它建立在Spark-TTS基座上,主要包含文本/情感/强度标记器、大语言模型(LLM)和BiCodec解码器三个核心组件。

完整输入输出流程:

  1. 输入:文本序列 x、情感类别 c(如“angry”)、离散化的全局强度级别 r(“weak/medium/strong”)、以及可选的局部强调掩码 m(标记哪些词需要被强调)。
  2. 序列化:情感类别和强度被转换为特殊的“控制Token”,与文本Token一起输入LLM。
  3. 自回归生成:LLM根据这些控制Token和文本Token,自回归地生成一串离散的语音Token序列 z
  4. 解码:冻结的BiCodec解码器将语音Token序列转换为最终的波形 ŷ

主要组件与功能:

  • 标记器(Tokenizer):负责将输入文本、情感类别和强度级别转换为LLM能理解的离散Token。
  • 大语言模型(LLM):整个系统的核心。它接受序列化的输入(文本+控制Token),并学习在给定控制条件下,输出最可能的语音Token序列。在后训练阶段,只有LLM的参数被更新。
  • BiCodec解码器:一个预训练且被冻结的声码器,负责将离散的语音Token解码为连续的声波。它被选择是因为能同时编码全局声学特征和语义信息。

关键设计选择与动机:

  • 冻结BiCodec:为了充分利用其强大的表达能力,并专注于提升LLM的可控性,避免在后训练中破坏其声学重建质量。
  • 两阶段后训练(SFT + GRPO):
    • SFT阶段:目的是让模型初步学会根据情感和强度Token生成对应情感的语音,为后续强化学习提供一个合理的起点。
    • GRPO阶段:目的是利用强化学习,通过设计精细的奖励函数,让模型“隐式学习”如何在离散Token空间中实现连续的、细粒度的情感与强调控制,弥补SFT的不足。

图1:EMORL-TTS框架概览 图1清晰展示了流程:文本、情感、强度Token输入LLM,生成语音Token,再由BiCodec解码。右侧显示了三个奖励信号(情感分类、全局强度、局部强调)如何通过GRPO优化LLM策略。

💡 核心创新点

  1. 首次在LLM-TTS中实现基于VAD的全局情感强度连续控制:

    • 局限:此前LLM-TTS的情绪控制多限于离散类别标签,无法表达“多高兴”或“有些生气”这类连续强度。
    • 如何起作用:方法将VAD(效价-唤醒度-支配度)空间的连续强度值离散化为“弱/中/强”三个Token,通过SFT训练模型接收该输入。在强化学习阶段,设计“全局强度奖励”,计算生成语音的VAD值到中性点的距离,并通过硬匹配+软高斯奖励的组合,引导模型生成与目标强度匹配的语音。
    • 收益:使LLM-TTS具备了在VAD空间调节情感强度的能力,显著提升了情感表达的层次感。
  2. 设计基于韵律特征的局部强调控制机制:

    • 局限:强调是情感表达的关键,但如何在离散Token生成中控制强调位置是个难题。
    • 如何起作用:允许用户指定需要强调的词。系统通过强制对齐获得词边界,并提取这些词的基频(Pitch)和能量(Energy)特征。在强化学习阶段,设计“局部强调奖励”,通过硬匹配(强调词的特征是否为整句最高)和软匹配(强调词的特征相对整句均值的偏离程度)来鼓励模型在指定位置生成更突出的韵律。
    • 收益:实现了词级别的强调可控性,增强了语音的局部表现力和情感聚焦。
  3. 构建统一的全局-局部细粒度控制框架:

    • 局限:先前工作要么只做全局情感分类,要么只做局部韵律控制,缺乏统一。
    • 如何起作用:将VAD强度控制(全局)和强调控制(局部)的输入与奖励机制整合到同一个SFT+GRPO训练框架中。模型同时接收全局强度Token和局部强调标记,并接受三个奖励信号的联合优化。
    • 收益:模型能同时理解和执行多层次、多维度的情感控制指令,实现更精细、更自然的合成。

🔬 细节详述

  • 训练数据:
    • SFT阶段:使用两个英文情感语音数据集:1) ESD:10位说话人,5种情感(愤怒、快乐、悲伤、惊讶、中性),每人每情感约350句,总计约1.2小时/说话人。2) Expresso:选取其中情感标注子集,包含4717句(快乐、悲伤、默认/中性),部分样本带有强调标注。
    • GRPO阶段:构建了一个仅文本的语料库,包含从互联网收集的1000句英文句子。关键:为每句话随机选择3个词进行强调标注,以模拟多样的强调模式。这些带标注的文本用于生成候选语音并计算奖励。
  • 损失函数:
    • SFT阶段:使用标准的Token级交叉熵损失,最小化模型预测Token序列与真实Token序列的差异。
    • GRPO阶段:优化目标为最大化预期奖励。具体采用GRPO(Group Relative Policy Optimization)目标,如公式(3)所示。它包含两部分:a) 与基线策略(SFT策略)相比的优势项(由组内相对奖励计算);b) KL散度惩罚项,防止当前策略πθ偏离SFT策略pSFT太远,以保持生成质量。
  • 训练策略:
    • SFT:训练50个epoch,批大小16,学习率0.0002。
    • GRPO:学习率1.0e-6,非常小以保证稳定。生成候选数K=16(每个提示生成16个候选语音),KL锚点权重β=0.1。
  • 关键超参数:
    • 强化学习中的生成候选数K=16。
    • KL散度权重β=0.1。
    • 强调奖励计算中,使用20ms窗口提取F0和STFT能量。
  • 训练硬件:所有实验在8块NVIDIA RTX 4090 GPU上进行。论文未说明具体训练时长。
  • 推理细节:论文未详细说明推理时的解码策略(如温度、beam search参数),推测与Spark-TTS基线类似。
  • 正则化或稳定训练技巧:在GRPO目标中明确使用了KL散度约束,作为主要稳定训练的技巧,防止强化学习过程导致生成质量崩溃。

📊 实验结果

主要评估任务与指标:

  1. 情感准确性(EAT-EMO):客观(Emotion2vec分类准确率)和主观(人类感知识别率)。结果见表1(客观)和表2(主观)。EMORL-TTS在两项指标上均取得最高平均分(0.88和0.89),显著优于所有基线。
  2. 情感强度区分度(EIT):主观成对比较,判断弱、中、强哪一对更强。结果见表3。EMORL-TTS在“中<强”和“弱<强”的平均识别率上大幅领先(0.65 vs 次优0.52;0.72 vs 次优0.58)。
  3. 强调准确性(EAT):主观判断强调词位置是否正确。结果见表4。EMORL-TTS平均准确率0.75,与EME-TTS(0.73)相当,但显著高于CosyVoice2(0.35)。在“生气”情感上达到0.92的高准确率。
  4. 语音质量与自然度:客观(NISQA评分)和主观(MOS)。结果见表5。EMORL-TTS的MOS(4.94)和NISQA(4.11)与Spark-TTS、CosyVoice2等强基线几乎持平,证明强化学习未损害质量。
  5. 词性对强调效果的影响(POSET):新探索的实验。通过让听众对不同词性(副词、形容词、动词、名词等)被强调的语音进行情感强度排序,得出聚合分数。结果见图2。

图2:不同词性强调的聚合情感强度分数 图2的关键结论:强调副词(Adverbs)产生的感知情感强��最强,其次是形容词(Adjectives),其他词类(动词、名词等)的效果相对较弱。这为通过强调特定词性来精细调节情感提供了实证依据。

与最强基线的差距:

  • 在情感准确性(主观)上,EMORL-TTS比最强基线Emosphere++高5个百分点(0.89 vs 0.84)。
  • 在情感强度区分度(平均“弱<强”)上,EMORL-TTS比相对属性方法高14个百分点(0.72 vs 0.58),比Emosphere++高22个百分点(0.72 vs 0.50)。
  • 在强调准确性上,与专门的EME-TTS接近,但EMORL-TTS同时具备了额外的情感强度控制能力。

关键消融实验:

  • EMORL-TTS w/o GRPO:即仅进行SFT。与完整模型对比,所有控制指标(准确性、强度、强调)均有显著下降(例如情感主观准确率从0.89降至0.76),证明了强化学习阶段的必要性。

⚖️ 评分理由

  • 学术质量:6.5/7。论文创新点清晰,解决了LLM-TTS中的一个关键痛点。技术方案(SFT+GRPO,复合奖励)设计合理且有充分实验验证。实验对比了多个最新基线,评估维度全面(客观/主观,质量/控制)。主要扣分点在于对BiCodec等前置技术的细节复述较少,且复现门槛因信息不完整而较高。
  • 选题价值:1.8/2。情感控制的细粒度化是TTS领域的热点和难点,与LLM-TTS的结合具有前沿性和重要应用价值(如提升人机交互的情感自然度)。对语音合成、情感计算领域的研究者价值很高。
  • 开源与复现加成:0.3/1。论文提供了可访问的Demo页面(是重要加分),但明确缺乏代码仓库和模型权重的公开信息。训练数据(特别是GRPO阶段的标注文本)和具体超参数虽有提及,但完整复现仍需大量工程努力,故加成有限。

🔗 开源详情

  • 代码:论文中未提及代码链接。仅提供了一个Demo页面(https://wd-233.github.io/EMORL-TTS_DEMO/)。
  • 模型权重:未提及是否公开模型权重。
  • 数据集:使用的ESD和Expresso是公开数据集,但GRPO阶段构建的1000句带强调标注的文本语料未公开。
  • Demo:提供了在线合成演示页面。
  • 复现材料:论文详细描述了两阶段训练流程、损失函数、奖励设计公式和主要超参数,这为复现提供了较好的理论指导。但缺乏训练脚本、具体配置文件和模型检查点。
  • 论文中引用的开源项目/工具:依赖的基座模型 Spark-TTS,情感识别模型 Emotion2vec,强制对齐工具 NeMo Forced Aligner,以及VAD预测器均为开源或已有工作。

← 返回 ICASSP 2026 论文分析