📄 Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control

#语音合成 #数据增强 #低资源

📝 5.0/10 | 前50% | #语音合成 | #数据增强 | #低资源 | arxiv

学术质量 5.5/7 | 影响力 6.0/2 | 可复现性 0.5/2 | 置信度 高

👥 作者与机构

论文作者为 Wangzixi Zhou, Bagus Tris Atmaja, Sakriani Sakti。论文正文中未明确标注作者单位。论文末尾的致谢部分提及了来自 JSPS KAKENHI 和 JST NEXUS 的资助,表明研究可能与日本的学术机构或项目有关,但论文本身未明确说明具体隶属机构。

💡 毒舌点评

这篇论文就像一个精心包装的“数据标注方案说明书”。它为情感TTS中一个被忽视但重要的问题——非言语表达的控制——提出了一个不错的创意。然而,除了这个数据标注“新瓶装旧酒”的点子外,技术贡献乏善可陈。模型是现成的Grad-TTS,加了个情感编码器;实验规模小得可怜(15人的主观评估),还缺乏统计检验,说服力大打折扣。最让人皱眉的是,用一个数据质量存疑、只包含两种情绪的NVTTS作为“粗粒度”基线来衬托自己的“细粒度”,这种对比公平吗?论文在宣称“显著提升表现力”的同时,却轻描淡写自然度的下降和愤怒情绪上的无力,这种选择性报告结果的做法,让“顶会”水准大打折扣。代码和数据集都没开源,复现?自己看着办吧。

📌 核心摘要

当前情感TTS系统主要控制语言韵律,却忽略了对传达情感至关重要的非言语声音(如笑声、哭声)。本文针对现有非言语数据集缺乏细粒度标注的问题,提出了一种新的细粒度非言语表达合成方法。作者从EARS语料库中筛选并处理了女性的非言语片段,设计了一套使用特殊标签(如 <(crying) wuuuuu whep>)来编码非言语类型、频率和持续时间的标注方案。基于Grad-TTS模型,作者添加了情感编码器,并设计了专用的文本处理管线来解析这些细粒度标签,构建了一个情感TTS基准系统。实验表明,该方法在提升情感表现力(eMOS 4.20)和情感识别准确率(平均78.8%)方面优于仅语言基线和粗粒度非言语基线,但代价是轻微的感知自然度下降。细粒度控制在悲伤(98.3%)、快乐(82.5%)和恐惧(82.7%)情绪上效果显著,但在愤怒情绪(64.3%)上提升有限。偏好测试显示,对于快乐情绪,欢呼声比笑声更受青睐;对于悲伤情绪,复杂的多部分哭泣声更受欢迎。

🔗 开源详情

  • 代码:未提供代码仓库链接。
  • 模型权重:未提供。
  • 数据集:未提供处理后的“Fine-Grained Non-Verbal Expression Data”数据集下载链接。原始音频来源于公开的EARS语料库,但作者处理后的版本未公开。用于对比的NVTTS语料库也未提供链接。
  • Demo:提供了演示页面 https://37integer.github.io/FINE-GRAINED-NON-VERBAL-TTS/
  • 复现材料:论文提及了训练设置(400k迭代、A6000 GPU)、声学特征(80维梅尔频谱图)和声码器(Hifi-GAN),但未提供完整的模型配置、检查点或详细的复现指南。
  • 论文中引用的开源项目:Whisper, pydub, Hifi-GAN, Grad-TTS (引用论文), CosyVoice2 (引用论文,未提供链接)。

🏗️ 方法概述和架构

本文方法的核心在于为情感TTS构建并利用一套新的细粒度非言语表达数据,而非在模型架构上进行根本性创新。整体框架基于一个现成的情感TTS模型,并为其定制了一条专门的非言语文本处理管线。

  1. 基础模型与情感增强:论文选用Grad-TTS作为骨干模型。为了赋予模型合成情感语音的能力,作者为其添加了一个情感编码器。该编码器以唤醒度(arousal) 和效价(valence) 这两个连续维度的情感标签作为输入,生成情感嵌入向量。这些情感嵌入在模型训练时被引入,用于指导生成带有相应情绪色彩的语音。情感标签的来源是三个混合数据集(EXPRESSO, SEMAINE, ESD),其中缺失的标签由预训练的语音情感识别(SER)模型预测补全。

  2. 细粒度非言语数据构建:这是本文方法的基础。作者对来自EARS语料库的原始音频进行了预处理(使用pydub库进行静音分割),并筛选出女性说话者的六种非言语类型(欢呼、喊叫、开笑、闭笑、哭泣、尖叫)。创新的关键在于新的标注方案:

    • 结构化标签:为每种非言语声音定义了特定的文本转录(如表1所示)。
    • 频率与持续时间控制:通过重复音节来控制离散声音(如笑声)的频率,例如 <(Laughter-open) ha ha ha>;通过重复字符来控制连续声音(如哭声)的持续时间,例如 <(crying) wuuuuu>。这构成了与传统粗粒度标签(如 <laugh>)的核心区别。
  3. 专用非言语文本处理管线:为了使模型能够理解并执行上述细粒度标注,作者设计并实现了一个分层的文本处理管线(如图1所示),该管线在标准文本清洗流程之前运行,负责解析和编码非言语信息。其组件及数据流如下:

    • 输入:包含非言语标签和语言文本的混合字符串,如 <(crying) wuuuuu whep> why you do this to me
    • 非言语处理器:首先定位并提取出非言语片段 <(crying) wuuuuu whep>
    • 风格解析器:从标签中提取整体风格类型(crying),生成一个风格标记。
    • 离散单元解析器:统计离散发声单元(whep)的出现次数,用于控制该声音的频率。
    • 持续时间解析器:根据连续发声单元(wuuuuu)的字符重复次数,计算出预期的非言语片段持续时间。
    • 输出:经过解析的组件信息被整合为一系列结构化的非言语标记(NV tokens)。这些标记与处理后的普通语言文本一起,作为输入序列送入下游的情感Grad-TTS模型。
  4. 训练与推理:模型使用9小时的混合情感语音数据进行训练,声学特征为80维梅尔频谱图,声码器为HiFi-GAN。在单张NVIDIA RTX A6000 GPU上训练40万次迭代。推理时,输入文本经过上述管线解析后,模型生成对应的梅尔频谱图,最终由HiFi-GAN转换为音频波形。

总之,本文的方法贡献集中在数据表示和输入预处理上,通过设计一套能编码细粒度控制信息的标注规范,并定制一个能解析该规范的文本管线,来增强一个现有情感TTS模型生成受控非言语表达的能力。

图1

图2

💡 核心创新点

  1. 细粒度非言语标注方案:提出了一套新的、结构化的文本标签系统,通过音节/字符重复来编码非言语声音的频率和持续时间,超越了传统的粗粒度标签(如 <laugh>),旨在实现对非言语表达的精确控制。
  2. 专用非言语文本处理管线:设计并实现了一个包含风格解析器、离散单元解析器和持续时间解析器的多阶段文本处理流程,用于在模型输入端解析和结构化上述细粒度标注,这是使现有TTS模型能够利用新数据的关键工程实现。
  3. 情感TTS基准构建:基于处理后的EARS数据和上述管线,构建了一个专门用于评估细粒度非言语控制能力的情感TTS基准系统,并进行了包括情感识别和偏好测试在内的多维度主观评估。

📊 实验结果

实验评估包括感知评价和非言语表达偏好测试两部分。

  1. 感知与识别评估 评估对比了三种设计:(1) 仅语言;(2) 语言+粗粒度非言语(来自NVTTS语料库);(3) 语言+本文提出的细粒度非言语。15名参与者对60个样本进行了评分和识别。结果如下:
设计方案指标HappySadAngerFear平均/总体
(1) 仅语言nMOS3.673.693.613.19-
eMOS3.783.833.743.89-
准确率----65.5%
(2) 粗粒度非言语nMOS3.193.73---
eMOS3.854.15---
准确率----未报告
(3) 细粒度非言语nMOS3.433.673.343.18-
eMOS4.214.254.064.28-
准确率82.5%98.3%64.3%82.7%78.8%

注:表3显示,细粒度非言语设计在所有情绪上的eMOS均超过4.0,但Anger的eMOS(4.06)和准确率(64.3%)相对较低。粗粒度非言语方案因数据限制,仅在Happy和Sad上进行了评估。

主要结论:

  • 自然度权衡:细粒度非言语方法的自然度(nMOS)略低于仅语言基线,表明加入非言语元素可能轻微影响语音的自然听感。
  • 表现力与识别率提升:细粒度非言语方法在情感表现力(eMOS)和情感识别准确率上显著优于仅语言基线。其平均eMOS为4.20,总体准确率比基线提高13.3个百分点。
  • 粗粒度基线不足:粗粒度非言语方案表现较差,尤其是在Happy情绪的识别上,其模糊的非言语线索(如安静的笑声)可能导致识别混淆。
  • 情绪特异性:方法在Sad、Happy和Fear情绪上效果显著,但在Anger上效果有限,作者归因于缺乏与愤怒直接关联的独特非言语线索。
  1. 非言语表达偏好评估 针对Happy和Sad情绪,测试了不同非言语组合的偏好(如图4所示):
  • Happy:欢呼声(如 <(cheering) Wo ho>)显著优于笑声(如 <(Laughter-open) ha ha>)。
  • Sad:多部分复合表达(如 <(crying) wuuuuuuu whep>,即长哭加啜泣)远优于单一声源的表达。

图3

图4

🔬 细节详述

  • 数据集处理:原始EARS数据集中的非言语音频文件时长约10-12秒,包含多个连续的发声。作者使用pydub库,设置静音阈值为-40 dBFS,最小静音持续时间为200 ms,静音缓冲为100 ms进行分割,最终从360个录音中提取出739条、时长2-6秒的独立语句。
  • 非言语类型与转录:论文详细定义了六种非言语类型及其标准转录文本(表1),例如Cheering类型对应“Wo ho”和“Yo”,Crying类型对应“Whep”, “Wuu”, “Sneeze”。
  • 情感标签填补:EXPRESSO和ESD数据集中缺失连续的唤醒度/效价标签,使用了预训练的SER模型进行预测。该SER模型的具体架构未在论文中说明。
  • 评估设计:主观评估使用了20个语义模糊的句子作为文本输入,以确保情绪主要通过声音(韵律和非言语)而非文本内容传达。
  • 计算资源:模型在单张NVIDIA RTX A6000 (48GB) GPU上训练了40万次迭代。
  • 论文未提供信息:包括具体的SER模型架构、模型总参数量、训练所用优化器及学习率、实验结果的置信区间或统计显著性检验、模型的推理时间、跨语言和跨性别的泛化性讨论。

⚖️ 评分理由

  • 创新性 (3分中的1.5分):论文的创新点主要集中在数据标注方案和流程设计上,提出了一个实现细粒度非言语控制的可行标注思路,具有一定的实用价值。然而,核心模型架构(Grad-TTS + 情感编码器)并无新意,属于对现有技术的直接应用和简单组合。因此,技术新颖性有限。
  • 技术严谨性 (1.5分中的0.8分):方法描述基本清晰,数据处理流程有具体参数。但存在显著缺陷:1) 实验对比不完全公平:作为“粗粒度”基线的NVTTS数据本身存在噪声且仅包含两种情绪,削弱了对比的有效性。2) 缺乏统计严谨性:主观评估仅由15人完成,且未报告任何统计检验结果(如p值、置信区间),无法判断结果差异的显著性。3) 模型细节省略:关键组件(如SER模型)细节未说明。
  • 实验充分性 (1.5分中的0.7分):评估维度包括了自然度、表现力、识别率和偏好测试,较为全面。但评估规模过小(15人,60样本),严重限制了结论的可靠性和统计效力。此外,仅在单一语言(英语)和性别(女性)数据上验证,泛化性未知。
  • 清晰度 (1分中的0.7分):论文结构完整,图表(如图1管线图、图2结果图)有助于理解。但在某些关键点上表述可以更精确,例如在报告自然度差异时,摘要与图表数据存在细微不一致。
  • 影响力 (2分中的1.0分):论文解决的是情感TTS中一个实际问题(细粒度非言语控制),提出的标注思路对后续数据构建和模型设计有一定启发意义。然而,由于方法深度有限(依赖现有模型)、实验规模小且未开源,其对学术界和工业界的直接推动力较弱,难以被快速跟进和复现。
  • 开源 (1.5分中的0.2分):论文未开源任何代码、模型权重或处理后的数据集。仅提供了一个演示页面,这对于复现研究和推动领域进步是一个重大缺失。论文引用的开源工具(Whisper, pydub, Hifi-GAN)是基础依赖,并非本文贡献。
  • 可复现性 (0.5分中的0.1分):尽管论文提供了一些训练参数(如GPU型号、迭代次数、声学特征),但由于核心数据(处理后的细粒度非言语数据集)未公开,且关键组件(SER模型)细节缺失,仅凭论文描述几乎无法完全复现其实验。

🚨 局限与问题

  • 数据局限性与偏见:1) 数据规模小:核心非言语训练数据仅739条,可能导致模型泛化能力不足。2) 性别与语言偏见:所有非言语数据仅来自女性说话者,情感语音数据也限于英语女性,模型无法处理男性声音或其他语言,限制了其应用范围。
  • 实验设计的缺陷:1) 评估样本量不足:15名参与者评估60个样本,规模远小于主流TTS评估(通常数十至上百名评估者,数百样本),结论的统计稳健性存疑。2) 基线选择有偏:使用质量存疑、情绪覆盖不全的NVTTS作为“粗粒度”基线,可能不公平地衬托了本方法的优势。缺乏与当前最先进的(可合成非言语的)情感TTS系统(如CosyVoice2)的直接对比。3) 缺乏统计分析:未提供任何统计检验,无法确定“显著提升”是否真的显著。
  • 方法本身的不足:1) 模型架构无创新:直接使用Grad-TTS,未针对细粒度非言语建模提出新的网络结构或训练目标。2) 愤怒情绪控制失败:实验表明,在愤怒情绪上的提升非常有限(准确率仅64.3%,eMOS最低)。作者将其归因于缺乏特异性非言语线索(yelling),但这暴露了所提标注方案和模型在处理某些复杂情绪时的不足。3) 自然度牺牲:加入非言语元素后自然度下降,表明模型在协调语言与非言语声音的自然融合方面仍有问题。
  • 可复现性与开源严重不足:未开源数据、代码和模型权重,是本文最大的短板之一,极大地阻碍了验证和后续研究。
  • 结论可能过强:摘要中宣称“显著提高了表现力”,但实验结果揭示了在自然度上的损失、在愤怒情绪上的无力以及评估的局限性。论文对优势和劣势的讨论可以更平衡、更审慎。

📷 论文图片

图5


← 返回 2026-05-26 语音/音乐/音频论文速递