📄 Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control

#语音合成 #数据增强 #低资源

📝 5.0/10 | 前50% | #语音合成 | #数据增强 | #低资源 | arxiv

学术质量 5.5/7 | 影响力 6.0/2 | 可复现性 0.5/2 | 置信度高

👥 作者与机构

论文作者为 Wangzixi Zhou, Bagus Tris Atmaja, Sakriani Sakti。论文正文中未明确标注作者单位。论文末尾的致谢部分提及了来自 JSPS KAKENHI 和 JST NEXUS 的资助，表明研究可能与日本的学术机构或项目有关，但论文本身未明确说明具体隶属机构。

💡 毒舌点评

这篇论文就像一个精心包装的“数据标注方案说明书”。它为情感TTS中一个被忽视但重要的问题——非言语表达的控制——提出了一个不错的创意。然而，除了这个数据标注“新瓶装旧酒”的点子外，技术贡献乏善可陈。模型是现成的Grad-TTS，加了个情感编码器；实验规模小得可怜（15人的主观评估），还缺乏统计检验，说服力大打折扣。最让人皱眉的是，用一个数据质量存疑、只包含两种情绪的NVTTS作为“粗粒度”基线来衬托自己的“细粒度”，这种对比公平吗？论文在宣称“显著提升表现力”的同时，却轻描淡写自然度的下降和愤怒情绪上的无力，这种选择性报告结果的做法，让“顶会”水准大打折扣。代码和数据集都没开源，复现？自己看着办吧。

📌 核心摘要

当前情感TTS系统主要控制语言韵律，却忽略了对传达情感至关重要的非言语声音（如笑声、哭声）。本文针对现有非言语数据集缺乏细粒度标注的问题，提出了一种新的细粒度非言语表达合成方法。作者从EARS语料库中筛选并处理了女性的非言语片段，设计了一套使用特殊标签（如 <(crying) wuuuuu whep>）来编码非言语类型、频率和持续时间的标注方案。基于Grad-TTS模型，作者添加了情感编码器，并设计了专用的文本处理管线来解析这些细粒度标签，构建了一个情感TTS基准系统。实验表明，该方法在提升情感表现力（eMOS 4.20）和情感识别准确率（平均78.8%）方面优于仅语言基线和粗粒度非言语基线，但代价是轻微的感知自然度下降。细粒度控制在悲伤（98.3%）、快乐（82.5%）和恐惧（82.7%）情绪上效果显著，但在愤怒情绪（64.3%）上提升有限。偏好测试显示，对于快乐情绪，欢呼声比笑声更受青睐；对于悲伤情绪，复杂的多部分哭泣声更受欢迎。

🔗 开源详情

代码：未提供代码仓库链接。
模型权重：未提供。
数据集：未提供处理后的“Fine-Grained Non-Verbal Expression Data”数据集下载链接。原始音频来源于公开的EARS语料库，但作者处理后的版本未公开。用于对比的NVTTS语料库也未提供链接。
Demo：提供了演示页面 https://37integer.github.io/FINE-GRAINED-NON-VERBAL-TTS/
复现材料：论文提及了训练设置（400k迭代、A6000 GPU）、声学特征（80维梅尔频谱图）和声码器（Hifi-GAN），但未提供完整的模型配置、检查点或详细的复现指南。
论文中引用的开源项目：Whisper, pydub, Hifi-GAN, Grad-TTS (引用论文), CosyVoice2 (引用论文，未提供链接)。

🏗️ 方法概述和架构

本文方法的核心在于为情感TTS构建并利用一套新的细粒度非言语表达数据，而非在模型架构上进行根本性创新。整体框架基于一个现成的情感TTS模型，并为其定制了一条专门的非言语文本处理管线。

基础模型与情感增强：论文选用Grad-TTS作为骨干模型。为了赋予模型合成情感语音的能力，作者为其添加了一个情感编码器。该编码器以唤醒度（arousal）和效价（valence）这两个连续维度的情感标签作为输入，生成情感嵌入向量。这些情感嵌入在模型训练时被引入，用于指导生成带有相应情绪色彩的语音。情感标签的来源是三个混合数据集（EXPRESSO, SEMAINE, ESD），其中缺失的标签由预训练的语音情感识别（SER）模型预测补全。
细粒度非言语数据构建：这是本文方法的基础。作者对来自EARS语料库的原始音频进行了预处理（使用pydub库进行静音分割），并筛选出女性说话者的六种非言语类型（欢呼、喊叫、开笑、闭笑、哭泣、尖叫）。创新的关键在于新的标注方案：
- 结构化标签：为每种非言语声音定义了特定的文本转录（如表1所示）。
- 频率与持续时间控制：通过重复音节来控制离散声音（如笑声）的频率，例如 <(Laughter-open) ha ha ha>；通过重复字符来控制连续声音（如哭声）的持续时间，例如 <(crying) wuuuuu>。这构成了与传统粗粒度标签（如 <laugh>）的核心区别。
专用非言语文本处理管线：为了使模型能够理解并执行上述细粒度标注，作者设计并实现了一个分层的文本处理管线（如图1所示），该管线在标准文本清洗流程之前运行，负责解析和编码非言语信息。其组件及数据流如下：
- 输入：包含非言语标签和语言文本的混合字符串，如 <(crying) wuuuuu whep> why you do this to me。
- 非言语处理器：首先定位并提取出非言语片段 <(crying) wuuuuu whep>。
- 风格解析器：从标签中提取整体风格类型（crying），生成一个风格标记。
- 离散单元解析器：统计离散发声单元（whep）的出现次数，用于控制该声音的频率。
- 持续时间解析器：根据连续发声单元（wuuuuu）的字符重复次数，计算出预期的非言语片段持续时间。
- 输出：经过解析的组件信息被整合为一系列结构化的非言语标记（NV tokens）。这些标记与处理后的普通语言文本一起，作为输入序列送入下游的情感Grad-TTS模型。
训练与推理：模型使用9小时的混合情感语音数据进行训练，声学特征为80维梅尔频谱图，声码器为HiFi-GAN。在单张NVIDIA RTX A6000 GPU上训练40万次迭代。推理时，输入文本经过上述管线解析后，模型生成对应的梅尔频谱图，最终由HiFi-GAN转换为音频波形。

总之，本文的方法贡献集中在数据表示和输入预处理上，通过设计一套能编码细粒度控制信息的标注规范，并定制一个能解析该规范的文本管线，来增强一个现有情感TTS模型生成受控非言语表达的能力。

💡 核心创新点

细粒度非言语标注方案：提出了一套新的、结构化的文本标签系统，通过音节/字符重复来编码非言语声音的频率和持续时间，超越了传统的粗粒度标签（如 <laugh>），旨在实现对非言语表达的精确控制。
专用非言语文本处理管线：设计并实现了一个包含风格解析器、离散单元解析器和持续时间解析器的多阶段文本处理流程，用于在模型输入端解析和结构化上述细粒度标注，这是使现有TTS模型能够利用新数据的关键工程实现。
情感TTS基准构建：基于处理后的EARS数据和上述管线，构建了一个专门用于评估细粒度非言语控制能力的情感TTS基准系统，并进行了包括情感识别和偏好测试在内的多维度主观评估。

📊 实验结果

实验评估包括感知评价和非言语表达偏好测试两部分。

感知与识别评估评估对比了三种设计：(1) 仅语言；(2) 语言+粗粒度非言语（来自NVTTS语料库）；(3) 语言+本文提出的细粒度非言语。15名参与者对60个样本进行了评分和识别。结果如下：

设计方案	指标	Happy	Sad	Anger	Fear	平均/总体
(1) 仅语言	nMOS	3.67	3.69	3.61	3.19	-
	eMOS	3.78	3.83	3.74	3.89	-
	准确率	-	-	-	-	65.5%
(2) 粗粒度非言语	nMOS	3.19	3.73	-	-	-
	eMOS	3.85	4.15	-	-	-
	准确率	-	-	-	-	未报告
(3) 细粒度非言语	nMOS	3.43	3.67	3.34	3.18	-
	eMOS	4.21	4.25	4.06	4.28	-
	准确率	82.5%	98.3%	64.3%	82.7%	78.8%

注：表3显示，细粒度非言语设计在所有情绪上的eMOS均超过4.0，但Anger的eMOS（4.06）和准确率（64.3%）相对较低。粗粒度非言语方案因数据限制，仅在Happy和Sad上进行了评估。

主要结论：

自然度权衡：细粒度非言语方法的自然度（nMOS）略低于仅语言基线，表明加入非言语元素可能轻微影响语音的自然听感。
表现力与识别率提升：细粒度非言语方法在情感表现力（eMOS）和情感识别准确率上显著优于仅语言基线。其平均eMOS为4.20，总体准确率比基线提高13.3个百分点。
粗粒度基线不足：粗粒度非言语方案表现较差，尤其是在Happy情绪的识别上，其模糊的非言语线索（如安静的笑声）可能导致识别混淆。
情绪特异性：方法在Sad、Happy和Fear情绪上效果显著，但在Anger上效果有限，作者归因于缺乏与愤怒直接关联的独特非言语线索。

非言语表达偏好评估针对Happy和Sad情绪，测试了不同非言语组合的偏好（如图4所示）：

Happy：欢呼声（如 <(cheering) Wo ho>）显著优于笑声（如 <(Laughter-open) ha ha>）。
Sad：多部分复合表达（如 <(crying) wuuuuuuu whep>，即长哭加啜泣）远优于单一声源的表达。

🔬 细节详述

数据集处理：原始EARS数据集中的非言语音频文件时长约10-12秒，包含多个连续的发声。作者使用pydub库，设置静音阈值为-40 dBFS，最小静音持续时间为200 ms，静音缓冲为100 ms进行分割，最终从360个录音中提取出739条、时长2-6秒的独立语句。
非言语类型与转录：论文详细定义了六种非言语类型及其标准转录文本（表1），例如Cheering类型对应“Wo ho”和“Yo”，Crying类型对应“Whep”, “Wuu”, “Sneeze”。
情感标签填补：EXPRESSO和ESD数据集中缺失连续的唤醒度/效价标签，使用了预训练的SER模型进行预测。该SER模型的具体架构未在论文中说明。
评估设计：主观评估使用了20个语义模糊的句子作为文本输入，以确保情绪主要通过声音（韵律和非言语）而非文本内容传达。
计算资源：模型在单张NVIDIA RTX A6000 (48GB) GPU上训练了40万次迭代。
论文未提供信息：包括具体的SER模型架构、模型总参数量、训练所用优化器及学习率、实验结果的置信区间或统计显著性检验、模型的推理时间、跨语言和跨性别的泛化性讨论。

⚖️ 评分理由

创新性 (3分中的1.5分)：论文的创新点主要集中在数据标注方案和流程设计上，提出了一个实现细粒度非言语控制的可行标注思路，具有一定的实用价值。然而，核心模型架构（Grad-TTS + 情感编码器）并无新意，属于对现有技术的直接应用和简单组合。因此，技术新颖性有限。
技术严谨性 (1.5分中的0.8分)：方法描述基本清晰，数据处理流程有具体参数。但存在显著缺陷：1) 实验对比不完全公平：作为“粗粒度”基线的NVTTS数据本身存在噪声且仅包含两种情绪，削弱了对比的有效性。2) 缺乏统计严谨性：主观评估仅由15人完成，且未报告任何统计检验结果（如p值、置信区间），无法判断结果差异的显著性。3) 模型细节省略：关键组件（如SER模型）细节未说明。
实验充分性 (1.5分中的0.7分)：评估维度包括了自然度、表现力、识别率和偏好测试，较为全面。但评估规模过小（15人，60样本），严重限制了结论的可靠性和统计效力。此外，仅在单一语言（英语）和性别（女性）数据上验证，泛化性未知。
清晰度 (1分中的0.7分)：论文结构完整，图表（如图1管线图、图2结果图）有助于理解。但在某些关键点上表述可以更精确，例如在报告自然度差异时，摘要与图表数据存在细微不一致。
影响力 (2分中的1.0分)：论文解决的是情感TTS中一个实际问题（细粒度非言语控制），提出的标注思路对后续数据构建和模型设计有一定启发意义。然而，由于方法深度有限（依赖现有模型）、实验规模小且未开源，其对学术界和工业界的直接推动力较弱，难以被快速跟进和复现。
开源 (1.5分中的0.2分)：论文未开源任何代码、模型权重或处理后的数据集。仅提供了一个演示页面，这对于复现研究和推动领域进步是一个重大缺失。论文引用的开源工具（Whisper, pydub, Hifi-GAN）是基础依赖，并非本文贡献。
可复现性 (0.5分中的0.1分)：尽管论文提供了一些训练参数（如GPU型号、迭代次数、声学特征），但由于核心数据（处理后的细粒度非言语数据集）未公开，且关键组件（SER模型）细节缺失，仅凭论文描述几乎无法完全复现其实验。

🚨 局限与问题

数据局限性与偏见：1) 数据规模小：核心非言语训练数据仅739条，可能导致模型泛化能力不足。2) 性别与语言偏见：所有非言语数据仅来自女性说话者，情感语音数据也限于英语女性，模型无法处理男性声音或其他语言，限制了其应用范围。
实验设计的缺陷：1) 评估样本量不足：15名参与者评估60个样本，规模远小于主流TTS评估（通常数十至上百名评估者，数百样本），结论的统计稳健性存疑。2) 基线选择有偏：使用质量存疑、情绪覆盖不全的NVTTS作为“粗粒度”基线，可能不公平地衬托了本方法的优势。缺乏与当前最先进的（可合成非言语的）情感TTS系统（如CosyVoice2）的直接对比。3) 缺乏统计分析：未提供任何统计检验，无法确定“显著提升”是否真的显著。
方法本身的不足：1) 模型架构无创新：直接使用Grad-TTS，未针对细粒度非言语建模提出新的网络结构或训练目标。2) 愤怒情绪控制失败：实验表明，在愤怒情绪上的提升非常有限（准确率仅64.3%，eMOS最低）。作者将其归因于缺乏特异性非言语线索（yelling），但这暴露了所提标注方案和模型在处理某些复杂情绪时的不足。3) 自然度牺牲：加入非言语元素后自然度下降，表明模型在协调语言与非言语声音的自然融合方面仍有问题。
可复现性与开源严重不足：未开源数据、代码和模型权重，是本文最大的短板之一，极大地阻碍了验证和后续研究。
结论可能过强：摘要中宣称“显著提高了表现力”，但实验结果揭示了在自然度上的损失、在愤怒情绪上的无力以及评估的局限性。论文对优势和劣势的讨论可以更平衡、更审慎。

📷 论文图片

← 返回 2026-05-26 语音/音乐/音频论文速递

📄 Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

🔬 细节详述#

⚖️ 评分理由#

🚨 局限与问题#

📷 论文图片#

📎 相关论文