📄 Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control

#语音合成 #数据集

6.3/10 | 前50% | #语音合成 | #数据集 | arxiv

学术质量 4/7 | 影响力 1.2/2 | 可复现性 1.1/2 | 置信度 中

👥 作者与机构

论文作者为:Wangzixi Zhou, Bagus Tris Atmaja, Sakriani Sakti。作者所属机构在提供的论文原文中未明确说明。

💡 毒舌点评

这篇论文试图解决情感TTS中一个真实存在的痛点:非语言声音(NVs)的粗糙控制。其核心贡献是构建了一个细粒度标注的数据集,思路清晰,实验也尽力展示了其价值。然而,问题在于模型部分几乎是“拿来主义”,在成熟的Grad-TTS上加了个情绪编码器,缺乏针对NV合成特性的架构创新,技术深度不足。更关键的是,实验设计存在明显的公平性瑕疵——“粗粒度NV”基线(NVTTS)只包含“快乐”和“悲伤”数据,却要与包含全部四种情绪的其他设置对比总性能,这就像让一个短跑选手去和全能选手比总分,结论的说服力大打折扣。此外,数据集仅限60位女性说话者,规模和多样性不足,限制了结论的普适性。整体而言,这是一篇有明确问题意识但技术实现和实验严谨性有待提升的工作,目前状态距离顶级会议的录用标准有明显差距。

📌 核心摘要

本文针对现有情感TTS系统普遍忽略非语言声音(NVs,如笑声、哭声)的问题,提出了一种细粒度控制方案。作者从EARS语料库中筛选并重新标注了来自60位女性说话者的NV数据,设计了一套能够控制NV类型、频率(通过重复音节)和时长(通过重复末尾字符)的新型标注体系(例如<(crying) wuuuuu whep>)。基于此构建的数据集,作者在Grad-TTS框架上增加情绪编码器并定制了NV处理流程,构建了一个情感TTS基准模型。实验表明,引入细粒度NV虽然导致感知自然度(nMOS)从3.54轻微下降至3.18-3.43,但显著提升了情感表现力(eMOS 4.20)和情感识别准确率(78.8%)。分析表明,该方法对高唤醒度情绪(快乐82.5%、恐惧82.7%)和悲伤(98.3%)尤其有效。偏好测试进一步揭示,用户对“欢呼”类NV的快乐表达和“多部分哭泣声”的悲伤表达有强烈偏好。该工作的核心价值在于为精细控制情感语音中的非语言表达提供了新的数据基础和初步验证。

🔗 开源详情

🏗️ 方法概述和架构

本文的方法主要包括两个部分:细粒度非语言表达数据集的构建,以及基于此数据集构建的情感TTS模型。

  1. 细粒度非语言表达数据集构建:

    • 数据源与筛选:从公开的EARS语料库中,专门筛选了60位女性说话者的非语言声音片段。原始音频时长约10-12秒,包含连续的非语言表达。
    • 预处理与分段:使用pydub库对原始音频进行预处理。具体地,基于静音阈值(-40 dBFS)、最短静音时长(200 ms)和静音缓冲(100 ms)等参数,将连续音频分割成739个独立的、时长约2-6秒的语音片段。
    • 转录与标注:首先使用Whisper模型进行初始转录,然后进行人工校验,获得最终的转录文本。其核心创新在于摒弃了传统的粗粒度标签(如<laugh>),设计了一套结构化的细粒度标注方案,旨在实现对NV的精确控制。该方案包含两类原则:
      • 离散型发声控制:针对如“ha”、“whep”等可计数的离散声音,通过重复特定音节来控制其频率。例如,<(Laughter-open) ha ha ha>表示三声欢笑。
      • 连续型发声控制:针对如“Wo ho”、“wuu”等连续声音,通过重复末尾字符来控制其时长。例如,哭泣声“wuu”中每个额外的“u”字符大约增加0.2秒的时长。标注的具体类别包括欢呼(Cheering)、喊叫(Yelling)、张口笑(Laughter-open)、闭口笑(Laughter-closed)、哭泣(Crying)和尖叫(Screaming),每类有对应的转录范式和统计数据(见表1)。
  2. 细粒度NV情感TTS模型:

    • 骨干模型:选择Grad-TTS作为基础语音合成模型。
    • 情绪编码:为了注入情感信息,模型增加了一个情绪编码器。该编码器使用连续的唤醒度(arousal)和效价(valence)标签作为输入,生成情感嵌入向量。对于标注中缺失这些连续标签的数据(来自EXPRESSO和ESD数据集),使用预训练的语音情感识别(SER)模型进行预测。
    • 非语言处理流程(如图1所示):这是模型的核心定制部分,一个专门的NV处理器负责解析细粒度标注。该处理器包含三个子模块:
      • 样式解析器(Style Parser):识别NV的整体类型(如crying)。
      • 离散单元解析器(Discrete Unit Parser):解析并计数NV中的离散发声单元(如whep的数量)。
      • 时长解析器(Duration Parser):根据连续发声单元(如wuuuuu)计算出NV的时长。 这些解析器协同工作,将结构化的文本标注(如<(crying) wuuuuu whep>)转换成模型可理解的NV tokens。这些NV tokens与处理后的语言文本以及情绪编码器生成的情感嵌入相结合,共同输入到Grad-TTS主干网络中,指导生成包含精确非语言表达的情感语音。
  3. 训练与合成:

    • 训练数据:TTS模型使用一个9小时的混合情感语音数据集(包含EXPRESSO、SEMAINE、ESD数据集,说话者均为女性)进行训练。非语言组件分别使用作者构建的细粒度数据集和NVTTS粗粒度数据集进行训练以作对比。
    • 声学特征与声码器:提取80维梅尔频谱图作为声学特征,并使用HiFi-GAN作为声码器将梅尔频谱图转换为最终的音频波形。模型在单块NVIDIA RTX A6000 GPU上训练40万次迭代。

图1

图2

💡 核心创新点

  1. 提出并构建了细粒度非语言表达数据集:这是本文最主要的贡献。通过设计一套新颖的标注方案(如重复音节控制频率,重复末尾字符控制时长),实现了对NV类型、频率和时长的精细描述与控制,为情感语音合成提供了新的数据基础。
  2. 建立了细粒度NV情感TTS基准模型:在现有框架(Grad-TTS)上,通过集成情绪编码器和设计专门的NV处理流程,展示了该细粒度数据集在提升合成语音情感表现力和识别准确率方面的有效性。

📊 实验结果

论文的主观评估对比了三种设计:(1) 仅语言(Only Verbal),(2) 语言+粗粒度NV(Coarse-grained NV,来自NVTTS语料库,仅包含“快乐”和“悲伤”),(3) 语言+细粒度NV(Fine-Grained NV)。评估指标包括自然度(nMOS)、情感表现力(eMOS)和情感识别准确率。

整体结果(图2):

  • 自然度(nMOS):“仅语言”最高(3.54),细粒度NV(3.31)和粗粒度NV(3.34)均有所下降。
  • 表现力(eMOS):细粒度NV最高(4.20),显著优于“仅语言”(3.81)和粗粒度NV(3.88)。
  • 识别准确率:细粒度NV最高(78.8%),相比“仅语言”(65.5%)提升13.3%,粗粒度NV较低(59.0%)。

各情绪下的详细结果(表3):

设置情绪nMOSeMOS识别准确率
仅语言快乐3.673.78-
悲伤3.693.83-
愤怒3.613.74-
恐惧3.193.89-
粗粒度NV快乐3.193.85较低(易误判为悲伤)
悲伤3.734.15较高
细粒度NV快乐3.434.2182.5%
悲伤3.674.2598.3%
愤怒3.344.0664.3%
恐惧3.184.2882.7%

关键发现:

  1. 引入NV(无论是粗粒度还是细粒度)都会导致自然度感知略有下降。
  2. 细粒度NV在提升情感表现力和识别准确率方面显著优于其他两种设置。
  3. 情感特异性分析表明,NV对高唤醒度情绪(快乐、恐惧)和悲伤的传达极为有效,而对愤怒的提升有限,因为“喊叫”作为愤怒的NV特异性不强。
  4. 偏好测试(图4)显示,对于快乐情绪,用户更偏好“欢呼”类NV(如Wo ho, Yo);对于悲伤情绪,用户强烈偏好“多部分哭泣声”(如wuuuuuuu whep),这验证了细粒度设计的用户偏好基础。

图3

图4

🔬 细节详述

  1. 摘要部分:摘要准确概括了问题、方法、关键结果和意义。
  2. 强项分析:
    • 问题定义准确,指出了现有情感TTS忽视NV的普遍问题。
    • 数据构建方法是本文核心亮点,细粒度标注方案具有明确的新颖性。
    • 实验评估维度丰富,包含了整体性能、情绪特异性分析和用户偏好测试,提供了较为全面的证据。
  3. 弱项分析:
    • 数据集局限:明确指出了数据集仅来自EARS语料库60位女性说话者,6种NV类型,规模和多样性有限。同时,指出训练TTS的主数据集(EXPRESSO, SEMAINE, ESD)构成未详细说明。
    • 模型创新性:正确地指出模型部分主要是在Grad-TTS上的叠加(情绪编码器),缺乏针对NV特性的独特架构设计。
    • 评估设置关键问题:准确地识别了“粗粒度NV”基线设置的混淆。原文5.2.1节明确说明NVTTS语料库“only contained ‘happy’ and ‘sad’ emotions”,但图2和表3却将其与包含“anger”和“fear”的其他设置进行总体比较,这构成了不公平对比。这是原文存在的重大实验设计缺陷。
    • 表述与图表瑕疵:指出了表格1标题(“total count”)与内容(“Type Count”列)的对应关系令人困惑。同时,指出用户提供的分析中存在图表引用混乱(图4/8/9指向相同链接),这反映了原文图表管理可能存在疏漏。
  4. 改进建议:
    • 扩充数据集(更多说话者、更多NV类型)是合理且必要的。
    • 探索更专门化的模型架构(如分离语言与NV的双编码器)是提升技术深度的关键方向。
    • 完善评估:建议进行消融实验分析自然度下降原因,修正基线对比的公平性,并增加客观评估指标(如声学特征分析)。
    • 提升表述清晰度,修正图表错误。
  5. 具体意见:
    • 要求说明Whisper转录的人工修正工作量,以体现实验严谨性。
    • 要求阐明情绪编码器如何与NV处理后的tokens结合,指出了方法描述中可能存在的模糊点。
    • 质疑9小时训练数据量对于TTS基线模型是否充足,以及SER模型预测标签的噪声影响。
    • 针对“愤怒”识别率低,提出了探索其他NV(如呼吸声)的可能性,以及未来系统可引入“NV选择器”的有趣方向。
    • 建议结论部分更明确地指出局限性。
  6. 总结与评分理由:总结了论文的价值与主要弱点。评分理由从创新性、实验严谨性、数据集、表述等方面进行了扣分说明,认为目前状态未达顶会标准,但经修改有潜力。

⚖️ 评分理由

  • 创新性 (1.5/3):核心创新在于提出的细粒度NV标注方案和构建的数据集,这在情感TTS领域是新颖且有价值的。但模型架构本身(Grad-TTS + 情绪编码器)创新性不足,属于现有框架的应用组合。
  • 技术严谨性 (0.8/1.5):实验设计存在重大瑕疵,“粗粒度NV”基线的不公平比较影响了结论的可信度。数据集构建过程有描述,但缺少对转录误差率等细节的说明。训练数据量(9小时)可能偏小,SER标签引入的噪声未讨论。
  • 实验充分性 (1.0/1.5):评估维度较全(nMOS, eMOS, 识别率, 偏好测试),并进行了情绪特异性分析,具有启发性。但客观评估指标缺失,对比实验设计(如粗粒度基线)不完善。
  • 清晰度 (0.7/1):论文结构基本清晰,但存在表格描述模糊、图表引用/编号可能混乱的问题,方法部分关于情绪编码器与NV tokens的交互说明不够清晰。
  • 影响力 (1.2/2):研究问题是情感TTS领域重要且实际的方向,细粒度NV控制的想法具有启发性。但数据集规模和模型通用性的限制,使得当前工作的直接影响力有限。
  • 开源 (0.8/1.5):提供了Demo页面链接和主要数据集(EARS, EXPRESSO, SEMAINE, ESD)的开源链接。但作者构建的细粒度数据集本身未提供下载链接,代码和模型权重未开源。
  • 可复现性 (0.3/0.5):提供了基本的训练设置(迭代次数、硬件、声码器)和部分数据来源,但由于缺少完整代码、预处理脚本和最终模型权重,复现存在较大难度。

🚨 局限与问题

  1. 数据集局限性:数据集仅来源于EARS语料库60位女性说话者的6种NV类型。这严重限制了模型的泛化能力,尤其是在性别、更多元化说话风格、以及更广泛NV类型(如叹气、咳嗽、喘息、咳嗽、清嗓子)上的表现。论文未探讨这些NV类型是否足以覆盖真实情感表达。
  2. 模型架构局限性:模型创新性集中于数据标注层面。在架构上,仅在Grad-TTS中添加情绪编码器和定制了文本解析流程,没有针对NV(可能具有与语言韵律不同的声学特性)设计专门的网络模块(如独立的声学编码器或融合机制)。情绪编码器与NV处理流的交互机制描述不清。
  3. 实验设计漏洞:“粗粒度NV”基线(NVTTS)仅包含“快乐”和“悲伤”的NV,却与包含全部四种情绪(快乐、悲伤、愤怒、恐惧)的“仅语言”和“细粒度NV”设置进行整体性能对比(图2)。这导致了不公平的比较,使得“粗粒度NV”在整体识别率上的低分(59.0%)可能部分源于其缺乏对应愤怒/恐惧的NV训练数据,而非仅仅因为其标注粗糙。论文应在对比时清晰说明此限制或进行分情绪对比。
  4. 评估不足:
    • 缺乏客观指标:完全依赖主观评估(MOS、识别率、偏好),未提供任何客观声学指标(如基频F0、能量包络、梅尔谱图的统计分析)来量化NV对语音的影响。
    • 自然度下降原因未深究:论文承认引入NV导致自然度下降,但未通过消融实验等分析根本原因(是声码器对NV合成不佳,还是模型融合问题?)。
  5. 写作与呈现问题:表格1的标题与内容存在表述混淆。用户提供的分析材料显示可能存在图表编号和引用的错误,影响阅读和理解。
  6. 结论过强:结论部分声称“细粒度NV控制是提升情感TTS真实感和表现力的有效途径”,但鉴于数据集规模有限、模型通用性未验证、实验对比有瑕疵,此结论可能过于乐观,应更谨慎地限定其适用范围。

📷 论文图片

图5


← 返回 2026-05-27 语音/音乐/音频论文速递