Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control
📄 Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control #语音合成 #数据增强 #低资源 📝 5.0/10 | 前50% | #语音合成 | #数据增强 | #低资源 | arxiv 学术质量 5.5/7 | 影响力 6.0/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 论文作者为 Wangzixi Zhou, Bagus Tris Atmaja, Sakriani Sakti。论文正文中未明确标注作者单位。论文末尾的致谢部分提及了来自 JSPS KAKENHI 和 JST NEXUS 的资助,表明研究可能与日本的学术机构或项目有关,但论文本身未明确说明具体隶属机构。 💡 毒舌点评 这篇论文就像一个精心包装的“数据标注方案说明书”。它为情感TTS中一个被忽视但重要的问题——非言语表达的控制——提出了一个不错的创意。然而,除了这个数据标注“新瓶装旧酒”的点子外,技术贡献乏善可陈。模型是现成的Grad-TTS,加了个情感编码器;实验规模小得可怜(15人的主观评估),还缺乏统计检验,说服力大打折扣。最让人皱眉的是,用一个数据质量存疑、只包含两种情绪的NVTTS作为“粗粒度”基线来衬托自己的“细粒度”,这种对比公平吗?论文在宣称“显著提升表现力”的同时,却轻描淡写自然度的下降和愤怒情绪上的无力,这种选择性报告结果的做法,让“顶会”水准大打折扣。代码和数据集都没开源,复现?自己看着办吧。 📌 核心摘要 当前情感TTS系统主要控制语言韵律,却忽略了对传达情感至关重要的非言语声音(如笑声、哭声)。本文针对现有非言语数据集缺乏细粒度标注的问题,提出了一种新的细粒度非言语表达合成方法。作者从EARS语料库中筛选并处理了女性的非言语片段,设计了一套使用特殊标签(如 <(crying) wuuuuu whep>)来编码非言语类型、频率和持续时间的标注方案。基于Grad-TTS模型,作者添加了情感编码器,并设计了专用的文本处理管线来解析这些细粒度标签,构建了一个情感TTS基准系统。实验表明,该方法在提升情感表现力(eMOS 4.20)和情感识别准确率(平均78.8%)方面优于仅语言基线和粗粒度非言语基线,但代价是轻微的感知自然度下降。细粒度控制在悲伤(98.3%)、快乐(82.5%)和恐惧(82.7%)情绪上效果显著,但在愤怒情绪(64.3%)上提升有限。偏好测试显示,对于快乐情绪,欢呼声比笑声更受青睐;对于悲伤情绪,复杂的多部分哭泣声更受欢迎。 🔗 开源详情 代码:未提供代码仓库链接。 模型权重:未提供。 数据集:未提供处理后的“Fine-Grained Non-Verbal Expression Data”数据集下载链接。原始音频来源于公开的EARS语料库,但作者处理后的版本未公开。用于对比的NVTTS语料库也未提供链接。 Demo:提供了演示页面 https://37integer.github.io/FINE-GRAINED-NON-VERBAL-TTS/ 复现材料:论文提及了训练设置(400k迭代、A6000 GPU)、声学特征(80维梅尔频谱图)和声码器(Hifi-GAN),但未提供完整的模型配置、检查点或详细的复现指南。 论文中引用的开源项目:Whisper, pydub, Hifi-GAN, Grad-TTS (引用论文), CosyVoice2 (引用论文,未提供链接)。 🏗️ 方法概述和架构 本文方法的核心在于为情感TTS构建并利用一套新的细粒度非言语表达数据,而非在模型架构上进行根本性创新。整体框架基于一个现成的情感TTS模型,并为其定制了一条专门的非言语文本处理管线。 ...