Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control
📄 Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control #语音合成 #数据集 ✅ 6.3/10 | 前50% | #语音合成 | #数据集 | arxiv 学术质量 4/7 | 影响力 1.2/2 | 可复现性 1.1/2 | 置信度 中 👥 作者与机构 论文作者为:Wangzixi Zhou, Bagus Tris Atmaja, Sakriani Sakti。作者所属机构在提供的论文原文中未明确说明。 💡 毒舌点评 这篇论文试图解决情感TTS中一个真实存在的痛点:非语言声音(NVs)的粗糙控制。其核心贡献是构建了一个细粒度标注的数据集,思路清晰,实验也尽力展示了其价值。然而,问题在于模型部分几乎是“拿来主义”,在成熟的Grad-TTS上加了个情绪编码器,缺乏针对NV合成特性的架构创新,技术深度不足。更关键的是,实验设计存在明显的公平性瑕疵——“粗粒度NV”基线(NVTTS)只包含“快乐”和“悲伤”数据,却要与包含全部四种情绪的其他设置对比总性能,这就像让一个短跑选手去和全能选手比总分,结论的说服力大打折扣。此外,数据集仅限60位女性说话者,规模和多样性不足,限制了结论的普适性。整体而言,这是一篇有明确问题意识但技术实现和实验严谨性有待提升的工作,目前状态距离顶级会议的录用标准有明显差距。 📌 核心摘要 本文针对现有情感TTS系统普遍忽略非语言声音(NVs,如笑声、哭声)的问题,提出了一种细粒度控制方案。作者从EARS语料库中筛选并重新标注了来自60位女性说话者的NV数据,设计了一套能够控制NV类型、频率(通过重复音节)和时长(通过重复末尾字符)的新型标注体系(例如<(crying) wuuuuu whep>)。基于此构建的数据集,作者在Grad-TTS框架上增加情绪编码器并定制了NV处理流程,构建了一个情感TTS基准模型。实验表明,引入细粒度NV虽然导致感知自然度(nMOS)从3.54轻微下降至3.18-3.43,但显著提升了情感表现力(eMOS 4.20)和情感识别准确率(78.8%)。分析表明,该方法对高唤醒度情绪(快乐82.5%、恐惧82.7%)和悲伤(98.3%)尤其有效。偏好测试进一步揭示,用户对“欢呼”类NV的快乐表达和“多部分哭泣声”的悲伤表达有强烈偏好。该工作的核心价值在于为精细控制情感语音中的非语言表达提供了新的数据基础和初步验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集: 作者构建的Fine-Grained Non-Verbal Expression Dataset:论文未提供直接的下载链接,但说明数据来源于EARS语料库(http://www.openslr.org/93/)并经过了重新处理与标注。 训练所用情感语音数据集(非NV部分):论文明确使用了三个开源数据集:EXPRESSO (https://zenodo.org/record/6852108)、SEMAINE (https://zenodo.org/record/3463461) 和 ESD (https://github.com/HL-Data-Labs/ESD)。 Demo:提供了演示页面链接:https://37integer.github.io/FINE-GRAINED-NON-VERBAL-TTS/ 复现材料:论文未提供具体的检查点、配置文件或详细复现文档链接。在“Training setting”部分提供了训练细节:采样率22.05 kHz、声码器HiFi-GAN、训练400k迭代、硬件NVIDIA RTX A6000。 论文中引用的开源项目: EARS Corpus: http://www.openslr.org/93/ AMI Meeting Corpus: https://groups.inf.ed.ac.uk/ami/corpus/ NVTTS Dataset (论文[1]):项目页 https://github.com/ictnlp/NVTTS CosyVoice2 (论文[2]): https://github.com/FunAudioLLM/CosyVoice2 Grad-TTS (论文[9]): https://github.com/huawei-noah/Speech-Backbones/tree/main/Grad-TTS OpenAI Whisper (论文[10]): https://github.com/openai/whisper pydub (音频处理库): https://github.com/jiaaro/pydub Hifi-GAN (论文[3]): https://github.com/jik876/hifi-gan 预训练的SER模型 (论文[14]):对应开源项目 https://github.com/AdrianLewkowicz/Pretrained_models_Speech_emotion_recognition (论文引用但未提供链接) 🏗️ 方法概述和架构 本文的方法主要包括两个部分:细粒度非语言表达数据集的构建,以及基于此数据集构建的情感TTS模型。 ...