NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations
📄 NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations #语音合成,#基准测试,#模型评估,#大语言模型 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Liumeng Xue(南京大学,智能软件与系统实验室) 通讯作者:Hung-yi Lee(国立台湾大学,语音处理实验室),Yike Guo(香港科技大学,大数据研究院) 其他作者: Weizhen Bian(南京大学) Jiahao Pan(香港科技大学) Wenxuan Wang(南京大学) Yilin Ren(北京科技大学) Boyi Kang(西北工业大学) Jingbin Hu(上海交通大学) Ziyang Ma(南京大学) Shuai Wang(香港中文大学) Xinyuan Qian(南京大学) 💡 毒舌点评 这篇论文的亮点在于它像个“语音界的ISO标准委员会”,系统性地为“叹气、傻笑、打嗝”这些上不了台面的非语言声音建立了从分类、数据到评测的完整规范,方法严谨得像个实验手册。槽点是它主要贡献了一套“裁判培训手册”和“记分牌”,而不是训练出更会“叹气”的明星选手本身,对于追求新模型的读者来说可能不够“性感”。 🔗 开源详情 代码:论文中提到代码将通过GitHub开源(链接:https://github.com/lmxue/NVBench),但截至论文发布时(arXiv v1)可能尚未公开。 模型权重:本文不涉及新模型的发布,因此没有新的模型权重。评测的是现有系统。 数据集:论文明确指出NVBench双语评估数据集将开源,可通过项目主页(https://lmxue.github.io/NVBench/)获取。数据集包含45类NVV,每类50个实例,共2250个英文和2250个中文实例。 预训练权重:不适用。 在线 Demo:论文中未提及。 引用的开源项目:论文评测中引用了多个开源TTS系统,如ChatTTS、Bark、Fish-Speech、Orpheus TTS、CosyVoice 2、Dia等。评估中使用的ASR工具(Whisper-large-v3, paraformer-zh)和DNSMOS也是开源工具。 📌 核心摘要 本文旨在解决语音合成(TTS)领域中非语言声音(NVV,如笑声、叹息、哭泣)缺乏标准化评估框架的问题。为此,作者提出了NVBench,一个双语(英/中)基准测试。其核心方法包括:1)设计了一个涵盖45种NVV类型的统一分类法;2)构建了一个类型均衡的高质量双语评估数据集;3)提出了一套多轴评估协议,将通用语音自然度/质量与NVV特有的可控性、放置准确性和感知显著性解耦。通过对15个代表性TTS系统(包括商业和开源模型)的广泛评测,主要发现是:NVV的可控性常与语音整体质量解耦;低信噪比的口腔音(如咂嘴)和长时程情感性NVV(如哭泣)是当前系统的持续瓶颈。该工作为跨系统、跨控制接口的公平比较提供了统一框架,推动了拟人化语音生成的研究。 🏗️ 模型架构 本文的核心贡献并非提出一个新的端到端TTS模型架构,而是建立一个用于评估现有TTS系统NVV合成能力的基准测试框架(NVBench)。其整体流程如图1所示,可分为三个核心模块: 数据集模块:基于统一的45类NVV分类法,构建了一个包含2250个英文和2250个中文实例的平衡评估集。每个实例包含text(纯文本)、text_with_nvv(插入NVV标签的文本)、caption_with_nvv(描述NVV的自然语言 caption)和nvv_list(NVV类型标签)。 合成模块:将数据集输入到待评测的TTS系统中。这些系统分为两类: 基于标签(Tag-based)的系统:通过在文本中插入如[laugh]这样的标签来控制NVV生成(如ChatTTS, ElevenLabs)。 基于提示(Prompt-based)的系统:通过自然语言描述(caption)来控制语音属性,包括NVV(如Gemini, GPT-4o mini TTS)。 评估模块:采用多轴评估协议,对生成的语音进行三方面评估: 客观指标:包括语音质量(DNSMOS)、可懂度(WER/CER)、以及针对标签系统的NVV可控性指标(精确率、召回率、F1、归一化标签距离NTD)。 主观指标:通过人工听力测试评估自然度、质量、NVV感知效果、指令遵循度等。 LLM多评委评估:使用音频感知大语言模型(如Gemini 2.5 Pro)作为自动化评委,模仿主观评分标准进行可扩展的评估。 整个框架的设计目标是解耦和标准化,使得不同控制接口、不同能力的TTS系统可以在同一套数据和标准下进行公平比较。 ...