NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations

📄 NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations #语音合成,#基准测试,#模型评估,#大语言模型 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Liumeng Xue(南京大学,智能软件与系统实验室) 通讯作者:Hung-yi Lee(国立台湾大学,语音处理实验室),Yike Guo(香港科技大学,大数据研究院) 其他作者: Weizhen Bian(南京大学) Jiahao Pan(香港科技大学) Wenxuan Wang(南京大学) Yilin Ren(北京科技大学) Boyi Kang(西北工业大学) Jingbin Hu(上海交通大学) Ziyang Ma(南京大学) Shuai Wang(香港中文大学) Xinyuan Qian(南京大学) 💡 毒舌点评 这篇论文的亮点在于它像个“语音界的ISO标准委员会”,系统性地为“叹气、傻笑、打嗝”这些上不了台面的非语言声音建立了从分类、数据到评测的完整规范,方法严谨得像个实验手册。槽点是它主要贡献了一套“裁判培训手册”和“记分牌”,而不是训练出更会“叹气”的明星选手本身,对于追求新模型的读者来说可能不够“性感”。 📌 核心摘要 本文旨在解决语音合成(TTS)领域中非语言声音(NVV,如笑声、叹息、哭泣)缺乏标准化评估框架的问题。为此,作者提出了NVBench,一个双语(英/中)基准测试。其核心方法包括:1)设计了一个涵盖45种NVV类型的统一分类法;2)构建了一个类型均衡的高质量双语评估数据集;3)提出了一套多轴评估协议,将通用语音自然度/质量与NVV特有的可控性、放置准确性和感知显著性解耦。通过对15个代表性TTS系统(包括商业和开源模型)的广泛评测,主要发现是:NVV的可控性常与语音整体质量解耦;低信噪比的口腔音(如咂嘴)和长时程情感性NVV(如哭泣)是当前系统的持续瓶颈。该工作为跨系统、跨控制接口的公平比较提供了统一框架,推动了拟人化语音生成的研究。 🏗️ 模型架构 本文的核心贡献并非提出一个新的端到端TTS模型架构,而是建立一个用于评估现有TTS系统NVV合成能力的基准测试框架(NVBench)。其整体流程如图1所示,可分为三个核心模块: 数据集模块:基于统一的45类NVV分类法,构建了一个包含2250个英文和2250个中文实例的平衡评估集。每个实例包含text(纯文本)、text_with_nvv(插入NVV标签的文本)、caption_with_nvv(描述NVV的自然语言 caption)和nvv_list(NVV类型标签)。 合成模块:将数据集输入到待评测的TTS系统中。这些系统分为两类: 基于标签(Tag-based)的系统:通过在文本中插入如[laugh]这样的标签来控制NVV生成(如ChatTTS, ElevenLabs)。 基于提示(Prompt-based)的系统:通过自然语言描述(caption)来控制语音属性,包括NVV(如Gemini, GPT-4o mini TTS)。 评估模块:采用多轴评估协议,对生成的语音进行三方面评估: 客观指标:包括语音质量(DNSMOS)、可懂度(WER/CER)、以及针对标签系统的NVV可控性指标(精确率、召回率、F1、归一化标签距离NTD)。 主观指标:通过人工听力测试评估自然度、质量、NVV感知效果、指令遵循度等。 LLM多评委评估:使用音频感知大语言模型(如Gemini 2.5 Pro)作为自动化评委,模仿主观评分标准进行可扩展的评估。 整个框架的设计目标是解耦和标准化,使得不同控制接口、不同能力的TTS系统可以在同一套数据和标准下进行公平比较。 💡 核心创新点 统一的NVV分类法与基准数据集: 是什么:提出了一个涵盖呼吸、喉咙/生理、笑声谱、哭声谱、情感发声、口腔/其他共6大类、45细类的NVV分类体系,并依此构建了均衡的双语评估数据集。 之前的方法:现有TTS系统和数据集支持的NVV类型有限、碎片化且标签不一致,缺乏统一标准。 如何解决:通过调研现有系统和数据集,结合发声机制和交际功能,设计了更全面、模型无关的分类法。数据构建采用“LLM辅助种子挖掘-分类法驱动可控生成-迭代验证”的三阶段流程,确保数据质量和类型平衡。 多轴评估协议: 是什么:将评估维度明确分为通用语音维度(自然度、质量)和NVV特异性维度(可控性、放置准确性、感知显著性),并为每类维度设计了对应的客观、主观和LLM评估指标。 之前的方法:传统TTS评估侧重于语音质量和文本对齐,对非语言成分的评估零散且不系统。 如何解决:引入如NVV指令遵循度(IF)、NVV准确性、NVV感知效果(PE)等新主观指标,以及针对标签系统的NVV精确率/召回率/NTD等客观指标,实现了对NVV合成能力的细粒度剖析。 全面的系统实证研究与发现: 是什么:对15个涵盖商业与开源、标签与提示控制的TTS系统进行了大规模对比评测,并揭示了关键发现。 之前的方法:缺乏在统一框架下对不同技术路线的系统进行横向比较。 如何解决:通过标准化测试,量化了不同系统的能力图谱。关键发现包括:a) NVV可控性与语音整体质量常解耦;b) 低信噪比口腔音和长时程情感NVV是普遍瓶颈;c) 系统存在“选择性遵从”现象(如ChatTTS只擅长少数NVV类型)。 LLM作为可扩展评估器: 是什么:系统性地应用并验证了音频感知LLM(Gemini 2.5 Pro)作为多评委进行语音评估的可行性。 之前的方法:人工评估成本高、不可扩展;传统客观指标无法评估语义和语用层面。 如何解决:设计了匿名化、随机化、严格遵循评分标准、多轮三折验证等控制措施,使LLM评估结果与人工判断趋势一致,为大规模、可重复的语音评估提供了新工具。 🔬 细节详述 训练数据:本文不涉及新模型的训练,因此无相关细节。但其评估数据集构建过程详细: 种子挖掘:从InstructTTSEval双语语料库中,使用Gemini 2.5 Pro作为多模态标注器识别NVV,再经三人人工审计,得到约110个高置信度种子。 可控生成:使用Gemini 2.5 Pro,针对45类NVV中的每一类,按照统一的四字段模式(text, text_with_nvv, caption_with_nvv, nvv_list)生成文本候选,要求自然、可感知、单类为主。 迭代验证:自动一致性检查(模式、标签匹配)后,进行人工质量控制(跨字段一致性、上下文合理性),对不足50例的类别进行补充生成和验证。 评估指标细节: 客观NVV可控性指标:使用Gemini 2.5 Pro作为验证器,在给定参考文本和目标NVV类型的情况下,判断生成语音中该NVV是否存在并插入标记,从而计算类型正确性和粗略起始位置。定义了匹配规则(类型相同且起始位置索引差≤容忍度δ)和NTD(归一化起始误差)。 主观评分标准:采用5分制李克特量表,对NVV相关指标(如IF, Accuracy, PE)设置了0分档位,表示目标NVV缺失或几乎听不见。 LLM多评委设置:使用Gemini 2.5 Pro,采样温度0.2,固定随机种子。采用三轮三折评估,每个样本由4个独立评委评估子集,最终聚合分数。采用匿名化(A/B/C)和比较评估模式。 系统覆盖:评测了7个基于提示的系统(如Gemini 2.5 Pro/Flash, GPT-4o mini TTS, Qwen3-TTS等)和8个基于标签的系统(如ElevenLabs, ChatTTS, Orpheus TTS, CosyVoice 2等),具体支持的NVV类型和数量见表2。 📊 实验结果 客观结果(表2.4.2节): 提示系统:Qwen3-TTS在英文WER(2.06)和CER上最低,CLAP分数(0.45)最高。GPT-4o mini TTS的DNSMOS OVRL(4.14)最高。Gemini系统WER较高(如Flash英文58.8),但DNSMOS不错。 标签系统:ElevenLabs英文覆盖度0.27,F1达0.720,NTD为0.0091。ChatTTS覆盖度仅0.02,但中文F1高达0.703。Orpheus TTS英文F1最高(0.728),NTD最低(0.0031)。 主观结果(表2.4.2节): 提示系统:英文整体自然度最高为Gemini 2.5 Pro(4.07),中文为Qwen3-TTS(3.45)。NVV指令遵循度(IF)英文最高为Gemini 2.5 Pro(2.74),中文为Gemini 2.5 Flash(2.42)。 标签系统:ElevenLabs在英文和中文的整体自然度(4.60/4.09)、质量(4.71/4.31)、NVV感知效果(PE)(3.92/3.38)、准确性(4.21/3.41)和整体表现力(4.28/3.98)上均领先。CosyVoice 2中文质量评分最高(4.35)。 LLM评估结果(表3): LLM评分总体趋势与人工评分一致。在标签系统中,LLM consistently favor ElevenLabs。在提示系统中,Gemini 2.5 Flash在提示相关指标上得分高。 消融实验(表6): 对于ElevenLabs(标签),启用NVV控制后,在自然度、质量和表现力上的比较平均意见得分(CMOS)均为正,表明更受偏好。 对于Gemini 2.5 Pro(提示),启用NVV控制后,CMOS在自然度和质量上为负,表现力提升微弱。 按类型分析(图2热力图): 覆盖差距:标签系统(上半部分)热力图稀疏,白色(缺失)多,说明支持的NVV类型有限。提示系统(下半部分)热力图密集。 类型难度:笑声、呼吸等高信噪比事件PE得分普遍较高。低信噪比口腔音(如tsk, sss)和长时程情感音(如哭泣、呜咽)得分普遍较低,是持续难点。 系统差异:ElevenLabs在标签系统中覆盖广且PE强。Gemini 2.5系列在提示系统中PE整体较强。 ⚖️ 评分理由 创新性:7/10 - 本文的创新不在于生成模型,而在于评估范式。它系统性地定义了问题空间(NVV分类)、构建了标准化工具(数据集、协议),并进行了详尽的实证分析。这种“基础设施”建设工作对领域发展至关重要,但本身不是算法上的突破性创新。 实验充分性:9/10 - 实验设计极为全面和严谨。涵盖了15个系统、两种控制接口、三类评估方法(客观、主观、LLM),并对结果进行了多角度深入分析(整体、按类型、消融)。数据详实,结论支撑有力。 实用价值:8/10 - 直接针对TTS迈向自然交互的核心痛点,提供了即用的评估基准。其发现(如哪些NVV类型难、系统存在选择性遵从)对指导未来模型研发有明确价值。开源计划将进一步提升其实用性。 灌水程度:2/10 - 论文内容扎实,从问题定义、方法设计到实验分析都紧扣主题,没有明显的冗余或夸大表述。图表和数据呈现清晰必要。 🔗 开源详情 代码:论文中提到代码将通过GitHub开源(链接:https://github.com/lmxue/NVBench),但截至论文发布时(arXiv v1)可能尚未公开。 模型权重:本文不涉及新模型的发布,因此没有新的模型权重。评测的是现有系统。 数据集:论文明确指出NVBench双语评估数据集将开源,可通过项目主页(https://lmxue.github.io/NVBench/)获取。数据集包含45类NVV,每类50个实例,共2250个英文和2250个中文实例。 预训练权重:不适用。 在线 Demo:论文中未提及。 引用的开源项目:论文评测中引用了多个开源TTS系统,如ChatTTS、Bark、Fish-Speech、Orpheus TTS、CosyVoice 2、Dia等。评估中使用的ASR工具(Whisper-large-v3, paraformer-zh)和DNSMOS也是开源工具。 🖼️ 图片与表格 图1:NVBench流程概览图 | 保留: 是 - 理由:清晰展示了基准测试的三个核心模块(数据集、合成、评估)及其内部流程,是理解全文方法的关键示意图。 图2:按NVV类型的感知效果(PE)热力图 | 保留: 是 - 理由:直观展示了不同系统在45种NVV类型上的表现差异,揭示了覆盖差距和类型难度,是核心结果图之一。 表1:NVV分类法 | 保留: 是 - 理由:完整列出了45种NVV类型及其所属类别,是本文的核心定义之一。 表2:评测的TTS系统及其支持的NVV类型 | 保留: 是 - 理由:详细列出了所有被评测系统支持的NVV类型和数量,是实验设置的关键信息。 表2.4.2(文中编号):客观与主观评测结果 | 保留: 是 - 理由:包含了所有系统在所有客观和主观指标上的详细数据,是支撑全文结论的最核心数据表格。 表3:LLM评估与人工评估的相关性(部分数据) | 保留: 是 - 理由:展示了LLM评估与人工评估趋势的一致性,验证了LLM作为评估工具的有效性。 表6:有/无NVV控制的消融实验CMOS结果 | 保留: 是 - 理由:通过对比实验,量化了显式NVV控制对感知质量的影响,是重要发现之一。 📸 论文图片 ...

2026-04-20