语音合成，基准测试，模型评估，大语言模型

📄 NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations #语音合成，#基准测试，#模型评估，#大语言模型 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Liumeng Xue（南京大学，智能软件与系统实验室）通讯作者：Hung-yi Lee（国立台湾大学，语音处理实验室），Yike Guo（香港科技大学，大数据研究院）其他作者： Weizhen Bian（南京大学） Jiahao Pan（香港科技大学） Wenxuan Wang（南京大学） Yilin Ren（北京科技大学） Boyi Kang（西北工业大学） Jingbin Hu（上海交通大学） Ziyang Ma（南京大学） Shuai Wang（香港中文大学） Xinyuan Qian（南京大学） 💡 毒舌点评这篇论文的亮点在于它像个“语音界的ISO标准委员会”，系统性地为“叹气、傻笑、打嗝”这些上不了台面的非语言声音建立了从分类、数据到评测的完整规范，方法严谨得像个实验手册。槽点是它主要贡献了一套“裁判培训手册”和“记分牌”，而不是训练出更会“叹气”的明星选手本身，对于追求新模型的读者来说可能不够“性感”。 🔗 开源详情代码：论文中提到代码将通过GitHub开源（链接：https://github.com/lmxue/NVBench），但截至论文发布时（arXiv v1）可能尚未公开。模型权重：本文不涉及新模型的发布，因此没有新的模型权重。评测的是现有系统。数据集：论文明确指出NVBench双语评估数据集将开源，可通过项目主页（https://lmxue.github.io/NVBench/）获取。数据集包含45类NVV，每类50个实例，共2250个英文和2250个中文实例。预训练权重：不适用。在线 Demo：论文中未提及。引用的开源项目：论文评测中引用了多个开源TTS系统，如ChatTTS、Bark、Fish-Speech、Orpheus TTS、CosyVoice 2、Dia等。评估中使用的ASR工具（Whisper-large-v3, paraformer-zh）和DNSMOS也是开源工具。 📌 核心摘要本文旨在解决语音合成（TTS）领域中非语言声音（NVV，如笑声、叹息、哭泣）缺乏标准化评估框架的问题。为此，作者提出了NVBench，一个双语（英/中）基准测试。其核心方法包括：1）设计了一个涵盖45种NVV类型的统一分类法；2）构建了一个类型均衡的高质量双语评估数据集；3）提出了一套多轴评估协议，将通用语音自然度/质量与NVV特有的可控性、放置准确性和感知显著性解耦。通过对15个代表性TTS系统（包括商业和开源模型）的广泛评测，主要发现是：NVV的可控性常与语音整体质量解耦；低信噪比的口腔音（如咂嘴）和长时程情感性NVV（如哭泣）是当前系统的持续瓶颈。该工作为跨系统、跨控制接口的公平比较提供了统一框架，推动了拟人化语音生成的研究。 🏗️ 模型架构本文的核心贡献并非提出一个新的端到端TTS模型架构，而是建立一个用于评估现有TTS系统NVV合成能力的基准测试框架（NVBench）。其整体流程如图1所示，可分为三个核心模块：数据集模块：基于统一的45类NVV分类法，构建了一个包含2250个英文和2250个中文实例的平衡评估集。每个实例包含text（纯文本）、text_with_nvv（插入NVV标签的文本）、caption_with_nvv（描述NVV的自然语言 caption）和nvv_list（NVV类型标签）。合成模块：将数据集输入到待评测的TTS系统中。这些系统分为两类：基于标签（Tag-based）的系统：通过在文本中插入如[laugh]这样的标签来控制NVV生成（如ChatTTS, ElevenLabs）。基于提示（Prompt-based）的系统：通过自然语言描述（caption）来控制语音属性，包括NVV（如Gemini, GPT-4o mini TTS）。评估模块：采用多轴评估协议，对生成的语音进行三方面评估：客观指标：包括语音质量（DNSMOS）、可懂度（WER/CER）、以及针对标签系统的NVV可控性指标（精确率、召回率、F1、归一化标签距离NTD）。主观指标：通过人工听力测试评估自然度、质量、NVV感知效果、指令遵循度等。 LLM多评委评估：使用音频感知大语言模型（如Gemini 2.5 Pro）作为自动化评委，模仿主观评分标准进行可扩展的评估。整个框架的设计目标是解耦和标准化，使得不同控制接口、不同能力的TTS系统可以在同一套数据和标准下进行公平比较。 ...