NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations

📄 NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations #语音合成 #基准测试 #多语言 #大语言模型 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:刘梦(Liumeng Xue)(南京大学,智能软件与系统实验室) 通讯作者:刘梦(lmxue@nju.edu.cn),郭毅可(Yike Guo)(推测为资深作者) 其他作者: 卞伟真(Weizhen Bian)(南京大学) 潘家浩(Jiahao Pan)(香港科技大学) 王文轩(Wenxuan Wang)(香港中文大学) 任逸林(Yilin Ren)(北京航空航天大学) 康博宇(Boyi Kang)(西北工业大学) 胡敬斌(Jingbin Hu)(上海交通大学) 马子阳(Ziyang Ma)(南京大学) 王帅(Shuai Wang)(南京大学) 钱欣源(Xinyuan Qian)(南京大学) 李宏毅(Hung-yi Lee)(台湾大学) 郭毅可(Yike Guo)(香港科技大学) 💡 毒舌点评 亮点:这是一篇“基建狂魔”式的论文,终于有人把语音合成里那些“嗯嗯啊啊”的非语言声音(NVV)的评估给标准化了,45类分类法和双语数据集做得相当扎实,为后续研究立好了靶子。 槽点:作为基准测试论文,它本身不提出新的合成模型,有点像“只测评不造轮子”,对于追求算法创新的读者来说可能不够“性感”;而且用LLM当裁判,虽然努力控制偏见,但“AI评AI”的可靠性争议依然存在。 🔗 开源详情 代码:已开源。论文提供了GitHub链接:https://github.com/lmxue/NVBench。代码应包含数据集构建脚本、评估指标计算代码等。 模型权重:不适用。本文不发布新模型,而是评估现有模型。 数据集:已开源。论文明确指出数据集可通过项目主页获取:https://lmxue.github.io/NVBench/。包含4500个(英汉各2250)经过验证的NVV实例。 预训练权重:不适用。 在线 Demo:论文中未提及在线Demo。 引用的开源项目:论文评估了多个开源TTS系统(如ChatTTS, Bark, CosyVoice 2等),并使用了Whisper、CLAP、DNSMOS等开源工具进行评估。 📌 核心摘要 这篇论文旨在解决语音合成(TTS)领域中一个关键但被忽视的问题:如何标准化评估系统生成非语言声音(NVV,如笑声、叹息)的能力。作者提出了NVBench,一个包含45类NVV统一分类体系的双语(英/中)基准。其核心方法包括:1)构建了一个每类50例、总计4500例的高质量平衡评估数据集;2)设计了多轴评估协议,将通用语音质量与NVV特有的可控性、放置准确性和感知显著性分离开来;3)综合运用客观指标、人工听测和基于LLM的多评判员评估,对15个代表性的TTS系统(涵盖提示式和标签式控制)进行了全面测评。主要发现表明,NVV的可控性常常与整体语音质量解耦,而低信噪比的口腔音和长时情感性NVV(如哭泣)仍是持续的技术瓶颈。该工作为公平、全面地比较和改进NVV合成能力提供了一个标准化框架。 🏗️ 模型架构 注意:本文并非提出一个新的合成模型,而是提出一个评估基准框架。其核心“架构”是评估流程和数据集构建流程。 整体流程:输入为包含NVV指令的文本(标签式[laugh]或提示式“…said with a laugh”),经过待测TTS系统生成语音,再通过NVBench的评估协议进行多维度分析。 核心组件: NVV分类体系:一个包含6大类(呼吸、喉/生理、笑声谱、哭泣谱、情感发声、口腔/其他)和45个细分类别的结构化树状体系。 数据构建流水线:三阶段流程:a) 从现有双语语音数据集中用LLM挖掘NVV种子;b) 基于分类体系,用LLM按统一模式生成文本-描述对;c) 自动检查与人工审核迭代,确保每类50个高质量样本。 评估协议: 客观指标:包括通用指标(WER/CER, DNSMOS)和NVV特异性指标(针对标签式系统的精确率/召回率/F1, 标准化标签距离NTD;针对提示式系统的CLAP分数)。 主观指标:5分制Likert量表,评估自然度、质量、NVV感知效果(PE)、指令跟随(IF)等。 LLM多评判员评估:使用Gemini 2.5 Pro作为评判员,采用匿名化、随机化、多轮评估等策略,评估指标与主观测试对齐。 数据流:待评估的TTS系统是黑盒,输入是NVBench数据集中的text_with_nvv(标签式)或caption_with_nvv(提示式),输出是合成语音。该语音被送入ASR、质量评估模型、NVV检测器(基于GT约束的Gemini验证)以及人类/LLM评判员,得到多维度分数。 💡 核心创新点 统一的NVV分类与数据集: 是什么:首次提出了一个涵盖45类、覆盖从呼吸到哭泣等广泛NVV的统一分类法,并据此构建了英汉双语平衡评估数据集。 之前:现有系统和数据集支持的NVV类型有限、碎片化、标签不一致,无法进行系统化评估。 效果:为领域提供了共同语言和可复现的测试基础,使跨系统比较成为可能。 解耦的多轴评估协议: 是什么:明确将评估维度拆解为“通用语音质量”和“NVV特定能力”(可控性、放置、显著性)。 之前:评估往往将NVV视为风格的一部分,与语音质量混在一起,难以诊断具体弱点。 效果:能精确揭示系统在哪方面强或弱(如某系统音质好但NVV控制差),指导针对性改进。 面向NVV的客观指标设计: 是什么:为标签式控制设计了基于“地面真值约束验证”的NVV检测方法,并由此计算精确率、召回率、F1和标准化标签距离(NTD)。 之前:缺乏直接评估NVV生成正确性和时间位置准确性的标准客观方法。 效果:实现了可扩展、可量化的NVV可控性评估,与主观感知形成互补。 全面的系统测评与洞察: 是什么:对15个前沿系统(商业与开源,提示式与标签式)进行了大规模测评,揭示了“质量与可控性解耦”、“长时/细微NVV是瓶颈”等关键现象。 之前:缺乏在统一基准下对不同控制范式系统的横向比较。 效果:为研究社区提供了清晰的现状图景和未来研究方向(如提升覆盖度、改善长时NVV建模)。 🔬 细节详述 训练数据:不适用。本文是评估基准,不训练新模型。评估数据集通过三阶段流水线构建,最终包含45类×50例×2语言=4500个高质量NVV实例,源自对InstructTTSEval数据集的挖掘和LLM辅助生成。 损失函数/训练策略:不适用。 关键超参数/训练硬件:不适用。 评估细节: 客观指标:使用Whisper-large-v3(英)和paraformer-zh(中)进行ASR转写。使用DNSMOS P.835预测语音质量。CLAP分数用于提示式系统的语义对齐。对于标签式系统,使用Gemini 2.5 Pro作为验证器,给定合成语音、原文本和目标NVV类型,判断NVV是否存在并插入标记,从而计算位置误差。NTD是匹配样本的位置误差按文本长度归一化后的均值。 主观测试:通过Prolific平台招募97名评分者,对每种语言随机抽取450个样本(每类10个)进行5分制评分。 LLM评估:使用Gemini 2.5 Pro,采用低温采样(0.2)、固定种子、多轮三折评估、匿名化比较等策略以保证稳定性。每个样本由4个独立LLM评判员子集评估。 系统覆盖:评估了7个提示式系统(如Gemini 2.5 Pro/Flash, GPT-4o mini TTS, Qwen3-TTS)和8个标签式系统(如ElevenLabs, ChatTTS, Orpheus TTS, CosyVoice 2)。 📊 实验结果 主要指标对比(摘要): 提示式系统(英语): 最佳质量/自然度:Gemini 2.5 Pro (主观自然度4.07, DNSMOS OVRL 4.30)。 最佳可控性(NVV IF):Gemini 2.5 Pro (主观2.74)。 最佳语义对齐(CLAP):Qwen3-TTS (0.45)。 最佳客观质量(DNSMOS):GPT-4o mini TTS (OVRL 4.14)。 标签式系统(英语): 最佳综合(主观):ElevenLabs (自然度4.60, 质量4.71, NVV PE 3.92, NVV Accuracy 4.21)。 最佳NVV正确性(客观F1):Orpheus TTS (0.728)。 最高覆盖度:ElevenLabs (0.27), Dia (0.29)。 关键发现: 质量与可控性解耦:例如,CosyVoice 2在中文上主观质量分很高(4.35),但NVV准确性(1.65)和显著性(1.56)较低。Gemini 2.5 Flash的WER很差(因生成额外内容),但主观自然度很高。 NVV类型难度差异大:热图分析显示,笑声、咳嗽等突发性NVV普遍得分较高;而口腔音(如tsk, lipsmack)和长时情感音(如crying, sobbing)在所有系统上得分都低。 控制范式差异:标签式系统覆盖度有限但控制精确;提示式系统理论覆盖所有类型但实现不稳定,易出现内容边界问题。 消融实验(有无显式NVV控制): 对比了Gemini 2.5 Pro(提示式)和ElevenLabs(标签式)在有无NVV指令下的输出。 主观结果:ElevenLabs在启用NVV后,自然度、质量和表达力均提升(CMOS为正)。Gemini 2.5 Pro在启用NVV后,表达力提升不明显,且自然度和质量有所下降(CMOS为负)。 客观结果:启用NVV后,所有系统的WER/CER均上升,表明标准ASR和质量评估器对NVV不友好。 LLM评判 vs 人类评判:LLM评判的排名趋势与人类主观测试大体一致(如ElevenLabs在标签式中领先),但具体分数存在差异,表明LLM评估可作为有效补充但不能完全替代人类。 ⚖️ 评分理由 创新性:7/10。创新性主要体现在系统工程和评估框架上:构建了首个全面的NVV分类与数据集,并设计了多轴评估协议。这不是算法模型的突破,而是领域基础设施的重要创新。 实验充分性:9/10。实验设计极为充分。数据集构建流程严谨;评估维度全面(客观、主观、LLM);对比系统数量多、种类全(15个);分析深入,包含消融、热图、跨语言对比等。数据详实,结论可信。 实用价值:8/10。对语音合成领域有很高的实用价值。为NVV合成这一模糊的评估目标提供了清晰、可操作的度量标准,能直接指导系统开发和比较。开源数据集和代码进一步放大了其价值。 灌水程度:2/10。论文内容紧凑,直指问题核心。摘要、方法、实验、分析环环相扣,没有明显的冗余内容或夸大表述。所有承诺的评估都在实验部分得到落实。 🖼️ 图片与表格 图1: NVBench概览图 | 保留: 是 - 理由:清晰展示了基准的整体流程,包括数据集(分类法+双语集)、两种控制方式(提示式、标签式)、待测TTS系统、以及多轴评估协议(客观、主观、LLM),是理解论文工作的核心示意图。 图2: 按NVV类型划分的感知效果热图(英语) | 保留: 是 - 理由:直观展示了不同系统在45类NVV上的感知效果(PE)得分,清晰揭示了系统间差异、类型难度差异(如笑声易、口腔音难)以及标签式系统的覆盖度缺口,是核心结果图。 图3: 按NVV类型划分的感知效果热图(中文) | 保留: 是 - 理由:与图2对应,展示了中文评估结果,体现了基准的双语评估能力和跨语言发现的一致性。 表1: NVV分类体系 | 保留: 是 - 理由:列出了完整的45类NVV及其所属的6个大类,是本文的核心贡献之一,必须保留以明确评估范围。 表2: 评测的TTS系统及数据集详情 | ���留: 是 - 理由:详细列出了15个被测系统和6个参考数据集支持的NVV类型及数量,是理解评测范围和对比基线的关键信息。 表3: 客观指标结果 | 保留: 是 - 理由:提供了所有系统在WER/CER、DNSMOS、CLAP、覆盖率、精确率/召回率/F1、NTD等客观指标上的详细数值,是进行量化对比的基础。 表4: 主观听测结果(均值±标准差) | 保留: 是 - 理由:提供了所有系统在自然度、质量、NVV感知效果等主观指标上的详细评分,是评估系统实际听感的关键数据。 表5: LLM多评判员评估结果(与ElevenLabs的对比分数) | 保留: 是 - 理由:展示了使用LLM作为评判员的评估结果,体现了这种新型评估方法的可行性与趋势,是方法的重要组成部分。 表6: 有无NVV控制的CMOS对比结果 | 保留: 是 - 理由:展示了消融实验的结果,直接证明了显式NVV控制对感知质量的影响,支持了论文的核心发现之一(控制范式差异)。 📸 论文图片 ...

2026-04-22 · 更新于 2026-06-19 · 2 min · 269 words

Tadabur: A Large-Scale Quran Audio Dataset

📄 Tadabur: A Large-Scale Quran Audio Dataset #语音识别 #领域适应 #数据集 #多语言 ✅ 评分:7.0/10 | arxiv 👥 作者与机构 第一作者:Faisal Alherran (利雅得,沙特阿拉伯 - alherranfaisal@gmail.com) 通讯作者:Faisal Alherran (同上) 其他作者:无。论文仅列出一位作者。 💡 毒舌点评 亮点:这论文最实在的地方就是“大力出奇迹”,用一套组合拳(LLM+Whisper+Embedding)硬生生把散落在网络各处的古兰经朗诵音频,整合成了一个规模空前、标注精细的“数据航母”,直接把该领域的数据门槛拉高了好几个档次。槽点:方法上更像是“系统集成创新”,用的都是现成的明星模型(Whisper, Gemini),自己炼的“新丹”(Tadabur fine-tuned ASR)效果提升也有限。说白了,这是一篇出色的“数据工程”报告,而非“算法突破”论文。 🔗 开源详情 代码:开源。论文提供了GitHub链接。 模型权重:论文中提到的“Tadabur fine-tuned model”(基于Whisper Small微调)是否开源未在正文明确说明,但数据集本身在HuggingFace上开源。 数据集:完全开源。包含超过1400小时的音频和词级对齐标注。在HuggingFace和项目主页上提供。 预训练权重:未提供。流水线中使用的模型(如Whisper, SILMA, EAT)均为已有公开模型。 在线Demo:论文中未提及。 引用的开源项目:WhisperX, SILMA Embedding模型, EAT模型, Quran API等。 📌 核心摘要 本文旨在解决古兰经语音研究领域缺乏大规模、多样化、细粒度标注数据集的问题。为此,作者提出了Tadabur数据集及其自动化构建流水线。该流水线首先从公共平台收集音频,并利用大语言模型(Gemini)从非结构化文本中提取标准化元数据(如章节、朗诵者)。核心步骤是Ayah Alignment Module (AAM),它利用Whisper/WhisperX进行语音识别和词级对齐,再通过SILMA嵌入模型的语义相似度匹配,将转录文本与《古兰经》标准文本进行对齐,从而实现从长录音中精准分割出经文(Ayah)级别的音频片段。最后,通过基于ASR的内容验证和基于音频嵌入的去重进行数据清洗。最终构建的Tadabur数据集包含超过1400小时音频,来自600多位不同朗诵者,提供了词级时间戳和结构化元数据。实验评估表明,所选的语义对齐方法和领域适配ASR模型能达到96.63%的对齐覆盖率。该数据集为古兰经语音识别、朗诵风格分析等研究提供了重要基础资源。 🏗️ 模型架构 本文的核心“架构”并非一个端到端的神经网络模型,而是一个多阶段、模块化的数据处理流水线。其整体流程如下: 输入:从网络收集的、包含长篇朗诵(整章或整卷)的原始音频文件及其伴随的非结构化文本描述(标题、标签等)。 元数据提取与过滤: 组件:大语言模型(Gemini 2.5 Flash)。 功能:接收文本描述,判断是否为有效的古兰经朗诵,并提取结构化元数据(章节名、朗诵者身份)。 输出:过滤后的有效音频文件及其标准化元数据。 语音识别与词级对齐: 组件:Whisper Large v3 + WhisperX。 功能:对音频进行语音识别,生成带词级时间戳的转录文本。 输出:包含词及起止时间戳的转录结果。 经文级对齐与分割 (核心 - Ayah Alignment Module, AAM): 子模块1:语义匹配: 输入:WhisperX转录文本片段、来自Quran API的标准经文文本。 处理:分别使用SILMA嵌入模型生成文本片段和标准经文的向量,计算余弦相似度。超过阈值则视为匹配成功。 输出:匹配的经文及其在音频中的粗略起止时间。 子模块2:朗诵边界精修: 输入:粗略分割的音频片段。 处理:使用一个专门的“recitation-segmenter-v2”模型检测朗诵自然停顿点。为防止截断,在粗略结束点后附加5秒缓冲区,再进行边界检测,最后将检测到的自然结束点与WhisperX时间戳调和。 输出:精确的、以自然停顿为终点的单条经文音频片段。 数据清洗与去重: 组件:EAT(高效音频Transformer)模型、并查集(Union-Find)数据结构。 功能:对同一朗诵者同一经文的多个录音,提取音频嵌入并计算相似度,超过阈值(0.9)视为重复,通过图算法聚类后每组仅保留一个代表。 输出:去重后的最终数据集。 输出:成对的(音频文件, JSON元数据文件)。JSON中包含经文文本、朗诵者、章节以及词级时间戳等结构化信息。 💡 核心创新点 面向古兰经的大规模自动化数据构建流水线:这是最主要的贡献。论文提出并实现了一个端到端的、从数据收集、清洗、标注到最终发布的完整自动化框架,解决了该领域数据稀缺且构建困难的核心问题。 基于语义嵌入的经文对齐方法:相比传统的模糊文本匹配(Fuzzy Matching),采用SILMA嵌入模型进行语义相似度计算,能更好地应对古兰经朗诵中因音律、延长音导致的转录文本与标准文本在表面形式上的差异,将对齐覆盖率从86%提升至96.6%。 朗诵边界感知的精细分割:在初步对齐后,引入专门的朗诵边界检测模型进行后处理,确保分割出的音频片段以朗诵者的自然停顿结束,而非机械地截断于识别词的结束点,提高了片段质量。 基于音频嵌入的高效去重策略:利用预训练的音频模型(EAT)提取嵌入,并结合并查集数据结构进行可扩展的去重,有效处理了大规模数据中普遍存在的重复录音问题。 🔬 细节详述 训练数据:本文主要贡献是构建数据集,而非训练一个新模型。所提及的“Tadabur fine-tuned model”是基于Whisper Small在自有数据上微调的ASR模型,但论文未提供微调的具体数据规模、超参数等细节。 损失函数/训练策略/关键超参数:这些信息主要针对文中提到的已有模型(如Whisper, EAT),但论文未详述其训练过程。文中明确给出的关键超参数包括: 去重相似度阈值:0.9 边界精修缓冲区时长:5秒(经验值) 对齐方法:SILMA Embedding + 余弦相似度,阈值未明确给出。 推理细节:流水线推理涉及多个模型调用。对于对齐模块,核心是生成嵌入并计算相似度。对于边界精修,使用了“recitation-segmenter-v2”模型进行推理。 数据增强/正则化:未提及。本文工作重点是数据构建而非模型训练。 📊 实验结果 表1:不同对齐方法和ASR模型在5位朗诵者上的对齐覆盖率(%) ...

2026-04-22 · 更新于 2026-06-19 · 2 min · 327 words

Voice of India: A Large-Scale Benchmark for Real-World Speech Recognition in India

📄 Voice of India: A Large-Scale Benchmark for Real-World Speech Recognition in India #语音识别 #模型评估 #多语言 #低资源 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Kaushal Bhogale (印度马德拉斯理工学院,计算机科学与工程系,cs22d006@cse.iitm.ac.in) 通讯作者:Mitesh M. Khapra (印度马德拉斯理工学院,计算机科学与工程系)(推断:作为资深作者和项目主导者) 其他作者: Manas Dhir, Amritansh Walecha, Manmeet Kaur, Vanshika Chhabra, Aaditya Pareek, Hanuman Sidh, Sagar Jain, Bhaskar Singh, Utkarsh Singh, Tahir Javed, Shobhit Banga (印度马德拉斯理工学院,计算机科学与工程系) (部分作者可能同时隶属 Josh Talks, India,但论文中未明确个人与机构的对应关系,此处统一列出) 💡 毒舌点评 亮点:这论文像给印度ASR领域做了一次彻底的“体检”,把现有模型在真实世界(电话、方言、乡村)的“体面”扒得干干净净,用数据和地图说话,指出了“高WER重灾区”和“公平性幻觉”,堪称一份犀利的行业诊断报告。 槽点:最核心的“体检报告”(数据)自己藏着不给看,只给看化验单(结果),让同行想复现、想基于此深入研究都无从下手,这“闭源”操作在学术圈属实有点“不讲武德”。 🔗 开源详情 代码:论文中未提及开源评估代码或工具。 模型权重:论文评估的模型包括商业API和开源模型,但基准本身不涉及新模型训练。 数据集:明确声明为闭源基准(closed source benchmark)。数据不公开,仅提供详细的构建方法和评估结果。 预训练权重:不适用。 在线Demo:未提及。 引用的开源项目:论文提到了依赖的模型和工具,如Whisper, Indic Conformer, OmniASR, Meta MMS, SpeechBrain VoxLingua107, DNSMOS, WebRTC VAD等。 📌 核心摘要 这篇论文旨在解决现有印度语言语音识别(Indic ASR)基准不反映真实场景、评估方法不公平的核心问题。为此,作者构建了“Voice of India”大规模基准,其数据源自3.6万名说话者的非脚本化电话对话,覆盖15种主要印度语言和139个地区集群,总计536小时。关键创新在于采用了考虑拼写变体的“正字法知情词错率”(OIWER)评估指标,并构建了“方言格”(Lattice)来容纳合理的转录变体。通过在14个先进ASR系统(包括商业API和开源模型)上的评估,论文揭示了几个关键发现:1)即使最佳模型在多种语言上也未达到20%的实用WER阈值;2)性能存在显著的地理偏差,印度北部“印地语带”和都市区表现远优于南部和语言多样地区;3)现有公开基准(如FLEURS)会高估模型性能;4)模型在女性语音上略有优势,但对年轻说话者和特定方言(如Bhojpuri)表现不佳。该基准为开发更鲁棒、公平的印度语音识别系统提供了关键的评估工具和明确的改进方向。 ...

2026-04-22 · 更新于 2026-06-19 · 2 min · 385 words

语音/音乐/音频论文速递 2026-04-22

语音/音乐/音频论文速递 2026-04-22 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 语音合成 4篇 ████ 基准测试 4篇 ████ 模型评估 4篇 ████ 多语言 3篇 ███ 音频大模型 3篇 ███ 数据增强 3篇 ███ 大语言模型 3篇 ███ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.5分 🥉 UAF: A Unified Audio Front-end LLM for Full-Duplex Spee 9.0分 4 HalluAudio: A Comprehensive Benchmark for Hallucination 9.0分 5 Voice of India: A Large-Scale Benchmark for Real-World 8.5分 6 BEAT: Tokenizing and Generating Symbolic Music by Unifo 8.5分 7 ATRIE: Adaptive Tuning for Robust Inference and Emotion 8.5分 8 Reducing the Offline-Streaming Gap for Unified ASR Tran 8.0分 9 Deep Supervised Contrastive Learning of Pitch Contours 8.0分 10 Disentangling Damage from Operational Variability: A La 8.0分 11 Text-To-Speech with Chain-of-Details: modeling temporal 7.5分 12 Towards Streaming Target Speaker Extraction via Chunk-w 7.5分 13 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track 7.5分 14 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 15 Detecting Hallucinations in SpeechLLMs at Inference Tim 7.5分 16 MTR-DuplexBench: Towards a Comprehensive Evaluation of 7.5分 17 Tadabur: A Large-Scale Quran Audio Dataset 7.0分 18 Environmental Sound Deepfake Detection Using Deep-Learn 6.5分 19 Audio Spoof Detection with GaborNet 6.5分 20 Comparison of sEMG Encoding Accuracy Across Speech Mode 6.0分 21 MoVE: Translating Laughter and Tears via Mixture of Voc N/A 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音合成 #语音识别 #音频大模型 #预训练 | arxiv ...

2026-04-22 · 更新于 2026-06-19 · 8 min · 1620 words

BhashaSutra: A Task-Centric Unified Survey of Indian NLP Datasets, Corpora, and Resources

📄 BhashaSutra: A Task-Centric Unified Survey of Indian NLP Datasets, Corpora, and Resources #数据集 #基准测试 #多语言 #低资源 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Raghvendra Kumar(印度理工学院巴特那分校,计算机科学与工程系) 通讯作者:Devankar Raj(Indian Institute of Technology Patna,根据邮箱 devankarraj@gmail.com 推断) 其他作者:Sriparna Saha(印度理工学院巴特那分校,计算机科学与工程系) 💡 毒舌点评 亮点:堪称印度语言NLP的“维基百科”和“资源导航图”,第一次把散落在各个角落的珠子串成了完整的项链,让后来者不用再摸着石头过河。槽点:作为一篇“地图”本身,它没有开垦新的土地(提出新方法),而且在这个快速发展的领域,这幅“地图”可能很快需要更新版本,尤其是在大模型和生成式AI席卷一切之后。 🔗 开源详情 代码:论文本身未提及开源代码。但提供了一个GitHub Issue链接(https://github.com/...,原文中链接被截断)用于读者报告问题或补充资源,这表明作者可能希望建立一个持续更新的社区资源库。 模型权重:不适用。 数据集:论文不生产新数据集,而是汇总现有公开数据集。它为每个引用的数据集提供了来源信息。 预训练权重:不适用。 在线Demo:未提及。 引用的开源项目:论文中提到了多个重要的开源工具和项目,如 iNLTK (印度语言NLP工具包)、AI4Bharat IndicNLP、IndicTrans2、MuRIL、Vakyansh (ASR工具包)等,这些是印度语言NLP生态的重要组成部分。 📌 核心摘要 这篇论文旨在解决印度语言NLP研究资源分散、缺乏统一概览的痛点。作者首次提出了一个以任务为中心的统一分类体系,系统性地梳理和整合了超过200个数据集、50个基准测试以及100多个模型、工具和系统,覆盖了从核心语言处理(如分词、词性标注)到文本分类、生成翻译、信息检索、语音与多模态,乃至社会文化任务(如虚假信息检测、文化理解)的17个细分领域。论文不仅列举了资源,更深入分析了资源分布的不平衡性(如印地语资源远多于其他语言)、标注质量参差、评估标准不一等关键挑战,并特别关注了代码混合、文化语境等印度语言特有的问题。其核心贡献在于为印度语言NLP社区提供了一个全面的资源基准、一个可扩展的分类框架以及对未来研究方向的明确指引,旨在推动更公平、包容和文化扎根的NLP研究。 🏗️ 模型架构 不适用。本文是一篇综述论文,不提出新的模型架构。其核心“架构”是其提出的任务中心统一分类法。该分类法将印度语言NLP资源组织为六个高层组别,包含十七个细粒度任务: 核心语言处理:分词/归一化/形态分析、词性标注、命名实体识别。 文本分类与语义:情感与情绪分析、仇恨言论与毒性检测、主题分类、自然语言理解。 生成与翻译:摘要、机器翻译、问答。 检索与交互:信息检索、对话系统。 语音与多模态:语音技术、多模态语言理解。 社会、文化与新兴任务:虚假信息与事实核查、文化知识与理解、新兴方向(如偏见、风格迁移)。 💡 核心创新点 首个统一的印度语言NLP资源综述:填补了没有专门针对印度语言NLP资源进行全面、系统性综述的空白。之前的综述要么只关注少数高资源语言,要么将印度语言作为多语言设置的一部分。 任务中心的统一分类体系:建立了一个清晰、可扩展的分类框架(6大类,17个任务),将原本分散在文本、语音、多模态等不同模态和不同应用场景下的资源进行了逻辑整合,便于研究者按需查找。 全面的资源编目与缺口分析:不仅汇总了海量的资源(200+数据集,50+基准,100+模型/工具),还深入分析了生态系统层面的共性挑战,如语言覆盖不均、标注碎片化、领域偏斜、评估不一致、跨语言脆弱性等。 聚焦印度语境的特有挑战:特别强调了在印度多语言、多文化、多代码混合背景下NLP研究的独特问题,如文化语境理解、代码混合作为一类现象、方言覆盖、社会偏见等,并将其作为独立的分析维度和未来方向。 🔬 细节详述 资源收集方法:通过系统性搜索主要NLP会议(ACL, EMNLP等)、arXiv、机构仓库(如AI4Bharat, LDC-IL),辅以引文链和任务关键词查询。详细的筛选标准、纳入/排除流程、去重和元数据提取过程在附录E中说明。 分类体系:如上文“模型架构”所述,采用两级分类(高层组别 -> 细粒度任务)。 语言覆盖:涵盖印度宪法规定的22种预定语言以及数百种方言。论文通过图表(如图1、图2及附录各任务图表)直观展示了各语言在不同任务下的资源数量,清晰揭示了印地语、英语资源占主导,而许多低资源语言(如博多语、孔卡尼语)资源匮乏的现状。 资源属性记录:对于每个资源,论文尝试记录其语言覆盖、领域、模态(文本、语音、图像)、许可和使用限制(附录F)、以及关键的文档化信息(如标注流程、评估指标)。 未来方向:在附录D中详细阐述了8个关键方向,包括:超越高资源语言的平衡覆盖、超越聚合指标的细粒度评估、文化语境感知建模、负责任与包容性NLP、代码混合作为一类现象、公平扩展多模态资源、弥合研究与部署鸿沟、统一基准与纵向评估。 📊 实验结果 不适用。作为综述,本文没有进行实验。但其“结果”体现在对资源现状的量化分析和定性总结中: ...

2026-04-21 · 更新于 2026-06-19 · 1 min · 140 words

FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings

📄 FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings #模型评估 #线性模型 #多语言 #多模态模型 📝 评分:5.5/10 | arxiv 👥 作者与机构 第一作者:Santosh Kesiraju (布尔诺理工大学,Speech@FIT实验室) 通讯作者:Petr Schwarz (布尔诺理工大学,Speech@FIT实验室,根据联系邮箱推断) 其他作者: Bolaji Yusuf (布尔诺理工大学,Speech@FIT实验室) Šimon Sedláček (布尔诺理工大学,Speech@FIT实验室) Oldřich Plchot (布尔诺理工大学,Speech@FIT实验室) 💡 毒舌点评 亮点:提供了一把“线性手术刀”,干净利落地剖开了SONAR、LaBSE这些黑盒嵌入,直观展示了里面到底塞了哪些词,还量化了“英语霸权”在嵌入空间中的统治力。槽点:本质上还是个高级线性探针,创新天花板明显;主要发现“多语言模型更偏爱英语”这事儿,大家心里其实都有数,论文只是用更漂亮的方式证实了它。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/BUTSpeechFIT/FLiP。 模型权重:论文中未明确说明是否公开预训练好的FLiP模型权重。 数据集:使用的数据集(Common Voice, Europarl, Samanantar)均为公开数据集,论文中提供了获取方式。 预训练权重:FLiP模型需要基于预训练的句子嵌入模型(SONAR, LaBSE, Gemini)运行,这些模型的权重需从原渠道获取。 在线Demo:未提及。 引用的开源项目:依赖于SONAR, LaBSE, Gemini Embedding API等。 📌 核心摘要 本文提出FLiP,一种因子化线性投影模型,旨在理解并解释多语言、多模态句子嵌入空间(如SONAR, LaBSE, Gemini)。核心思想是将嵌入空间的解释转化为一个线性关键词提取任务:通过一个简单的线性投影,从句子嵌入向量中恢复出构成该句子的词汇。实验表明,训练良好的FLiP模型能从嵌入中回忆起75%以上的词汇内容,显著优于非因子化基线。利用这一工具,作者系统性地诊断了不同嵌入模型的跨模态对齐(语音-文本)和跨语言对齐性能,揭示了这些模型普遍存在的英语偏向性,即语义的线性表示在英语中最清晰,随语言距离增大而衰减。FLiP为研究者提供了一种无需依赖下游任务即可内在评估嵌入质量的诊断工具。 🏗️ 模型架构 FLiP的整体架构是一个因子化的对数线性模型,其目标是学习一个从句子嵌入空间到词汇空间的线性映射,以提取关键词。 完整输入输出流程: 输入:一个预训练的句子嵌入向量 t (来自文本) 或 s (来自语音),维度为 d (如SONAR为1024,LaBSE为768)。 投影:将输入嵌入通过一个因子化的投影矩阵 W = AB 进行映射。 A:维度为 |V| x r,可视为一个词嵌入矩阵,其中 |V| 是词汇表大小(如100K),r 是因子化秩(如512)。 B:维度为 r x d,是一个从模态/语言空间到潜在语义空间的投影矩阵。 计算:z = b + A * (B * u),其中 b 是偏置向量,u 是输入嵌入。B*u 将输入映射到 r 维潜在空间,A 再将其映射到 |V| 维的词汇空间,得到 logits z。 输出概率:对 logits z 应用 softmax 函数,得到词汇表上的概率分布 θ。 关键词提取:在推理时,直接选取 logits z 中数值最大的 k 个索引,映射回词汇表,得到提取的关键词。无需优化。 关键设计选择理由: ...

2026-04-21 · 更新于 2026-06-19 · 3 min · 447 words

MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora

📄 MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora #语音转换 #自回归模型 #强化学习 #多语言 #工业应用 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Tao Feng (清华大学) 通讯作者:Zhizheng Wu (香港中文大学(深圳)) 其他作者: Yuxiang Wang, Yuancheng Wang, Xueyao Zhang, Dekun Chen, Chaoren Wang (香港中文大学(深圳)) Xun Guan (清华大学) 💡 毒舌点评 亮点:把TTS生成的“垃圾”(合成语音)从训练目标变成训练源,这个“角色交换”的脑回路确实清奇,直接绕过了合成质量天花板,是论文最大的创新点。槽点:虽然思路巧妙,但整个框架依然严重依赖一个高质量的外部TTS系统来生成训练源,33%的数据过滤率也暗示了对TTS质量的敏感性;此外,构建850万对训练数据所需的计算资源(TTS推理+模型训练)恐怕不是一般实验室能承受的,可复现性存疑。 🔗 开源详情 代码:论文在摘要和正文末尾提供了项目页面 (https://fff-ttt.github.io/MimicLM_demo/) 和 GitHub Issue 链接,暗示代码可能开源或部分开源。但论文正文中未明确给出GitHub仓库地址。 模型权重:未明确说明是否公开预训练模型权重。 数据集:伪平行训练数据基于公开的Emilia数据集构建,但构建后的850M对数据本身未说明是否公开。 在线Demo:项目页面标题为“MimicLM_demo”,很可能提供在线演示。 引用的开源项目:论文明确依赖并集成了 CosyVoice 2.0 的音频分词器和流匹配解码器,以及 Qwen2.5 的语言模型架构。还使用了 Whisper-large-v3 进行ASR过滤和评估。 📌 核心摘要 这篇论文旨在解决零样本语音模仿任务中高质量平行训练数据稀缺的核心瓶颈。传统方法要么依赖复杂的解耦架构,要么使用合成语音作为训练目标,导致输出质量受限于合成系统的能力。作者提出了一种名为 MimicLM 的新框架,其核心创新在于**“角色交换”的数据构建策略**:使用TTS生成的语音作为训练源,而将真实的录音保留为训练目标。这使得模型能够直接从真实语音分布中学习,突破了合成质量的“天花板”。为应对这一新范式带来的内容保真度挑战和训练-推理分布不匹配问题,论文进一步引入了交错文本-音频建模(通过文本锚点引导内容生成)和基于DPO的偏好对齐(使用真实输入进行后训练以弥合分布差距)。实验表明,MimicLM在自然度、说话人相似度和情感保真度上取得了与SOTA方法竞争甚至更优的结果,尤其在主观评价中表现突出,并有效降低了在真实输入上的词错误率。该工作为语音模仿提供了一种概念更简单、效果显著的新范式。 ...

2026-04-21 · 更新于 2026-06-19 · 3 min · 472 words

MINT-Bench: A Comprehensive Multilingual Benchmark for Instruction-Following Text-to-Speech

📄 MINT-Bench: A Comprehensive Multilingual Benchmark for Instruction-Following Text-to-Speech #语音合成 #基准测试 #多语言 #模型评估 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Huakang Chen (陈华康)(西北工业大学,音频、语音与语言处理实验室,ASLP@NPU) 通讯作者:Lei Xie (谢磊)(西北工业大学,音频、语音与语言处理实验室,ASLP@NPU) 其他作者: Jingbin Hu (胡景斌)(西北工业大学,ASLP@NPU) Liumeng Xue (薛刘猛)(南京大学,智能科学与技术学院) Qirui Zhan (詹启瑞)(西北工业大学,ASLP@NPU) Wenhao Li (李文浩)(西北工业大学,ASLP@NPU) Guobin Ma (马国斌)(西北工业大学,ASLP@NPU) Hanke Xie (谢涵科)(西北工业大学,ASLP@NPU) Dake Guo (郭大可)(西北工业大学,ASLP@NPU) Linhan Ma (马林汉)(西北工业大学,ASLP@NPU) Yuepeng Jiang (蒋月鹏)(西北工业大学,ASLP@NPU) Bengu Wu (吴本固)(宇图智能,北京) Pengyuan Xie (谢鹏远)(灵光乍现科技,上海) Chuan Xie (谢川)(灵光乍现科技,上海) Qiang Zhang (张强)(灵光乍现科技,上海) 💡 毒舌点评 亮点:这篇论文精准地戳中了指令跟随TTS领域的“阿喀琉斯之踵”——评估。它不像某些工作那样“造轮子”,而是“造尺子”,并且是一把设计精巧、刻度分明、还能换着语言用的“多功能智能尺”。其分层分类和诊断性评估的思路,为混乱的评估现状带来了急需的秩序。 槽点:尺子本身好不好用,很大程度上依赖于“持尺人”(即评估器Gemini)。虽然论文做了人类一致性验证,但将评估标准很大程度上托付给一个商业黑盒API,总让人感觉根基不够稳固,未来可能需要更开放、可复现的评估模型。 🔗 开源详情 代码与工具:论文明确承诺将开源数据构建和评估工具包。项目主页为 https://longwaytog0.github.io/MINT-Bench/,并提供了用于接收反馈的GitHub Issue链接。 数据集:MINT-Bench基准数据集本身将开源,包含10种语言的指令-文本对。 模型权重:本文不涉及提出新的TTS模型,因此不涉及模型权重开源。但评估中使用了多个开源和商业模型。 在线Demo:论文主页提供了Demo链接。 依赖的开源项目:评估中使用了开源ASR模型(Paraformer-zh, Whisper Large-v3)和说话人嵌入模型(WavLM-Large)。 📌 核心摘要 这篇论文旨在解决指令跟随文本转语音(TTS)领域缺乏系统化评估工具的问题。当前评估存在覆盖不全、诊断粒度粗、多语言支持弱等缺陷。为此,作者提出了MINT-Bench,一个全面的多语言基准测试。其核心方法包括:1)一个基于10种原子声学属性的分层多轴分类法,系统性地组织了从简单到复杂(如组合、动态、角色扮演)及特殊(如非言语事件)的控制案例;2)一个三阶段数据构建流程(节点规范->结构化标签规划->指令-文本对生成),确保生成语义清晰、无属性泄露的测试用例;3)一个分层混合评估协议,依次评估内容一致性(基于ASR和WER)、指令跟随(基于大型音频语言模型判断)和感知质量/音色多样性。在十种语言上的实验表明,当前系统远未解决该问题:商业系统整体领先,但开源模型在中文等本地化场景中已具竞争力;内容保真度高不等于可控性强,复杂的组合和副语言控制仍是主要瓶颈。该工作为可控、多语言的语音生成研究提供了重要的诊断和评估基础。 ...

2026-04-21 · 更新于 2026-06-19 · 2 min · 284 words

Prosody as Supervision: Bridging the Non-Verbal--Verbal for Multilingual Speech Emotion Recognition

📄 Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition #语音情感识别 #领域适应 #最优传输 #自监督学习 #多语言 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者 (共同):Girish (UPES, India) 第一作者 (共同):Mohd Mujtaba Akhtar (Veer Bahadur Singh Purvanchal University, India) 通讯作者:Muskaan Singh (Ulster University, UK) 机构: UPES, India Veer Bahadur Singh Purvanchal University, India Ulster University, UK (具体为Ulster University的某个实验室/课题组,论文未明确指出) 💡 毒舌点评 亮点:这篇论文最妙的地方在于“换道超车”——当大家还在为标注好的多语言情感语音数据发愁时,它另辟蹊径,用几乎“免费”的非言语情感声音(笑、哭、叹气)作为监督信号,去教模型理解说话人的情感,这个视角非常新颖且具有启发性。 槽点:方法有点“堆料”之嫌,双曲几何、最优传输、向量量化全用上了,模型复杂度不低。虽然实验结果漂亮,但让人不禁怀疑,在实际低资源场景中,这套复杂系统的训练稳定性和部署成本是否会成为新的瓶颈。 🔗 开源详情 代码:论文中提供了GitHub仓库链接:https://github.com/helixometry/NOVA-ARC,表明代码计划或已经开源。 项目页面:提供了项目主页:https://helixometry.github.io/NOVA-ARC---ACL26/,通常用于展示更多结果和资源。 模型权重:论文中未明确说明是否公开预训练模型权重。但基于其开源代码的承诺,模型权重有可能随代码一同发布。 数据集:使用了多个公开数据集(ASVP-ESD, MESD, AESDD, RAVDESS, Emo-DB, CREMA-D),论文中提供了引用和获取方式的描述。 预训练权重:使用了开源的预训练模型(voc2vec, WavLM, wav2vec 2.0, MMS),并给出了HuggingFace等平台的链接。 在线Demo:论文中未提及在线演示。 依赖的开源项目:论文明确引用了voc2vec, WavLM, wav2vec 2.0, MMS等预训练模型作为基础编码器。 📌 核心摘要 这篇论文旨在解决低资源多语言语音情感识别(SER)中标注数据稀缺的核心瓶颈。作者提出了一个颠覆性的范式:将SER重新定义为无监督的“非言语到言语”迁移问题。其核心假设是,非言语发声(如笑、哭)中蕴含的韵律情感线索比言语更纯粹、更跨语言,因此可以作为更好的监督源。为此,作者设计了NOVA-ARC框架,它首先在标注的非言语数据上学习情感表征,并将其映射到双曲空间以捕捉情感的层级结构。通过一个双曲向量量化码本对韵律模式进行离散化,并与连续表征融合。对于无标签的目标言语数据,框架采用基于双曲最优传输的原型对齐方法,将目标语音样本软性地对齐到源域的情感原型上,从而诱导出伪监督信号进行自适应训练。实验在ASVP-ESD及五个公开言语SER数据集上进行,结果表明,NOVA-ARC在非言语到言语的迁移设定下, consistently 优于包括语音SSL模型在内的多种强基线,并在言语到言语的迁移设定中也表现出色。该工作首次为多语言SER提供了一种不依赖目标语言标签的、可扩展的监督新范式。 ...

2026-04-21 · 更新于 2026-06-19 · 3 min · 617 words

VoxSafeBench: Not Just What Is Said, but Who, How, and Where

📄 VoxSafeBench: Not Just What Is Said, but Who, How, and Where #语音大模型, #基准测试, #鲁棒性, #多语言 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者:Yuxiang Wang(香港中文大学(深圳),Amphion Technology Co., Ltd.) 通讯作者:Zhizheng Wu(香港中文大学(深圳),深圳湾区研究院,Amphion Technology Co., Ltd.) 其他作者: Hongyu Liu(香港中文大学(深圳)) Yijiang Xu(香港中文大学(深圳)) Luchao Yao(香港中文大学(深圳)) Qinke Ni(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Wan Lin(香港中文大学(深圳)) Kunyu Feng(香港中文大学(深圳)) Dekun Chen(香港中文大学(深圳)) Xu Tan(未明确机构,根据上下文推断可能与Amphion或合作方相关) Lei Wang(未明确机构) Jie Shi(未明确机构) 💡 毒舌点评 亮点:这篇论文最大的贡献是“掀桌子”——它用一个设计精巧的基准(VoxSafeBench)清晰地证明,当前顶尖的语音大模型在文字游戏(文本安全)上可能很溜,但一旦涉及“听话听音”(谁在说、怎么说、在哪说),其社会常识和道德判断就集体掉线,暴露出严重的“语音接地”缺陷。其“两层设计”像一把精准的手术刀,切开了模型“知道”和“做到”之间的鸿沟。 槽点:评测框架虽然全面,但稍显复杂,22个任务对于快速复现和模型迭代可能是个挑战。此外,合成语音数据终究与真实世界充满噪声和不确定性的交互有差距,论文自己也承认了这点。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/amphionteam/VoxSafeBench 数据集:已公开。项目主页提供了数据获取链接:https://amphionteam.github.io/VoxSafeBench_demopage/ 模型权重:论文本身不涉及发布新模型,而是评估现有模型。评测代码支持评估列表中的开源和闭源模型。 预训练权重:不适用。 在线Demo:项目主页可能提供,论文中未明确说明。 引用的开源项目:论文中明确使用了CosyVoice3(语音合成)、Whisper-large-v3(语音识别/质量过滤)、DeepSeek-V3/Kimi-K2.5/GPT-5.2(作为LLM法官)等开源或公开可用的模型。 📌 核心摘要 这篇论文旨在解决当前语音语言模型(SLM)社会对齐评估不全面、不深入的问题。现有基准要么只关注基础音频理解,要么孤立地研究单一风险,无法区分模型是因“不懂”还是因“没用对地方”而失败。为此,作者提出了VoxSafeBench,这是首个联合评估SLM在安全、公平、隐私三大社会对齐维度上的综合基准。其核心方法是创新的两层(Two-Tier)设计:Tier 1评估内容中心风险(文本本身有害),通过对比文本、干净音频和多样音频输入,揭示跨模态对齐差距;Tier 2评估音频条件风险(文本无害,但正确响应依赖于说话人、副语言或环境线索),这是本工作的精髓。为确保Tier 2的效度,论文采用了三项关键控制:所有转录文本被验证为无害;构建了“文本参考上限”(将声学线索文本化后,文本模型表现接近饱和);并通过“中间感知探测”证实前沿SLM能感知相关声学线索但仍做出不安全响应。对多个领先SLM的评估一致表明:在文本层面看似稳健的安全防护,在语音场景中显著退化。模型经常能识别文本中的社会规范,却无法在决策线索必须通过语音接地时应用该规范,揭示了普遍存在的**“语音接地差距”**。该工作为评估和提升SLM的社会对齐能力提供了系统化的框架和关键洞见。 ...

2026-04-21 · 更新于 2026-06-19 · 2 min · 321 words