NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations

📄 NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations #语音合成,#基准测试,#模型评估,#大语言模型 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Liumeng Xue(南京大学,智能软件与系统实验室) 通讯作者:Hung-yi Lee(国立台湾大学,语音处理实验室),Yike Guo(香港科技大学,大数据研究院) 其他作者: Weizhen Bian(南京大学) Jiahao Pan(香港科技大学) Wenxuan Wang(南京大学) Yilin Ren(北京科技大学) Boyi Kang(西北工业大学) Jingbin Hu(上海交通大学) Ziyang Ma(南京大学) Shuai Wang(香港中文大学) Xinyuan Qian(南京大学) 💡 毒舌点评 这篇论文的亮点在于它像个“语音界的ISO标准委员会”,系统性地为“叹气、傻笑、打嗝”这些上不了台面的非语言声音建立了从分类、数据到评测的完整规范,方法严谨得像个实验手册。槽点是它主要贡献了一套“裁判培训手册”和“记分牌”,而不是训练出更会“叹气”的明星选手本身,对于追求新模型的读者来说可能不够“性感”。 📌 核心摘要 本文旨在解决语音合成(TTS)领域中非语言声音(NVV,如笑声、叹息、哭泣)缺乏标准化评估框架的问题。为此,作者提出了NVBench,一个双语(英/中)基准测试。其核心方法包括:1)设计了一个涵盖45种NVV类型的统一分类法;2)构建了一个类型均衡的高质量双语评估数据集;3)提出了一套多轴评估协议,将通用语音自然度/质量与NVV特有的可控性、放置准确性和感知显著性解耦。通过对15个代表性TTS系统(包括商业和开源模型)的广泛评测,主要发现是:NVV的可控性常与语音整体质量解耦;低信噪比的口腔音(如咂嘴)和长时程情感性NVV(如哭泣)是当前系统的持续瓶颈。该工作为跨系统、跨控制接口的公平比较提供了统一框架,推动了拟人化语音生成的研究。 🏗️ 模型架构 本文的核心贡献并非提出一个新的端到端TTS模型架构,而是建立一个用于评估现有TTS系统NVV合成能力的基准测试框架(NVBench)。其整体流程如图1所示,可分为三个核心模块: 数据集模块:基于统一的45类NVV分类法,构建了一个包含2250个英文和2250个中文实例的平衡评估集。每个实例包含text(纯文本)、text_with_nvv(插入NVV标签的文本)、caption_with_nvv(描述NVV的自然语言 caption)和nvv_list(NVV类型标签)。 合成模块:将数据集输入到待评测的TTS系统中。这些系统分为两类: 基于标签(Tag-based)的系统:通过在文本中插入如[laugh]这样的标签来控制NVV生成(如ChatTTS, ElevenLabs)。 基于提示(Prompt-based)的系统:通过自然语言描述(caption)来控制语音属性,包括NVV(如Gemini, GPT-4o mini TTS)。 评估模块:采用多轴评估协议,对生成的语音进行三方面评估: 客观指标:包括语音质量(DNSMOS)、可懂度(WER/CER)、以及针对标签系统的NVV可控性指标(精确率、召回率、F1、归一化标签距离NTD)。 主观指标:通过人工听力测试评估自然度、质量、NVV感知效果、指令遵循度等。 LLM多评委评估:使用音频感知大语言模型(如Gemini 2.5 Pro)作为自动化评委,模仿主观评分标准进行可扩展的评估。 整个框架的设计目标是解耦和标准化,使得不同控制接口、不同能力的TTS系统可以在同一套数据和标准下进行公平比较。 💡 核心创新点 统一的NVV分类法与基准数据集: 是什么:提出了一个涵盖呼吸、喉咙/生理、笑声谱、哭声谱、情感发声、口腔/其他共6大类、45细类的NVV分类体系,并依此构建了均衡的双语评估数据集。 之前的方法:现有TTS系统和数据集支持的NVV类型有限、碎片化且标签不一致,缺乏统一标准。 如何解决:通过调研现有系统和数据集,结合发声机制和交际功能,设计了更全面、模型无关的分类法。数据构建采用“LLM辅助种子挖掘-分类法驱动可控生成-迭代验证”的三阶段流程,确保数据质量和类型平衡。 多轴评估协议: 是什么:将评估维度明确分为通用语音维度(自然度、质量)和NVV特异性维度(可控性、放置准确性、感知显著性),并为每类维度设计了对应的客观、主观和LLM评估指标。 之前的方法:传统TTS评估侧重于语音质量和文本对齐,对非语言成分的评估零散且不系统。 如何解决:引入如NVV指令遵循度(IF)、NVV准确性、NVV感知效果(PE)等新主观指标,以及针对标签系统的NVV精确率/召回率/NTD等客观指标,实现了对NVV合成能力的细粒度剖析。 全面的系统实证研究与发现: 是什么:对15个涵盖商业与开源、标签与提示控制的TTS系统进行了大规模对比评测,并揭示了关键发现。 之前的方法:缺乏在统一框架下对不同技术路线的系统进行横向比较。 如何解决:通过标准化测试,量化了不同系统的能力图谱。关键发现包括:a) NVV可控性与语音整体质量常解耦;b) 低信噪比口腔音和长时程情感NVV是普遍瓶颈;c) 系统存在“选择性遵从”现象(如ChatTTS只擅长少数NVV类型)。 LLM作为可扩展评估器: 是什么:系统性地应用并验证了音频感知LLM(Gemini 2.5 Pro)作为多评委进行语音评估的可行性。 之前的方法:人工评估成本高、不可扩展;传统客观指标无法评估语义和语用层面。 如何解决:设计了匿名化、随机化、严格遵循评分标准、多轮三折验证等控制措施,使LLM评估结果与人工判断趋势一致,为大规模、可重复的语音评估提供了新工具。 🔬 细节详述 训练数据:本文不涉及新模型的训练,因此无相关细节。但其评估数据集构建过程详细: 种子挖掘:从InstructTTSEval双语语料库中,使用Gemini 2.5 Pro作为多模态标注器识别NVV,再经三人人工审计,得到约110个高置信度种子。 可控生成:使用Gemini 2.5 Pro,针对45类NVV中的每一类,按照统一的四字段模式(text, text_with_nvv, caption_with_nvv, nvv_list)生成文本候选,要求自然、可感知、单类为主。 迭代验证:自动一致性检查(模式、标签匹配)后,进行人工质量控制(跨字段一致性、上下文合理性),对不足50例的类别进行补充生成和验证。 评估指标细节: 客观NVV可控性指标:使用Gemini 2.5 Pro作为验证器,在给定参考文本和目标NVV类型的情况下,判断生成语音中该NVV是否存在并插入标记,从而计算类型正确性和粗略起始位置。定义了匹配规则(类型相同且起始位置索引差≤容忍度δ)和NTD(归一化起始误差)。 主观评分标准:采用5分制李克特量表,对NVV相关指标(如IF, Accuracy, PE)设置了0分档位,表示目标NVV缺失或几乎听不见。 LLM多评委设置:使用Gemini 2.5 Pro,采样温度0.2,固定随机种子。采用三轮三折评估,每个样本由4个独立评委评估子集,最终聚合分数。采用匿名化(A/B/C)和比较评估模式。 系统覆盖:评测了7个基于提示的系统(如Gemini 2.5 Pro/Flash, GPT-4o mini TTS, Qwen3-TTS等)和8个基于标签的系统(如ElevenLabs, ChatTTS, Orpheus TTS, CosyVoice 2等),具体支持的NVV类型和数量见表2。 📊 实验结果 客观结果(表2.4.2节): 提示系统:Qwen3-TTS在英文WER(2.06)和CER上最低,CLAP分数(0.45)最高。GPT-4o mini TTS的DNSMOS OVRL(4.14)最高。Gemini系统WER较高(如Flash英文58.8),但DNSMOS不错。 标签系统:ElevenLabs英文覆盖度0.27,F1达0.720,NTD为0.0091。ChatTTS覆盖度仅0.02,但中文F1高达0.703。Orpheus TTS英文F1最高(0.728),NTD最低(0.0031)。 主观结果(表2.4.2节): 提示系统:英文整体自然度最高为Gemini 2.5 Pro(4.07),中文为Qwen3-TTS(3.45)。NVV指令遵循度(IF)英文最高为Gemini 2.5 Pro(2.74),中文为Gemini 2.5 Flash(2.42)。 标签系统:ElevenLabs在英文和中文的整体自然度(4.60/4.09)、质量(4.71/4.31)、NVV感知效果(PE)(3.92/3.38)、准确性(4.21/3.41)和整体表现力(4.28/3.98)上均领先。CosyVoice 2中文质量评分最高(4.35)。 LLM评估结果(表3): LLM评分总体趋势与人工评分一致。在标签系统中,LLM consistently favor ElevenLabs。在提示系统中,Gemini 2.5 Flash在提示相关指标上得分高。 消融实验(表6): 对于ElevenLabs(标签),启用NVV控制后,在自然度、质量和表现力上的比较平均意见得分(CMOS)均为正,表明更受偏好。 对于Gemini 2.5 Pro(提示),启用NVV控制后,CMOS在自然度和质量上为负,表现力提升微弱。 按类型分析(图2热力图): 覆盖差距:标签系统(上半部分)热力图稀疏,白色(缺失)多,说明支持的NVV类型有限。提示系统(下半部分)热力图密集。 类型难度:笑声、呼吸等高信噪比事件PE得分普遍较高。低信噪比口腔音(如tsk, sss)和长时程情感音(如哭泣、呜咽)得分普遍较低,是持续难点。 系统差异:ElevenLabs在标签系统中覆盖广且PE强。Gemini 2.5系列在提示系统中PE整体较强。 ⚖️ 评分理由 创新性:7/10 - 本文的创新不在于生成模型,而在于评估范式。它系统性地定义了问题空间(NVV分类)、构建了标准化工具(数据集、协议),并进行了详尽的实证分析。这种“基础设施”建设工作对领域发展至关重要,但本身不是算法上的突破性创新。 实验充分性:9/10 - 实验设计极为全面和严谨。涵盖了15个系统、两种控制接口、三类评估方法(客观、主观、LLM),并对结果进行了多角度深入分析(整体、按类型、消融)。数据详实,结论支撑有力。 实用价值:8/10 - 直接针对TTS迈向自然交互的核心痛点,提供了即用的评估基准。其发现(如哪些NVV类型难、系统存在选择性遵从)对指导未来模型研发有明确价值。开源计划将进一步提升其实用性。 灌水程度:2/10 - 论文内容扎实,从问题定义、方法设计到实验分析都紧扣主题,没有明显的冗余或夸大表述。图表和数据呈现清晰必要。 🔗 开源详情 代码:论文中提到代码将通过GitHub开源(链接:https://github.com/lmxue/NVBench),但截至论文发布时(arXiv v1)可能尚未公开。 模型权重:本文不涉及新模型的发布,因此没有新的模型权重。评测的是现有系统。 数据集:论文明确指出NVBench双语评估数据集将开源,可通过项目主页(https://lmxue.github.io/NVBench/)获取。数据集包含45类NVV,每类50个实例,共2250个英文和2250个中文实例。 预训练权重:不适用。 在线 Demo:论文中未提及。 引用的开源项目:论文评测中引用了多个开源TTS系统,如ChatTTS、Bark、Fish-Speech、Orpheus TTS、CosyVoice 2、Dia等。评估中使用的ASR工具(Whisper-large-v3, paraformer-zh)和DNSMOS也是开源工具。 🖼️ 图片与表格 图1:NVBench流程概览图 | 保留: 是 - 理由:清晰展示了基准测试的三个核心模块(数据集、合成、评估)及其内部流程,是理解全文方法的关键示意图。 图2:按NVV类型的感知效果(PE)热力图 | 保留: 是 - 理由:直观展示了不同系统在45种NVV类型上的表现差异,揭示了覆盖差距和类型难度,是核心结果图之一。 表1:NVV分类法 | 保留: 是 - 理由:完整列出了45种NVV类型及其所属类别,是本文的核心定义之一。 表2:评测的TTS系统及其支持的NVV类型 | 保留: 是 - 理由:详细列出了所有被评测系统支持的NVV类型和数量,是实验设置的关键信息。 表2.4.2(文中编号):客观与主观评测结果 | 保留: 是 - 理由:包含了所有系统在所有客观和主观指标上的详细数据,是支撑全文结论的最核心数据表格。 表3:LLM评估与人工评估的相关性(部分数据) | 保留: 是 - 理由:展示了LLM评估与人工评估趋势的一致性,验证了LLM作为评估工具的有效性。 表6:有/无NVV控制的消融实验CMOS结果 | 保留: 是 - 理由:通过对比实验,量化了显式NVV控制对感知质量的影响,是重要发现之一。 📸 论文图片 ...

2026-04-20

PS-TTS: Phonetic Synchronization in Text-to-Speech for Achieving Natural Automated Dubbing

📄 PS-TTS: Phonetic Synchronization in Text-to-Speech for Achieving Natural Automated Dubbing #语音合成 #音视频 #动态时间规整 #大语言模型 #多语言 ✅ 评分:6.0/10 | arxiv 👥 作者与机构 第一作者:Changi Hong(根据姓名顺序和论文常规推断) 通讯作者:Hong Kook Kim(根据论文常规,资深作者通常为通讯作者) 其他作者:Yoonah Song, Yoonah Song, Chaewoon Bang, Dayeon Gu, Do Hyun Lee 机构信息:论文摘要未提供明确的机构信息。根据arXiv常见模式和作者姓名,推断他们可能来自韩国某大学或研究机构(如光云大学等,因作者姓名为韩文)。具体实验室/课题组级别信息未在摘要中给出。 💡 毒舌点评 亮点:把配音的“对口型”难题,用DTW和音素距离这种信号处理+语音学的经典组合拳来解,思路清晰且工程上有效,比纯端到端黑箱更可解释。槽点:实验数据规模听起来不大(几个数据集),且在多语言实验中声称“表现最佳”却未与专门的多语言配音SOTA对比,有点“关起门来当第一”的味道。 📌 核心摘要 这篇论文旨在解决自动配音(AD)中目标语音与源语音在时长和唇形上的同步难题。其核心贡献是提出了一套两阶段的文本改写方法,并集成到TTS系统中:首先通过语言模型进行等时性改写,确保目标语音时长匹配源语音;其次引入音素同步(PS),使用动态时间规整(DTW)和从训练数据中学习的元音距离,使目标文本的元音发音尽可能接近源语音元音,以提升唇形同步效果。进一步地,论文提出了PSComet,在音素相似性的基础上联合考虑语义相似性,以更好地保留原文含义。实验表明,该方法(PS-TTS和PS-Comet TTS)在韩-英、英-韩的唇读数据集和配音演员数据集上,多项客观指标优于无PS的TTS,并在某些指标上超越人类配音演员。跨语言实验(涉及法语)也验证了PSComet在平衡唇形同步与语义保留方面的优越性。该工作为提升自动配音的自然度和观感提供了实用且可解释的技术路径,但其效果高度依赖于源-目标语言对的音素映射质量和训练数据。 🏗️ 模型架构 PS-TTS系统是一个流程化的管线,而非单一的端到端模型。其整体流程如下: 输入:源视频(含源语音)和翻译后的目标语文本。 第一阶段:等时性文本改写 组件:一个预训练的语言模型(LM),如T5或BART。 功能:接收翻译文本,并在不改变其核心语义的前提下,通过增删、替换词汇或调整句式,生成一个新版本的目标文本,使得该文本用目标语言TTS系统合成的语音时长,与源语音时长尽可能一致。 设计理由:直接控制时长是配音同步的基础,利用LM进行改写比规则方法更灵活自然。 第二阶段:音素同步(PS) 组件:动态时间规整(DTW)算法,其局部代价函数基于元音距离。 功能:对源语音和第一阶段输出的目标文本(已转为音素序列)进行对齐。对齐的依据不是文本本身,而是元音的声学或发音特征相似度。论文提到使用从训练数据中学习到的“元音距离”作为DTW的局部代价。这意味着,在改写时,算法倾向于选择那些发音与对应源语音元音更相似的目标语元音,从而在发音时嘴型更接近,提升唇形同步(lip-sync)效果。 扩展 - PSComet:在PS的基础上,引入一个名为Comet的模型(可能是一个多语言预训练模型),它能够同时计算语义相似度和音素相似度。PSComet在DTW对齐或文本选择时,综合权衡这两个因素,避免为了极致的唇形同步而严重扭曲语义。 输出:经过两阶段优化的目标语文本。 TTS合成:将优化后的文本输入标准的TTS系统(如基于VITS、FastSpeech2等),生成最终的目标语音。 整体数据流:源语音 + 翻译文本 -> LM(等时性改写) -> 中间文本 -> DTW+PSComet(音素/语义同步改写) -> 优化文本 -> TTS引擎 -> 目标语音。 💡 核心创新点 将配音同步问题解耦为文本改写问题:创新性地将复杂的音视频同步挑战,转化为对翻译后文本进行两阶段(时长、音素)改写的自然语言处理任务,使得问题更结构化、可解释。 基于音素距离的DTW对齐机制:不同于传统的基于文本或语义的对齐,本方法创新地使用目标语与源语元音之间的发音相似度作为DTW对齐的驱动力,直接针对“唇形”这一物理属性进行优化,是提升lip-sync的关键。 语义-音素联合优化的PSComet:认识到单纯追求音素同步可能损害语义,提出了PSComet框架,在目标文本选择时联合优化语义保真度和音素相似度,实现了两者间的更好平衡,这是对单纯PS方法的重要改进。 🔬 细节详述 训练数据: 用于学习“元音距离”的数据:论文提及使用“训练数据”,但未明确具体名称。推测是用于训练底层TTS系统的多语言语音-文本对齐数据,从中可以提取元音的声学特征(如MFCC、F0)或发音特征(如Vowel Space)来计算距离。 用于评估的数据集:Korean and English lip-reading datasets(可能指LRS2/LRS3等)、a voice-actor dubbing dataset(自建或特定数据集)、以及French数据用于跨语言测试。 损失函数:论文主要描述的是流程方法而非可端到端训练的模型,因此未明确提及统一的损失函数。各阶段目标独立:等时性阶段目标为时长匹配;PS阶段目标为最小化DTW总代价(即累积的元音距离);PSComet阶段目标为最大化语义与音素联合得分。 训练策略: 语言模型(LM):使用预训练模型进行微调或直接提示工程(Prompting)进行文本改写。 元音距离模型:可能使用一个简单的神经网络或度量学习方法,在语音数据上训练,以区分不同元音的发音。 TTS系统:使用现成的预训练TTS模型(如VITS),在目标语言数据上微调或直接使用。 关键超参数:DTW中语义相似度和音素相似度的权重(在PSComet中),用于平衡两者的重要性。论文中应通过实验确定最佳权重。 推理细节:推理过程是一个确定性的流程:输入源语音和文本,依次经过LM改写、DTW对齐与文本优化,最后送入TTS生成语音。无随机采样。 数据增强/正则化:未明确提及。可能依赖于预训练LM和TTS模型自身的能力。 📊 实验结果 主要指标对比: 论文指出,PS-TTS和PS-Comet TTS在多个客观指标上优于不使用PS的TTS基线。 在韩-英和英-韩配音中,系统在某些指标上超越了人类配音演员。但摘要未给出具体数值(如LSE-D, LSE-C, SyncScore等唇形同步指标,或MOS、MOSNet等语音质量指标)。 跨语言实验(含法语)中,PSComet在所有语言对中表现最佳,在唇形同步精度和语义保留之间取得了最佳平衡。 消融实验:摘要隐含了消融对比:TTS (无PS) vs PS-TTS vs PS-Comet TTS。结果表明,加入PS能提升同步性,而进一步加入语义约束(PSComet)能在保持或提升同步性的同时,获得更好的语义保留。 与SOTA方法的对比:未在摘要中体现。这是主要缺陷之一。 用户研究/主观评价:摘要未提及是否有MOS等主观评价实验。 ⚖️ 评分理由 创新性:6.5/10。将语音合成与唇形同步通过文本改写和音素对齐相结合的思路具有启发性,PSComet的联合优化也是有价值的改进。但核心组件(LM, DTW, TTS)均为成熟技术,创新在于巧妙的流程设计和组合。 实验充分性:6.0/10。实验设计了多语言、多数据集验证,并与人类对比,有一定说服力。但缺乏与领域内已有SOTA方法的直接对比,且未提供具体实验数据数字,削弱了结论的强度。数据规模未知。 实用价值:7.5/10。直接针对影视、视频本地化中的自动配音痛点,提出的流程清晰,有望直接集成到现有配音工作流中,实用导向明确。 灌水程度:3.0/10(越低越好)。论文问题聚焦,方法描述清晰,无明显的冗余内容或夸大表述。主要不足在于实验对比不够全面。 🔗 开源详情 论文摘要中未提及任何关于代码、模型权重、数据集或预训练权重的开源计划。因此,推断相关资源未开源。 ...

2026-04-20

Qwen3.5-Omni Technical Report

📄 Qwen3.5-Omni Technical Report #语音对话系统, #音频大模型, #多模态模型, #预训练, #流式处理 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者:论文以“Qwen Team”署名,未明确列出第一作者。根据贡献者列表排序和惯例,Jin Xu(标注为*)很可能是核心贡献者及通讯作者。 通讯作者:Jin Xu (*) 其他作者:论文列出了大量核心贡献者(Core Contributors)和贡献者(Contributors),均来自阿里巴巴(Alibaba) 的通义千问(Qwen)团队。具体包括:Bin Han, Bowen Xu, Baosong Yang, Bin Zhang, Bo Zheng, Dayiheng Liu, Fan Zhou, Hongkun Hao, Hangrui Hu, Hao Zhou, Jianxin Yang, Jingren Zhou, Keqin Chen, Lulu Hu, Le Yu, Mingkun Yang, Peng Wang, Pei Zhang, Qize Yang, Rui Men, Ruiyang Xu, Shuai Bai, Shurui Li, Sibo Song, Ting He, Xize Cheng, Xuejing Liu, Xingzhang Ren, Xian Shi, Xiong Wang, Xinyu Zhang, Xinfa Zhu, Yunfei Chu, Yuanjun Lv, Yuchong Sun, Yongqi Wang, Yuxuan Wang, Yang Zhang, Zishan Guo, Zhifang Guo, Ziyang Ma 等。 💡 毒舌点评 亮点:这篇论文堪称“全模态六边形战士”,从音频编码器(AuT)到统一理解的Thinker,再到生成语音的Talker,最后到流式交互的ARIA,形成了一套完整且强大的技术栈,在215个基准上“刷榜”的实力令人印象深刻。 槽点:论文长得像一本小技术手册,信息密度极高,读起来需要耐力;另外,虽然API已开放,但未能开源代码和模型权重,对于学术界的研究复现和深度改进设置了门槛。 ...

2026-04-20

Spatial-Aware Conditioned Fusion for Audio-Visual Navigation

📄 Spatial-Aware Conditioned Fusion for Audio-Visual Navigation #声源定位 #多模态模型 #强化学习 #基准测试 ✅ 评分:7.0/10 | arxiv 👥 作者与机构 第一作者:Shaohang Wu(新疆大学计算机科学与技术学院,具身智能联合实验室,丝绸之路多语言认知计算联合国际实验室) 通讯作者:Yinfeng Yu(新疆大学计算机科学与技术学院,具身智能联合实验室,丝绸之路多语言认知计算联合国际实验室;邮箱:yuyinfeng@xju.edu.cn) 其他作者:无其他作者 💡 毒舌点评 这篇论文把 FiLM 这瓶“旧酒”装进了音频-视觉导航的“新瓶”,效果居然出奇地好——只增加了 0.15M 参数就把 unheard 场景的 SR 拉高了 28 个百分点,堪称“少即是多”的典范。但槽点在于 SDLD 的 20 个离散区间完全靠拍脑袋(“30米除以20约等于1.5米步长”),连个区间数消融都没有;且整篇论文对 FiLM 的引用和改造堪称“教科书级搬运”,说成“建立新范式”多少有点给自己加戏。 📌 核心摘要 本论文针对音频-视觉导航(AVN)中目标空间意图模糊、视觉特征缺乏听觉条件引导两大问题,提出了 Spatial-Aware Conditioned Fusion(SACF)框架。该框架首先设计了 Spatially Discretized Localization Descriptor(SDLD),将声源相对方向与距离离散化为 20 个区间并预测其概率分布,通过期望计算与 LSTM 时序精炼得到紧凑空间描述符;其次提出了 Audio-Descriptor Conditioned Visual Fusion(ACVF),基于音频嵌入与空间描述符生成 FiLM 通道调制参数(γ, β),对视觉特征图进行轻量化线性变换,从而抑制背景噪声、增强目标导向视觉表示。在 SoundSpaces 的 Replica 与 Matterport3D 数据集上,SACF 在深度输入设置下显著超越 SoundSpaces 基线,尤其在 Unheard 场景(未听过目标声音)下 Replica 的 SR 提升 28.2%、Matterport3D 的 SPL 提升 20.5%。整体模型参数量仅约 4.5M,以较低计算开销实现了强泛化性。局限性在于 RGB 输入下部分指标(如 SNA)仍略低于对比方法 AGSA,且未进行真实世界迁移验证。 ...

2026-04-20

Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models

📄 Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models #音频问答 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Yanda Li(Mohamed bin Zayed University of Artificial Intelligence, UAE) 其他作者:Yuhan Liu(Mohamed bin Zayed University of Artificial Intelligence, UAE),Zirui Song(Mohamed bin Zayed University of Artificial Intelligence, UAE),Yunchao Wei(Beijing Jiaotong University, China),Martin Takáč(Mohamed bin Zayed University of Artificial Intelligence, UAE),Salem Lahlou(Mohamed bin Zayed University of Artificial Intelligence, UAE) 通讯作者:未明确标注(推断为 Salem Lahlou 或 Yanda Li,依据为末位作者惯例及第一作者联系邮箱 Yanda.Li@mbzuai.ac.ae) 💡 毒舌点评 把“音频糊一下再对比”这个直觉包装成了系统化的免训练解码框架,稳定性自适应和门控设计确实让方法显得精致而非粗暴;但Prefill阶段 latency 直接翻倍的事实被轻描淡写地塞进了Appendix,而且这招对 SALMONN 这类把音频压成语义查询向量的模型完全失效——本质上是在给统一LALMs的解码器打补丁,修的是架构遗留的bug。 ...

2026-04-20

The Acoustic Camouflage Phenomenon: Re-evaluating Speech Features for Financial Risk Prediction

📄 The Acoustic Camouflage Phenomenon: Re-evaluating Speech Features for Financial Risk Prediction #语音生物标志物 #多模态模型 #跨模态 #模型评估 📝 评分:2.5/10 | arxiv 👥 作者与机构 第一作者:Dhruvin Dungrani(Department of Information Systems, Independent Researchers) 通讯作者:未明确标注 其他作者:Disha Dungrani(Department of Information Systems, Independent Researchers) 💡 毒舌点评 这篇论文最大的学术贡献似乎是给“高管上过播音课所以声音不紧张”这个现象取了一个名叫“Acoustic Camouflage”的酷炫术语;全篇最硬核的技术栈是三个逻辑回归,放在今天大概连Kaggle入门赛都进不了前十。更尴尬的是,图1用MAE默默展示融合后误差其实变小了,与正文疯狂强调的Recall暴跌形成了史诗级互搏。 📌 核心摘要 本研究探讨了在企业财报电话会议中,副语言声学特征(音高、抖动、停顿等)对预测灾难性股价下跌的效用。作者基于MAEC数据集,提取了两种模态的特征:文本端使用FinBERT计算脚本化开场白与即兴Q&A之间的情感极性差异(Sentiment Delta),音频端提取临床语音压力标记的方差特征(音高方差、抖动方差、平均NHR、非 voiced 分数方差)。为避免噪声早期传播,作者采用双流晚期融合架构——两个L1正则化逻辑回归分别处理单模态,再由一个L2正则化逻辑回归元学习器融合概率输出。实验发现,孤立文本流的少数类召回率达到66.25%,而孤立音频流仅50.83%;违背直觉的是,晚期融合后召回率进一步跌至47.08%。作者将这一现象命名为“Acoustic Camouflage”(声学伪装):经过媒体训练的高管能在语音上维持镇定,使音频流释放与真实风险相反的低风险噪声,从而在多模态平均中“稀释”了文本流的高风险信号。该研究为高风险金融预测中的语音处理应用划定了边界条件,但也指出VoIP压缩和降噪算法可能进一步破坏声学信号的真实性。 🏗️ 模型架构 论文提出的系统是一个极简���双流晚期融合诊断架构,整体流程如下: 1. 输入层 数据源:MAEC(Multimodal Aligned Earnings Conference Call)数据集,包含对齐的财报电话会议音频与文本转录。 文本输入:截取每场会议的两个片段——前1,500字符(高度脚本化的管理层开场白)和Q&A环节中1,500字符(非脚本化即兴回答)。 音频输入:与上述文本对齐的电话会议原始音频信号。 2. 特征提取层 文本流(1维标量输出): 使用预训练语言模型 FinBERT 分别对脚本段和即兴段进行情感极性编码。 计算 Sentiment Delta:两段情感极性的数学差值,作为衡量“叙事结构崩溃”的代理变量。若高管在压力问答中情感显著低于脚本,则Delta绝对值增大。 音频流(4维向量输出): Pitch Variance:基频(F0)的方差,捕捉音高波动。 Jitter Variance:周期到周期频率不稳定性(抖动)的方差。 Mean NHR(Noise-to-Harmonic Ratio):噪音和谐波比均值,作为声音嘶哑度的代理。 Variance of Unvoiced Fractions:无声音段(停顿、犹豫)比例的方差。 选择这些方差指标是为了对说话人基线差异进行归一化。 3. 基础分类层(两个独立的孤立流) ...

2026-04-20

TinyMU: A Compact Audio-Language Model for Music Understanding

📄 TinyMU: A Compact Audio-Language Model for Music Understanding #音乐理解 #音频大模型 #多模态模型 #数据集 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 作者:Xiquan Li, Aurian Quelennec, Slim Essid 论文中未明确标注作者所属机构(无机构名称、邮箱或地址信息)。 💡 毒舌点评 亮点:用 229M 参数的“小不点”在乐器识别上干翻了 8B 参数的巨无霸,堪称音乐 AI 界的“蚁人”——小而强悍。槽点:模型架构基本是“MATPAC++ 和 SmolLM2 的包办婚姻”,9M 的投影器充当媒婆,核心工作量似乎全花在造 350 万条 QA 数据上了;而且既然叫 TinyMU,能不能把 135M 的 LLM 也再压缩压缩? 📌 核心摘要 本文针对现有大型音频语言模型(LALM)参数庞大(数十亿级)、训练推理成本高、难以部署在边缘设备的问题,提出了 TinyMU——一个仅有 229M 参数的紧凑音乐语言模型。为此,作者构建了 MusicSkills-3.5M 数据集,包含 350 万个涵盖多选、二元判断和开放式格式的音乐问答样本,结合基于规则与 LLM 辅助的数据合成方法,覆盖流派、乐器、情绪、结构等多维度音乐知识。TinyMU 采用 MATPAC++(85M)作为自监督音频编码器提取细粒度特征,通过仅含两层线性层的轻量投影器(9M)与 SmolLM2-135M 语言模型对齐,并在训练时冻结编码器。实验表明,TinyMU 在乐器识别(Medley-Solos-DB)上甚至超过 8B 模型,在 MuChoMusic 推理基准上达到 SOTA 模型的 82%,同时体积缩小 35 倍。然而,论文在训练超参数、硬件开销等方面披露不足,且未开源。 ...

2026-04-20

VoxMind: An End-to-End Agentic Spoken Dialogue System

📄 VoxMind: An End-to-End Agentic Spoken Dialogue System #语音对话系统 #语音大模型 #端到端 #数据集 🔥 评分:8.5/10 | arxiv 👥 作者与机构 共同第一作者:Tianle Liang(浙江大学;China University of Petroleum-Beijing at Karamay),Yifu Chen(浙江大学),Shengpeng Ji(浙江大学) 通讯作者:Zhou Zhao(浙江大学,zhaozhou@zju.edu.cn) 其他作者:Yijun Chen(China University of Petroleum-Beijing at Karamay),Zhiyang Jia(China University of Petroleum-Beijing at Karamay),Jingyu Lu(浙江大学),Fan Zhuo(浙江大学),Xueyi Pu(浙江大学),Yangzhuo Li(厦门大学) 💡 毒舌点评 亮点:VoxMind把文本Agent那套"先想后说"的套路成功塞进了端到端语音模型里,还顺手用"辅助LLM异步捞工具"治好了工具一多就卡顿的绝症,实验硬到能把Gemini-2.5-Pro按在地上摩擦。 槽点:470小时的训练数据全靠TTS合成,遇到真人说话时的"嗯…那个…"、结巴和背景噪音立刻掉7个点;所谓"Think-before-Speak"本质上就是在语音流里硬插了一段文本CoT,延迟该高还是高,作者自己也承认这是"必要的 trade-off"——翻译一下就是"我知道慢,但先忍着"。 📌 核心摘要 端到端语音对话模型在自然交互上进步迅速,但普遍缺乏处理复杂任务的agent能力(工具调用、规划、推理)。本文首先形式化定义了"端到端语音智能体"的四大维度——画像(Profile)、记忆(Memory)、规划(Planning)与执行(Action Execution),填补了该领域理论标准的空白。在此基础上提出VoxMind框架,引入"Think-before-Speak"机制,使模型在生成语音响应前显式产出结构化推理链(Chain-of-Thought);并构建470小时的AgentChat数据集,包含工具交互与通用对话数据,且全部标注了推理轨迹与工具调用标签。为解决大规模工具库带来的推理延迟爆炸问题,VoxMind设计了多智能体动态工具管理架构:主agent专注于推理与行动,辅助LLM异步从全局工具池中检索候选工具,仅当主agent判定本地工具不足时才动态扩容局部工具集,从而将推理延迟与工具库规模解耦。实验表明,VoxMind的任务总体完成率达74.57%,较基线StepAudio2(34.88%)相对提升113.79%,并超越闭源模型Gemini-2.5-Pro(71.51%);同时在VoiceBench通用对话评测上保持了与基线相当的能力。局限在于显式推理引入了额外的推理延迟,且AgentChat数据依赖TTS合成,与真实口语的自发性和不流畅性存在差距。 🏗️ 模型架构 VoxMind是一个基于StepAudio2微分的端到端语音智能体,其系统状态在时刻t被严格形式化为三元组: S_t = (O_t, H_t, A_t) O_t(观测):包含当前用户输入X_t(语音token序列)以及环境/工具返回的结构化反馈O_t^env。 H_t(历史):累积的多模态交互历史,包含语义记忆与声学记忆。 A_t(动作空间):包含言语回复V和动态可访问的局部工具子集T_t^local ⊂ T_all。 完整输入输出流程: 语音编码:用户语音输入被编码为离散声学token(基于StepAudio2的tokenizer)。 思考阶段(Think):策略π_θ^think根据当前观测o_t、历史H_{t-1}和局部工具集T_t^local,显式采样生成一段Chain-of-Thought推理轨迹c_t。这段推理包含意图理解、上下文分析和任务规划,以文本token形式插入在最终输出之前。 行动阶段(Act):策略π_θ^act在条件c_t下,基于当前状态采样下一步动作a_t。动作可以是: 生成语音回复token,最终解码为语音波形; 生成结构化工具调用(JSON格式),包含工具名与参数。 动态工具更新(并行):在步骤2-3进行的同时,系统并行启动辅助LLM π_LLM,根据已生成的推理轨迹c_t从全局工具池T_all中检索候选工具T_t^cand。 条件状态转移:若主agent在步骤3发出的动作是检索动作a_retrieve(即判定当前局部工具不足),则下一时刻局部工具集更新为T_{t+1}^local = T_t^local ∪ T_t^cand;否则保持不变。随后主agent基于更新后的工具集执行下一步决策。 关键设计选择: ...

2026-04-20

语音/音频论文速递 2026-04-20

语音/音频论文速递 2026-04-20 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 基准测试 6篇 ██████ 多模态模型 5篇 █████ 语音对话系统 4篇 ████ 大语言模型 4篇 ████ 多语言 4篇 ████ 数据集 4篇 ████ 跨模态 3篇 ███ 模型评估 3篇 ███ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Beyond Monologue: Interactive Talking-Listening Avatar 9.0分 🥉 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 4 Generalizable Audio-Visual Navigation via Binaural Diff 8.5分 5 Hierarchical Codec Diffusion for Video-to-Speech Genera 8.5分 6 VoxMind: An End-to-End Agentic Spoken Dialogue System 8.5分 7 ArtifactNet: Detecting AI-Generated Music via Forensic 8.0分 8 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Du 8.0分 9 ActorMind: Emulating Human Actor Reasoning for Speech R 8.0分 10 Elucidating the SNR-t Bias of Diffusion Probabilistic M 8.0分 11 HARNESS: Lightweight Distilled Arabic Speech Foundation 7.5分 12 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speec 7.5分 13 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 14 AST: Adaptive, Seamless, and Training-Free Precise Spee 7.5分 15 Temporal Contrastive Decoding: A Training-Free Method f 7.5分 16 Joint-Centric Dual Contrastive Alignment with Structure 7.5分 17 Discrete Token Modeling for Multi-Stem Music Source Sep 7.0分 18 Spatial-Aware Conditioned Fusion for Audio-Visual Navig 7.0分 19 BlasBench: An Open Benchmark for Irish Speech Recogniti 7.0分 20 TinyMU: A Compact Audio-Language Model for Music Unders 6.5分 21 Interactive ASR: Towards Human-Like Interaction and Sem 6.5分 22 PS-TTS: Phonetic Synchronization in Text-to-Speech for 6.0分 23 MUSCAT: MUltilingual, SCientific ConversATion Benchmark 6.0分 24 The Acoustic Camouflage Phenomenon: Re-evaluating Speec 2.5分 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音对话系统, #音频大模型, #多模态模型, #预训练, | arxiv ...

2026-04-20

A Manual Bar-by-Bar Tempo Measurement Protocol for Polyphonic Chamber Music Recordings: Design, Validation, and Application to Beethoven's Piano and Cello Sonatas

📄 A Manual Bar-by-Bar Tempo Measurement Protocol for Polyphonic Chamber Music Recordings: Design, Validation, and Application to Beethoven’s Piano and Cello Sonatas #音乐信息检索 #音频理解 #信号处理 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者(推断):Ignasi Sole (ignasiphd@gmail.com) (推断为独立研究者或博士生,论文未明确标注所属机构) 通讯作者(推断):Ignasi Sole (ignasiphd@gmail.com) 其他作者:Jordi Altayó(KTH皇家理工学院,VLSI设计博士研究员,协议合作开发者) 💡 毒舌点评 这篇论文的亮点在于,当高大上的AI算法在“老破小”的历史录音面前集体翻车时,作者没有硬着头皮调参,而是非常务实地回归了“人肉计算”,并且把这个手动过程包装得极其严谨、透明,甚至比很多黑箱算法还让人信服。槽点则是,在2026年还在主推一个耗时数百小时的手动计时协议,这方法论“复古”得让人梦回上世纪,可扩展性基本为零,堪称音乐分析领域的“手工匠人精神”展演。 📌 核心摘要 本文旨在解决现有自动化节拍提取工具在分析历史复调室内乐录音(特别是贝多芬钢琴与大提琴奏鸣曲)时出现的系统性失败问题。作者与一名VLSI工程师合作,设计并验证了一套形式化的手动逐小节速度测量协议。该协议采用累积时间戳架构,使用数字秒表的圈速功能记录每个小节结束的累积时间,从而计算小节时长与瞬时BPM。其核心优势在于防止误差累积、允许内部自验证(所有小节时长之和必须等于总时长),并能精确捕捉自由速度、延长记号等表情性节奏变化。作者将该协议应用于1930年至2012年间超过100份录音,生成了公开的BPM数据集,并开发了包含tempograph、直方图、山脊图等多类型可视化工具套件。研究表明,在特定条件下,经过严谨设计和误差量化的人工标注方法,其可靠性和对音乐表现力的捕捉能力优于失效的自动化工具。该论文的主要贡献是方法论上的,为处理类似“困难”录音语料提供了可复现的解决方案。 🏗️ 模型架构 本文的核心并非一个计算模型,而是一套手动数据收集与处理协议。其整体架构(流程)如下: 输入:历史复调室内乐录音(音频文件)及对应乐谱。 核心测量流程: 工具:具备CSV导出功能的数字秒表应用(圈速计时器)。 操作:注释者跟随录音,在乐谱上标记的每个小节线处按下“圈速”按钮。 数据记录:秒表记录下从乐章开始到每个小节结束的累积时间戳(T_i),而非独立的小节时长。 数据处理与计算: 将累积时间戳导入电子表格(如Google Sheets)。 核心计算: 小节时长:Δt_i = T_i - T_{i-1} (其中 T_0 = 0)。 小节BPM:BPM_i = (n_i * 60) / Δt_i,其中 n_i 是该小节的拍数(来自节拍号)。 内部自验证:检查所有 Δt_i 的总和是否等于最终的累积时间 T_M(即乐章总时长),以此发现漏按或错按。 误差建模:分析人类反应时间(约±0.1秒)对单个BPM值的影响,并通过数学推导证明该误差是随机的、非累积的,且在段落平均中会相互抵消。 输出:每个乐章、每个录音的逐小节BPM数据集,以及基于此的多种可视化图表(tempograph, 直方图, 山脊图等)。 关键设计选择理由: ...

2026-04-19