ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence

📄 ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence #基准测试 #模型评估 #音乐理解 #多模态模型 #跨模态 🔥 8.0/10 | 前25% | #基准测试 | #模型评估 | #音乐理解 #多模态模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Menghe Ma(北京邮电大学) 通讯作者:Haoran Luo(南洋理工大学) 作者列表: Menghe Ma*(北京邮电大学) Siqing Wei*(北京邮电大学) Yuecheng Xing*(北京邮电大学) Yaheng Wang(北京邮电大学) Fanhong Meng(中国音乐学院) Peijun Han(中国音乐学院) Luu Anh Tuan(南洋理工大学) Haoran Luo†(南洋理工大学) (*表示共同第一作者,†表示通讯作者) 💡 毒舌点评 亮点:论文一针见血地指出了当前多模态音乐AI“看得懂谱但不懂乐理”的致命短板,并用一套滴水不漏的确定性评估流水线(规范音高投影+序列对齐)把“LLM当评委”的主观泡沫彻底挤干,建立了一个干净、可复现的评测标尺。短板:虽然评估范式设计精巧,但基准数据集规模(1120个样本)和任务复杂度(如AST仅10秒音频)可能不足以完全模拟真实世界中长篇、复杂乐曲的处理挑战,其结论的普适性有待更大规模验证。 🔗 开源详情 代码:提供GitHub仓库链接:https://github.com/T12knightally/ONOTE 模型权重:未提及。本文为基准测试,不涉及发布自身模型。 数据集:提供HuggingFace数据集链接:https://huggingface.co/datasets/Weisiqing123/ONOTE Demo:未提及。 复现材料:附录A详细描述了数据集构建流程;附录B提供了完整的任务执行和评分评估提示词;附录C详细说明了评估指标的实现细节。这些构成了完整的复现材料。 论文中引用的开源项目:论文在相关工作和实验中引用了多个开源项目/模型,如MuseCoco、ChatMusician、MuseScore、ABC编译器等,但未明确列出其作为ONOTE实现的直接依赖。 📌 核心摘要 问题:当前多模态大模型在音乐符号处理(Omnimodal Notation Processing, ONP)领域存在严重缺陷:研究碎片化、模型存在严重的符号偏差(偏向五线谱)、且普遍依赖不可靠的“LLM-as-a-Judge”评估方法,掩盖了模型在音乐理论推理上的系统性失败。 方法核心:提出ONOTE基准,包含四个任务(视觉乐谱理解VSU、跨格式符号转换CNC、音频转符号AST、符号音乐生成SMG),覆盖五线谱、简谱、吉他谱三种系统。其核心是设计了一条“确定性与反偏差评估流水线”,通过“规范音高投影”将所有输出统一映射为一维音高序列,再利用编辑距离进行客观的序列对齐精度计算。 新意:与以往专注于单一转录任务或使用主观评估的基准不同,ONOTE首次提供了覆盖音乐符号处理全生命周期的、多符号系统的综合评估框架,并彻底摒弃了主观评分,实现了评估的客观化与标准化。 主要实验结果:对多个前沿全模态模型(如Qwen、Gemini系列)的评测显示,模型在VSU任务上表现优异(如Gemini-3.1-flash-lite-preview在五线谱VSU达99%),但在需要深层音乐理论推理的CNC和AST任务上表现急剧下降(如上述模型五线谱CNC仅17.29%)。这证实了模型“感知准确”与“理解逻辑”之间的巨大鸿沟。 实际意义:为音乐AI研究社区提供了统一、严谨的评估标准,能够客观诊断模型的推理弱点,推动开发更具音乐认知深度、而非仅进行表面模式匹配的AI系统。 主要局限性:1) 基准数据集规模相对有限(1120个样本),可能无法覆盖所有音乐风格和复杂度;2) 任务设置(如AST仅10秒)偏向简化场景;3) 作为评估基准,其本身不提出新模型,价值依赖于社区的采纳和应用。 🏗️ 模型架构 本文并非提出一个新的端到端模型,而是定义了一个评估框架(Benchmark)。其核心架构是确定性评估流水线,流程如下: ...

2026-04-23 · 更新于 2026-05-21 · 1 min · 207 words

SAND: The Challenge on Speech Analysis for Neurodegenerative Disease Assessment

📄 SAND: The Challenge on Speech Analysis for Neurodegenerative Disease Assessment #语音生物标志物 #基准测试 #数据集 #迁移学习 #自监督学习 ✅ 7.0/10 | 前50% | #语音生物标志物 | #基准测试 | #数据集 #迁移学习 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Giovanna Sannino(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) 通讯作者:Giovanna Sannino(giovanna.sannino@icar.cnr.it) 作者列表: Giovanna Sannino(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Ivanoe De Falco(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Nadia Brancati(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Laura Verde(卡帕尼亚大学“Luigi Vanvitelli”数学与物理系) Maria Frucci(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Daniel Riccio(那不勒斯大学“Federico II”电气工程与信息技术系) Vincenzo Bevilacqua(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Antonio Di Marino(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Lucia Aruta(那不勒斯大学“Federico II”神经科学、生殖科学与口腔学系) Valentina Virginia Iuzzolino(那不勒斯大学“Federico II”高级生物医学科学系) Gianmaria Senerchia(那不勒斯大学“Federico II”神经科学、生殖科学与口腔学系) Myriam Spisto(卡帕尼亚大学“Luigi Vanvitelli”心理学系) Raffaele Dubbioso(那不勒斯大学“Federico II”神经科学、生殖科学与口腔学系) 💡 毒舌点评 亮点:成功组织了一场大规模、多学科协作的国际挑战赛,并构建了一个具有临床标注、包含纵向数据的宝贵公开数据集,为语音生物标志物研究提供了急需的基准。 短板:作为一篇挑战赛报告,其核心价值在于“平台搭建”而非“技术突破”,论文本身未提出新的算法或深入的理论分析,对参赛方法的讨论也停留在描述层面。 ...

2026-04-23 · 更新于 2026-05-21 · 1 min · 182 words

SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation

📄 SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation #基准测试 #语音大模型 #语音合成 #多语言 #模型评估 ✅ 7.5/10 | 前25% | #基准测试 | #模型评估 | #语音大模型 #语音合成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ruohan Liu (南京大学) 通讯作者:Chaoyou Fu (南京大学) 作者列表: Ruohan Liu (南京大学) Shukang Yin (南京大学) Tao Wang (南京大学) Dong Zhang (小米) Weiji Zhuang (小米) Shuhuai Ren (小米) Ran He (南京大学) Caifeng Shan (南京大学) Chaoyou Fu (南京大学) 💡 毒舌点评 亮点:这篇论文把“副语言生成评估”这个模糊地带彻底标准化了,从不到50个特征扩展到100多个,还设计了从静态控制到动态变化再到情境适应的递进式任务,评估流水线也用上了“成对比较”来对抗主观性,工程上相当完备。短板:数据全靠合成,用TTS生成的“用户查询”和真实人类说话的副语言信息可能差了十万八千里,这导致整个基准测试的生态位有点尴尬——它测的是模型对“合成指令”的服从度,而非对“真实人类语音”的理解力。 ...

2026-04-23 · 更新于 2026-05-21 · 1 min · 200 words

语音/音频论文速递 2026-04-23

语音/音频论文速递 2026-04-23 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 基准测试 2篇 ██ 音频深度伪造检测 2篇 ██ 语音对话系统 2篇 ██ 音频分类 2篇 ██ 音乐信息检索 1篇 █ 语音合成 1篇 █ 麦克风阵列 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural 8.5分 前25% #音频深度伪造检测 🥈 Qwen3.5-Omni Technical Report 8.5分 前25% #语音对话系统 🥉 Towards Streaming Target Speaker Extraction via Chunk-w 8.5分 前25% #语音分离 4 Aligning Stuttered-Speech Research with End-User Needs: 8.5分 前25% #语音识别 5 ONOTE: Benchmarking Omnimodal Notation Processing for E 8.0分 前25% #基准测试 6 FastTurn: Unifying Acoustic and Streaming Semantic Cues 8.0分 前25% #语音对话系统 7 Environmental Sound Deepfake Detection Using Deep-Learn 8.0分 前25% #音频深度伪造检测 8 Embedding-Based Intrusive Evaluation Metrics for Musica 7.5分 前25% #音乐信息检索 9 Self-Noise Reduction for Capacitive Sensors via Photoel 7.5分 前25% #麦克风阵列 10 Utterance-Level Methods for Identifying Reliable ASR-Ou 7.5分 前25% #语音识别 11 Enhancing ASR Performance in the Medical Domain for Dra 7.5分 前25% #语音识别 12 Deep Hierarchical Knowledge Loss for Fault Intensity Di 7.5分 前25% #音频分类 13 SpeechParaling-Bench: A Comprehensive Benchmark for Par 7.5分 前25% #基准测试 14 ATIR: Towards Audio-Text Interleaved Contextual Retriev 7.5分 前25% #音频检索 15 Before the Mic: Physical-Layer Voiceprint Anonymization 7.5分 前25% #语音匿名化 16 MOMO: A framework for seamless physical, verbal, and gr 7.5分 前25% #机器人控制 17 CoInteract: Physically-Consistent Human-Object Interact 7.5分 前25% #视频生成 18 MoVE: Translating Laughter and Tears via Mixture of Voc 7.5分 前25% #语音翻译 19 Reducing the Offline-Streaming Gap for Unified ASR Tran 7.5分 前25% #语音识别 20 Tadabur: A Large-Scale Quran Audio Dataset 7.5分 前25% #语音识别 21 FLiP: Towards understanding and interpreting multimodal 7.5分 前50% #模型评估 22 Text-To-Speech with Chain-of-Details: modeling temporal 7.0分 前25% #语音合成 23 SAND: The Challenge on Speech Analysis for Neurodegener 7.0分 前50% #语音生物标志物 24 Explicit Dropout: Deterministic Regularization for Tran 7.0分 前25% #音频分类 25 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 6.5分 前25% #语音转换 26 Enhancing Speaker Verification with Whispered Speech vi 6.5分 前50% #说话人验证 27 Centering Ecological Goals in Automated Identification 6.5分 前25% #生物声学 📋 论文列表 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv ...

2026-04-23 · 更新于 2026-05-21 · 13 min · 2679 words

HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

📄 HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models #基准测试 #模型评估 #音频大模型 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者: Feiyu Zhao(天津大学,智能与计算学院) 通讯作者: Jianguo Wei(天津大学,智能与计算学院) 其他作者: Yiming Chen(华硕智能云服务,新加坡;与第一作者贡献相等),Wenhuan Lu(天津大学,智能与计算学院),Daipeng Zhang(天津大学,智能与计算学院),Xianghu Yue(天津大学,智能与计算学院) 💡 毒舌点评 亮点: 这篇论文堪称“音频大模型照妖镜”,首次系统性地给当前火热的LALMs做了一次全面的“幻觉体检”,设计了各种刁钻的“听力测试题”(对抗性提示、混合音频),揭露了它们“一本正经胡说八道”或“该答却拒答”的多种病症,为领域提供了急需的诊断工具。 槽点: 主要是个“体检报告”而非“治疗方案”,它精确诊断了问题但并未提出新的缓解方法。另外,部分任务(如单词顺序判断)可能过于依赖模板,模型或许能通过“猜”而非真正“听”来应付。 🔗 开源详情 代码: 已开源。GitHub地址:https://github.com/Feiyuzhao25/halluaudio 数据集: HalluAudio基准测试数据集已随代码开源,包含所有QA对和音频引用。 模型权重: 本文不涉及新模型的训练,因此不提供模型权重。评估的是已有的公开或闭源模型。 在线Demo: 论文中未提及在线Demo。 依赖的开源工具/模型: 评估中使用了多个开源LALM,如Qwen-Audio, Qwen2-Audio, Llama-Omni, MiMo-Audio等(详见附录D)。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALM)中普遍存在的“幻觉”问题(即生成与音频证据不符的内容)缺乏系统性评估工具的难题。为此,作者构建并发布了HalluAudio,这是首个大规模、多领域(语音、环境声、音乐)、多任务(二分类、多选、属性验证、开放生成)的人工验证音频幻觉检测基准,包含超过5700个精心设计的QA对。其关键方法是通过对比性/对抗性提示和混合音频条件来系统性地诱发幻觉,并设计了一套包含准确性、是/否偏差、错误拒绝率和错误类型分析的多维度评估框架。通过对12个主流开源和闭源LALM的全面评估,论文发现:1)幻觉是普遍且领域依赖的系统性问题;2)即使在标准基准上表现优异的模型,在HalluAudio上也可能因声学定位、时序推理或音乐属性理解等缺陷而失败;3)模型存在显著的是/否回答偏差和不合理的拒绝行为。这项工作为评估和提升LALM的可靠性提供了关键的基础设施和深入的实证洞察。 🏗️ 模型架构 注意: 本文的核心贡献是提出一个评估基准(Benchmark),而非一个新的模型架构。因此,本节将详细描述该基准测试的整体架构和评估流程。 整体架构(评估管线): 如图1所示,HalluAudio的评估是一个模块化、端到端��流程,旨在系统性地引发、测量和分析LALM中的幻觉。 输入层: 从语音(Common Voice)、环境声(FSD50K)、音乐(GTZAN, Mridangam)数据集中选择音频片段。 任务构建层: 对每个音频,使用参数化提示模板生成问题。模板包含可替换的槽位(如单词、标签),通过填充有效或无效的属性来生成“可回答”或“故意不可回答”的查询,以诱发不同类型的幻觉。 模型推理层: 将构建好的“音频-问题”对输入到待评估的LALMs中,采用零样本协议,模型输出为文本。 输出标准化层: 由于模型输出形式多样(如“是的”、“Yes.”、“确实如此”),需要通过文本处理(小写化、去标点、关键词匹配)将其标准化为结构化标签(如Yes, No, 数字, Refusal)。 有效性检查与行为分析层: 将标准化后的输出与标准答案进行比对,计算各项指标(准确率、是/否偏差、错误拒绝率等),并进行细粒度的错误类型分析(如幻觉性肯定回答、错误的任务 grounding 答案、错误拒绝)。 关键设计选择理由: 参数化模板: 确保生成大规模、可控且与音频内容精确对齐的QA对。 对比性/对抗性构造: 通过最小化修改(如改变单词顺序、引入噪声)创建正负对比样本,以孤立出引发幻觉的具体触发器。 多领域覆盖: 确保评估的全面性,因为模型在不同音频域(语言 vs. 非语言)可能表现出不同的幻觉模式。 多维度指标: 超越简单的准确率,诊断模型的行为偏差(如盲目肯定)和保守性偏差(如过度拒绝)。 💡 核心创新点 首个大规模、多领域音频幻觉基准: 提出了HalluAudio,这是第一个专门针对音频(涵盖语音、环境声、音乐)的、大规模(>5K QA对)、经过人工验证的幻觉检测基准,填补了该领域的关键空白。 系统性的幻觉诱导方法: 创新性地设计了对比性任务(如单词顺序、声音共存)和对抗性/无效查询(如询问不存在的说话者性别、随机声音标签),以主动、可控地触发模型的各类幻觉行为(虚构、证据矛盾、无根据肯定)。 多维度诊断评估框架: 提出了一套超越准确率的评估指标,包括是/否偏差测试(Yes-p Ratio, Unrelated Ratio, Conditional Accuracy)和错误拒绝率,能够细粒度地区分模型的不同失败模式(如感知错误、推理错误、过度保守)。 深入的跨模型与跨领域实证分析: 对12个具有代表性的开源和闭源LALM进行了首次大规模、跨领域的对比评估,揭示了幻觉行为的领域特异性(如语音中的结构幻觉、环境声中的感知幻觉)和模型特异性,为未来模型改进提供了明确方向。 🔬 细节详述 数据集构建: 来源: 语音(Common Voice)、环境声(FSD50K)、音乐(GTZAN, Mridangam Strokes, Mridangam Tonics)。 规模: 总计5720个QA对。其中,语音域任务最丰富(包括重叠检测、词序、计数、无效查询等),环境声音侧重存在性与共现性,音乐侧重乐器/流派识别与比较。 流程: 五步管线:1) 音频选择;2) 模板生成;3) 对比/对抗构造;4) 人工验证(三轮,Cohen‘s κ=0.91);5) 打包与平衡。 关键设计: 包含2662个对比性任务和621个明确的对抗性/无效查询,57.4%的数据旨在通过控制扰动或证据缺失来探测幻觉。 评估指标: 准确性: 标准任务准确率。 是/否偏差测试: Yes-p Ratio: 在二元问题中回答“Yes”的比例。 Unrelated Ratio: 在回答错误的样本中,模型给出与问题无关答案的比例。 Conditional Accuracy: 基于预测类别(Yes/No)划分的条件准确率。 错误拒绝率: 模型拒绝回答可回答问题的比例。 评估模型: 共12个模型,包括2个闭源(GPT-4o-Audio, Gemini-2.5-Flash)和10个开源模型(如Qwen系列、Llama-Omni系列、MiMo-Audio、Step-Audio-2等)。 关键发现(实验数据): 语音域: MiMo-Audio和Step-Audio-2在时序任务上表现优异(如重叠检测准确率>96%),而Qwen-Audio、Pengi等在某些子任务上低于50%。Phi-4在噪声和性别扰动下性能下降。 环境声域: MiMo-Audio和Qwen2.5-Omni在时序比较任务上领先。Audio Flamingo3和Pengi在多标签识别上表现不佳。模型在“随机错误”提示下行为分化:一些自信地幻觉,另一些则过度拒绝。 音乐域: GPT-4o-Audio和MiMo-Audio相对稳健,而Pengi和Qwen2-Audio在流派/乐器识别上接近随机水平。在计数和排序任务上,模型普遍表现不佳(如Gemini-2.5-Flash低于15%)。 是/否偏差: Qwen系列模型在跨域任务中表现出强烈的肯定回答倾向。在环境声任务中,这种偏差最明显。 错误拒绝: Gemini-2.5-Flash和Qwen2-Audio表现出最严重的过度拒绝倾向,尤其在结构复杂的任务(计数、速度比较)和感知不确定的任务(声音共存)中。 📊 实验结果 主要指标对比(表格数据复述): ...

2026-04-22 · 更新于 2026-05-21 · 2 min · 305 words

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

📄 MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models #语音对话系统 #基准测试 #语音大模型 #实时处理 #模型评估 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:He Zhang(清华大学) 通讯作者:论文未明确指定通讯作者。根据作者列表和脚注(Equal contribution. Corresponding author.),He Zhang 和 Wenqian Cui 可能为共同第一作者,且其中一人为通讯作者,但未明确区分。 其他作者: Wenqian Cui(香港中文大学) Haoning Xu(香港中文大学) Xiaohui Li(华为技术有限公司) Lei Zhu(华为技术有限公司) Haoli Bai(华为技术有限公司) Shaohua Ma(清华大学) Irwin King(香港中文大学) 💡 毒舌点评 亮点:这篇论文精准地抓住了全双工语音模型评测中的“阿喀琉斯之踵”——如何在连续、重叠的对话流中进行公平、可复现的轮次级评估。其提出的轮次分割算法像一把精准的手术刀,试图将混沌的对话流解剖成可分析的片段,这份工程和评测的巧思值得点赞。 槽点:然而,作为一个“裁判员”,自己不开源(代码、数据、评估脚本),却要求大家按照你的新规则来比赛,这多少有点“只许州官放火”的味道。而且,全文高度依赖GPT-4o当“裁判的裁判”,让人不禁怀疑这到底是评测FD-SLMs,还是在变相测试GPT-4o的“打分”能力。 🔗 开源详情 论文中未提及任何开源计划。未提供代码、模型权重、评测数据集或评估脚本的获取方式。这是一个重大缺陷,限制了该基准的可复现性和社区采纳度。 📌 核心摘要 这篇论文旨在解决当前全双工语音语言模型(FD-SLMs)评测体系的一个关键缺陷:缺乏对多轮、连续对话能力的系统性评估。现有基准多关注单轮交互或特定对话特性(如打断),忽略了模型在多轮语境下维持指令遵循、安全等核心能力的一致性。为此,作者提出了MTR-DuplexBench,一个全新的多轮全双工对话评测基准。其核心贡献是设计了一套全双工轮次分割方法,通过结合语音活动检测、GPT-4o语义理解和聚类算法,将连续的对话音频自动、稳定地切分为离散的“轮次”,从而解决了“边界模糊”和“上下文不一致”的评测难题。该基准构建了覆盖四大维度的评测集:对话质量(使用自然对话数据)、对话特性(如平滑交接、打断等)、指令遵循和安全(使用合成数据)。实验以Moshi模型为基线,揭示了其在多轮交互中性能(如成功率、延迟)普遍衰减的规律,证明了该基准的有效性。主要局限性在于评测高度依赖外部大模型(GPT-4o),且未开源任何资源,可能影响其可复现性和广泛应用。 🏗️ 模型架构 注意:本论文的核心贡献是评测基准(Benchmark),而非提出新的语音模型。因此,“模型架构”部分描述的是其评测框架的整体架构和工作流程。 评测框架的核心是实现对FD-SLMs进行轮次级(turn-by-turn) 的自动化评估。其完整流程如下: 输入:双通道音频(用户和助手),以及待评测的FD-SLM。 轮次分割模块(核心创新): 信息提取:使用Whisper-timestamped和Silero VAD,从两个通道的音频中提取带有时间戳的语音段转录文本。 GPT-4o语义分割:将提取出的所有语音段按时间排序后,输入给GPT-4o,利用其语义理解能力判断用户发言的起止点,生成候选轮次边界。此步骤重复6次以获取多个候选结果。 多数投票与聚类:将6次分割结果进行聚类。如果两个候选轮次在时间上重叠超过30%,则将它们合并为一个新候选轮次,其起止时间取所有合并轮次的中位数。仅保留被投票超过1次(即至少在2次GPT分割中出现)的轮次。 最终重叠解决:合并所有在时间上仍有重叠的候选轮次,得到最终的用户轮次划分(FinalTurns)。 上下文对齐与推理: 根据分割出的用户轮次[C.start, C.end],为助手分配响应时间段[C.start, C_next.end]。 关键设计:在助手的响应时间段内,将下一用户轮次的音频静音,并将该时间段内助手通道的历史音频替换为真实(Ground Truth)语音。这确保了模型在推理时,其上下文(历史对话)与评测场景严格一致,避免了因模型早期回答偏离真实对话而导致的“上下文漂移”问题。 将处理后的、对齐的音频流输入待评测的FD-SLM,获取其在当前轮次的响应。 多维度评估: 对模型在每个轮次的输出,根据不同的评测维度(对话质量、对话特性等),调用相应的评估流程和指标(如GPT-score、成功率、延迟、拒绝率)进行打分。 输出:模型在各个评测维度、各个轮次上的量化得分。 💡 核心创新点 全双工轮次分割方法论: ...

2026-04-22 · 更新于 2026-05-21 · 2 min · 237 words

NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations

📄 NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations #语音合成 #基准测试 #多语言 #大语言模型 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:刘梦(Liumeng Xue)(南京大学,智能软件与系统实验室) 通讯作者:刘梦(lmxue@nju.edu.cn),郭毅可(Yike Guo)(推测为资深作者) 其他作者: 卞伟真(Weizhen Bian)(南京大学) 潘家浩(Jiahao Pan)(香港科技大学) 王文轩(Wenxuan Wang)(香港中文大学) 任逸林(Yilin Ren)(北京航空航天大学) 康博宇(Boyi Kang)(西北工业大学) 胡敬斌(Jingbin Hu)(上海交通大学) 马子阳(Ziyang Ma)(南京大学) 王帅(Shuai Wang)(南京大学) 钱欣源(Xinyuan Qian)(南京大学) 李宏毅(Hung-yi Lee)(台湾大学) 郭毅可(Yike Guo)(香港科技大学) 💡 毒舌点评 亮点:这是一篇“基建狂魔”式的论文,终于有人把语音合成里那些“嗯嗯啊啊”的非语言声音(NVV)的评估给标准化了,45类分类法和双语数据集做得相当扎实,为后续研究立好了靶子。 槽点:作为基准测试论文,它本身不提出新的合成模型,有点像“只测评不造轮子”,对于追求算法创新的读者来说可能不够“性感”;而且用LLM当裁判,虽然努力控制偏见,但“AI评AI”的可靠性争议依然存在。 🔗 开源详情 代码:已开源。论文提供了GitHub链接:https://github.com/lmxue/NVBench。代码应包含数据集构建脚本、评估指标计算代码等。 模型权重:不适用。本文不发布新模型,而是评估现有模型。 数据集:已开源。论文明确指出数据集可通过项目主页获取:https://lmxue.github.io/NVBench/。包含4500个(英汉各2250)经过验证的NVV实例。 预训练权重:不适用。 在线 Demo:论文中未提及在线Demo。 引用的开源项目:论文评估了多个开源TTS系统(如ChatTTS, Bark, CosyVoice 2等),并使用了Whisper、CLAP、DNSMOS等开源工具进行评估。 📌 核心摘要 这篇论文旨在解决语音合成(TTS)领域中一个关键但被忽视的问题:如何标准化评估系统生成非语言声音(NVV,如笑声、叹息)的能力。作者提出了NVBench,一个包含45类NVV统一分类体系的双语(英/中)基准。其核心方法包括:1)构建了一个每类50例、总计4500例的高质量平衡评估数据集;2)设计了多轴评估协议,将通用语音质量与NVV特有的可控性、放置准确性和感知显著性分离开来;3)综合运用客观指标、人工听测和基于LLM的多评判员评估,对15个代表性的TTS系统(涵盖提示式和标签式控制)进行了全面测评。主要发现表明,NVV的可控性常常与整体语音质量解耦,而低信噪比的口腔音和长时情感性NVV(如哭泣)仍是持续的技术瓶颈。该工作为公平、全面地比较和改进NVV合成能力提供了一个标准化框架。 🏗️ 模型架构 注意:本文并非提出一个新的合成模型,而是提出一个评估基准框架。其核心“架构”是评估流程和数据集构建流程。 整体流程:输入为包含NVV指令的文本(标签式[laugh]或提示式“…said with a laugh”),经过待测TTS系统生成语音,再通过NVBench的评估协议进行多维度分析。 核心组件: NVV分类体系:一个包含6大类(呼吸、喉/生理、笑声谱、哭泣谱、情感发声、口腔/其他)和45个细分类别的结构化树状体系。 数据构建流水线:三阶段流程:a) 从现有双语语音数据集中用LLM挖掘NVV种子;b) 基于分类体系,用LLM按统一模式生成文本-描述对;c) 自动检查与人工审核迭代,确保每类50个高质量样本。 评估协议: 客观指标:包括通用指标(WER/CER, DNSMOS)和NVV特异性指标(针对标签式系统的精确率/召回率/F1, 标准化标签距离NTD;针对提示式系统的CLAP分数)。 主观指标:5分制Likert量表,评估自然度、质量、NVV感知效果(PE)、指令跟随(IF)等。 LLM多评判员评估:使用Gemini 2.5 Pro作为评判员,采用匿名化、随机化、多轮评估等策略,评估指标与主观测试对齐。 数据流:待评估的TTS系统是黑盒,输入是NVBench数据集中的text_with_nvv(标签式)或caption_with_nvv(提示式),输出是合成语音。该语音被送入ASR、质量评估模型、NVV检测器(基于GT约束的Gemini验证)以及人类/LLM评判员,得到多维度分数。 💡 核心创新点 统一的NVV分类与数据集: 是什么:首次提出了一个涵盖45类、覆盖从呼吸到哭泣等广泛NVV的统一分类法,并据此构建了英汉双语平衡评估数据集。 之前:现有系统和数据集支持的NVV类型有限、碎片化、标签不一致,无法进行系统化评估。 效果:为领域提供了共同语言和可复现的测试基础,使跨系统比较成为可能。 解耦的多轴评估协议: 是什么:明确将评估维度拆解为“通用语音质量”和“NVV特定能力”(可控性、放置、显著性)。 之前:评估往往将NVV视为风格的一部分,与语音质量混在一起,难以诊断具体弱点。 效果:能精确揭示系统在哪方面强或弱(如某系统音质好但NVV控制差),指导针对性改进。 面向NVV的客观指标设计: 是什么:为标签式控制设计了基于“地面真值约束验证”的NVV检测方法,并由此计算精确率、召回率、F1和标准化标签距离(NTD)。 之前:缺乏直接评估NVV生成正确性和时间位置准确性的标准客观方法。 效果:实现了可扩展、可量化的NVV可控性评估,与主观感知形成互补。 全面的系统测评与洞察: 是什么:对15个前沿系统(商业与开源,提示式与标签式)进行了大规模测评,揭示了“质量与可控性解耦”、“长时/细微NVV是瓶颈”等关键现象。 之前:缺乏在统一基准下对不同控制范式系统的横向比较。 效果:为研究社区提供了清晰的现状图景和未来研究方向(如提升覆盖度、改善长时NVV建模)。 🔬 细节详述 训练数据:不适用。本文是评估基准,不训练新模型。评估数据集通过三阶段流水线构建,最终包含45类×50例×2语言=4500个高质量NVV实例,源自对InstructTTSEval数据集的挖掘和LLM辅助生成。 损失函数/训练策略:不适用。 关键超参数/训练硬件:不适用。 评估细节: 客观指标:使用Whisper-large-v3(英)和paraformer-zh(中)进行ASR转写。使用DNSMOS P.835预测语音质量。CLAP分数用于提示式系统的语义对齐。对于标签式系统,使用Gemini 2.5 Pro作为验证器,给定合成语音、原文本和目标NVV类型,判断NVV是否存在并插入标记,从而计算位置误差。NTD是匹配样本的位置误差按文本长度归一化后的均值。 主观测试:通过Prolific平台招募97名评分者,对每种语言随机抽取450个样本(每类10个)进行5分制评分。 LLM评估:使用Gemini 2.5 Pro,采用低温采样(0.2)、固定种子、多轮三折评估、匿名化比较等策略以保证稳定性。每个样本由4个独立LLM评判员子集评估。 系统覆盖:评估了7个提示式系统(如Gemini 2.5 Pro/Flash, GPT-4o mini TTS, Qwen3-TTS)和8个标签式系统(如ElevenLabs, ChatTTS, Orpheus TTS, CosyVoice 2)。 📊 实验结果 主要指标对比(摘要): 提示式系统(英语): 最佳质量/自然度:Gemini 2.5 Pro (主观自然度4.07, DNSMOS OVRL 4.30)。 最佳可控性(NVV IF):Gemini 2.5 Pro (主观2.74)。 最佳语义对齐(CLAP):Qwen3-TTS (0.45)。 最佳客观质量(DNSMOS):GPT-4o mini TTS (OVRL 4.14)。 标签式系统(英语): 最佳综合(主观):ElevenLabs (自然度4.60, 质量4.71, NVV PE 3.92, NVV Accuracy 4.21)。 最佳NVV正确性(客观F1):Orpheus TTS (0.728)。 最高覆盖度:ElevenLabs (0.27), Dia (0.29)。 关键发现: 质量与可控性解耦:例如,CosyVoice 2在中文上主观质量分很高(4.35),但NVV准确性(1.65)和显著性(1.56)较低。Gemini 2.5 Flash的WER很差(因生成额外内容),但主观自然度很高。 NVV类型难度差异大:热图分析显示,笑声、咳嗽等突发性NVV普遍得分较高;而口腔音(如tsk, lipsmack)和长时情感音(如crying, sobbing)在所有系统上得分都低。 控制范式差异:标签式系统覆盖度有限但控制精确;提示式系统理论覆盖所有类型但实现不稳定,易出现内容边界问题。 消融实验(有无显式NVV控制): 对比了Gemini 2.5 Pro(提示式)和ElevenLabs(标签式)在有无NVV指令下的输出。 主观结果:ElevenLabs在启用NVV后,自然度、质量和表达力均提升(CMOS为正)。Gemini 2.5 Pro在启用NVV后,表达力提升不明显,且自然度和质量有所下降(CMOS为负)。 客观结果:启用NVV后,所有系统的WER/CER均上升,表明标准ASR和质量评估器对NVV不友好。 LLM评判 vs 人类评判:LLM评判的排名趋势与人类主观测试大体一致(如ElevenLabs在标签式中领先),但具体分数存在差异,表明LLM评估可作为有效补充但不能完全替代人类。 ⚖️ 评分理由 创新性:7/10。创新性主要体现在系统工程和评估框架上:构建了首个全面的NVV分类与数据集,并设计了多轴评估协议。这不是算法模型的突破,而是领域基础设施的重要创新。 实验充分性:9/10。实验设计极为充分。数据集构建流程严谨;评估维度全面(客观、主观、LLM);对比系统数量多、种类全(15个);分析深入,包含消融、热图、跨语言对比等。数据详实,结论可信。 实用价值:8/10。对语音合成领域有很高的实用价值。为NVV合成这一模糊的评估目标提供了清晰、可操作的度量标准,能直接指导系统开发和比较。开源数据集和代码进一步放大了其价值。 灌水程度:2/10。论文内容紧凑,直指问题核心。摘要、方法、实验、分析环环相扣,没有明显的冗余内容或夸大表述。所有承诺的评估都在实验部分得到落实。 🖼️ 图片与表格 图1: NVBench概览图 | 保留: 是 - 理由:清晰展示了基准的整体流程,包括数据集(分类法+双语集)、两种控制方式(提示式、标签式)、待测TTS系统、以及多轴评估协议(客观、主观、LLM),是理解论文工作的核心示意图。 图2: 按NVV类型划分的感知效果热图(英语) | 保留: 是 - 理由:直观展示了不同系统在45类NVV上的感知效果(PE)得分,清晰揭示了系统间差异、类型难度差异(如笑声易、口腔音难)以及标签式系统的覆盖度缺口,是核心结果图。 图3: 按NVV类型划分的感知效果热图(中文) | 保留: 是 - 理由:与图2对应,展示了中文评估结果,体现了基准的双语评估能力和跨语言发现的一致性。 表1: NVV分类体系 | 保留: 是 - 理由:列出了完整的45类NVV及其所属的6个大类,是本文的核心贡献之一,必须保留以明确评估范围。 表2: 评测的TTS系统及数据集详情 | ���留: 是 - 理由:详细列出了15个被测系统和6个参考数据集支持的NVV类型及数量,是理解评测范围和对比基线的关键信息。 表3: 客观指标结果 | 保留: 是 - 理由:提供了所有系统在WER/CER、DNSMOS、CLAP、覆盖率、精确率/召回率/F1、NTD等客观指标上的详细数值,是进行量化对比的基础。 表4: 主观听测结果(均值±标准差) | 保留: 是 - 理由:提供了所有系统在自然度、质量、NVV感知效果等主观指标上的详细评分,是评估系统实际听感的关键数据。 表5: LLM多评判员评估结果(与ElevenLabs的对比分数) | 保留: 是 - 理由:展示了使用LLM作为评判员的评估结果,体现了这种新型评估方法的可行性与趋势,是方法的重要组成部分。 表6: 有无NVV控制的CMOS对比结果 | 保留: 是 - 理由:展示了消融实验的结果,直接证明了显式NVV控制对感知质量的影响,支持了论文的核心发现之一(控制范式差异)。 📸 论文图片 ...

2026-04-22 · 更新于 2026-05-21 · 2 min · 269 words

Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation

📄 Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation #语音合成 #生成模型 #端到端 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Jianbo Ma (Canva research, 工作在Dolby完成) 通讯作者:Jianbo Ma (Canva research), Richard Cartwright (Canva research) 其他作者:Richard Cartwright (Canva research, 工作在Dolby完成) 💡 毒舌点评 亮点是把图像生成VAR模型“先画轮廓再填细节”的聪明思路,成功搬到了语音合成上,让模型学会了“先搭时间骨架再填声学血肉”,思路优雅且有效。槽点是实验部分虽然扎实,但总感觉规模(数据、模型变体)还可以再大一些,让这个“由粗到细”的故事讲得更震撼;另外,创新深度上更像是对现有技术(掩码生成、多阶段)的精巧组合与适配,而非开辟全新范式。 🔗 开源详情 代码:已开源。论文中提供了GitHub链接(https://github.com/),但未在文本中给出具体仓库地址。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:使用了公开数据集LibriTTS和MLS English,但经过了自定义筛选。 在线Demo:论文中未提及。 依赖的开源工具/模型: 音频编解码器:DAC (Descript Audio Codec) G2P:SoundChoice G2P (来自SpeechBrain) 说话人编码器:Wespeaker 基础架构:Llama-style Transformer, 受DiT启发的自适应LayerNorm 方法灵感:MaskGIT (用于迭代去掩码调度) 📌 核心摘要 本文针对文本转语音(TTS)任务,提出了一种名为“细节链”(Chain-of-Details, CoD)的新框架。要解决的问题是现有TTS方法在建模语音生成的时域动态(从粗略时序到精细声学细节的渐进过程)方面存在不足。使用的方法是将语音生成分解为多个时间分辨率递增的阶段,在每个阶段使用掩码生成建模,并通过一个共享的Transformer解码器来预测该分辨率下的语音令牌。取得的效果是在LibriSpeech和SeedTTS测试集上,CoD模型(特别是Base版本)以显著更少的参数(263M)实现了优于或可比多个强基线(如KD-NARSIS, StyleTTS 2, VALL-E)的词错率(WER),证明了其参数效率和生成质量。消融实验进一步验证了多时间层级建模的有效性。局限性在于实验主要集中在英文单 speaker 场景,且创新本质是现有范式的有效扩展而非根本性变革。 ...

2026-04-22 · 更新于 2026-05-21 · 2 min · 397 words

语音/音频论文速递 2026-04-22

语音/音频论文速递 2026-04-22 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 语音合成 4篇 ████ 基准测试 4篇 ████ 模型评估 4篇 ████ 多语言 3篇 ███ 音频大模型 3篇 ███ 数据增强 3篇 ███ 大语言模型 3篇 ███ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.5分 🥉 UAF: A Unified Audio Front-end LLM for Full-Duplex Spee 9.0分 4 HalluAudio: A Comprehensive Benchmark for Hallucination 9.0分 5 Voice of India: A Large-Scale Benchmark for Real-World 8.5分 6 BEAT: Tokenizing and Generating Symbolic Music by Unifo 8.5分 7 ATRIE: Adaptive Tuning for Robust Inference and Emotion 8.5分 8 Reducing the Offline-Streaming Gap for Unified ASR Tran 8.0分 9 Deep Supervised Contrastive Learning of Pitch Contours 8.0分 10 Disentangling Damage from Operational Variability: A La 8.0分 11 Text-To-Speech with Chain-of-Details: modeling temporal 7.5分 12 Towards Streaming Target Speaker Extraction via Chunk-w 7.5分 13 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track 7.5分 14 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 15 Detecting Hallucinations in SpeechLLMs at Inference Tim 7.5分 16 MTR-DuplexBench: Towards a Comprehensive Evaluation of 7.5分 17 Tadabur: A Large-Scale Quran Audio Dataset 7.0分 18 Environmental Sound Deepfake Detection Using Deep-Learn 6.5分 19 Audio Spoof Detection with GaborNet 6.5分 20 Comparison of sEMG Encoding Accuracy Across Speech Mode 6.0分 21 MoVE: Translating Laughter and Tears via Mixture of Voc N/A 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音合成 #语音识别 #音频大模型 #预训练 | arxiv ...

2026-04-22 · 更新于 2026-05-21 · 8 min · 1620 words

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

📄 Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs #音频大模型 #模型评估 #对抗样本 #基准测试 #音频安全 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Jaechul Roh(推断,基于论文作者顺序和邮箱前缀) 通讯作者:Amir Houmansadr(麻省大学阿默斯特分校,计算机科学系) 其他作者:无(本文为双作者论文) 所属机构:University of Massachusetts Amherst(麻省大学阿默斯特分校),计算机科学系。 💡 毒舌点评 亮点:这篇论文像一把精准的手术刀,首次剖开了音频大模型“安全对齐”的脆弱内脏——原来不用投毒,光喂“健康食品”(良性数据)就能让它对“坏指令”言听计从。其“邻近性分解”框架巧妙地将模糊的“相似”拆解为“说了啥”和“听着像啥”,并发现这居然取决于模型“耳朵”(编码器)的构造,洞察深刻。 槽点:研究聚焦于英语单轮问答,像是在无菌实验室里测试病毒的威力,现实世界中多语言、多轮次、带背景噪音的“培养皿”会怎样?防御手段(系统提示)虽有效,但像个事后补的“道德补丁”,模型本身的“先天缺陷”如何从架构上根治? 🔗 开源详情 代码:论文提及提供了GitHub仓库(https://github.com/…),但未在正文给出完整链接。推测包含用于邻近性过滤和实验复现的代码。 模型权重:论文中评估的三个模型(AF3, Kimi-Audio, Qwen2.5-Omni)均为公开的SOTA模型,其预训练权重可在Hugging Face等平台获取。微调后的模型权重未提供,以防滥用。 数据集:使用的良性数据集(SD-QA, GC Accents, MMSU, MELD)和有害数据集(AdvBench, SafetyBench)多为公开基准。论文未提及发布新数据集。 预训练权重:未提供,依赖于上述公开模型。 在线Demo:未提及。 引用的开源项目:依赖的主要开源工具/模型包括:Whisper (编码器), Sentence-BERT, WavLM, Hugging Face Transformers库, LoRA实现等。 📌 核心摘要 这篇论文首次系统研究了良性音频数据微调对音频大模型安全对齐的破坏性影响。核心问题是:用户出于提升性能的目的,在完全无害的音频数据上微调模型,是否会意外削弱其拒绝有害指令的能力?作者提出了一个基于嵌入空间邻近性的过滤框架,通过计算良性音频与有害音频在模型内部或外部参考编码器空间中的距离,来选择性地构建微调数据集。实验在三个SOTA模型上进行,发现:1)良性微调能显著提升越狱成功率,在邻近性过滤下,JSR从个位数飙升至87.12%;2)主导的脆弱性轴(语义或声学)是架构依赖的,由音频编码器如何将声音映射到LLM输入空间的方式决定;3)防御是可行的,通过“远距离过滤”训练数据或在推理时添加安全系统提示,可将JSR降至近零。研究揭示了音频大模型安全与文本/视觉模型的结构性差异,强调了模态感知的安全评估和数据筛选的必要性。 🏗️ 模型架构 论文本身并未提出新模型,而是对三个现有SOTA音频大模型进行安全分析。其整体分析流程和涉及的模型架构如下: 输入:原始音频波形。 音频编码器(冻结):将波形转换为高级表示。 Audio Flamingo 3 (AF3):使用Whisper编码器,后接一个两层MLP投影器,将音频特征压缩后输入LLM。 Kimi-Audio-7B:采用双编码器设计,包含一个WhisperVQEncoder(通过矢量量化引入瓶颈)和一个Whisper-Large-V3编码器。 Qwen2.5-Omni:使用Whisper-Large-V3编码器,其输出以“直通”方式(无压缩投影)输入LLM。 大语言模型(部分参数通过LoRA微调):接收音频编码器的输出(可能经过投影),生成文本响应。三个模型的LLM骨干均基于Qwen2.5-7B。 输出:文本形式的回答(可能包含拒绝信息或有害内容)。 安全对齐:模型在预训练后经过安全对齐训练,使其能拒绝有害文本指令。这种对齐主要针对文本表示空间,对音频输入产生的表示可能覆盖不足。 数据流:音频 → [冻结的音频编码器] → [可选的投影层] → [LLM(部分参数通过LoRA更新)] → 文本输出。 关键设计选择:论文的核心发现在于,不同音频编码器架构(压缩式、量化瓶颈式、直通式)决定了良性微调数据在嵌入空间中的“邻近性”如何影响安全边界,从而导致了差异化的安全脆弱性。 ...

2026-04-21 · 更新于 2026-05-21 · 2 min · 230 words