语音/音频论文速递 2026-04-22
共分析 21 篇论文
⚡ 今日概览
📥 抓取 21 篇 → 🔬 深度分析完成
🏷️ 热门方向
| 方向 | 数量 | 分布 |
|---|---|---|
| 语音识别 | 5篇 | █████ |
| 语音合成 | 4篇 | ████ |
| 基准测试 | 4篇 | ████ |
| 模型评估 | 4篇 | ████ |
| 多语言 | 3篇 | ███ |
| 音频大模型 | 3篇 | ███ |
| 数据增强 | 3篇 | ███ |
| 大语言模型 | 3篇 | ███ |
📊 论文评分排行榜(20 篇,按分数降序)
📋 论文列表
🥇 Qwen3.5-Omni Technical Report
🔥 9.5分 | #语音合成 #语音识别 #音频大模型 #预训练 | arxiv
👥 作者与机构
- 论文作者:Qwen Team (通义千问团队)
- 核心贡献者:Bing Han, Baosong Yang, Bin Zhang, Bo Zheng, Dayiheng Liu, Fan Zhou, Hongkun Hao, Hangrui Hu, Jin Xu, Jianxin Yang, Jingren Zhou, Keqin Chen, Le Yu, Mingkun Yang, Peng Wang, Pei Zhang, Qize Yang, Rui Men, Ruiyang Xu, Shuai Bai, Sibo Song, Ting He, Xize Cheng, Xuejing Liu, Xingzhang Ren, Xian Shi, Xiong Wang, Xinyu Zhang, Xinfa Zhu, Yunfei Chu, Yuanjun Lv, Yuchong Sun, Yongqi Wang, Yuxuan Wang, Yang Zhang, Zhifang Guo, Zishan Guo, Ziyang Ma 等(按字母顺序排列,*表示通讯作者)
- 所属机构:根据作者姓名和项目背景推断,主要来自阿里巴巴达摩院(DAMO Academy) 和阿里云。论文未明确标注机构,但“Qwen Team”和“Alibaba Cloud”是明确的线索。
💡 毒舌点评
亮点:这是一份堪称“全模态大模型工程教科书”的技术报告,从架构设计(混合MoE、ARIA)、训练策略(三阶段预训练、四阶段后训练)到评测体系(215个任务)都展现了无与伦比的系统性和工程实力,性能直接对标并超越了Gemini Pro,证明了中国团队在顶级多模态竞赛中的硬实力。 槽点:论文读起来像一份极其详尽的“产品说明书”和“实验报告”,技术细节虽多,但对于“为什么这样设计”的深层科学原理探讨略显不足,更像是在展示“我们做到了”,而非完全解释“我们为何能以及如何想到的”。此外,不开源核心代码和模型,让学术社区只能“望API兴叹”。
📌 核心摘要
这篇技术报告全面介绍了Qwen3.5-Omni,一个能够统一理解与生成文本、图像、音频和音视频内容的全模态大语言模型。要解决的问题是现有模型在实时交互、跨模态推理和自主智能体行为方面的局限性。采用的方法是基于“思考者-说话者”架构,引入了多项关键创新:1)思考者和说话者均采用混合注意力专家混合模型以实现高效长序列推理;2)提出自适应速率交错对齐(ARIA)技术,动态对齐文本和语音单元,解决流式语音合成的不稳定问题;3)将时间位置编码改进为显式文本时间戳,提升长音视频的时序感知;4)采用三阶段预训练和四阶段后训练策略,包括专家蒸馏、同策略蒸馏和交互对齐强化学习。取得的效果是在215个音频和音视频基准测试上达到SOTA,在关键音频理解、识别和翻译任务上超越Gemini-3.1 Pro,并展现出可控音视频描述、实时语音交互和音视频代码生成(Audio-Visual Vibe Coding)等新能力。局限性在于模型规模巨大(数千亿参数),计算资源要求高,且未开源核心模型与代码。
🥈 Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs
🔥 9.5分 | #音频安全 #数据增强 #音频大模型 #多模态模型 | arxiv
👥 作者与机构
第一作者:Jaechul Roh(推断,因名字在前) 通讯作者:Amir Houmansadr(推断,因名字在后且通常为资深作者)
- 全部作者:Jaechul Roh, Amir Houmansadr
- 所属机构:University of Massachusetts Amherst, Department of Computer Science
💡 毒舌点评
亮点:论文像一把精准的手术刀,首次剖开了音频大模型“良性微调”外表下的安全脆弱性,揭示了其与文本/视觉模态截然不同的、由编码器架构决定的“阿喀琉斯之踵”,研究问题抓得准,分析框架设计得妙。槽点:提出的防御方法(远距离过滤和系统提示)虽然有效但略显“直球”,缺乏对模型内部拒绝机制更深入的干预探索,算是给后续研究者留了口饭吃。
📌 核心摘要
这篇论文首次系统研究了良性(无害)音频数据微调对音频大模型安全对齐的破坏作用。要解决的问题是:用户出于提升模型性能目的进行的常规微调,是否会无意中破坏模型的安全防护?方法上,作者提出了一个基于嵌入空间邻近度的过滤框架,从语义、声学及混合维度,选择性地用与有害内容在表示空间上相近的良性音频进行微调。主要发现是,即使微调数据完全良性,也能使越狱成功率(JSR)从个位数飙升至87.12%,且主导的脆弱性维度(语义或声学)取决于模型编码器的架构。实际意义在于揭示了Audio LLMs一个非对抗性、易被忽视的重大安全风险,并提出了两种无需修改架构的实用防御策略(训练时远距离过滤和推理时安全系统提示)。局限性在于研究限于英语单轮对话,未探索非语音音频任务或多语言场景。
🥉 UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction
🔥 9.0分 | #语音对话系统 #统一音频模型 #流式处理 #音视频 | arxiv
👥 作者与机构
第一作者:Yadong Li (adonlee.lyd@alibaba-inc.com) 通讯作者:Biye Li (libiye.lby@alibaba-inc.com) 其他作者:Guoxin Wu (guoxin.wgx@taobao.com), Haiping Hou (houhaiping.hhp@taobao.com)
- 所属机构:阿里巴巴集团 (Alibaba Inc.)
💡 毒舌点评
亮点:这篇论文最“性感”的地方在于它极具野心的“大一统”思想——把语音交互前端那些乱七八糟的独立模块(VAD、ASR、说话人识别…)全部塞进一个LLM里,还用个参考音频当“声纹钥匙”,想法非常超前且直击级联系统的痛点。 槽点:工程“黑盒”感有点强,比如那个600ms的音频块具体怎么切分、参考音频的注册和注意力机制如何在流式推理中高效运作,细节不够透明,让人担心实际部署时的复杂度和计算开销。
📌 核心摘要
核心贡献:本文提出了首个专为全双工语音交互设计的统一音频前端大模型(UAF)。它打破了传统级联式前端处理的范式,将语音活动检测(VAD)、说话人识别(SR)、自动语音识别(ASR)、轮次检测(TD)和问答(QA)等多个任务,统一建模为一个自回归序列预测问题。
关键方法:模型采用“音频编码器-投影器-LLM”架构。输入为流式的固定时长(600ms)音频块和一个用于锁定目标说话人的参考音频提示。输出为两类离散令牌:状态令牌(如<TALK>, <SIL>, <Complete>, <Interrupt>)用于交互控制;语义令牌(ASR文本和模型回复)。通过多阶段对齐训练策略,模型学会了在噪声和混叠语音环境中,基于参考音频隐式地抑制干扰、聚焦目标说话人,并联合预测语义内容和交互状态。
主要发现:实验表明,UAF在多项独立前端任务上达到SOTA水平。其最大优势体现在说话人感知ASR上:在极低信噪比(2dB)条件下,WER相比强大的基线模型(Qwen3-Omni)降低了7倍以上(5.34 vs 38.6)。在轮次检测任务上,对<Interrupt>和<Backchannel>等关键交互状态的识别准确率显著优于专用模型,证明了统一建模对理解对话动态的有效性。
实际意义与局限性:UAF为构建低延迟、高鲁棒性、交互自然的全双工语音系统提供了全新的、一体化的解决方案,有望简化系统架构并提升用户体验。其局限性包括:模型参数量较大(30B-A3B),对计算资源要求高;训练严重依赖大规模的合成数据管道,其真实世界泛化能力需进一步验证;论文未开源,限制了社区的复现与跟进。
4 HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models
🔥 9.0分 | #基准测试 #模型评估 #音频大模型 | arxiv
👥 作者与机构
- 第一作者: Feiyu Zhao(天津大学,智能与计算学院)
- 通讯作者: Jianguo Wei(天津大学,智能与计算学院)
- 其他作者: Yiming Chen(华硕智能云服务,新加坡;与第一作者贡献相等),Wenhuan Lu(天津大学,智能与计算学院),Daipeng Zhang(天津大学,智能与计算学院),Xianghu Yue(天津大学,智能与计算学院)
💡 毒舌点评
亮点: 这篇论文堪称“音频大模型照妖镜”,首次系统性地给当前火热的LALMs做了一次全面的“幻觉体检”,设计了各种刁钻的“听力测试题”(对抗性提示、混合音频),揭露了它们“一本正经胡说八道”或“该答却拒答”的多种病症,为领域提供了急需的诊断工具。 槽点: 主要是个“体检报告”而非“治疗方案”,它精确诊断了问题但并未提出新的缓解方法。另外,部分任务(如单词顺序判断)可能过于依赖模板,模型或许能通过“猜”而非真正“听”来应付。
📌 核心摘要
这篇论文旨在解决大型音频语言模型(LALM)中普遍存在的“幻觉”问题(即生成与音频证据不符的内容)缺乏系统性评估工具的难题。为此,作者构建并发布了HalluAudio,这是首个大规模、多领域(语音、环境声、音乐)、多任务(二分类、多选、属性验证、开放生成)的人工验证音频幻觉检测基准,包含超过5700个精心设计的QA对。其关键方法是通过对比性/对抗性提示和混合音频条件来系统性地诱发幻觉,并设计了一套包含准确性、是/否偏差、错误拒绝率和错误类型分析的多维度评估框架。通过对12个主流开源和闭源LALM的全面评估,论文发现:1)幻觉是普遍且领域依赖的系统性问题;2)即使在标准基准上表现优异的模型,在HalluAudio上也可能因声学定位、时序推理或音乐属性理解等缺陷而失败;3)模型存在显著的是/否回答偏差和不合理的拒绝行为。这项工作为评估和提升LALM的可靠性提供了关键的基础设施和深入的实证洞察。
5 Voice of India: A Large-Scale Benchmark for Real-World Speech Recognition in India
🔥 8.5分 | #语音识别 #模型评估 #多语言 #低资源 | arxiv
👥 作者与机构
第一作者:Kaushal Bhogale (印度马德拉斯理工学院,计算机科学与工程系,cs22d006@cse.iitm.ac.in) 通讯作者:Mitesh M. Khapra (印度马德拉斯理工学院,计算机科学与工程系)(推断:作为资深作者和项目主导者) 其他作者:
- Manas Dhir, Amritansh Walecha, Manmeet Kaur, Vanshika Chhabra, Aaditya Pareek, Hanuman Sidh, Sagar Jain, Bhaskar Singh, Utkarsh Singh, Tahir Javed, Shobhit Banga (印度马德拉斯理工学院,计算机科学与工程系)
- (部分作者可能同时隶属 Josh Talks, India,但论文中未明确个人与机构的对应关系,此处统一列出)
💡 毒舌点评
亮点:这论文像给印度ASR领域做了一次彻底的“体检”,把现有模型在真实世界(电话、方言、乡村)的“体面”扒得干干净净,用数据和地图说话,指出了“高WER重灾区”和“公平性幻觉”,堪称一份犀利的行业诊断报告。 槽点:最核心的“体检报告”(数据)自己藏着不给看,只给看化验单(结果),让同行想复现、想基于此深入研究都无从下手,这“闭源”操作在学术圈属实有点“不讲武德”。
📌 核心摘要
这篇论文旨在解决现有印度语言语音识别(Indic ASR)基准不反映真实场景、评估方法不公平的核心问题。为此,作者构建了“Voice of India”大规模基准,其数据源自3.6万名说话者的非脚本化电话对话,覆盖15种主要印度语言和139个地区集群,总计536小时。关键创新在于采用了考虑拼写变体的“正字法知情词错率”(OIWER)评估指标,并构建了“方言格”(Lattice)来容纳合理的转录变体。通过在14个先进ASR系统(包括商业API和开源模型)上的评估,论文揭示了几个关键发现:1)即使最佳模型在多种语言上也未达到20%的实用WER阈值;2)性能存在显著的地理偏差,印度北部“印地语带”和都市区表现远优于南部和语言多样地区;3)现有公开基准(如FLEURS)会高估模型性能;4)模型在女性语音上略有优势,但对年轻说话者和特定方言(如Bhojpuri)表现不佳。该基准为开发更鲁棒、公平的印度语音识别系统提供了关键的评估工具和明确的改进方向。
6 BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps
🔥 8.5分 | #音乐生成 #自回归模型 #实时处理 #数据集 | arxiv
👥 作者与机构
根据论文标题页信息,作者为:
- 第一作者:Lekai Qian
- 通讯作者:Ziyu Wang (根据常规学术论文作者排序惯例推断,论文未明确标注)
- 其他作者:Haoyu Gu, Jingwei Zhao
论文未明确标注作者所属机构。根据arXiv论文的常见情况及作者姓名推测,作者可能来自中国的高校或研究机构(如清华大学、北京大学、中国科学院等),但论文正文中未提供明确信息。
💡 毒舌点评
亮点:把钢琴卷帘(Piano-roll)这种“笨重”的2D表示,巧妙地“压扁”成按拍(beat)分组的稀疏token序列,既保留了时间网格的规整性,又获得了堪比事件序列的紧凑性,这个“鱼与熊掌兼得”的思路非常优雅。 槽点:模型规模(150M)相对保守,在当今大模型时代略显“迷你”,限制了其性能上限和作为通用音乐表示的潜力;此外,实验主要集中在西方音乐传统(MIDI, 4/4拍),对其他音乐文化的普适性有待验证。
📌 核心摘要
本文针对符号音乐生成中主流的事件序列(event-based)tokenization方法隐含处理时间规律、导致模型需额外学习时间网格的问题,提出了一种名为BEAT的新型网格化tokenization框架。其核心思想是将音乐在时间上均匀离散化为“拍”(beat)作为基本单位,将每拍内每个音高的活动状态(起音、持续、静音)编码为一个“模式”(pattern)令牌,并与音高、力度信息组合,形成按拍组织的稀疏令牌序列。这种方法显式地融入了音乐时间均匀性的归纳偏置。实验表明,在音乐续写和实时伴奏生成任务上,BEAT在节奏一致性(JS GC)、分布相似性(FMD)等客观指标和主观听感评价上均优于REMI、Compound Word等基线方法。进一步分析显示,BEAT表示更紧凑、具有更好的可压缩性,能更有效地捕捉长程结构,并天然支持实时流式生成。该工作为符号音乐表示学习提供了一个兼具理论优雅性和实践有效性的新方向。
7 ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis
🔥 8.5分 | #语音合成 #知识蒸馏 #流匹配 #零样本 | arxiv
👥 作者与机构
第一作者:Aoduo Li (广东工业大学,邮件地址:3123009124@mail2.gdut.edu.cn) 通讯作者:Hongjian Xu (广东工业大学,邮件地址:123457890wasd@gmail.com) 其他作者:
- Haoran Lv (广东工业大学)
- Shengmin Li (华南理工大学)
- Sihao Qin (华南理工大学)
💡 毒舌点评
亮点:巧妙地将14B参数LLM的“角色思考过程”(Chain-of-Thought)蒸馏成一个仅11.8M参数的轻量级“韵律翻译器”,实现了从语义理解到声学控制的跨模态桥接,这个想法非常优雅且实用。槽点:实验严重依赖一个特定的动漫角色数据集,虽然证明了方法在该领域的有效性,但其在通用语音、其他语言或更严肃风格上的泛化能力有待商榷,有点像“在二次元世界里当王者”。
📌 核心摘要
本文针对现有语音合成系统在生成角色驱动、情感丰富的语音时难以同时保持角色身份一致性和情感表达准确性的问题,提出了ATRIE框架。其核心是Persona-Prosody Dual-Track (P2-DT) 架构,将语音生成解耦为静态的音色轨道(通过标量量化保持身份锚点)和动态的韵律轨道(通过分层流匹配生成情感韵律)。关键创新在于一个离线知识蒸馏过程,利用一个大型语言模型(Qwen 2.5 14B)作为教师,通过思维链推理生成包含情感理由和数值化韵律目标(VAD分数等)的监督信号,来训练一个轻量级的P2P适配器。该适配器在推理时无需LLM参与,可高效地将文本和角色描述映射为韵律控制参数,引导GPT-SoVITS v4骨干网络合成语音。实验在自建的AnimeTTS-Bench(50个角色)上进行,ATRIE在角色一致性分数(CCS: 0.86)、情感表达准确率(EEA: 0.84)和跨模态检索平均精度(mAP: 0.75)上均达到SOTA,同时保持了实时推理能力(RTF: 0.18)。局限性包括对参考音频库的依赖、长句情感强度维持的挑战,以及当前评估集中于动漫风格。
8 Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization
🔥 8.0分 | #语音识别,#流式处理,#一致性正则化,#统一音频模型,#开源工具 | arxiv
👥 作者与机构
第一作者:Andrei Andrusenko (NVIDIA, Armenia) 通讯作者:Vitaly Lavrukhin (NVIDIA, USA) - 基于联系邮箱推断 其他作者:
- Vladimir Bataev (NVIDIA, Armenia)
- Lilit Grigoryan (NVIDIA, Armenia)
- Nune Tadevosyan (NVIDIA, Armenia)
- Boris Ginsburg (NVIDIA, USA)
💡 毒舌点评
亮点在于为统一ASR的“模式冲突”这个老大难问题,开了一剂叫MCR-RNNT的“正则化药方”,并且贴心地用Triton写好了“高效服用说明书”(GPU实现),让训练不至于慢到天荒地老。槽点是,这药方在延迟压到0.16秒这种“极限操作”时,药效似乎有点跟不上,而且双模式训练毕竟还是让显存和计算量翻了倍,钱包有点疼。
📌 核心摘要
本文旨在解决训练单一自动语音识别(ASR)模型同时高效支持高精度离线转写和低延迟流式识别这一挑战。现有统一模型在低延迟流式模式下性能下降明显。作者提出了一个统一的RNN-Transducer (RNNT) 框架,其核心是结合了带右上下文的chunk限制注意力和动态chunk卷积(DCConv) 来适配流式解码。为更进一步缩小离线与流式模式间的性能差距,本文创新性地引入了模式一致性正则化损失(MCR-RNNT),并通过高效的Triton内核实现,直接在RNNT的完整对齐格(lattice)上计算离线与流式输出分布的KL散度,鼓励两种模式下模型预测的一致性。实验表明,该方法在120K小时数据上训练的L-size模型,在多数流式延迟设定下(低至0.24秒)取得了最佳的权衡。将方法扩展到280K小时数据训练的600M参数XL模型,在Open ASR Leaderboard上达到5.76%的平均词错率(WER),在离线和流式场景均超越了强开源基线。该工作开源了代码和模型,为工业界部署统一ASR模型提供了高效解决方案。
9 Deep Supervised Contrastive Learning of Pitch Contours for Robust Pitch Accent Classification in Seoul Korean
🔥 8.0分 | #语音情感识别 #对比学习 #数据集 #端到端 | arxiv
👥 作者与机构
第一作者:Hyunjung Joo(罗格斯大学语言学系,汉阳大学语言语音与认知科学研究所 (HIPCS)) 通讯作者:GyeongTaek Lee(嘉泉大学智能工厂系) 其他作者:无
💡 毒舌点评
亮点:论文最大的贡献是“造轮子”和“用好轮子”——亲手标注了一个超万个样本的首尔韩语音高数据集,并聪明地用全局对比学习替换了容易“只见树木不见森林”的局部预测模型,让AI学会看音高的“整体轮廓”而非“逐点猜谜”。
槽点:虽然准确率刷到了新高,但F1分数才刚过50%,暴露了数据集中某些音调模式样本极少导致的严重类别不平衡问题;另外,模型只盯着F0(音高)看,完全忽略了时长、强度等对韵律同样重要的线索,像个只用单眼看世界的学者。
📌 核心摘要
这篇论文旨在解决将连续变化的基频(F0)曲线映射到首尔韩语中离散、不变的音高重音类别(如LHLH, HHLH)这一难题。传统方法易受F0测量噪声和说话人差异的影响。为此,作者提出了Dual-Glob,一个深度监督对比学习框架。其核心是通过一个双分支(干净视图和增强视图)编码器,在共享的潜在空间中强制要求同一音高类别样本的全局F0轮廓形状相似,而不同类别则相异,从而学习到对扰动鲁棒的、具有判别性的音高轮廓表征。作者还构建了首个大规模手动标注的基准数据集,包含10,093个音调短语(AP),涵盖16种音调模式。实验表明,Dual-Glob在准确率(77.75%)和F1分数(51.54%)上显著超越了BiLSTM、InceptionTime等强基线。研究支持了音系学理论中的离散音调范畴,并证明深度对比学习能有效捕捉连续F0轮廓的整体结构特征。局限性包括F0追踪误差、数据类别不平衡以及未整合时长等其他韵律线索。
10 Disentangling Damage from Operational Variability: A Label-Free Self-Supervised Representation Learning Framework for Output-Only Structural Damage Identification
🔥 8.0分 | #自监督学习 #解缠表示学习 #音频事件检测 #工业应用 | arxiv
👥 作者与机构
第一作者:Xudong Jian (苏黎世联邦理工学院 ETH Zürich,土木、环境与地质工程系) 通讯作者:Eleni Chatzi (苏黎世联邦理工学院 ETH Zürich,土木、环境与地质工程系) - 根据论文中标注“\corrauth”推断 其他作者:
- Charikleia Stoura (米兰理工大学 Politecnico di Milano,机械工程系)
- Simon Scandella (苏黎世联邦理工学院 ETH Zürich,土木、环境与地质工程系)
💡 毒舌点评
亮点:这篇论文巧妙地将计算机视觉领域流行的自监督方法(VICReg)与结构动力学的物理先验(频域PSD)结合,像给模型戴上了一副“损伤透视镜”,让它在嘈杂的操作变异中死死盯住结构本身的微小损伤信号,思路非常清晰实用。 槽点:方法在“轻微损伤”场景下有点“视力不佳”(桥梁数据集TPR仅0.324),而且损伤量化能力更像是个“半成品”,离精确评估损伤程度还有距离。说白了,能告诉你“病了”,但说不准“病多重”。
📌 核心摘要
本文针对结构健康监测中损伤信号易被环境与操作变异掩盖的核心挑战,提出了一种无标签、自监督的解缠表示学习框架。该框架采用双流自编码器架构,通过时间序列重构损失确保信息完整性,并利用VICReg自监督损失(基于假设损伤状态不变的基线期数据)强制损伤敏感表征(z_dmg)对操作变异保持不变性。同时,引入频域PSD重构损失作为物理约束,确保z_dmg保留关键的损伤相关频谱特征。该框架在无需任何损伤、激励或环境标签的情况下,实现了损伤信息与干扰信息的有效分离。在真实桥梁实验数据集和高保真齿轮箱数据集上的评估表明,所提方法能有效进行损伤检测(在齿轮箱上平衡准确率达0.816)并揭示损伤演化进程,其性能显著优于仅使用时间序列重构或手工特征的基线方法。研究证实了结合数据驱动自监督与领域物理知识对于提升SHM鲁棒性的价值,为实际无标签监测场景提供了可行的解决方案。
11 Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation
✅ 7.5分 | #语音合成 #生成模型 #端到端 #基准测试 | arxiv
👥 作者与机构
第一作者:Jianbo Ma (Canva research, 工作在Dolby完成) 通讯作者:Jianbo Ma (Canva research), Richard Cartwright (Canva research) 其他作者:Richard Cartwright (Canva research, 工作在Dolby完成)
💡 毒舌点评
亮点是把图像生成VAR模型“先画轮廓再填细节”的聪明思路,成功搬到了语音合成上,让模型学会了“先搭时间骨架再填声学血肉”,思路优雅且有效。槽点是实验部分虽然扎实,但总感觉规模(数据、模型变体)还可以再大一些,让这个“由粗到细”的故事讲得更震撼;另外,创新深度上更像是对现有技术(掩码生成、多阶段)的精巧组合与适配,而非开辟全新范式。
📌 核心摘要
本文针对文本转语音(TTS)任务,提出了一种名为“细节链”(Chain-of-Details, CoD)的新框架。要解决的问题是现有TTS方法在建模语音生成的时域动态(从粗略时序到精细声学细节的渐进过程)方面存在不足。使用的方法是将语音生成分解为多个时间分辨率递增的阶段,在每个阶段使用掩码生成建模,并通过一个共享的Transformer解码器来预测该分辨率下的语音令牌。取得的效果是在LibriSpeech和SeedTTS测试集上,CoD模型(特别是Base版本)以显著更少的参数(263M)实现了优于或可比多个强基线(如KD-NARSIS, StyleTTS 2, VALL-E)的词错率(WER),证明了其参数效率和生成质量。消融实验进一步验证了多时间层级建模的有效性。局限性在于实验主要集中在英文单 speaker 场景,且创新本质是现有范式的有效扩展而非根本性变革。
12 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model
✅ 7.5分 | #语音分离 #自回归模型 #流式处理 #大语言模型 | arxiv
👥 作者与机构
- 第一作者:Shuhai Peng(推断为小米或合作机构)
- 通讯作者:Zhiyong Wu(推断为小米或合作机构)
- 其他作者:Hui Lu, Jinjiang Liu, Liyang Chen, Guiping Zhong, Jiakui Li, Huimeng Wang, Haiyun Li, Liang Cao, Shiyin Kang
- 机构信息:论文未明确标注所有作者的所属机构。根据作者列表和常见合作模式,作者可能来自小米公司(Xiaomi)、香港中文大学(The Chinese University of Hong Kong) 或其他合作研究机构。具体实验室/课题组信息未在提供的文本中说明。
💡 毒舌点评
亮点:精准地抓住了生成式TSE模型流式化时“一跑就崩”的痛点,用“交织拼接”这招巧妙地给模型戴上了“因果紧箍咒”,硬是把一个“离线学霸”改造成了“实时能手”,稳定性拉满。槽点:方法创新更像是针对现有大模型(LauraGPT)的“工程适配”和“流程优化”,理论深度稍显不足;而且说好的开源代码“将在GitHub上”,目前还是一张空头支票。
📌 核心摘要
这篇论文旨在解决生成式目标说话人提取(TSE)模型在流式实时应用中因依赖全局上下文而导致性能严重下降的核心问题。作者首次提出了一个基于自回归语言模型(LauraGPT)的流式TSE框架。其核心创新是“分块交织拼接范式”,通过将混合音频块与对应的目标语音离散编码块交错排列作为模型输入,严格保证了推理的因果性,防止了未来信息泄露。同时,设计了“历史上下文优化机制”,在声码器解码阶段引入前一音频块的隐藏状态,以缓解块间的相位不连续问题。实验表明,该方法在低延迟(如560ms)下实现了100%的推理成功率,语音质量和可懂度优于基线生成模型,并能匹配甚至超越离线判别式模型的性能,且在消费级GPU上达到了0.248的实时率(RTF)。该工作证明了自回归生成模型适用于低延迟流式应用的可行性。
13 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track
✅ 7.5分 | #视频对象分割 #多模态模型 #语音识别 #音视频 | arxiv
👥 作者与机构
第一作者:Deshui Miao (鹏城实验室) 通讯作者:Xin Li (鹏城实验室) - 论文中作者列表“Xin Li”后标有星号(*),通常表示通讯作者。 其他作者:
- Yameng Gu (鹏城实验室)
- Chao Yang (鹏城实验室)
- Haijun Zhang (哈尔滨工业大学)
- Ming-Hsuan Yang (加州大学美熹德分校)
💡 毒舌点评
这篇论文的亮点是“把大象装冰箱”的工程思维:把一个看似复杂的音视频分割问题,拆解成“听语音、找东西、画轮廓、精修边”四步走,流程清晰得像一份高级菜谱,让模型各司其职,有效避免了端到端模型在噪声面前的“胡言乱语”。槽点也很明显:作为一篇学术论文,它更像是一份“竞赛冠军秘籍”或“系统集成报告”,创新主要体现在对现有顶尖模型(VibeVoice, Sa2VA, SAM3)的巧妙编排和调度上,而非提出全新的核心算法,学术深度略有欠缺。
📌 核心摘要
这篇论文报告了APRVOS系统,一个专为MEVIS_Audio(音频条件下的指代视频对象分割)任务设计的冠军方案。要解决的问题是传统文本指代分割模型无法直接处理包含噪声、不完整且可能描述视频中不存在物体的语音输入。采用的方法是一个四阶段流水线:首先使用VibeVoice-ASR将语音转为文本;然后用一个基于Qwen3-VL的视觉判断模块(Omni Judger)验证转写文本描述的目标是否在视频中存在,若不存在则直接输出空掩码;若存在,则将文本转化为提示词,输入Sa2VA模型生成粗略的分割轨迹;最后,引入一个“代理验证”层来评估粗分割结果的可靠性,并调用SAM3模型对可信锚点帧进行边界精修和时序传播。取得的效果在第五届PVUW MeViS-Audio赛道上排名第一,J&F分数达到0.6700,消融实验证明每个阶段(尤其是存在性判断和代理精修)都带来了显著的性能提升。局限性在于该报告侧重于系统描述,对各组件内部(如ASR、视觉判断模块)的训练细节和超参数披露有限,且整体性能高度依赖于几个大型预训练模型的组合。
14 NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations
✅ 7.5分 | #语音合成 #基准测试 #多语言 #大语言模型 | arxiv
👥 作者与机构
第一作者:刘梦(Liumeng Xue)(南京大学,智能软件与系统实验室) 通讯作者:刘梦(lmxue@nju.edu.cn),郭毅可(Yike Guo)(推测为资深作者) 其他作者:
- 卞伟真(Weizhen Bian)(南京大学)
- 潘家浩(Jiahao Pan)(香港科技大学)
- 王文轩(Wenxuan Wang)(香港中文大学)
- 任逸林(Yilin Ren)(北京航空航天大学)
- 康博宇(Boyi Kang)(西北工业大学)
- 胡敬斌(Jingbin Hu)(上海交通大学)
- 马子阳(Ziyang Ma)(南京大学)
- 王帅(Shuai Wang)(南京大学)
- 钱欣源(Xinyuan Qian)(南京大学)
- 李宏毅(Hung-yi Lee)(台湾大学)
- 郭毅可(Yike Guo)(香港科技大学)
💡 毒舌点评
亮点:这是一篇“基建狂魔”式的论文,终于有人把语音合成里那些“嗯嗯啊啊”的非语言声音(NVV)的评估给标准化了,45类分类法和双语数据集做得相当扎实,为后续研究立好了靶子。 槽点:作为基准测试论文,它本身不提出新的合成模型,有点像“只测评不造轮子”,对于追求算法创新的读者来说可能不够“性感”;而且用LLM当裁判,虽然努力控制偏见,但“AI评AI”的可靠性争议依然存在。
📌 核心摘要
这篇论文旨在解决语音合成(TTS)领域中一个关键但被忽视的问题:如何标准化评估系统生成非语言声音(NVV,如笑声、叹息)的能力。作者提出了NVBench,一个包含45类NVV统一分类体系的双语(英/中)基准。其核心方法包括:1)构建了一个每类50例、总计4500例的高质量平衡评估数据集;2)设计了多轴评估协议,将通用语音质量与NVV特有的可控性、放置准确性和感知显著性分离开来;3)综合运用客观指标、人工听测和基于LLM的多评判员评估,对15个代表性的TTS系统(涵盖提示式和标签式控制)进行了全面测评。主要发现表明,NVV的可控性常常与整体语音质量解耦,而低信噪比的口腔音和长时情感性NVV(如哭泣)仍是持续的技术瓶颈。该工作为公平、全面地比较和改进NVV合成能力提供了一个标准化框架。
15 Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps
✅ 7.5分 | #语音识别 #语音翻译 #大语言模型 #模型评估 | arxiv
👥 作者与机构
第一作者:Jonas Waldendorf (University of Edinburgh) *论文标注“Work completed during an internship at Amazon AGI” 通讯作者:Evgenii Tsymbalov (Amazon AGI) *根据邮箱 etsymba@amazon.de 推断 其他作者:Bashar Awwad Shiekh Hasan (Amazon AGI)
💡 毒舌点评
亮点:论文巧妙地将文本LLM幻觉检测的注意力分析思路“翻译”到了语音领域,设计了四个抓住语音模态特性的指标,像给模型装了个“注意力心电图”来诊断“幻觉心律不齐”,在干净数据上效果拔群。 槽点:但这个“诊断仪”有点“偏科”,在ASR和S2TT两个任务间几乎无法通用,得重新训练,而且严重依赖一个高精度但低召回的自动标注器来打标签,相当于用一套有漏检的评分标准来训练医生,让人对其泛化能力打个问号。
📌 核心摘要
本文旨在解决语音大模型(SpeechLLMs)在推理时产生的“幻觉”问题,即生成与输入音频不符的流畅文本。现有方法依赖昂贵的黄金标准输出,而文本LLM的方法无法捕捉音频特有信号。为此,作者提出了四个基于注意力图的轻量级指标(AudioRatio, AudioConsistency, AudioEntropy, TextEntropy),用于捕捉与幻觉相关的病态注意力模式(如注意力回退到音频开头、对角线结构退化)。在Qwen-2-Audio和Voxtral-3B模型上,使用这些指标训练逻辑回归分类器。实验表明,在域内ASR数据(VoxPopuli)上,该方法显著优于不确定性估计和先前注意力基线(PR-AUC提升高达+0.23)。研究发现,仅需约100个注意力头即可获得强性能,且能改善跨域泛化。然而,方法效果依赖于模型和任务,在嘈杂数据(CALLHOME)上泛化能力下降,且在ASR上训练的模型无法直接用于语音翻译(S2TT),突显了幻觉模式的任务特异性。
16 MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models
✅ 7.5分 | #语音对话系统 #基准测试 #语音大模型 #实时处理 | arxiv
👥 作者与机构
第一作者:He Zhang(清华大学) 通讯作者:论文未明确指定通讯作者。根据作者列表和脚注(Equal contribution. Corresponding author.),He Zhang 和 Wenqian Cui 可能为共同第一作者,且其中一人为通讯作者,但未明确区分。 其他作者:
- Wenqian Cui(香港中文大学)
- Haoning Xu(香港中文大学)
- Xiaohui Li(华为技术有限公司)
- Lei Zhu(华为技术有限公司)
- Haoli Bai(华为技术有限公司)
- Shaohua Ma(清华大学)
- Irwin King(香港中文大学)
💡 毒舌点评
亮点:这篇论文精准地抓住了全双工语音模型评测中的“阿喀琉斯之踵”——如何在连续、重叠的对话流中进行公平、可复现的轮次级评估。其提出的轮次分割算法像一把精准的手术刀,试图将混沌的对话流解剖成可分析的片段,这份工程和评测的巧思值得点赞。 槽点:然而,作为一个“裁判员”,自己不开源(代码、数据、评估脚本),却要求大家按照你的新规则来比赛,这多少有点“只许州官放火”的味道。而且,全文高度依赖GPT-4o当“裁判的裁判”,让人不禁怀疑这到底是评测FD-SLMs,还是在变相测试GPT-4o的“打分”能力。
📌 核心摘要
这篇论文旨在解决当前全双工语音语言模型(FD-SLMs)评测体系的一个关键缺陷:缺乏对多轮、连续对话能力的系统性评估。现有基准多关注单轮交互或特定对话特性(如打断),忽略了模型在多轮语境下维持指令遵循、安全等核心能力的一致性。为此,作者提出了MTR-DuplexBench,一个全新的多轮全双工对话评测基准。其核心贡献是设计了一套全双工轮次分割方法,通过结合语音活动检测、GPT-4o语义理解和聚类算法,将连续的对话音频自动、稳定地切分为离散的“轮次”,从而解决了“边界模糊”和“上下文不一致”的评测难题。该基准构建了覆盖四大维度的评测集:对话质量(使用自然对话数据)、对话特性(如平滑交接、打断等)、指令遵循和安全(使用合成数据)。实验以Moshi模型为基线,揭示了其在多轮交互中性能(如成功率、延迟)普遍衰减的规律,证明了该基准的有效性。主要局限性在于评测高度依赖外部大模型(GPT-4o),且未开源任何资源,可能影响其可复现性和广泛应用。
17 Tadabur: A Large-Scale Quran Audio Dataset
✅ 7.0分 | #语音识别 #领域适应 #数据集 #多语言 | arxiv
👥 作者与机构
第一作者:Faisal Alherran (利雅得,沙特阿拉伯 - alherranfaisal@gmail.com) 通讯作者:Faisal Alherran (同上) 其他作者:无。论文仅列出一位作者。
💡 毒舌点评
亮点:这论文最实在的地方就是“大力出奇迹”,用一套组合拳(LLM+Whisper+Embedding)硬生生把散落在网络各处的古兰经朗诵音频,整合成了一个规模空前、标注精细的“数据航母”,直接把该领域的数据门槛拉高了好几个档次。槽点:方法上更像是“系统集成创新”,用的都是现成的明星模型(Whisper, Gemini),自己炼的“新丹”(Tadabur fine-tuned ASR)效果提升也有限。说白了,这是一篇出色的“数据工程”报告,而非“算法突破”论文。
📌 核心摘要
本文旨在解决古兰经语音研究领域缺乏大规模、多样化、细粒度标注数据集的问题。为此,作者提出了Tadabur数据集及其自动化构建流水线。该流水线首先从公共平台收集音频,并利用大语言模型(Gemini)从非结构化文本中提取标准化元数据(如章节、朗诵者)。核心步骤是Ayah Alignment Module (AAM),它利用Whisper/WhisperX进行语音识别和词级对齐,再通过SILMA嵌入模型的语义相似度匹配,将转录文本与《古兰经》标准文本进行对齐,从而实现从长录音中精准分割出经文(Ayah)级别的音频片段。最后,通过基于ASR的内容验证和基于音频嵌入的去重进行数据清洗。最终构建的Tadabur数据集包含超过1400小时音频,来自600多位不同朗诵者,提供了词级时间戳和结构化元数据。实验评估表明,所选的语义对齐方法和领域适配ASR模型能达到96.63%的对齐覆盖率。该数据集为古兰经语音识别、朗诵风格分析等研究提供了重要基础资源。
18 Environmental Sound Deepfake Detection Using Deep-Learning Framework
✅ 6.5分 | #音频深度伪造检测 #预训练 #音频分类 #数据增强 | arxiv
👥 作者与机构
第一作者:Lam Pham (奥地利理工学院 AIT,数字安全与安全中心) 通讯作者:Son Le (Ton Duc Thang University, Vietnam) 其他作者:
- Khoi Vu, Dat Tran (FPT University, Vietnam)
- Phat Lam (HCM University of Technology, Vietnam)
- David Fischinger, Alexander Schindler, Martin Boyer (奥地利理工学院 AIT,数字安全与安全中心)
💡 毒舌点评
亮点:论文像一本详尽的“菜谱”,把频谱图、网络架构、预训练模型这些“食材”挨个试了个遍,还精心设计了“三阶段烹饪法”(训练策略),最终端出了一盘在特定数据集上色香味俱全的“菜”(高准确率)。槽点:创新性主要体现在“系统性尝试”和“策略调优”上,缺乏让人眼前一亮的“新菜式”(核心方法创新)。而且,这盘“菜”主要用的还是别人家的“高级食材”(预训练BEATs模型)。
📌 核心摘要
本文针对环境声音(如声音事件、声音场景)的深度伪造检测这一新兴任务,提出了一个系统的深度学习框架。核心贡献在于通过大量实验,系统评估了不同频谱图(MEL, CQT, Gammatone)、多种CNN架构(ResNet, Inception等)以及预训练模型(BEATs)在该任务上的表现,并验证了声音事件与声音场景的伪造检测应作为独立任务处理。关键方法包括:1)提出以Gammatone频谱图作为有效输入特征;2)设计了一个包含多损失函数训练、Mixup微调和骨干网络冻结的三阶段训练策略;3)发现并验证了微调预训练的BEATs模型远优于从头训练。主要效果是在EnvSDD测试集上取得了0.98的准确率和0.99的AUC,并在跨数据集测试(ESDD-Challenge-TestSet)中展现了泛化能力。局限性在于方法创新性有限,主要依赖现有技术的组合与优化,且跨数据集性能有显著下降,表明领域泛化仍是挑战。
19 Audio Spoof Detection with GaborNet
✅ 6.5分 | #音频伪造检测 #信号处理 #数据增强 #时频分析 | arxiv
👥 作者与机构
第一作者:Waldemar Maciejko (根据论文标题及内容,未明确标注所属机构,推断为某大学或研究机构研究人员) 通讯作者:未明确标注 其他作者:无
- 机构信息:论文全文未提供作者所属机构信息。根据arXiv页面及论文内容推断,作者可能来自波兰某大学(如姓名暗示)或研究机构,但无法确认具体实验室/课题组。
💡 毒舌点评
亮点:论文系统性地评估了Gabor滤波器和LEAF前端在音频伪造检测任务中的应用,并提供了详尽的消融实验和数据增强对比,工作扎实。 槽点:创新性更像是“技术报告”而非“科研突破”,把Gabor滤波器塞进现成架构就完事了;结论有时过于绝对(如“LEAF在RawGAT-ST上效率低下”),缺乏更深层的机理分析;数据增强部分,SpecAugment无效就不展示了,选择性报告结果有点“报喜不报忧”。
📌 核心摘要
本论文旨在解决传统SincNet前端在音频伪造检测中因有限长度sinc函数截断导致的频率泄漏问题。作者提出使用可学习的Gabor滤波器组(GaborNet)替代SincNet,并将其集成到两种先进的端到端检测架构RawNet2和RawGAT-ST中。同时,论文探索了将LEAF(Learnable Frontend for Audio Classification)的完整组件(包括高斯低通池化和可学习PCEN归一化)作为前端。实验在ASVspoof 2019逻辑访问数据集上进行,系统评估了不同前端、架构及数据增强方法(包括编解码转换、房间脉冲响应和噪声添加)的效果。主要发现包括:GaborNet前端对RawNet2架构有轻微提升(EER从4.131%降至4.025%),但对更复杂的RawGAT-ST架构反而有害;完整的LEAF前端在RawNet2上效果最佳(EER 3.807%),但在RawGAT-ST上性能下降;在数据增强方法中,仅编解码转换被证明有效。论文的贡献在于为音频伪造检测提供了新的可学习前端选择,并通过详实的实验揭示了不同组件组合的有效性,但其方法的创新性和普适性有待进一步验证。
20 Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features
✅ 6.0分 | #语音生物标志物 #模型评��� #多通道 #跨模态 | arxiv
👥 作者与机构
- 共同第一作者:Chenqian Le (未明确机构,推断为纽约大学)
- 共同第一作者:Ruisi Li (未明确机构,推断为纽约大学) 其他作者:Beatrice Fumagalli (未明确机构,推断为纽约大学), Xupeng Chen (未明确机构,推断为纽约大学), Amirhossein Khalilian-Gourtani (未明确机构,推断为纽约大学), Tianyu He (未明确机构,推断为纽约大学), Adeen Flinker (未明确机构,推断为纽约大学), Yao Wang (未明确机构,推断为纽约大学)
- 通讯作者/机构:论文未明确标注。根据研究内容和作者列表,Adeen Flinker 和 Yao Wang 可能是项目负责人或通讯作者。所有作者均来自纽约大学(New York University),具体实验室/系所未在提供的文本中明确说明。
💡 毒舌点评
亮点:论文把神经科学领域的mTRF和方差分解工具“拿来主义”用在肌肉信号上,思路清晰,实验设计严谨(24个受试者,句子级交叉验证),把“为什么发音特征比音素特征更好”这件事说得明明白白,还画出了漂亮的解剖对应图。 槽点:说到底是在验证一个相当直觉化的猜想(发音动作当然比音素标签更贴近肌肉活动),创新性更多体现在“首次系统验证”而非“提出新方法”。而且,只做了“编码”分析,没做“解码”验证,就像精心证明了菜谱(特征)更好,但没真的做道菜(解码系统)给大家尝尝。
📌 核心摘要
这篇论文旨在为无声言语接口(SSI)选择更优的中间表示目标。研究系统比较了发音特征(SPARC)和传统的音素独热编码,在预测表面肌电(sEMG)信号包络上的表现。核心发现是:1)在出声、默语和次发声三种模式下,SPARC特征的编码准确性均显著优于音素特征;2)出声和默语模式的编码性能相当,次发声模式虽弱但仍显著高于随机水平,证实了无声发音仍可诱发可检测的肌肉活动;3)方差分解显示,SPARC对sEMG方差有显著的独特贡献,而音素特征的独特贡献极小;4)编码权重图揭示了电极位置与特定发音器官(唇、颌、舌)运动之间稳定、可解释的解剖学关联。该研究为构建基于生理对齐表示的、更鲁棒的sEMG-SSI系统提供了重要的实证依据和设计指导。