低资源 | 语音/音乐/音频论文速递

Data Scale, Not Latency, Shapes Cross-Lingual Encoder Transfer in Streaming ASR

📄 Data Scale, Not Latency, Shapes Cross-Lingual Encoder Transfer in Streaming ASR #语音识别 #迁移学习 #预训练 #低资源 #模型量化 9/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9/10 | 前25% | #语音识别 | #迁移学习 | #预训练 #低资源 | arxiv 👥 作者与机构作者：Nenad Banfic。机构：未在文中说明。 💡 毒舌点评这篇论文像一个一丝不苟的工程师，把“多语言初始化到底有没有用”这个实际问题，用控制变量法掰开揉碎了做实验。优点是实验网格设计得非常全面，数据、延迟、量化三个维度都扫了一遍，得出了一个实用的结论。但缺点也很明显：首先，这本质上是一项大规模的“消融实验”或“敏感性分析”，在方法创新性上相对有限；其次，结论的“普适性”存疑，所有实验都在自家0.6B的FastConformer RNN-T架构和有限的欧洲语言上完成，换个模型家族（比如Whisper大模型）或非欧洲语言（如中文、阿拉伯语），结论是否稳健？作者自己也承认了这一点。论文行文清晰，但部分讨论略显冗长，可进一步精炼。 📌 核心摘要本文系统研究了在流式自动语音识别（ASR）中，使用多语言（ML）或英语单语（EN）编码器作为初始化方案，其优势如何随目标语言数据规模、流式推理延迟以及部署量化而变化。核心发现是：多语言初始化的优势是一个“数据受限优势”，而非“延迟受限优势”。在FLEURS基准上，从100小时到2500小时数据，EN-ML的WER差距从+4.21个百分点单调衰减至+0.20个百分点，符合幂律模型（指数约0.92）。该优势在三个流式延迟层级（160ms， 560ms， 1120ms）间近似稳定。此外，4位权重量化导致编码器体积减少约3倍，平均WER仅增加约0.49个百分点，且与初始化选择独立。结论指出，初始化、延迟和量化决策在实践中可相互独立进行。 🔗 开源详情代码：论文中指出训练与评估代码作为补充材料包含，但未在文中提供具体的代码仓库URL（如GitHub链接）。 ...

Layer-wise Probing of wav2vec 2.0 and Whisper for Consonant Cluster Reduction in African American English

📄 Layer-wise Probing of wav2vec 2.0 and Whisper for Consonant Cluster Reduction in African American English #语音识别 #低资源 9.5/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.5/10 | 前50% | #语音识别 | #低资源 | arxiv 👥 作者与机构 Hamid Mojarad, Kevin Tang 1 Department of English Language and Linguistics, Institute of English and American Studies, Faculty of Arts and Humanities, Heinrich Heine University Düsseldorf, Germany 2 Department of Linguistics, University of Florida, United States of America ...

语音/音乐/音频论文速递 2026-06-24

语音/音乐/音频论文速递 2026-06-24 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 6篇 ██████ #语音增强 6篇 ██████ #语音合成 2篇 ██ #多模态模型 2篇 ██ #音乐生成 2篇 ██ #信号处理基础 2篇 ██ #音频深度伪造检测 1篇 █ #对比学习 1篇 █ 📊 论文评分排行榜（39 篇，按分数降序）排名论文总分分档主任务 🥇 ZONOS2 Technical Report 10.0分前25% #语音合成 🥈 Layer-wise Probing of wav2vec 2.0 and Whisper for Conso 9.5分前50% #语音识别 🥉 CN-NewsTTS Bench: a target-level automatic benchmark fo 9.2分前10% #语音合成 4. BanglaFake: Constructing and Evaluating a Specialized B 9.0分后50% #音频深度伪造检测 5. Data Scale, Not Latency, Shapes Cross-Lingual Encoder T 9.0分前25% #语音识别 6. Breaking Shortcut Learning for Cross-Trial EEG-Guided T 8.6分前50% #对比学习 7. AVOC: Enhancing Hour-Level Audio-Video Understanding in 8.4分前25% #多模态模型 8. SphereVBx: Spherical Variational Bayes Clustering for S 8.3分前50% #无监督学习 9. ParaPairAudioBench: Paralinguistic Pairwise Audio Bench 8.2分前50% #语音质量评估 10. video-SALMONN-R\(^3\): Learning to ReWatch, ReAsk, and Re 8.2分前10% #多模态模型 11. Audio-visual Contrastive Alignment for Diffusion-based 8.1分前25% #语音增强 12. Perceptual Evaluation of Higher-Order Ambisonic Codecs 8.0分前50% #音频编码 13. DTT-BSR+: A Generative-Regression Cascade for Music Sou 8.0分前25% #生成对抗网络 14. Heterogeneous 2D/1D Signal Representation Fusion for Un 7.6分前50% - 15. Selective Capability Unlearning in End-to-End Spoken La 7.6分前25% - 16. A Multi-Stage Separation-and-Classification Framework G 7.5分前50% #音频分类 17. Progressive Alignment Objectives for Aligner-Encoder ba 7.5分前25% #语音识别 18. Comparative Reasoning: Making an Audio Language Model B 7.5分前25% #语音情感识别 19. VieSpeaker: A Large-Scale Vietnamese Speaker Recognitio 7.5分前25% #说话人识别 20. Suppressing spectral edge effects in Schroeder Harmonic 7.3分前50% #语音增强 21. Real-Time Interactive Music Generation via Data-Free St 7.1分前50% #音乐生成 22. A Methodology for Characterizing Underwater Radiated No 7.0分前50% #信号处理基础 23. A Fusion-Aware Two-Stage Framework for Mispronunciation 7.0分前25% #语音识别 24. Neuromorphic Speech Enhancement with Dual-Branch Spikin 7.0分前50% #语音增强 25. NeuroSonic: Conditional Flow Matching for EEG-to-Speech 7.0分前50% #语音生成 26. The effect of micro-changes in the pluck trajectory on 6.8分前50% #信号处理基础 27. Evaluation of Headrest-Integrated Loudspeakers for Enha 6.8分前50% - 28. Statistical validation and full-sphere extension of a B 6.7分前50% #音频质量评估 29. Beyond U-Net: A Latent-Representation-Aligned Skip-Free 6.6分前50% #语音增强 30. Measuring User's Mental Models of Speech Translatio 6.6分前50% #语音翻译 31. Audio–Image Alignment as a Continued-Pretraining Stage 6.2分前50% #语音识别 32. Poster: Exploring the Limits of Audio-Based Detection o 6.2分前50% - 33. Joint Learning of Covariance Estimation and White Noise 5.8分前50% #语音增强 34. Sonus Health: Calibrated Heart-Murmur Detection from Sm 5.7分前50% #音频事件检测 35. Autoencoder based optimized SSL representations: Comple 5.5分前50% #语音识别 36. It's Complicated: On the Design and Evaluation of A 5.5分前50% #大语言模型 37. Digital Revival: Acoustic Documentation and Digital Rea 5.3分后50% #音乐生成 38. Aligning MusicLLM with Emotion using Instruction Tuning 4.9分后50% #音乐情感识别 39. A Variational-Flow Analysis of StoRM under Noise-Power 4.4分前50% #语音增强 📋 论文列表 🥇 ZONOS2 Technical Report 10.0/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

Adding Robust Code-Switching Capabilities to High Performance Multilingual ASR

📄 Adding Robust Code-Switching Capabilities to High Performance Multilingual ASR #语音识别 #语音合成 #参数高效微调 #低资源 7/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.9/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前50% | #语音识别 | #参数高效微调 | #语音合成 #低资源 | arxiv 👥 作者与机构 Enes Yavuz Ugan¹², Alexander Waibel¹² ¹Interactive Systems Lab, Karlsruhe Institute of Technology (KIT), Germany ²InterACT, Carnegie Mellon University (CMU), USA ...

An Analysis of Untrained Deep Reservoir Networks for Audio Surveillance

📄 An Analysis of Untrained Deep Reservoir Networks for Audio Surveillance #音频事件检测 #鲁棒性 #低资源 8.8/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.8/10 | 前50% | #音频事件检测 | #鲁棒性 | #低资源 | arxiv 👥 作者与机构 Corrado Baccheschi, Patrizio Dazzi. 未明确说明所属机构。 💡 毒舌点评这篇工作探索了一个有趣但相对小众的方向：将未训练的储层计算模型用于音频监控。其主要价值在于工程实践层面——展示了在资源受限设备上实现具有竞争力性能的可行性，并系统性地量化了深度与效率的权衡。然而，从顶会角度看，其理论贡献和方法创新深度有限。将现有的DeepESN架构应用于一个特定任务，主要贡献是详尽的实验分析和边缘设备评估，这更像一篇扎实的系统工程或应用研究论文。文中的比较声称有些模糊，例如与文献的“非严格排名”对比，削弱了结论的冲击力。选择仅与BiLSTM和CRNN这两个相对基础的模型进行内部对比，而刻意回避与AST等当前SOTA的交锋，使得“竞争力”的声明打了折扣。总而言之，这是一篇合格的工作，清晰地说明了“我们做了什么，效果如何”，但在“为什么这很重要”和“这如何改变领域”方面着墨不足。 📌 核心摘要本文研究了基于储层计算范式的未训练循环模型在音频监控中的应用，重点评估了不同深度的双向回声状态网络（DeepBiESN）在紧急声音事件检测任务上的表现。作者在MIVIA音频事件数据集上，针对不同信噪比水平，评估了这些模型在识别性能、计算效率和对噪声/输入特征表示鲁棒性之间的权衡。实验在服务器和NVIDIA Orin边缘设备上进行，并与完全训练的循环模型（BiLSTM）和卷积循环模型（CRNN）进行了对比。结果表明，深度和浅层储层模型均能取得具有竞争力的识别率，其中深层变体在高噪声条件下更鲁棒，而浅层变体（尤其是1层）在边缘设备上表现出最优的效率与性能权衡。此外，该模型对不同的输入特征表示（对数梅尔频谱图和MFCC）表现出鲁棒性。这些发现突显了未训练储层架构在资源受限音频监控场景中的潜力。 🔗 开源详情代码：https://github.com/Bakko000/TorchDeepESN/ 模型权重：论文中未提及提供预训练模型权重。数据集：MIVIA Audio Events dataset。论文中引用该数据集（Foggia et al. [8]），但未提供直接的下载链接。数据集可通过原论文[8]的相关信息获取。 ...

ATCCaps: A Call-Sign-Aware Speech Dataset for Air Traffic Control Recognition

📄 ATCCaps: A Call-Sign-Aware Speech Dataset for Air Traffic Control Recognition #语音识别 #语音增强 #数据集 #低资源 8.6/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.6/10 | 前25% | #语音识别 | #语音增强 | #数据集 #低资源 | arxiv 👥 作者与机构作者：Dongdong Li, Jianwei Song, Jianwei Wang, Zhe Wang 机构：华东理工大学计算机科学与技术系通信作者：Dongdong Li 💡 毒舌点评数据集的价值与新颖性的平衡：这篇论文的核心贡献是构建了一个“大而全”的空管数据集，并为其贴上了“呼号感知”的标签。这确实填补了社区的一个空白，但创新性更多体现在工程集成和管道设计上，而非提出全新的算法或理论。对于顶会而言，纯粹的数据集论文需要更强的动机和更深入的验证来证明其不可或缺性。 “LLM增强”的风险被低估：论文虽然承认了LLM生成描述中呼号和数字的保真度问题（71.34%，51.59%），但这恰恰是该数据集“音频-文本对齐监督”主张的阿喀琉斯之踵。在安全关键的空管领域，这种不可靠性是致命弱点。论文仅做了小样本定性分析，却没有提出或尝试任何系统性的检测、过滤或修正机制来确保生成内容的可靠性，这削弱了该部分工作的严谨性。评估任务的深度与广度不足：提供的基线评估（Whisper零样本、CLAP微调）更像是“演示”而非“基准”。缺乏对数据集核心价值（呼号感知）的针对性深度评估，例如：使用呼号实体识别指标、对长尾呼号的识别分析、或将数据集用于训练一个强大的上下文感知ASR模型来展示其威力。当前的评估无法充分证明该数据集能带来何种质的飞跃。 📌 核心摘要本文介绍了ATCCaps，一个针对空管通信的、呼号感知的语音数据集。ATCCaps包含202.94小时经过精心筛选的真实空管音频，共170,385条话语和922个唯一规范化呼号。数据集构建管道融合了置信度感知的机器转录解析、ADS-B导出的元数据、呼号规范化、基于规则的音频质量过滤以及大型语言模型（LLM）辅助的描述生成。每条保留的数据都配有转录文本、呼号描述和空管风格的描述，支持语音识别、呼号匹配和呼号感知的音频-文本检索等任务。论文对数据集进行了全面的统计分析，包括划分统计、呼号覆盖分析、过滤效果审计以及生成描述的质量评估，并提供了上述任务的基线结果。 ...

AugCodec: A Low-Bitrate Disentangled Neural Speech Codec via Data Augmentation

📄 AugCodec: A Low-Bitrate Disentangled Neural Speech Codec via Data Augmentation #数据增强 #低资源 6.7/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 6.7/10 | 前50% | #数据增强 | #数据增强 | #低资源 | arxiv 👥 作者与机构作者：Dongmei Wang, Xiaohang Sun, Yang Liu, Fanjie Kong, Abhishek Yanamandra, Abhinav Jain, Daniel Tompkins, Woohyun Kang, Najmeh Sadoughi, Sunil Hadap, Xiang Hao, Zhu Liu, Caren Chen 机构：Amazon, USA 💡 毒舌点评论文的“低比特率”宣称有点取巧——它通过大幅降低帧率（12.5Hz甚至6.25Hz）来实现，而非真正高效的信息编码。核心的数据增强思路虽然直观有效，但严重依赖一个外部且固定的语音转换模型（Seed-VC），这引入了不可控的域偏移风险和系统复杂度。实验部分最大的硬伤是评估完全局限于干净的英文朗读数据集（LibriSpeech test-clean），对于一个声称有广泛应用前景的编解码器而言，这说服力远远不够，连点背景噪声都没见过，怎能谈鲁棒性？作者自己都在结论里提到了未来要做TTS和语音翻译，却连这些下游任务的初步验证都没做，使得贡献看起来更像一个有趣的玩具，而非能落地的解决方案。此外，论文完全缺乏计算开销分析（参数量、推理延迟），这对于实时通信场景至关重要，是一个显著的遗漏。 ...

CORTIS: Text-Only Adaptation of Spoken Language Models for Task-Oriented Voice Agents

📄 CORTIS: Text-Only Adaptation of Spoken Language Models for Task-Oriented Voice Agents #多模态模型 #正则化微调 #低资源 #鲁棒性 #语音识别 7.7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.7/10 | 前50% | #语音识别 | #多模态模型 | #正则化微调 #低资源 | arxiv 👥 作者与机构 Youngwon Choi (Maum AI Inc.) Hyeonyu Kim (Maum AI Inc.) Taeyoun Kwon (Maum AI Inc., Seoul National University) Donghyuk Jung (Korea Culture Technology Institute) Myeongkyun Cho (Maum AI Inc., KAIST) 通讯作者：youngwonchoi@maum.ai 💡 毒舌点评创新性有限：论文提出CORTIS框架，核心是“用文本数据微调语音模型”，这是一个直观且合理的思路，并非突破性的技术新颖性。主要贡献在于在特定任务（语音代理）上验证了这一思路的有效性，并与级联系统进行了系统比较。实验范围受限：虽然使用了三个数据集，但两个是公开基准，一个是未公开的内部数据集。关键的消融实验（如has_ablation: 否）缺失，未能深入探讨“冻结语音模块”、“提示格式一致性”等设计选择对性能的具体影响。评估深度不足：论文声称优势在“高阶任务语义”和“噪声鲁棒性”，但缺乏对失败案例（如表2所示的实体错误）的定量分析。未报告置信区间或统计显著性检验，使得“竞争优势”的结论强度打折扣。开源与可复现性差：论文未提供代码、模型权重或内部数据集的任何访问链接（has_code: 否， has_model: 否， has_dataset: 否）。尽管提供了详细训练配置，但缺乏代码使得完全复现困难，违背了顶会鼓励开源的原则。影响力中等：工作为降低任务导向语音模型的标注成本提供了实用方案，但受限于仅在Qwen2.5-Omni架构上的验证（且附录C显示在其他模型上效果不佳），其普适性有待进一步证明。对语音领域的实际产品开发有一定参考价值。 📌 核心摘要本文提出了CORTIS，一个用于任务导向语音代理的文本-only监督适配框架。其核心思想是：仅使用文本形式的任务监督数据（用户指令-结构化输出对）来微调口语语言模型（SLM）的LLM组件，同时冻结其语音编码器和模态适配器。利用SLM预训练时习得的跨模态对齐能力，使得微调后的模型在推理时能够直接处理语音输入，生成结构化任务输出，而无需任务特定的语音-标注对。实验在FSC、SLURP和一个内部产品数据集上进行，将CORTIS与使用相同文本监督数据的ASR-LLM级联系统进行对比。结果表明，CORTIS在性能上与级联系统具有竞争力，并在声学条件恶化时，对于保留高阶任务语义（如意图识别、函数调用）表现出更明显的优势。 ...

DisSpeech: Low-Resource Controllable Mandarin Stuttered Speech Synthesis for ASR Augmentation

📄 DisSpeech: Low-Resource Controllable Mandarin Stuttered Speech Synthesis for ASR Augmentation #语音合成 #语音识别 #低资源 #数据增强 7.2/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.2/10 | 前25% | #语音合成 | #数据增强 | #语音识别 #低资源 | arxiv 👥 作者与机构作者：Yao Lu 机构：TMCC, College of Computer Science, Nankai University, Tianjin, China (南开大学计算机科学学院智能多媒体计算中心) 邮箱：2211843@mail.nankai.edu.cn 💡 毒舌点评动机与定位清晰，但“低资源”声明需斟酌：针对普通话口吃语音数据稀缺导致ASR性能下降的问题，提出合成增强方案，动机合理。声称“仅需少于50小时数据微调”，这在特定任务下是优势，但需注意AS-70数据集本身就有48小时，且预训练使用了85小时的AISHELL-3，严格意义上“低资源”可能指目标领域的微调数据量。方法设计模块化，有改进但创新性中等：将离散token生成与可控口吃建模结合，并引入非自回归模型缓解误差累积，思路直接有效。然而，核心组件（SpeechTokenizer, MaskGCT, HiFi-GAN, 韵律解码器）均为已有工作，本文主要贡献在于整合与适配，针对口吃合成的原创性架构设计或理论贡献有限。实验充分，但部分评估可深化：在合成质量和ASR增强上做了全面对比，结果显示有效。但缺少关键的消融实验来验证各组件（如非自回归模型、显式音高能量模块、口吃标签）的具体贡献。ASR增强实验虽结果显著，但“state-of-the-art”的声明受限于特定数据集和评估设置，泛化性未知。开源与可复现性严重不足：论文未提供代码、模型权重或合成数据，这极大限制了其可复现性和对社区的贡献。作为一篇应用性较强的论文，不开源使得验证其主张和进行后续研究变得困难。局限性挖掘可更深入：论文提及了未来工作方向，但审稿人认为应更尖锐地指出当前局限，例如：自动插入口吃标签的策略可能过于简单，无法模拟真实口吃的复杂性和上下文依赖性；模型在极严重或罕见口吃类型上的泛化能力未被验证；合成语音与真实口吃语音在自然度和多样性上的差距未被量化讨论。 📌 核心摘要本文针对普通话口吃语音数据稀缺导致自动语音识别（ASR）系统性能下降的问题，提出了DisSpeech框架。该框架是一个基于离散语音token的低资源可控口吃语音合成系统，可用于ASR数据增强。核心思想是将文本和显式口吃事件标签通过非自回归掩码生成Transformer映射为语义token，再通过一个集成显式音高与能量建模的解码器重建声学特征，最终由HiFi-GAN生成波形。实验表明，DisSpeech在合成质量和口吃事件可控性上优于现有方法（如Stutter-TTS）。利用其生成的94小时合成口吃语音增强ASR模型训练后，Qwen3-ASR-0.6B模型在评估的普通话口吃语音识别任务上达到4.19%的最优字符错误率（CER），同时对流利语音识别性能影响轻微。 ...

Imitation Learning for Elder-Facing Speech Synthesis

📄 Imitation Learning for Elder-Facing Speech Synthesis #语音合成 #强化学习 #低资源 5.5/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 📝 5.5/10 | 前50% | #语音合成 | #强化学习 | #低资源 | arxiv 👥 作者与机构作者：Dongrui Han, Weidong Chen, Jiawen Kang, Mingyu Cui, Helen Meng, Xixin Wu 机构：1 The Chinese University of Hong Kong, Hong Kong SAR, China; 2 Tencent Hunyuan, China ...