低资源 | 语音/音乐/音频论文速递

Low-Burden Data Augmentation for Dysarthric ASR via Zero-Shot Voice Cloning

📄 Low-Burden Data Augmentation for Dysarthric ASR via Zero-Shot Voice Cloning #语音识别 #数据增强 #低资源 #语音合成 #迁移学习 8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.7/10 | 前25% | #语音识别 | #数据增强 | #低资源 #语音合成 | arxiv 👥 作者与机构 Satwinder Singh: DeepNet Discovery Network, University of Auckland, New Zealand Qianli Wang: University of Auckland, New Zealand Zihan Zhong: University of Auckland, New Zealand Clarion Mendes: University of Illinois Urbana-Champaign, USA Mark Hasegawa-Johnson: University of Illinois Urbana-Champaign, USA Waleed Abdulla: University of Auckland, New Zealand Seyed Reza Shahamiri: DeepNet Discovery Network 💡 毒舌点评这篇工作直击构音障碍ASR的痛点——数据稀缺，想法很直接：既然真实数据难采，那就用现成的“克隆”技术造点。实验也做得像样，跑通了从合成到微调的全流程，甚至挖了挖数据量的“甜点”和跨库泛化。但仔细一看，这更像是一个扎实的“技术可行性验证”而非突破性研究。核心工具（Higgs Audio V2, Whisper）都是别人的，创新主要在应用层面。最让人皱眉的是，所有结论都建立在TORGO这个只有8个说话人的小池塘里，就像用8个病例来验证一种新药的普适疗效，说服力天然受限。对于克隆数据为何对中重度患者更有效、为何数据过量会变差，分析止步于“可能因为…”，缺乏更硬的声学证据。作者们坦承了数据集规模的问题，但没有充分探讨这可能带来的结论偏差。总的来说，这是一篇合格的应用型工作，为工具箱增添了一种新方法，但离真正令人信服的、可推广的解决方案还有距离。 ...

RIVET: Robust Idempotent Voice Attribute Editing

📄 RIVET: Robust Idempotent Voice Attribute Editing #语音编辑 #语音转换 #低资源 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前50% | #语音转换 | #语音编辑 | #低资源 | arxiv 👥 作者与机构 Dareen Alharthi, Bhuvan Koduru, Rita Singh, Bhiksha Raj 卡内基梅隆大学 (Carnegie Mellon University) 💡 毒舌点评这篇工作的出发点不错，抓住了语音编辑在大数据时代的一个真实痛点——脏标签。用“幂等性”这剂药方听起来也挺高大上，直觉上说得通。但仔细一看，这药方的“药效”和“适用症”证明得不够扎实。最大的问题是，作者自己搭了个简易擂台（去掉核心损失的自身架构），就宣布自己赢了。这就像只跟昨天的自己比赛，说服力打折扣。而且，对“年龄”这个属性，药效好像不太灵（在EARS上甚至变差了），论文却轻描淡写带过，没给出像样的病理分析。方法部分对模型“怎么做手术”的细节描述比较模糊，光给了个公式和示意图，让人不清楚这“潜在表示空间”的约束到底落在VITS的哪个部位。总之，想法有价值，但就像一篇刚完成初步临床试验的新药报告：看到了希望，但离证明其广泛有效性和弄清所有副作用，还有不少路要走。 📌 核心摘要本文针对语音属性编辑模型因训练数据中的标签噪声而导致编辑不稳定和身份漂移的问题，提出了RIVET训练框架。其核心在于利用幂等性原理（\(f(f(x)) = f(x)\)）作为正则化。具体实现上，RIVET在模型的编码潜在表示空间（同时针对说话人嵌入和语音潜在表示）施加一致性约束，通过最小化原始编码与“编辑-重建”再编码之间的差异，使模型在噪声标签下也能学习到稳定的映射。实验表明，该方法能有效提升模型在自然噪声（GLOBE）和可控合成噪声（EARS）下的编辑成功率和说话人身份保持能力，尤其是在性别编辑和对抗噪声方面效果显著。 🔗 开源详情代码：https://github.com/DareenHarthi/rivet (提供了完整的训练和评估代码) 模型权重：论文中未提及提供预训练模型权重。数据集：论文使用GLOBE和EARS数据集，但未提供直接获取链接，需从官方渠道获取。 Demo：论文中未提及。复现材料：论文中包含主要的训练细节（如优化器、学习率），但未提供具体的配置文件或脚本。 🏗️ 方法概述和架构 RIVET是一个端到端训练的语音属性编辑框架，其核心组件包括三个部分：说话人编码器、属性编辑模块和语音生成器，并通过引入幂等性损失进行联合优化。 ...

Segment-Level Mandarin Chinese Speech-Based Cognitive Impairment Detection via an Autoencoder with Contrastive Learning

📄 Segment-Level Mandarin Chinese Speech-Based Cognitive Impairment Detection via an Autoencoder with Contrastive Learning #对比学习 #数据增强 #低资源 6.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.5/10 | 前50% | #对比学习 | #对比学习 | #数据增强 #低资源 | arxiv 👥 作者与机构 Yongqi Shao, Hong Huo, Flavio Bertini, Danilo Montesi, Tao Fang. 机构：上海交通大学自动化与智能感知学院、系统控制与信息处理教育部重点实验室、上海工业网络系统感知与控制重点实验室；意大利博洛尼亚大学计算机科学与工程系；意大利帕尔马大学数学、物理与计算机科学系。 💡 毒舌点评创新性平庸：将自编码器、监督对比学习、SpecAugment这三个早已成熟的技术拼接在一起，缺乏根本性的算法或理论创新。论文更像是一个有效的工程集成方案，而非一篇旨在推动方法边界的研究。在NeurIPS/ICML/ICLR级别的会议上，这种“有效组合”的贡献度通常不足以获得高分。消融实验设计存在瑕疵：AE-only与AE+CL的模型选择标准不一致（前者用重建损失，后者用分类性能），这直接削弱了对比学习贡献的公平性。这是一个不应出现的实验设计疏忽。关键泛化验证缺失：在四个“独立”数据集上训练并评估，却没有进行任何跨数据集的训练-测试实验。这使得“跨数据集鲁棒性”的声称缺乏最直接的支持，无法评估模型在真正未见数据源上的表现。对比学习细节模糊：未说明在同一batch内如何处理来自同一原始录音的不同片段作为正样本的问题。由于这些片段高度相似，将它们都视为正样本可能过于简单，可能稀释对比学习的难度和效果，这一关键细节的缺失影响了方法的严谨性。评分与定位：考虑到其临床应用价值和扎实的实验，作为一篇应用性/实验性论文，其价值是有的。但若以NeurIPS/ICML/ICLR的标准衡量，其方法新颖性和分析深度均有不足，6.8分是更合理的定位。 📌 核心摘要本文针对中文语音认知障碍检测，提出一个片段级表示学习框架。该框架整合了基于GRU的自编码器和监督对比学习，并结合了离线与在线谱图增强策略，旨在解决有限标注数据下的检测挑战。在四个公开中文语音数据集上的实验表明，该框架在二分类和三分类任务上均取得了稳定且具竞争力的性能，特别是在更具挑战性的三分类任务上表现出显著提升。消融研究验证了各组件的贡献，可视化分析展示了表示空间的优化过程。论文为资源受限的临床场景提供了一种可扩展的语音筛查方法。 ...

语音/音乐/音频论文速递 2026-06-19

语音/音乐/音频论文速递 2026-06-19 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 10篇 ██████████ #语音识别 8篇 ████████ #语音转换 2篇 ██ #语音增强 2篇 ██ #自监督学习 2篇 ██ #说话人验证 1篇 █ #模型压缩 1篇 █ #多模态模型 1篇 █ 📊 论文评分排行榜（40 篇，按分数降序）排名论文总分分档主任务 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation 10.0分前25% #语音合成 🥈 Low-Burden Data Augmentation for Dysarthric ASR via Zer 8.7分前25% #语音识别 🥉 S-JEPA : Soft Clustering Anchors for Self-Supervised Sp 8.7分前25% #语音识别 4. Personalized Keyword Spotting for User-Defined Keywords 8.6分前25% #说话人验证 5. FlowFake: Liquid Networks for Audio Deepfake Detection 8.5分前25% #模型压缩 6. Systematic Study of Dysarthric Speech Recognition: Spec 8.3分前50% #语音识别 7. PerceptionDLM: Parallel Region Perception with Multimod 8.1分前25% #多模态模型 8. RIVET: Robust Idempotent Voice Attribute Editing 8.0分前50% #语音转换 9. Repurposing a Speech Classifier for Guided Diffusion-Ba 7.9分前50% #语音合成 10. Exploring Feature Extraction Technique Parameters for A 7.9分前50% #音频事件检测 11. Transcript-Free Flow-Matching Text-to-Speech via Speech 7.7分前25% #语音合成 12. How Do Instructions Shape Speech? Cross-Attention Attri 7.7分前50% #语音合成 13. Hybrid Diffusion Transformer for Instruction-Guided Aud 7.6分前50% #Transformer 14. Improving Code-Switching ASR with Code-Mixing Guided Sy 7.6分前25% #语音识别 15. PolSeT: Polish Semantics of Timbre Dataset 7.5分后50% - 16. IHBench: Evaluating Post-Interruption Recovery in Voice 7.5分前25% #语音对话系统 17. A Survey of Full-Duplex Spoken Dialogue Systems: Archit 7.4分前50% #语音合成 18. PhysDrift: Bridging the Embodiment Gap in Humanoid Co-S 7.4分前50% #语音合成 19. PrefSQA: Pairwise Preference Prediction for Speech Qual 7.3分前50% #语音质量评估 20. Latency-Configurable Streaming Speech Enhancement via A 7.2分前50% #语音增强 21. A Comparative Study of Pretrained Transformer Models fo 7.2分前50% #语音识别 22. Pitch Spelling Jazz Lead Sheets, Solo Transcriptions, C 7.2分前50% - 23. Stuttering Classification and Segmentation with Attenti 7.0分前50% - 24. Time-Unconditional Generative Speech Enhancement via Au 7.0分前25% #语音增强 25. Investigating Human-Model Discrepancies in Speech Quali 6.9分前25% #语音合成 26. Prismriver: Formalization of Music Theory and Algorithm 6.9分前50% - 27. NEST: Narrative Event Structures in Time for Long Video 6.8分前50% - 28. Cross-Dataset, Age, and Gender Generalization: A Compre 6.7分前50% #语音识别 29. Exploring Pre-training Benefits on Phoneme Addition thr 6.7分前50% - 30. Analyzing Language and Geographical Variation in Speech 6.5分前50% #语音识别 31. Improving End-to-End Speech Recognition for Dysarthric 6.5分前50% #语音识别 32. Segment-Level Mandarin Chinese Speech-Based Cognitive I 6.5分前50% #对比学习 33. Light-weight Pronunciation Assessment via Discrete Spee 6.4分前50% #自监督学习 34. ReNikud: Audio-Supervised Hebrew Grapheme-to-Phoneme Co 6.2分前50% #语音合成 35. Zero-VC: Zero-Lookahead Streaming Voice Conversion via 6.1分前50% #语音转换 36. MixProLAP: Mixture-Induced Uncertainty Modeling for Pro 5.7分前50% #音频检索 37. MaineCoon: Pursuing A Real-Time Audio-Visual Social Wor 5.7分前50% #语音合成 38. Leveraging systems' non-linearity to tackle the sca 5.5分后50% #数据增强 39. Interpreting Content and Speaker Characteristics in Fac 5.0分后50% #语音合成 40. Beyond Speaker Independence: Evaluating Cross-Lingual A 4.9分后50% #自监督学习 📋 论文列表 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages

📄 IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages #语音识别 #基准测试 #低资源 #多语言 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.5/10 | 前25% | #语音识别 | #基准测试 | #低资源 #多语言 | arxiv 👥 作者与机构作者：Sakshi Joshi, Rathi, Singh, George, Hari, Bhogale, Khapra, Dhruv Subhash, Sanskar, Eldho Ittan, R J, Kaushal, Mitesh M。机构：1 AI4Bharat, Indian Institute of Technology Madras, India; 2 Sarvam AI, India。第一作者邮箱：sakshijcom@gmail.com。通讯作者邮箱：miteshk@dsai.iitm.ac.in。 ...

Low-resource Language Discrimination Towards Chinese Dialects with Transfer learning and Data Augmentation

📄 Low-resource Language Discrimination Towards Chinese Dialects with Transfer learning and Data Augmentation #语音识别 #迁移学习 #数据增强 #低资源 5.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 📝 5.5/10 | 前50% | #语音识别 | #迁移学习 | #数据增强 #低资源 | arxiv 👥 作者与机构作者：FAN XU, Yangjie DAN, Keyu YAN, Yong MA, Mingwen WANG（通讯作者）机构：江西师范大学 💡 毒舌点评这篇论文像是给一个常见套路（预训练+微调+分类头）穿上了“方言保护”的文化外衣，然后用一堆详尽但缺乏深度的实验表格来填充篇幅。核心创新点在于“用ASR的中间状态做方言分类”，但这更像是一个工程上的巧思，而非深刻的学术洞见。作者声称其简单数据增强因“计算成本低”而优于SpecAugment，这个理由在追求性能的顶会语境下显得有点说服力不足。最令人困惑的是，论文详细报告了PER（音素错误率），但这个指标与方言分类的最终目标关联性薄弱，像是为了凑实验而存在。基线模型选择停留在2018年，仿佛时间凝固，让人质疑对领域进展的了解。 ...

Montreal Forced Aligner and the state of speech-to-text alignment in 2026

📄 Montreal Forced Aligner and the state of speech-to-text alignment in 2026 #语音识别 #基准测试 #低资源 #概率图模型 7.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #概率图模型 | #基准测试 #低资源 | arxiv 👥 作者与机构作者：Michael McAuliffe, Kaylynn Gunter, Michael Wagner, Morgan Sonderegger 机构：1. University of Wisconsin–Madison, USA; 2. McGill University and Centre for Brain, Language, and Music, Canada; 3. University of Oregon, USA ...

NeuralMUSIC: A Hybrid Neural-Subspace Framework for Robot Sound Source Localization

📄 NeuralMUSIC: A Hybrid Neural-Subspace Framework for Robot Sound Source Localization #声源定位 #自监督学习 #低资源 #鲁棒性 7.8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 7.8/10 | 前50% | #声源定位 | #自监督学习 | #低资源 #鲁棒性 | arxiv 👥 作者与机构 Yizhuo Yang, Junqiao Fan, Shenghai Yuan*, Lihua Xie。作者来自新加坡南洋理工大学电气与电子工程学院。 💡 毒舌点评这篇论文试图在经典信号处理（MUSIC）和深度学习之间架起一座桥梁，其动机——结合两者的优点——是值得称赞的。然而，这种“混合”框架在近年来的音频和阵列处理领域已不鲜见（如SubspaceNet, DA-Music）。论文的贡献更多地体现在将多个已知模块（神经协方差估计、注意力融合、自监督预训练）进行组合与适配，而非提出一个突破性的核心算法。作者声称的“统一框架”和“保留物理可解释性”是亮点，但后者主要通过保留MUSIC伪谱计算来实现，其神经协方差回归器本身仍是黑箱。实验部分确实全面，覆盖了多个数据集和任务，但部分对比基线（如DeepDAE, DeepMusic）可能并非最前沿的声源定位方法，而更先进的端到端模型（如近期基于Transformer的SSL模型）未被充分讨论。自监督策略（SSCL）的设计较为朴素，其有效性证明主要依赖于消融实验，缺乏与其他自监督音频预训练方法（如对比学习）的直接比较。总而言之，这是一篇扎实的工作，在特定设置下取得了SOTA结果，但其创新性和技术深度距离NeurIPS/ICML/ICLR的顶会标准尚有差距，更适合作为一个应用层面的技术报告。 📌 核心摘要本文提出了NeuralMUSIC，一个用于机器人听觉声源定位的混合神经-子空间框架。其核心思想是利用神经网络从多通道音频中估计一个鲁棒的空间协方差矩阵，然后将其输入经典的MUSIC子空间算法进行波达方向（DOA）估计。为处理宽带声信号，引入了频率注意力融合（FAF）模块。为提升数据效率，设计了自监督空间相关学习（SSCL）策略，通过掩码重建任务从无标签数据中学习通道间的空间依赖关系。在多个机器人听觉数据集（说话人定位、声学事件定位、行人定位）上的实验表明，该方法在定位精度、低信噪比鲁棒性、数据效率和跨环境/跨阵列泛化方面优于多种经典和深度学习基线方法。 ...

Reliable Neural-Codec Text-to-Speech by ASR Self-Verification and Distillation: Near-Zero Catastrophic Failures Across Models and Codecs

📄 Reliable Neural-Codec Text-to-Speech by ASR Self-Verification and Distillation: Near-Zero Catastrophic Failures Across Models and Codecs #语音合成 #自监督学习 #正则化微调 #强化学习 #知识蒸馏 #低资源 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前50% | #语音合成 | #自监督学习 | #正则化微调 #强化学习 | arxiv 👥 作者与机构作者：Ali Asaria, Tony Salomone, Deep Gandhi 机构：Transformer Lab 通讯作者：deep@lab.cloud ...

Responsible ASR: Overcoming Challenges of Foundational Models in Narrow-Band and Low-Resource Settings

📄 Responsible ASR: Overcoming Challenges of Foundational Models in Narrow-Band and Low-Resource Settings #低资源 #自监督学习 #语音识别 6.5/10 | 清晰 3/1 ✅ 6.5/10 | 前50% | #语音识别 | #自监督学习 | #低资源 | arxiv 👥 作者与机构 Tejas Godambe, Nutan Choudhary, Sanket Shah, Nagaraj Adiga, Sharath Adavanne. Krutrim India Applied AI. 💡 毒舌点评这是一篇典型的“工业界问题定义，学术界方法组合”的论文。作者诚实地展示了在真实、未公开数据上的挣扎，这比在完美干净数据集上刷点更有价值。但审稿人（我）的怀疑点在于：你所有的提升都建立在无法复现的数据和未公开的模型细节上（比如那个“商业”对比）。论文像一份优秀的内部技术报告，但离顶会标准还有距离——它缺少对方法选择背后的深入分析，以及更公平、更可复现的实验设计。那些“显著提升”的数字，在无法复现的条件下，说服力打了折扣。 📌 核心摘要本文针对电话客服场景中窄带语音和低资源语言（印地语、印度口音英语）的ASR挑战，系统评估了主流开源（Whisper, NeMo, MMS等）及商业基础模型。零样本评估显示性能不佳。作者随后探索了在仅50小时标注数据下的多种适配策略：1) 在开源ASR模型（NeMo）上微调；2) 微调开源基础语音编码器（MMS）；3) 利用10万小时未标注域内数据，从头预训练一个基于BEST-RQ的语音编码器。实验表明，基于域内数据从头预训练的编码器性能显著优于微调通用编码器。最终，通过结合从头训练的编码器与伪标签增强技术，将英语和印地语的WER分别降至12.3%和16.6%，达到了可商用水平。 🔗 开源详情代码：论文实验基于SpeechBrain框架，但未提供针对本研究的完整代码仓库。引用了Data2Vec_AQC的代码库：https://github.com/Speech-Lab-IITM/data2vec-aqc/tree/master。模型权重：论文引用了以下开源预训练模型的权重：Whisper-Large v3 (https://huggingface.co/openai/whisper-large-v3)， MMS (1B) (https://huggingface.co/facebook/mms-1b)， MMS Adapters (https://huggingface.co/blog/mms_adapters)。��者自训练的语音编码器（In-house SE）及微调后的最终模型权重未公开。数据集：论文中使用的100K小时未标注预训练数据、50小时标注微调/测试数据均为公司内部数据集，未提供公开获取链接。 Demo：论文未提及。复现材料：论文详细描述了BEST-RQ和Transducer模型的架构参数、训练超参数、数据增强策略等，这些信息构成了复现其方法的核心细节。但由于核心数据集和模型权重未开源，仅凭这些信息无法完整复现实验结果。 🏗️ 方法概述和架构本文的研究方法分为评估和改进两个主要阶段，核心架构基于开源的SpeechBrain框架实现。 ...