Adapting Foundation ASR Models to Dysarthric Speech: A Case Study

📄 Adapting Foundation ASR Models to Dysarthric Speech: A Case Study #语音识别 #自回归模型 #参数高效微调 #数据增强 6.2/10 ✅ 6.2/10 | 前50% | #语音识别 | #参数高效微调 | #自回归模型 #数据增强 | arxiv 👥 作者与机构 作者:Christian Huber, Laura Kernahan, Alexander Waibel 机构:卡尔·斯鲁普工业大学(KIT,德国)及其卡内基-梅隆大学(CMU,美国)的合作项目 💡 毒舌点评 说白了,这是一篇非常扎实的“工程应用报告”,但离顶会的“科研论文”标准还有不小的距离。优点很明显:选题刚需,流程完整,结果感人(从完全不能用到相当可用),还有真实的部署和用户反馈,这比很多只在数据集上刷分的工作要实在得多。但问题是,它的“学术味儿”太淡了。核心方法就是“拿Whisper微调”,这操作放在语音社区甚至不如“在LibriSpeech上微调”来得有新意。实验设计最大硬伤就是“单人验证”,这直接把结论的普遍性打入冷宫——你的LoRA不行、Qwen3-ASR不行,换个人可能就反过来了。分析也浮于表面,比如只说LoRA效果差是因为“失配”,却没动手验证这个猜想(比如调调rank试试?)。最可惜的是,它本可以提炼出一些关于“极端域下全量微调 vs 参数高效微调”的有趣规律,但论文满足于描述现象,没有深入机理。所以,它很好地解决了一个实际问题,但对科学共同体贡献的新知有限。更适合发表在应用类会议或期刊上。 📌 核心摘要 本文针对基础ASR模型在构音障碍语音上性能差的问题,提出了一个端到端的个性化适配与部署方案。核心工作是使用TEQST工具收集了单一说话者约92小时的朗读语音,并通过部署的移动应用收集了8.8小时的纠正数据。以Whisper (whisper-large-v3) 为基础模型,通过全量微调,仅用1.4小时数据就将WER从基线的128.4%降至15.8%,使用全部数据(含纠正)后达到最佳9.7%。作为对比,LoRA参数高效微调方法效果较差(相对下降15%-39%),而另一个基础模型Qwen3-ASR-1.7B在相同设置下的表现也不及Whisper。最终,微调后的模型被部署为iOS移动应用,提供多种录音模式和实时纠正功能,显著改善了用户的生活质量和沟通信心。论文指出,该工作成功证明了全量微调在应对巨大领域偏移时的有效性,并为解决实际无障碍通信问题提供了一个可行路径。 🔗 开源详情 代码:论文中未提及任何代码仓库链接。 模型权重:论文中未提供作者微调后的模型权重下载链接。论文使用了开源的Whisper (whisper-large-v3) 和 Qwen3-ASR-1.7B作为基础模型,但未提供最终的个性化模型。 数据集:论文中提及“The data set can be accessed here”,暗示数据集可通过链接访问,但在提供的论文全文中未显示具体的URL。数据集包含约100.8小时的构音障碍语音(训练集89.8小时,纠正数据8.8小时,开发集和测试集各1.1小时)。 Demo:论文中未提及在线演示链接或移动应用商店链接。 复现材料:论文中未提及具体的训练配置文件、检查点、环境依赖列表或附录等复现材料。 论文中引用的开源项目: TEQST:论文引用为[4],用于数据收集,未提供具体链接。 Whisper:OpenAI的ASR模型,论文引用为[10],未提供具体链接。 Qwen3-ASR:阿里云的ASR模型,论文引用为[11],未提供具体链接。 Faster Whisper:论文引用为[13],用于模型部署,未提供具体链接。 CTranslate2:论文引用为[5, 6],作为Faster Whisper的实现基础,未提供具体链接。 LoRA:论文引用为[3],参数高效微调方法,未提供具体链接。 补充链接(自动提取): ...

2026-07-01 · 更新于 2026-07-02 · 1 min · 209 words

ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models

📄 ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models #音频问答 #对比学习 #参数高效微调 7.4/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前50% | #音频检索 | #对比学习 | #音频问答 #参数高效微调 | arxiv 👥 作者与机构 论文作者为Fengjie Lu, Chenang Jiang, Jiarui Hai, Helin Wang, Aaron Yee,分别来自浙江大学和约翰斯·霍普金斯大学。 💡 毒舌点评 这篇论文更像是一个工程上“有效”的系统构建报告,而非一篇贡献突出的学术研究。其核心思想——将一个强大的音频语言模型转换为嵌入模型——在直觉上合理,但缺乏令人信服的“为什么这样做以及为什么是这样”的深度分析。论文在方法论上缺乏关键设计选择的消融实验(例如,为什么用[EOS]?LoRA适配是否最优?),在评估上未能充分量化其宣称的“可控性”,在局限性探讨上流于表面。整体上,它更像一篇扎实的硕士论文或技术报告,其方法论创新和实验分析的深度尚未达到顶会所期望的水平。 📌 核心摘要 本文提出了ALM2Vec,一个从预训练大型音频语言模型(ALLM,具体为MiDashengLM)衍生而来的通用音频嵌入框架。该框架旨在将ALLM在大规模多模态训练中获得的音频理解、指令遵循和推理能力,转化为支持跨音频领域(如音效、语音、音乐)、跨任务类型(检索、问答)且可指令控制的统一嵌入空间。模型使用ALLM的[EOS] token隐藏状态作为全局表示,并通过双向对比学习进行训练。实验表明,ALM2Vec在标准音频和语音检索基准上性能与强基线(如CLAP)相当或更优,在指令条件音频问答(MMAU-Mini)上也能与一些大型音频语言模型竞争,尽管微调后性能略有下降。定性案例展示了其根据指令检索音频特定属性的能力。 ...

2026-07-01 · 更新于 2026-07-02 · 2 min · 405 words

ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning for Base-to-Novel Generalization in Audio-Language Models

📄 ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning for Base-to-Novel Generalization in Audio-Language Models #音频分类 #提示学习 #参数高效微调 7.1/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | #音频分类 | #提示学习 | #参数高效微调 | arxiv 👥 作者与机构 作者:Asif Hanif, Mohammad Yaqub 机构:Mohamed Bin Zayed University of Artificial Intelligence, Abu Dhabi, UAE 💡 毒舌点评 这篇论文解决的是一个实际且重要的问题:提示学习在提升基类性能的同时,损害了音频语言模型对新类的零样本泛化能力。作者观察到的现象(如图1和表1所示)具有说服力,提出的ZEBRA方法作为一种“即插即用”的框架,思路直观且有效。其核心在于“锚定”预训练表示空间并抑制过拟合,这是合理的。 ...

2026-07-01 · 更新于 2026-07-02 · 3 min · 470 words

语音/音乐/音频论文速递 2026-07-01

语音/音乐/音频论文速递 2026-07-01 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 8篇 ████████ #语音合成 7篇 ███████ #自监督学习 2篇 ██ #音频分类 2篇 ██ #生成模型 2篇 ██ #语音情感识别 2篇 ██ #数据集 1篇 █ #知识蒸馏 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Dilemmadata: On the Interoperability of Heterogeneous R 10.0分 前50% #数据集 🥈 SwiftAudio: Data-Efficient Caption-Only Distillation fo 10.0分 前50% #知识蒸馏 🥉 Attacking UTMOS: Probing the Robustness of a Speech Qua 8.6分 前25% #语音质量评估 4. Enhancing BEST-RQ Pseudo-Label Quality through Online R 8.6分 前50% #语音识别 5. Linguistic Bias Mitigation for Spoofing Detection via G 8.6分 前25% #自监督学习 6. Building an ASR Solution for Training and Assessing Chi 8.5分 前50% #语音识别 7. Beyond Cross-Reconstruction: Probing-Based Disentanglem 8.1分 前50% #语音编码 8. MuseBench: Benchmarking Intent-Level Audiovisual Arts U 7.9分 前50% #语音合成 9. Detecting Audio Deepfakes on the Edge:Lightweight SSL-B 7.7分 前25% - 10. Beyond Binary Instrument QA: Probing Instrument Groundi 7.6分 前25% #音频分类 11. SyncCache: Exploiting Asymmetric Dynamics for Fast Audi 7.5分 前25% #语音合成 12. Probing-Guided Layer Selection from Self-Supervised Spe 7.5分 前25% #集成学习 13. A First Exploration of Neuromorphic OT-CFM for Multi-Sp 7.5分 前25% #生成模型 14. LuxEmo: Expressive Text-to-Speech Corpus for Luxembourg 7.5分 前25% #语音合成 15. A Fair and Transparent Framework for Speech-Based Depre 7.4分 前50% #语音情感识别 16. ALM2Vec: Learning Audio Embeddings for Universal Audio 7.4分 前50% #音频检索 17. ASR-Agnostic Multimodal Spectrotemporal Modeling for Ea 7.4分 前50% #多模态模型 18. UniSAE: Unified Speech Attribute Editing on Speaker, Em 7.3分 前50% #语音合成 19. Tone-Conditioned Curriculum Learning for Low-Resource B 7.3分 前50% #语音识别 20. What Counts as an Error? Dual-Reference Benchmarking fo 7.3分 前50% #语音识别 21. Is Natural Always Appropriate? Investigating Naturalnes 7.2分 前25% #语音合成 22. FlexiSLM: A Dynamic and Controllable Frame Rate Spoken 7.2分 前25% #语音合成 23. ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning fo 7.1分 前50% #音频分类 24. Preserving Speech-to-Text LLM Capabilities in Speech-to 7.0分 前50% #语音识别 25. Listening Between the Lines: Joint Learning of ASR Embe 7.0分 前50% #数据增强 26. BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Appro 6.9分 前50% #语音识别 27. Improving multichannel speech enhancement through accur 6.8分 前50% #语音增强 28. Amplifying Membership Signal Through Chained Regenerati 6.6分 前50% #生成模型 29. AVTok: 1D Unified Tokenization for Holistic Audio-Video 6.5分 前25% #语音合成 30. LOPA: Enhancing Spoken Language Assessment via Latent O 6.2分 前50% #低资源 31. Adapting Foundation ASR Models to Dysarthric Speech: A 6.2分 前50% #语音识别 32. How Bilingual Are SSL Speech Models? Cross-Lingual Prob 5.8分 前50% #自监督学习 33. Gated Multi-Graph Fusion via Graph Attention Networks f 5.2分 后50% #语音情感识别 34. Building a Multimodal Dataset of Academic Paper for Key 5.2分 后50% #语音识别 35. Reference-Based Prosody and Rhythm Evaluation for Spoke 4.7分 后50% #语音对话系统 📋 论文列表 🥇 Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-07-01 · 更新于 2026-07-02 · 20 min · 4207 words

How to Leverage Synthetic Speech for LLM-Based ASR Systems?

📄 How to Leverage Synthetic Speech for LLM-Based ASR Systems? #语音识别 #数据增强 #参数高效微调 8.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前50% | #语音识别 | #数据增强 | #参数高效微调 | arxiv 👥 作者与机构 Yanis Labrak1, Dairazalia Sanchez-Cortes1, Sergio Burdisso1, Séverin Baroudi2, Shashi Kumar1,3, Esaú Villatoro-Tello1, Srikanth Madikeri4, Manjunath K E5, Oldřich Plchot6, Kadri Hacioğlu5, Petr Motlicek1,6, Andreas Stolcke5 机构:1. Idiap Research Institute (推测), 2. 未知, 3. 未知, 4. 未知, 5. 未知, 6. 未知。(注:原文未明确列出所有作者对应机构,分析中不编造) ...

2026-06-30 · 更新于 2026-07-02 · 2 min · 294 words

LoRA-Tuned Large Language Models for Dementia Detection via Multi-View Speech-Derived Features

📄 LoRA-Tuned Large Language Models for Dementia Detection via Multi-View Speech-Derived Features #参数高效微调 #大语言模型 7.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 ✅ 7.5/10 | 前50% | #参数高效微调 | #参数高效微调 | #大语言模型 | arxiv 👥 作者与机构 作者:Jonghyeon Park, Olivier Jiyoun Jung, Myungwoo Oh 机构:1 NAVER Cloud, South Korea;2 Division of Communication and Media, Ewha Womans University, South Korea ...

2026-06-30 · 更新于 2026-07-02 · 2 min · 251 words

语音/音乐/音频论文速递 2026-06-30

语音/音乐/音频论文速递 2026-06-30 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 10篇 ██████████ #语音合成 4篇 ████ #自监督学习 2篇 ██ #语音编码 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Preference-ASR: A Preference-Aware Test Set for Benchma 9.5分 前10% #语音识别 🥈 LeVo 2: Stable and Melodious Song Generation via Hierar 9.4分 前10% #音乐生成 🥉 VIB-AVSR: Variational Information Bottleneck for Noise- 9.0分 前10% #语音识别 4. Two kinds of robustness are not the same: disentangling 8.9分 前25% #音频事件检测 5. DialogPII: A multilingual dataset of synthetic dialog t 8.9分 前25% #语音识别 6. GigaSpeechBench: A Real-World Multilingual Speech-to-Te 8.7分 前50% #语音识别 7. SICAGE: Speaker-Independent Culture-Aware Gesture Gener 8.7分 前25% #语音合成 8. How to Leverage Synthetic Speech for LLM-Based ASR Syst 8.7分 前50% #语音识别 9. Position-Aware Target Speaker Extraction for Long-Form 8.5分 前25% #语音识别 10. wav2VOT: Automatic estimation of voice onset time, clos 8.5分 前25% #自监督学习 11. Improving Large-Scale Weakly Supervised ASR by Filterin 8.4分 前25% - 12. Agent-Computer Observation Interfaces Enable Dynamic Co 8.4分 前10% #语音识别 13. DTM-Codec: Dynamic Token Masking for VFR Speech Coding 8.1分 前25% #语音编码 14. TF-MoE: Time-Frequency Mixture-of-Experts for Efficient 8.1分 前25% #语音分离 15. Underwater Source Detection and Classification for Sign 7.8分 前25% #数据集 16. AMR: Adaptive Modality Routing for Multimodal Polyglot 7.8分 前25% #说话人识别 17. FacePlex: Full-Duplex Joint Speech-Facial Motion Genera 7.8分 前25% #语音合成 18. VeRe-Flow: Guiding Flow Matching toward Clean Speech vi 7.7分 前25% #语音增强 19. CTC-Seeded Token Edit Refinement for Non-Autoregressive 7.7分 前25% #语音识别 20. Evaluation of Head-Related Transfer Functions Across Fi 7.6分 前25% #空间音频 21. Semi-Supervised Sound Event Detection with Conditional 7.6分 前25% #对比学习 22. OLIVE: View-Augmented Latent Prediction with Waveform R 7.5分 前50% #语音识别 23. EchoHawk: A Reproducible Acoustic Pipeline for Drone De 7.5分 前25% - 24. LoRA-Tuned Large Language Models for Dementia Detection 7.5分 前50% #参数高效微调 25. MeloDISinger: Melody-Aware & Duration-Preserving Si 7.4分 前50% #语音合成 26. Child-Centric Voice Anonymization in Single and Multi-S 7.2分 前50% #语音匿名化 27. SIGMA: Saliency-Guided Sparse Mask Attacks for Speech E 7.1分 前50% #语音情感识别 28. Effective Depth in Joint Source-Channel Coding: An Impl 7.0分 前50% #语音编码 29. SIMAX: A Scalable and Interpretable Framework for Multi 6.6分 后50% #语音合成 30. Clustering Unsupervised Representations as Defense agai 6.5分 前50% #自监督学习 31. Comparing Human and Automatic Recognition of Dutch Dysa 6.5分 前50% #语音识别 32. Predicting Timbre Traits for Interpretable Assessment o 6.1分 前50% #音频生成 33. TRACE: Temporal Relationship-Aware Conversational Entra 5.9分 前50% - 34. Proteus: Automated Adversarial Robustness Testing for A 5.3分 后50% #数据增强 35. Rehearsed Multi-Agent Live Product Demonstrations with 5.3分 后50% #多模态模型 📋 论文列表 🥇 Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-30 · 更新于 2026-07-02 · 22 min · 4475 words

Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean

📄 Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean #语音合成 #参数高效微调 #低资源 #扩散模型 6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6/10 | 后50% | #语音合成 | #参数高效微调 | #低资源 #扩散模型 | arxiv 👥 作者与机构 Phannet Pov, Sovandara Chhoun, Hyun Woo Park, Wan-Sup Cho, Saksonita Khoeurn 机构:柬埔寨数字研究与创新研究所、韩国相关机构(论文未明确列出具体机构全称) ...

2026-06-26 · 更新于 2026-07-02 · 2 min · 351 words

Listening Like a Judge: A Music-Aware Framework for Automatic Singing Performance Evaluation

📄 Listening Like a Judge: A Music-Aware Framework for Automatic Singing Performance Evaluation #多模态模型 #参数高效微调 #数据增强 #信号处理基础 8.8/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.8/10 | 前25% | 歌唱评估 | #参数高效微调 | #多模态模型 #数据增强 | arxiv 👥 作者与机构 作者:Neelam Saini, Sourav Ghosh 机构:Samsung R&D Institute Bangalore, India 💡 毒舌点评 这篇工作试图解决歌唱评估这个“众口难调”的问题,想法不错。MG-LoRA算是个有用的工程技巧,让Whisper在唱歌时少犯点错。但问题在于,你号称“Judging like a human”,可人类评委听歌时脑子里装的可不只是音高和歌词。论文用全局调性来评判所有段落的音准,这就像让一个只会用A调吉他的人去评判爵士乐里的转调和即兴,过于简单粗暴。另外,SwaraLyrics数据集虽然贴出来了,但只有420个印度音乐样本,以此宣称“跨语言、跨风格”的泛化能力,说服力就像说“我吃过北京烤鸭,所以我懂中餐”一样。最后,框架里用的gpt-oss-120b和all-MiniLM-L6-v2这些组件,论文只说用,没说怎么调、效果如何,复现起来得靠猜。整体是个扎实的工程实现,但离真正的“智能评委”还有距离。 ...

2026-06-26 · 更新于 2026-07-02 · 4 min · 716 words

SamaVaani: Auditing and Debiasing Multilingual Clinical ASR for Indian Languages

📄 SamaVaani: Auditing and Debiasing Multilingual Clinical ASR for Indian Languages #语音识别 #对比学习 #参数高效微调 #多语言 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前25% | #语音识别 | #对比学习 | #参数高效微调 #多语言 | arxiv 👥 作者与机构 作者:Subham Kumar, Prakrithi Shivaprakash, Abhishek Manoharan, Astut Kurariya, Diptadhi Mukherjee, Prabhat Chand, Pratima Murthy, Koustav Rudra, Lekhansh Shukla, Animesh Mukherjee 机构:印度理工学院卡拉格普尔分校(IIT Kharagpur),国家心理健康与神经科学研究所(NIMHANS, Bangalore),卢加德·邦迪亚拉地区精神病学研究所(LGBRIMH, Tezpur) ...

2026-06-26 · 更新于 2026-07-02 · 2 min · 362 words