参数高效微调

Adapting Foundation ASR Models to Dysarthric Speech: A Case Study

📄 Adapting Foundation ASR Models to Dysarthric Speech: A Case Study #语音识别 #自回归模型 #参数高效微调 #数据增强 6.2/10 ✅ 6.2/10 | 前50% | #语音识别 | #参数高效微调 | #自回归模型 #数据增强 | arxiv 👥 作者与机构作者：Christian Huber, Laura Kernahan, Alexander Waibel 机构：卡尔·斯鲁普工业大学（KIT，德国）及其卡内基-梅隆大学（CMU，美国）的合作项目 💡 毒舌点评说白了，这是一篇非常扎实的“工程应用报告”，但离顶会的“科研论文”标准还有不小的距离。优点很明显：选题刚需，流程完整，结果感人（从完全不能用到相当可用），还有真实的部署和用户反馈，这比很多只在数据集上刷分的工作要实在得多。但问题是，它的“学术味儿”太淡了。核心方法就是“拿Whisper微调”，这操作放在语音社区甚至不如“在LibriSpeech上微调”来得有新意。实验设计最大硬伤就是“单人验证”，这直接把结论的普遍性打入冷宫——你的LoRA不行、Qwen3-ASR不行，换个人可能就反过来了。分析也浮于表面，比如只说LoRA效果差是因为“失配”，却没动手验证这个猜想（比如调调rank试试？）。最可惜的是，它本可以提炼出一些关于“极端域下全量微调 vs 参数高效微调”的有趣规律，但论文满足于描述现象，没有深入机理。所以，它很好地解决了一个实际问题，但对科学共同体贡献的新知有限。更适合发表在应用类会议或期刊上。 📌 核心摘要本文针对基础ASR模型在构音障碍语音上性能差的问题，提出了一个端到端的个性化适配与部署方案。核心工作是使用TEQST工具收集了单一说话者约92小时的朗读语音，并通过部署的移动应用收集了8.8小时的纠正数据。以Whisper (whisper-large-v3) 为基础模型，通过全量微调，仅用1.4小时数据就将WER从基线的128.4%降至15.8%，使用全部数据（含纠正）后达到最佳9.7%。作为对比，LoRA参数高效微调方法效果较差（相对下降15%-39%），而另一个基础模型Qwen3-ASR-1.7B在相同设置下的表现也不及Whisper。最终，微调后的模型被部署为iOS移动应用，提供多种录音模式和实时纠正功能，显著改善了用户的生活质量和沟通信心。论文指出，该工作成功证明了全量微调在应对巨大领域偏移时的有效性，并为解决实际无障碍通信问题提供了一个可行路径。 🔗 开源详情代码：论文中未提及任何代码仓库链接。模型权重：论文中未提供作者微调后的模型权重下载链接。论文使用了开源的Whisper (whisper-large-v3) 和 Qwen3-ASR-1.7B作为基础模型，但未提供最终的个性化模型。数据集：论文中提及“The data set can be accessed here”，暗示数据集可通过链接访问，但在提供的论文全文中未显示具体的URL。数据集包含约100.8小时的构音障碍语音（训练集89.8小时，纠正数据8.8小时，开发集和测试集各1.1小时）。 Demo：论文中未提及在线演示链接或移动应用商店链接。复现材料：论文中未提及具体的训练配置文件、检查点、环境依赖列表或附录等复现材料。论文中引用的开源项目： TEQST：论文引用为[4]，用于数据收集，未提供具体链接。 Whisper：OpenAI的ASR模型，论文引用为[10]，未提供具体链接。 Qwen3-ASR：阿里云的ASR模型，论文引用为[11]，未提供具体链接。 Faster Whisper：论文引用为[13]，用于模型部署，未提供具体链接。 CTranslate2：论文引用为[5, 6]，作为Faster Whisper的实现基础，未提供具体链接。 LoRA：论文引用为[3]，参数高效微调方法，未提供具体链接。补充链接（自动提取）： ...

ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models

📄 ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models #音频问答 #对比学习 #参数高效微调 7.4/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前50% | #音频检索 | #对比学习 | #音频问答 #参数高效微调 | arxiv 👥 作者与机构论文作者为Fengjie Lu, Chenang Jiang, Jiarui Hai, Helin Wang, Aaron Yee，分别来自浙江大学和约翰斯·霍普金斯大学。 💡 毒舌点评这篇论文更像是一个工程上“有效”的系统构建报告，而非一篇贡献突出的学术研究。其核心思想——将一个强大的音频语言模型转换为嵌入模型——在直觉上合理，但缺乏令人信服的“为什么这样做以及为什么是这样”的深度分析。论文在方法论上缺乏关键设计选择的消融实验（例如，为什么用[EOS]？LoRA适配是否最优？），在评估上未能充分量化其宣称的“可控性”，在局限性探讨上流于表面。整体上，它更像一篇扎实的硕士论文或技术报告，其方法论创新和实验分析的深度尚未达到顶会所期望的水平。 📌 核心摘要本文提出了ALM2Vec，一个从预训练大型音频语言模型（ALLM，具体为MiDashengLM）衍生而来的通用音频嵌入框架。该框架旨在将ALLM在大规模多模态训练中获得的音频理解、指令遵循和推理能力，转化为支持跨音频领域（如音效、语音、音乐）、跨任务类型（检索、问答）且可指令控制的统一嵌入空间。模型使用ALLM的[EOS] token隐藏状态作为全局表示，并通过双向对比学习进行训练。实验表明，ALM2Vec在标准音频和语音检索基准上性能与强基线（如CLAP）相当或更优，在指令条件音频问答（MMAU-Mini）上也能与一些大型音频语言模型竞争，尽管微调后性能略有下降。定性案例展示了其根据指令检索音频特定属性的能力。 ...

ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning for Base-to-Novel Generalization in Audio-Language Models

📄 ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning for Base-to-Novel Generalization in Audio-Language Models #音频分类 #提示学习 #参数高效微调 7.1/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | #音频分类 | #提示学习 | #参数高效微调 | arxiv 👥 作者与机构作者：Asif Hanif, Mohammad Yaqub 机构：Mohamed Bin Zayed University of Artificial Intelligence, Abu Dhabi, UAE 💡 毒舌点评这篇论文解决的是一个实际且重要的问题：提示学习在提升基类性能的同时，损害了音频语言模型对新类的零样本泛化能力。作者观察到的现象（如图1和表1所示）具有说服力，提出的ZEBRA方法作为一种“即插即用”的框架，思路直观且有效。其核心在于“锚定”预训练表示空间并抑制过拟合，这是合理的。 ...

语音/音乐/音频论文速递 2026-07-01

语音/音乐/音频论文速递 2026-07-01 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 8篇 ████████ #语音合成 7篇 ███████ #自监督学习 2篇 ██ #音频分类 2篇 ██ #生成模型 2篇 ██ #语音情感识别 2篇 ██ #数据集 1篇 █ #知识蒸馏 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Dilemmadata: On the Interoperability of Heterogeneous R 10.0分前50% #数据集 🥈 SwiftAudio: Data-Efficient Caption-Only Distillation fo 10.0分前50% #知识蒸馏 🥉 Attacking UTMOS: Probing the Robustness of a Speech Qua 8.6分前25% #语音质量评估 4. Enhancing BEST-RQ Pseudo-Label Quality through Online R 8.6分前50% #语音识别 5. Linguistic Bias Mitigation for Spoofing Detection via G 8.6分前25% #自监督学习 6. Building an ASR Solution for Training and Assessing Chi 8.5分前50% #语音识别 7. Beyond Cross-Reconstruction: Probing-Based Disentanglem 8.1分前50% #语音编码 8. MuseBench: Benchmarking Intent-Level Audiovisual Arts U 7.9分前50% #语音合成 9. Detecting Audio Deepfakes on the Edge:Lightweight SSL-B 7.7分前25% - 10. Beyond Binary Instrument QA: Probing Instrument Groundi 7.6分前25% #音频分类 11. SyncCache: Exploiting Asymmetric Dynamics for Fast Audi 7.5分前25% #语音合成 12. Probing-Guided Layer Selection from Self-Supervised Spe 7.5分前25% #集成学习 13. A First Exploration of Neuromorphic OT-CFM for Multi-Sp 7.5分前25% #生成模型 14. LuxEmo: Expressive Text-to-Speech Corpus for Luxembourg 7.5分前25% #语音合成 15. A Fair and Transparent Framework for Speech-Based Depre 7.4分前50% #语音情感识别 16. ALM2Vec: Learning Audio Embeddings for Universal Audio 7.4分前50% #音频检索 17. ASR-Agnostic Multimodal Spectrotemporal Modeling for Ea 7.4分前50% #多模态模型 18. UniSAE: Unified Speech Attribute Editing on Speaker, Em 7.3分前50% #语音合成 19. Tone-Conditioned Curriculum Learning for Low-Resource B 7.3分前50% #语音识别 20. What Counts as an Error? Dual-Reference Benchmarking fo 7.3分前50% #语音识别 21. Is Natural Always Appropriate? Investigating Naturalnes 7.2分前25% #语音合成 22. FlexiSLM: A Dynamic and Controllable Frame Rate Spoken 7.2分前25% #语音合成 23. ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning fo 7.1分前50% #音频分类 24. Preserving Speech-to-Text LLM Capabilities in Speech-to 7.0分前50% #语音识别 25. Listening Between the Lines: Joint Learning of ASR Embe 7.0分前50% #数据增强 26. BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Appro 6.9分前50% #语音识别 27. Improving multichannel speech enhancement through accur 6.8分前50% #语音增强 28. Amplifying Membership Signal Through Chained Regenerati 6.6分前50% #生成模型 29. AVTok: 1D Unified Tokenization for Holistic Audio-Video 6.5分前25% #语音合成 30. LOPA: Enhancing Spoken Language Assessment via Latent O 6.2分前50% #低资源 31. Adapting Foundation ASR Models to Dysarthric Speech: A 6.2分前50% #语音识别 32. How Bilingual Are SSL Speech Models? Cross-Lingual Prob 5.8分前50% #自监督学习 33. Gated Multi-Graph Fusion via Graph Attention Networks f 5.2分后50% #语音情感识别 34. Building a Multimodal Dataset of Academic Paper for Key 5.2分后50% #语音识别 35. Reference-Based Prosody and Rhythm Evaluation for Spoke 4.7分后50% #语音对话系统 📋 论文列表 🥇 Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

How to Leverage Synthetic Speech for LLM-Based ASR Systems?

📄 How to Leverage Synthetic Speech for LLM-Based ASR Systems? #语音识别 #数据增强 #参数高效微调 8.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前50% | #语音识别 | #数据增强 | #参数高效微调 | arxiv 👥 作者与机构 Yanis Labrak1, Dairazalia Sanchez-Cortes1, Sergio Burdisso1, Séverin Baroudi2, Shashi Kumar1,3, Esaú Villatoro-Tello1, Srikanth Madikeri4, Manjunath K E5, Oldřich Plchot6, Kadri Hacioğlu5, Petr Motlicek1,6, Andreas Stolcke5 机构：1. Idiap Research Institute (推测), 2. 未知, 3. 未知, 4. 未知, 5. 未知, 6. 未知。（注：原文未明确列出所有作者对应机构，分析中不编造） ...

LoRA-Tuned Large Language Models for Dementia Detection via Multi-View Speech-Derived Features

📄 LoRA-Tuned Large Language Models for Dementia Detection via Multi-View Speech-Derived Features #参数高效微调 #大语言模型 7.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 ✅ 7.5/10 | 前50% | #参数高效微调 | #参数高效微调 | #大语言模型 | arxiv 👥 作者与机构作者：Jonghyeon Park, Olivier Jiyoun Jung, Myungwoo Oh 机构：1 NAVER Cloud, South Korea；2 Division of Communication and Media, Ewha Womans University, South Korea ...

语音/音乐/音频论文速递 2026-06-30

语音/音乐/音频论文速递 2026-06-30 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 10篇 ██████████ #语音合成 4篇 ████ #自监督学习 2篇 ██ #语音编码 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Preference-ASR: A Preference-Aware Test Set for Benchma 9.5分前10% #语音识别 🥈 LeVo 2: Stable and Melodious Song Generation via Hierar 9.4分前10% #音乐生成 🥉 VIB-AVSR: Variational Information Bottleneck for Noise- 9.0分前10% #语音识别 4. Two kinds of robustness are not the same: disentangling 8.9分前25% #音频事件检测 5. DialogPII: A multilingual dataset of synthetic dialog t 8.9分前25% #语音识别 6. GigaSpeechBench: A Real-World Multilingual Speech-to-Te 8.7分前50% #语音识别 7. SICAGE: Speaker-Independent Culture-Aware Gesture Gener 8.7分前25% #语音合成 8. How to Leverage Synthetic Speech for LLM-Based ASR Syst 8.7分前50% #语音识别 9. Position-Aware Target Speaker Extraction for Long-Form 8.5分前25% #语音识别 10. wav2VOT: Automatic estimation of voice onset time, clos 8.5分前25% #自监督学习 11. Improving Large-Scale Weakly Supervised ASR by Filterin 8.4分前25% - 12. Agent-Computer Observation Interfaces Enable Dynamic Co 8.4分前10% #语音识别 13. DTM-Codec: Dynamic Token Masking for VFR Speech Coding 8.1分前25% #语音编码 14. TF-MoE: Time-Frequency Mixture-of-Experts for Efficient 8.1分前25% #语音分离 15. Underwater Source Detection and Classification for Sign 7.8分前25% #数据集 16. AMR: Adaptive Modality Routing for Multimodal Polyglot 7.8分前25% #说话人识别 17. FacePlex: Full-Duplex Joint Speech-Facial Motion Genera 7.8分前25% #语音合成 18. VeRe-Flow: Guiding Flow Matching toward Clean Speech vi 7.7分前25% #语音增强 19. CTC-Seeded Token Edit Refinement for Non-Autoregressive 7.7分前25% #语音识别 20. Evaluation of Head-Related Transfer Functions Across Fi 7.6分前25% #空间音频 21. Semi-Supervised Sound Event Detection with Conditional 7.6分前25% #对比学习 22. OLIVE: View-Augmented Latent Prediction with Waveform R 7.5分前50% #语音识别 23. EchoHawk: A Reproducible Acoustic Pipeline for Drone De 7.5分前25% - 24. LoRA-Tuned Large Language Models for Dementia Detection 7.5分前50% #参数高效微调 25. MeloDISinger: Melody-Aware & Duration-Preserving Si 7.4分前50% #语音合成 26. Child-Centric Voice Anonymization in Single and Multi-S 7.2分前50% #语音匿名化 27. SIGMA: Saliency-Guided Sparse Mask Attacks for Speech E 7.1分前50% #语音情感识别 28. Effective Depth in Joint Source-Channel Coding: An Impl 7.0分前50% #语音编码 29. SIMAX: A Scalable and Interpretable Framework for Multi 6.6分后50% #语音合成 30. Clustering Unsupervised Representations as Defense agai 6.5分前50% #自监督学习 31. Comparing Human and Automatic Recognition of Dutch Dysa 6.5分前50% #语音识别 32. Predicting Timbre Traits for Interpretable Assessment o 6.1分前50% #音频生成 33. TRACE: Temporal Relationship-Aware Conversational Entra 5.9分前50% - 34. Proteus: Automated Adversarial Robustness Testing for A 5.3分后50% #数据增强 35. Rehearsed Multi-Agent Live Product Demonstrations with 5.3分后50% #多模态模型 📋 论文列表 🥇 Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean

📄 Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean #语音合成 #参数高效微调 #低资源 #扩散模型 6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6/10 | 后50% | #语音合成 | #参数高效微调 | #低资源 #扩散模型 | arxiv 👥 作者与机构 Phannet Pov, Sovandara Chhoun, Hyun Woo Park, Wan-Sup Cho, Saksonita Khoeurn 机构：柬埔寨数字研究与创新研究所、韩国相关机构（论文未明确列出具体机构全称） ...

Listening Like a Judge: A Music-Aware Framework for Automatic Singing Performance Evaluation

📄 Listening Like a Judge: A Music-Aware Framework for Automatic Singing Performance Evaluation #多模态模型 #参数高效微调 #数据增强 #信号处理基础 8.8/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.8/10 | 前25% | 歌唱评估 | #参数高效微调 | #多模态模型 #数据增强 | arxiv 👥 作者与机构作者：Neelam Saini, Sourav Ghosh 机构：Samsung R&D Institute Bangalore, India 💡 毒舌点评这篇工作试图解决歌唱评估这个“众口难调”的问题，想法不错。MG-LoRA算是个有用的工程技巧，让Whisper在唱歌时少犯点错。但问题在于，你号称“Judging like a human”，可人类评委听歌时脑子里装的可不只是音高和歌词。论文用全局调性来评判所有段落的音准，这就像让一个只会用A调吉他的人去评判爵士乐里的转调和即兴，过于简单粗暴。另外，SwaraLyrics数据集虽然贴出来了，但只有420个印度音乐样本，以此宣称“跨语言、跨风格”的泛化能力，说服力就像说“我吃过北京烤鸭，所以我懂中餐”一样。最后，框架里用的gpt-oss-120b和all-MiniLM-L6-v2这些组件，论文只说用，没说怎么调、效果如何，复现起来得靠猜。整体是个扎实的工程实现，但离真正的“智能评委”还有距离。 ...

SamaVaani: Auditing and Debiasing Multilingual Clinical ASR for Indian Languages

📄 SamaVaani: Auditing and Debiasing Multilingual Clinical ASR for Indian Languages #语音识别 #对比学习 #参数高效微调 #多语言 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前25% | #语音识别 | #对比学习 | #参数高效微调 #多语言 | arxiv 👥 作者与机构作者：Subham Kumar, Prakrithi Shivaprakash, Abhishek Manoharan, Astut Kurariya, Diptadhi Mukherjee, Prabhat Chand, Pratima Murthy, Koustav Rudra, Lekhansh Shukla, Animesh Mukherjee 机构：印度理工学院卡拉格普尔分校（IIT Kharagpur），国家心理健康与神经科学研究所（NIMHANS, Bangalore），卢加德·邦迪亚拉地区精神病学研究所（LGBRIMH, Tezpur） ...