参数高效微调

Unlocking Speech–Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning

📄 Unlocking Speech–Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning #语音交互 #语音大模型 #模型融合 #参数高效微调 #指令微调 #语音合成 6.7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.9/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 ✅ 6.7/10 | 前50% | #语音交互 | #模型融合 | #语音大模型 #参数高效微调 | arxiv 👥 作者与机构第一作者：Congrui Du（University of California, Santa Barbara, USA）通讯作者：Yang Zhang（MIT-IBM Computing Research Lab, IBM Research, USA）其他作者：Kaizhi Qian（MIT-IBM Computing Research Lab, IBM Research）、Shiyu Chang（University of California, Santa Barbara） 💡 毒舌点评这篇论文用一个极其简单的权重算术绕过了SLM领域“卷数据”的军备竞赛，洞察深刻，但成也萧何败也萧何——仅用30k小时数据就达成此性能令人眼前一亮，但其方法的脆弱性同样引人注目：输出格式极度依赖后期强制修正、语音能力上限被韵律分词器锁死、对预训练数据结构的病态依赖，以及依赖外部ASR的pipeline设计，使其离一个实用、鲁棒的SLM新范式尚有距离。它更像一个巧妙的概念验证，而非可直接部署的突破。 ...

V-LynX: Token Interface Alignment for Video+X LLMs

📄 V-LynX: Token Interface Alignment for Video+X LLMs #音视频问答 #LoRA #参数高效微调 #多模态模型 7.8/10 | 创新 1.4/2 | 严谨 1.4/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.9/1.5 ✅ 7.8/10 | 前25% | #音视频问答 | #LoRA | #参数高效微调 #多模态模型 | arxiv 👥 作者与机构第一作者：Jungin Park（Yonsei University, Seoul, South Korea）通讯作者：Jiyoung Lee（Ewha Womans University, Seoul, South Korea）、Kwanghoon Sohn（Yonsei University, Seoul, South Korea）作者列表：Jungin Park（Yonsei University）、Jiyoung Lee（Ewha Womans University）、Kwanghoon Sohn（Yonsei University） 💡 毒舌点评这篇论文的立意相当精巧：不搞那些“缝合怪”式的多模态堆叠，而是发现并利用了Video LLM内部天然存在的“Token Interface”——一个连续的几何流形。这相当于告诉你，LLM处理视觉信号时，并不是在翻译词汇，而是在一个“特区”里搞特殊运算。基于此，作者仅用LoRA + 无标签单模态数据，就将音频、3D等新模态像U盘一样即插即用到了视频模型上，参数效率惊人。不过，别高兴太早，这个方法对视觉证据有极强的“路径依赖”，纯音频概念（如BGM里的乐器识别）直接抓瞎，因为它的接口底层逻辑就是“视觉特区”。这限制了它能覆盖的真实世界场景广度。 ...

NAVER LABS Europe Submission to the Instruction-following 2026 Short Track

📄 NAVER LABS Europe Submission to the Instruction-following 2026 Short Track #语音识别 #语音翻译 #参数高效微调 #语音大模型 #低资源 6.2/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 ✅ 6.2/10 | 前50% | #语音翻译 | #参数高效微调 | #语音识别 #语音大模型 | arxiv 👥 作者与机构第一作者：Marcely Zanon Boito（NAVER LABS Europe, France）通讯作者：Marcely Zanon Boito（NAVER LABS Europe, France），邮箱 marcely.zanon-boito@naverlabs.com 作者列表：Marcely Zanon Boito（NAVER LABS Europe, France）、Hemant Yadav（IIIT Delhi, India）、Jean-Luc Meunier（NAVER LABS Europe, France）、Ioan Calapodescu（NAVER LABS Europe, France） 💡 毒舌点评这篇系统报告本质上是一份竞赛技术报告，工程实现扎实，用更小的模型跑平了去年的SOTA。但学术贡献有限：改进的SpeechMapper不过是损失函数从MSE换成L1再拼上CTC的"四件套"，fakACL数据集是标准LLM生成套路的领域特化，毫无方法论创新。ASR和SQA的跷跷板效应只会摊手说"不可兼得"，却连个像样的帕累托分析都不做。MCIF一个验证集定生死，过拟合风险完全忽视。只能说竞赛第一，但科研价值嘛，别太当真。 ...

SPARCLE: SPeaker-aware Aligned Representations via Contrastive Language Embeddings

📄 SPARCLE: SPeaker-aware Aligned Representations via Contrastive Language Embeddings #语音合成 #对比学习 #自监督学习 #低资源 #参数高效微调 5.8/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.4/1.5 📝 5.8/10 | 前50% | #语音合成 | #对比学习 | #自监督学习 #低资源 | arxiv 👥 作者与机构第一作者：Priyam Mazumdar（University of Illinois Urbana-Champaign）通讯作者：未说明作者列表：Priyam Mazumdar（University of Illinois Urbana-Champaign）、Yurii Halychanskyi（University of Illinois Urbana-Champaign）、Steven Guo（University of Illinois Urbana-Champaign）、Mark Hasegawa-Johnson（University of Illinois Urbana-Champaign）、Volodymyr Kindratenko（University of Illinois Urbana-Champaign, National Center for Supercomputing Applications） 💡 毒舌点评本文利用对比学习将Wav2Vec2声学信息注入字符嵌入以替换G2P模块，在极低资源英语TTS上取得了显著的WER下降（如1小时数据从24.7%降至7.5%）。思路直接，工程落地价值清晰。但是，实验对比严重不足，未能与任何基于SSL离散单元或其连续表征直接建模的TTS强基线进行对比，导致无法判断“声学注入”方案相较于完全端到端声学模型的独特价值。音素基线仅使用与下游语音域不匹配的g2pE，这一对比漏洞使得SPARCLE的巨大优势说服力存疑。此外，模型和代码的零开源承诺让社区无法验证其有效性，削弱了研究贡献。 ...

Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning

📄 Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning #语音交互 #语音大模型 #模型融合 #低资源 #参数高效微调 8.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 🔥 8.5/10 | 前25% | #语音交互 | #模型融合 | #语音大模型 #低资源 | arxiv 👥 作者与机构第一作者：Congrui Du（机构未明确给出，但论文匿名期已过，推断来自UC Santa Barbara，因项目主页域名为ucsb.edu）通讯作者：未明确标示，通常为末位作者Shiyu Chang。作者列表：Congrui Du, Yang Zhang, Kaizhi Qian, Shiyu Chang。机构均未在论文首页明确注明。 💡 毒舌点评本文用一个极度精简、甚至有些投机取巧的权重组合方案，试图颠覆SLM必须堆数据和指令微调的昂贵范式，效果竟然出奇地好，尤其在重音检测与生成任务上碾压所有基线。思路的优雅与执行的高效令人印象深刻，但推理时对Whisper ASR、格式强制等一系列外部组件的强依赖暴露出其“伪端到端”的本质，更像是一个精心设计的系统工程集成，而非一个能独立感知与交互的语音原生模型。格式输出的不稳定性问题被作者一笔带过，但这是实用化的致命伤；长思考能力虽由推理模板“免费”激活，却也因缺乏训练监督而容易失效。 ...

语音/音乐/音频论文速递 2026-07-03

语音/音乐/音频论文速递 2026-07-03 共分析 31 篇论文 ⚡ 今日概览 📥 抓取 31 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频分类 4篇 ████ #声源定位 4篇 ████ #语音识别 4篇 ████ #语音交互 3篇 ███ #语音合成 3篇 ███ #音视频理解 2篇 ██ #语音增强 2篇 ██ #音乐理解 1篇 █ 📊 论文评分排行榜（31 篇，按分数降序）排名论文总分分档主任务 🥇 Unlocking Speech-Text Compositional Powers: Instruction 8.5分前25% #语音交互 🥈 Decomposer: Learning to Decompile Symbolic Music to Pro 8.4分前25% #音乐理解 🥉 A global predicted-fMRI drive signal from TRIBE does no 7.7分前25% #音视频理解 4. Cross Domain Few-Shot Class-Incremental Audio Classific 7.4分前50% #音频分类 5. Self-Supervised Test-Time Tuning for Packet Loss Concea 7.4分前50% #音频修复 6. Reasoning LLM Improves Speaker Recognition in Long-form 7.2分前50% #音视频理解 7. SelectTSL: Prompt-Guided Selective Target Sound Localiz 7.1分前50% #声源定位 8. Enhancing Acoustic-to-Articulatory Inversion with Multi 7.0分前50% #语音交互 9. TurnNat: Automatic Evaluation of Turn-Taking Naturalnes 7.0分前50% #语音交互 10. Audio-Based Understanding of Audiobook Narration Appeal 6.9分前50% #语音属性识别 11. H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-b 6.9分前50% #语音识别 12. An Efficient vLLM-Based Inference Pipeline for Unified 6.8分前50% #语音合成 13. Few-Shot Open-Set Audio Classification Using Attention 6.8分前50% #音频分类 14. Beyond Words: Towards Effective Modeling of Non-Verbal 6.4分前50% #语音识别 15. LMPAN: A Lightweight Multi-Path Alignment Network for J 6.2分前50% #语音增强 16. NAVER LABS Europe Submission to the Instruction-followi 6.2分前50% #语音翻译 17. Pmeta-TLA: Backdoor Attacks for Speech Classification M 6.0分前50% #语音唤醒 18. Neural Audio Codec with Adjustable Token Temporal Resol 5.8分前50% - 19. SPARCLE: SPeaker-aware Aligned Representations via Cont 5.8分前50% #语音合成 20. Speaker head orientation estimation with a single micro 5.8分前50% #声源定位 21. Towards a Phonology-Informed Evaluation of Multilingual 5.7分前50% #语音质量评估 22. Rethinking Speech-LLM Integration for ASR: Effective Jo 5.6分前50% #语音识别 23. RT-Tango: Real-Time Distributed Binaural Speech Enhance 5.5分前50% #语音增强 24. Quantifying the Uncertainty of Blindly Estimated Room E 5.2分后50% #音频检索 25. CNN Models for Microphone Array Covariance Matrix Upsam 5.0分后50% #声源定位 26. A Multi-Branch Hierarchy-Aware Framework for Heterogene 4.9分后50% #音频分类 27. From Monolingual to Multilingual: Evaluating Mamba for 4.8分后50% #语音识别 28. DRL-CLBA: A Clean Label Backdoor Attack for Speech Clas 4.7分后50% #音频分类 29. Spatial Speech Perception Systems: A Survey of Sound So 4.1分后50% #声源定位 30. UT-AISTimprt submission for ICME 2026 Grand Challenge o 4.1分后50% #音乐生成 31. Using embeddings to predict spoken word duration and pi 4.0分后50% #语音合成 📋 论文列表 🥇 Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning 8.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ...

Adapting Foundation ASR Models to Dysarthric Speech: A Case Study

📄 Adapting Foundation ASR Models to Dysarthric Speech: A Case Study #语音识别 #自回归模型 #参数高效微调 #数据增强 6.2/10 ✅ 6.2/10 | 前50% | #语音识别 | #参数高效微调 | #自回归模型 #数据增强 | arxiv 👥 作者与机构作者：Christian Huber, Laura Kernahan, Alexander Waibel 机构：卡尔·斯鲁普工业大学（KIT，德国）及其卡内基-梅隆大学（CMU，美国）的合作项目 💡 毒舌点评说白了，这是一篇非常扎实的“工程应用报告”，但离顶会的“科研论文”标准还有不小的距离。优点很明显：选题刚需，流程完整，结果感人（从完全不能用到相当可用），还有真实的部署和用户反馈，这比很多只在数据集上刷分的工作要实在得多。但问题是，它的“学术味儿”太淡了。核心方法就是“拿Whisper微调”，这操作放在语音社区甚至不如“在LibriSpeech上微调”来得有新意。实验设计最大硬伤就是“单人验证”，这直接把结论的普遍性打入冷宫——你的LoRA不行、Qwen3-ASR不行，换个人可能就反过来了。分析也浮于表面，比如只说LoRA效果差是因为“失配”，却没动手验证这个猜想（比如调调rank试试？）。最可惜的是，它本可以提炼出一些关于“极端域下全量微调 vs 参数高效微调”的有趣规律，但论文满足于描述现象，没有深入机理。所以，它很好地解决了一个实际问题，但对科学共同体贡献的新知有限。更适合发表在应用类会议或期刊上。 📌 核心摘要本文针对基础ASR模型在构音障碍语音上性能差的问题，提出了一个端到端的个性化适配与部署方案。核心工作是使用TEQST工具收集了单一说话者约92小时的朗读语音，并通过部署的移动应用收集了8.8小时的纠正数据。以Whisper (whisper-large-v3) 为基础模型，通过全量微调，仅用1.4小时数据就将WER从基线的128.4%降至15.8%，使用全部数据（含纠正）后达到最佳9.7%。作为对比，LoRA参数高效微调方法效果较差（相对下降15%-39%），而另一个基础模型Qwen3-ASR-1.7B在相同设置下的表现也不及Whisper。最终，微调后的模型被部署为iOS移动应用，提供多种录音模式和实时纠正功能，显著改善了用户的生活质量和沟通信心。论文指出，该工作成功证明了全量微调在应对巨大领域偏移时的有效性，并为解决实际无障碍通信问题提供了一个可行路径。 🔗 开源详情代码：论文中未提及任何代码仓库链接。模型权重：论文中未提供作者微调后的模型权重下载链接。论文使用了开源的Whisper (whisper-large-v3) 和 Qwen3-ASR-1.7B作为基础模型，但未提供最终的个性化模型。数据集：论文中提及“The data set can be accessed here”，暗示数据集可通过链接访问，但在提供的论文全文中未显示具体的URL。数据集包含约100.8小时的构音障碍语音（训练集89.8小时，纠正数据8.8小时，开发集和测试集各1.1小时）。 Demo：论文中未提及在线演示链接或移动应用商店链接。复现材料：论文中未提及具体的训练配置文件、检查点、环境依赖列表或附录等复现材料。论文中引用的开源项目： TEQST：论文引用为[4]，用于数据收集，未提供具体链接。 Whisper：OpenAI的ASR模型，论文引用为[10]，未提供具体链接。 Qwen3-ASR：阿里云的ASR模型，论文引用为[11]，未提供具体链接。 Faster Whisper：论文引用为[13]，用于模型部署，未提供具体链接。 CTranslate2：论文引用为[5, 6]，作为Faster Whisper的实现基础，未提供具体链接。 LoRA：论文引用为[3]，参数高效微调方法，未提供具体链接。补充链接（自动提取）： ...

ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models

📄 ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models #音频问答 #对比学习 #参数高效微调 7.4/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前50% | #音频检索 | #对比学习 | #音频问答 #参数高效微调 | arxiv 👥 作者与机构论文作者为Fengjie Lu, Chenang Jiang, Jiarui Hai, Helin Wang, Aaron Yee，分别来自浙江大学和约翰斯·霍普金斯大学。 💡 毒舌点评这篇论文更像是一个工程上“有效”的系统构建报告，而非一篇贡献突出的学术研究。其核心思想——将一个强大的音频语言模型转换为嵌入模型——在直觉上合理，但缺乏令人信服的“为什么这样做以及为什么是这样”的深度分析。论文在方法论上缺乏关键设计选择的消融实验（例如，为什么用[EOS]？LoRA适配是否最优？），在评估上未能充分量化其宣称的“可控性”，在局限性探讨上流于表面。整体上，它更像一篇扎实的硕士论文或技术报告，其方法论创新和实验分析的深度尚未达到顶会所期望的水平。 📌 核心摘要本文提出了ALM2Vec，一个从预训练大型音频语言模型（ALLM，具体为MiDashengLM）衍生而来的通用音频嵌入框架。该框架旨在将ALLM在大规模多模态训练中获得的音频理解、指令遵循和推理能力，转化为支持跨音频领域（如音效、语音、音乐）、跨任务类型（检索、问答）且可指令控制的统一嵌入空间。模型使用ALLM的[EOS] token隐藏状态作为全局表示，并通过双向对比学习进行训练。实验表明，ALM2Vec在标准音频和语音检索基准上性能与强基线（如CLAP）相当或更优，在指令条件音频问答（MMAU-Mini）上也能与一些大型音频语言模型竞争，尽管微调后性能略有下降。定性案例展示了其根据指令检索音频特定属性的能力。 ...

ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning for Base-to-Novel Generalization in Audio-Language Models

📄 ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning for Base-to-Novel Generalization in Audio-Language Models #音频分类 #提示学习 #参数高效微调 7.1/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | #音频分类 | #提示学习 | #参数高效微调 | arxiv 👥 作者与机构作者：Asif Hanif, Mohammad Yaqub 机构：Mohamed Bin Zayed University of Artificial Intelligence, Abu Dhabi, UAE 💡 毒舌点评这篇论文解决的是一个实际且重要的问题：提示学习在提升基类性能的同时，损害了音频语言模型对新类的零样本泛化能力。作者观察到的现象（如图1和表1所示）具有说服力，提出的ZEBRA方法作为一种“即插即用”的框架，思路直观且有效。其核心在于“锚定”预训练表示空间并抑制过拟合，这是合理的。 ...

语音/音乐/音频论文速递 2026-07-01

语音/音乐/音频论文速递 2026-07-01 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 8篇 ████████ #语音合成 7篇 ███████ #自监督学习 2篇 ██ #音频分类 2篇 ██ #生成模型 2篇 ██ #语音情感识别 2篇 ██ #数据集 1篇 █ #知识蒸馏 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Dilemmadata: On the Interoperability of Heterogeneous R 10.0分前50% #数据集 🥈 SwiftAudio: Data-Efficient Caption-Only Distillation fo 10.0分前50% #知识蒸馏 🥉 Attacking UTMOS: Probing the Robustness of a Speech Qua 8.6分前25% #语音质量评估 4. Enhancing BEST-RQ Pseudo-Label Quality through Online R 8.6分前50% #语音识别 5. Linguistic Bias Mitigation for Spoofing Detection via G 8.6分前25% #自监督学习 6. Building an ASR Solution for Training and Assessing Chi 8.5分前50% #语音识别 7. Beyond Cross-Reconstruction: Probing-Based Disentanglem 8.1分前50% #语音编码 8. MuseBench: Benchmarking Intent-Level Audiovisual Arts U 7.9分前50% #语音合成 9. Detecting Audio Deepfakes on the Edge:Lightweight SSL-B 7.7分前25% - 10. Beyond Binary Instrument QA: Probing Instrument Groundi 7.6分前25% #音频分类 11. SyncCache: Exploiting Asymmetric Dynamics for Fast Audi 7.5分前25% #语音合成 12. Probing-Guided Layer Selection from Self-Supervised Spe 7.5分前25% #集成学习 13. A First Exploration of Neuromorphic OT-CFM for Multi-Sp 7.5分前25% #生成模型 14. LuxEmo: Expressive Text-to-Speech Corpus for Luxembourg 7.5分前25% #语音合成 15. A Fair and Transparent Framework for Speech-Based Depre 7.4分前50% #语音情感识别 16. ALM2Vec: Learning Audio Embeddings for Universal Audio 7.4分前50% #音频检索 17. ASR-Agnostic Multimodal Spectrotemporal Modeling for Ea 7.4分前50% #多模态模型 18. UniSAE: Unified Speech Attribute Editing on Speaker, Em 7.3分前50% #语音合成 19. Tone-Conditioned Curriculum Learning for Low-Resource B 7.3分前50% #语音识别 20. What Counts as an Error? Dual-Reference Benchmarking fo 7.3分前50% #语音识别 21. Is Natural Always Appropriate? Investigating Naturalnes 7.2分前25% #语音合成 22. FlexiSLM: A Dynamic and Controllable Frame Rate Spoken 7.2分前25% #语音合成 23. ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning fo 7.1分前50% #音频分类 24. Preserving Speech-to-Text LLM Capabilities in Speech-to 7.0分前50% #语音识别 25. Listening Between the Lines: Joint Learning of ASR Embe 7.0分前50% #数据增强 26. BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Appro 6.9分前50% #语音识别 27. Improving multichannel speech enhancement through accur 6.8分前50% #语音增强 28. Amplifying Membership Signal Through Chained Regenerati 6.6分前50% #生成模型 29. AVTok: 1D Unified Tokenization for Holistic Audio-Video 6.5分前25% #语音合成 30. LOPA: Enhancing Spoken Language Assessment via Latent O 6.2分前50% #低资源 31. Adapting Foundation ASR Models to Dysarthric Speech: A 6.2分前50% #语音识别 32. How Bilingual Are SSL Speech Models? Cross-Lingual Prob 5.8分前50% #自监督学习 33. Gated Multi-Graph Fusion via Graph Attention Networks f 5.2分后50% #语音情感识别 34. Building a Multimodal Dataset of Academic Paper for Key 5.2分后50% #语音识别 35. Reference-Based Prosody and Rhythm Evaluation for Spoke 4.7分后50% #语音对话系统 📋 论文列表 🥇 Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...