模型优化 | 语音/音乐/音频论文速递

📄 Whisper-MLA: Reducing GPU Memory Consumption of ASR Models Based on MHA2MLA Conversion #语音识别 #语音大模型 #注意力机制 #模型优化 #推理优化 ✅ 7.0/10 | 前25% | #语音识别 | #注意力机制 | #语音大模型 #模型优化学术质量 6.0/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sen Zhang（天津大学智能与计算学院）通讯作者：Xianghu Yue（† 标注，天津大学智能与计算学院）作者列表：Sen Zhang¹, Jianguo Wei¹, Wenhuan Lu¹, Xianghu Yue¹,†, Wei Li², Qiang Li², Pengcheng Zhao², Ming Cai², Luo Si²（¹天津大学智能与计算学院，²斑马网络技术有限公司） 💡 毒舌点评这篇论文的亮点在于将复杂的MLA机制巧妙地“翻译”到了Whisper的绝对位置编码架构上，并通过实验精准地找到了最佳部署点（仅解码器自注意力），实现了显著的内存节省和可忽略的精度损失，实用性很强。短板在于其验证仅限于Whisper-small模型，缺乏在更大规模模型（如Whisper-large）上的数据来证明其普适性；同时，对于语音任务中至关重要的流式处理场景，论文未做任何分析和探讨。 🔗 开源详情代码：论文提供了公开的代码仓库链接：https://github.com/sssssen/Whisper MLA。模型权重：论文未提及是否公开转换后的Whisper-MLA模型权重。数据集：使用的是公开的LibriSpeech数据集，论文中已说明。 Demo：未提及提供在线演示。复现材料：提供了相当充分的复现信息，包括：转换方法（SVD细节）、微调数据集（LibriSpeech 960h）、训练超参数（3 epochs）、硬件环境（单卡RTX 4090）、批大小与梯度累积设置、转换与微调总时长（12小时）。论文中引用的开源项目：主要依赖于OpenAI的Whisper模型作为基线和预训练源。 📌 核心摘要本文旨在解决Whisper模型因Multi-Head Attention (MHA)机制中Key-Value (KV)缓存线性增长而导致的GPU内存消耗过高问题，该问题在长语音识别中尤为突出。核心方法是将Multi-Head Latent Attention (MLA)引入Whisper，并针对其绝对位置编码特性进行了适配。与已有工作相比，本文新在：1）提出了适配绝对位置编码的MLA架构，保留了原始模型的参数与能力；2）系统研究了MLA在编码器自注意力、解码器自注意力、解码器交叉注意力三种模块中的应用，发现仅应用于解码器自注意力（DSO）是性能与内存效率的最佳平衡点；3）开发了一种参数高效的转换策略，可从预训练Whisper模型快速转换而来。实验在LibriSpeech基准上表明，Whisper-MLA (DSO) 可将KV缓存大小减少高达87.5%，同时平均词错误率（WER）仅比微调后的Whisper基线高0.17%。该工作的实际意义在于，为在资源受限硬件上部署Whisper模型处理长音频提供了可行的内存优化方案。主要局限性在于仅在Whisper-small模型上进行了验证。 ...