推理优化 | 语音/音乐/音频论文速递

📄 Low-Resource Guidance for Controllable Latent Audio Diffusion #音乐生成 #扩散模型 #控制生成 #推理优化 🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #控制生成 #推理优化学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Zachary Novack（UC San Diego & Stability AI， †表示工作完成于Stability AI实习期间）通讯作者：未明确说明（论文未明确指定通讯作者）作者列表：Zachary Novack（UC San Diego & Stability AI）、Zack Zukowski（Stability AI）、CJ Carr（Stability AI）、Julian Parker（Stability AI）、Zach Evans（Stability AI）、Josiah Taylor（Stability AI）、Taylor Berg-Kirkpatrick（UC San Diego）、Julian McAuley（UC San Diego）、Jordi Pons（Stability AI） 💡 毒舌点评亮点：巧妙地将“Readout”思想引入音频扩散模型，并设计了“Latent-Control Heads”，绕过了极其耗时的解码器反向传播，将推理时间和显存占用降低了约一个数量级（端到端150秒 vs LatCH 17.5秒），这是非常实用的工程优化。短板：该方法本质上是给一个已有的“大模型”（Stable Audio Open）外挂一个“小控制器”，控制精度严重依赖这个小控制器的拟合能力，实验也显示对于快速变化的音高控制效果仍然不佳，且核心控制逻辑（TFG）并非首次提出。 ...

📄 Whisper-MLA: Reducing GPU Memory Consumption of ASR Models Based on MHA2MLA Conversion #语音识别 #语音大模型 #注意力机制 #模型优化 #推理优化 ✅ 7.0/10 | 前25% | #语音识别 | #注意力机制 | #语音大模型 #模型优化学术质量 6.0/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sen Zhang（天津大学智能与计算学院）通讯作者：Xianghu Yue（† 标注，天津大学智能与计算学院）作者列表：Sen Zhang¹, Jianguo Wei¹, Wenhuan Lu¹, Xianghu Yue¹,†, Wei Li², Qiang Li², Pengcheng Zhao², Ming Cai², Luo Si²（¹天津大学智能与计算学院，²斑马网络技术有限公司） 💡 毒舌点评这篇论文的亮点在于将复杂的MLA机制巧妙地“翻译”到了Whisper的绝对位置编码架构上，并通过实验精准地找到了最佳部署点（仅解码器自注意力），实现了显著的内存节省和可忽略的精度损失，实用性很强。短板在于其验证仅限于Whisper-small模型，缺乏在更大规模模型（如Whisper-large）上的数据来证明其普适性；同时，对于语音任务中至关重要的流式处理场景，论文未做任何分析和探讨。 🔗 开源详情代码：论文提供了公开的代码仓库链接：https://github.com/sssssen/Whisper MLA。模型权重：论文未提及是否公开转换后的Whisper-MLA模型权重。数据集：使用的是公开的LibriSpeech数据集，论文中已说明。 Demo：未提及提供在线演示。复现材料：提供了相当充分的复现信息，包括：转换方法（SVD细节）、微调数据集（LibriSpeech 960h）、训练超参数（3 epochs）、硬件环境（单卡RTX 4090）、批大小与梯度累积设置、转换与微调总时长（12小时）。论文中引用的开源项目：主要依赖于OpenAI的Whisper模型作为基线和预训练源。 📌 核心摘要本文旨在解决Whisper模型因Multi-Head Attention (MHA)机制中Key-Value (KV)缓存线性增长而导致的GPU内存消耗过高问题，该问题在长语音识别中尤为突出。核心方法是将Multi-Head Latent Attention (MLA)引入Whisper，并针对其绝对位置编码特性进行了适配。与已有工作相比，本文新在：1）提出了适配绝对位置编码的MLA架构，保留了原始模型的参数与能力；2）系统研究了MLA在编码器自注意力、解码器自注意力、解码器交叉注意力三种模块中的应用，发现仅应用于解码器自注意力（DSO）是性能与内存效率的最佳平衡点；3）开发了一种参数高效的转换策略，可从预训练Whisper模型快速转换而来。实验在LibriSpeech基准上表明，Whisper-MLA (DSO) 可将KV缓存大小减少高达87.5%，同时平均词错误率（WER）仅比微调后的Whisper基线高0.17%。该工作的实际意义在于，为在资源受限硬件上部署Whisper模型处理长音频提供了可行的内存优化方案。主要局限性在于仅在Whisper-small模型上进行了验证。 ...