Low-Resource Guidance for Controllable Latent Audio Diffusion

📄 Low-Resource Guidance for Controllable Latent Audio Diffusion #音乐生成 #扩散模型 #控制生成 #推理优化 🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #控制生成 #推理优化 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Zachary Novack(UC San Diego & Stability AI, †表示工作完成于Stability AI实习期间) 通讯作者:未明确说明(论文未明确指定通讯作者) 作者列表:Zachary Novack(UC San Diego & Stability AI)、Zack Zukowski(Stability AI)、CJ Carr(Stability AI)、Julian Parker(Stability AI)、Zach Evans(Stability AI)、Josiah Taylor(Stability AI)、Taylor Berg-Kirkpatrick(UC San Diego)、Julian McAuley(UC San Diego)、Jordi Pons(Stability AI) 💡 毒舌点评 亮点:巧妙地将“Readout”思想引入音频扩散模型,并设计了“Latent-Control Heads”,绕过了极其耗时的解码器反向传播,将推理时间和显存占用降低了约一个数量级(端到端150秒 vs LatCH 17.5秒),这是非常实用的工程优化。短板:该方法本质上是给一个已有的“大模型”(Stable Audio Open)外挂一个“小控制器”,控制精度严重依赖这个小控制器的拟合能力,实验也显示对于快速变化的音高控制效果仍然不佳,且核心控制逻辑(TFG)并非首次提出。 ...

2026-04-29

Whisper-MLA: Reducing GPU Memory Consumption of ASR Models Based on MHA2MLA Conversion

📄 Whisper-MLA: Reducing GPU Memory Consumption of ASR Models Based on MHA2MLA Conversion #语音识别 #语音大模型 #注意力机制 #模型优化 #推理优化 ✅ 7.0/10 | 前25% | #语音识别 | #注意力机制 | #语音大模型 #模型优化 学术质量 6.0/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sen Zhang(天津大学智能与计算学院) 通讯作者:Xianghu Yue(† 标注,天津大学智能与计算学院) 作者列表:Sen Zhang¹, Jianguo Wei¹, Wenhuan Lu¹, Xianghu Yue¹,†, Wei Li², Qiang Li², Pengcheng Zhao², Ming Cai², Luo Si²(¹天津大学智能与计算学院,²斑马网络技术有限公司) 💡 毒舌点评 这篇论文的亮点在于将复杂的MLA机制巧妙地“翻译”到了Whisper的绝对位置编码架构上,并通过实验精准地找到了最佳部署点(仅解码器自注意力),实现了显著的内存节省和可忽略的精度损失,实用性很强。短板在于其验证仅限于Whisper-small模型,缺乏在更大规模模型(如Whisper-large)上的数据来证明其普适性;同时,对于语音任务中至关重要的流式处理场景,论文未做任何分析和探讨。 📌 核心摘要 本文旨在解决Whisper模型因Multi-Head Attention (MHA)机制中Key-Value (KV)缓存线性增长而导致的GPU内存消耗过高问题,该问题在长语音识别中尤为突出。核心方法是将Multi-Head Latent Attention (MLA)引入Whisper,并针对其绝对位置编码特性进行了适配。与已有工作相比,本文新在:1)提出了适配绝对位置编码的MLA架构,保留了原始模型的参数与能力;2)系统研究了MLA在编码器自注意力、解码器自注意力、解码器交叉注意力三种模块中的应用,发现仅应用于解码器自注意力(DSO)是性能与内存效率的最佳平衡点;3)开发了一种参数高效的转换策略,可从预训练Whisper模型快速转换而来。实验在LibriSpeech基准上表明,Whisper-MLA (DSO) 可将KV缓存大小减少高达87.5%,同时平均词错误率(WER)仅比微调后的Whisper基线高0.17%。该工作的实际意义在于,为在资源受限硬件上部署Whisper模型处理长音频提供了可行的内存优化方案。主要局限性在于仅在Whisper-small模型上进行了验证。 ...

2026-04-29