控制生成 | 语音/音乐/音频论文速递

📄 Low-Resource Guidance for Controllable Latent Audio Diffusion #音乐生成 #扩散模型 #控制生成 #推理优化 🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #控制生成 #推理优化学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Zachary Novack（UC San Diego & Stability AI， †表示工作完成于Stability AI实习期间）通讯作者：未明确说明（论文未明确指定通讯作者）作者列表：Zachary Novack（UC San Diego & Stability AI）、Zack Zukowski（Stability AI）、CJ Carr（Stability AI）、Julian Parker（Stability AI）、Zach Evans（Stability AI）、Josiah Taylor（Stability AI）、Taylor Berg-Kirkpatrick（UC San Diego）、Julian McAuley（UC San Diego）、Jordi Pons（Stability AI） 💡 毒舌点评亮点：巧妙地将“Readout”思想引入音频扩散模型，并设计了“Latent-Control Heads”，绕过了极其耗时的解码器反向传播，将推理时间和显存占用降低了约一个数量级（端到端150秒 vs LatCH 17.5秒），这是非常实用的工程优化。短板：该方法本质上是给一个已有的“大模型”（Stable Audio Open）外挂一个“小控制器”，控制精度严重依赖这个小控制器的拟合能力，实验也显示对于快速变化的音高控制效果仍然不佳，且核心控制逻辑（TFG）并非首次提出。 ...