ICLR 2026 - 音频编辑

共 1 篇论文

← 返回 ICLR 2026 总览

排名	论文	评分	分档
🥇	SmartDJ: Declarative Audio Editing with Audio Language Model	8.5分	前25%

📋 论文详情

🥇 SmartDJ: Declarative Audio Editing with Audio Language Model

🔥 8.5/10 | 前25% | #音频编辑 | #音频大模型 | #扩散模型 #空间音频

👥 作者与机构

第一作者：Zitong Lan（宾夕法尼亚大学WAVES实验室）
通讯作者：未明确说明（论文未指定通讯作者）
作者列表：Zitong Lan（宾夕法尼亚大学WAVES实验室）、Yiduo Hao（宾夕法尼亚大学WAVES实验室）、Mingmin Zhao（宾夕法尼亚大学WAVES实验室）

💡 毒舌点评

亮点：本文最大的亮点在于提出了“声明式”音频编辑的范式，并通过一个设计精巧的“ALM规划器+LDM编辑器”框架实现了它，同时配套构建了首个可扩展的声明式音频编辑数据集合成管道，形成了一个完整的技术闭环。短板：实验完全依赖于合成数据集，虽然合成过程逼真，但真实世界中的复杂声场、噪声和语义歧义可能对ALM的推理和LDM的执行构成远超合成环境的挑战，其泛化能力在论文中未得到真实场景验证。

🔗 开源详情

代码：论文中未提及代码仓库链接。但承诺在论文接受后发布代码。
模型权重：未提及是否公开预训练的ALM和LDM权重。但论文承诺发布预训练模型。
数据集：论文中未提及公开合成数据集的具体获取方式。但承诺发布合成数据集。
Demo：未提及提供在线演示。
复现材料：提供了极其详细的实现细节，包括模型架构（层数、维度、参数量）、训练配置（学习率、批大小、优化器、训练步数/轮数）、数据合成流程（提示词模板、声学模拟参数），以及消融实验设置。附录非常完整。
论文中引用的开源项目：CLAP（用于音频编码）、FLAN-T5（用于文本编码）、Stable-Audio-Open（作为部分基线）、PyRoomAcoustics（用于声学模拟）、AudioSep（作为对比模型）、GPT-4o（用于数据合成）。

📌 核心摘要

要解决什么问题：现有音频编辑模型依赖于模板化指令（如“添加鸟鸣”），需要用户指定具体操作，无法理解用户高级的、声明式的意图（如“让这个声音听起来像在阳光明媚的森林里”）。同时，现有系统普遍局限于单声道音频，无法编辑空间信息。
方法核心是什么：提出SmartDJ框架。它包含两个核心组件：(1) 音频语言模型（ALM）作为规划器，接收原始音频和用户的高级声明式指令，输出一个原子编辑步骤序列（如“移除雨声”、“在左边添加鸟鸣”）；(2) 潜在扩散模型（LDM）作为编辑器，按照ALM规划的步骤顺序，逐步执行编辑操作，最终生成目标立体声音频。
与已有方法相比新在哪里：首次实现了“声明式”音频编辑范式，将用户意图理解与音频信号操作分离。首次将音频语言模型的推理能力系统性地引入音频编辑流程。首次构建了支持立体声、包含声明式指令-原子操作-音频轨迹的配对数据集生成管道。首次系统评估了编辑操作对空间音频特性的影响。

主要实验结果如何：在声明式编辑任务和多种单步原子操作上，SmartDJ在各项客观指标（FD, FAD, LSD等）和主观用户偏好率上均显著优于端到端训练的Audit模型以及多种零样本基线（SDEdit, ZETA等）。例如，在声明式编辑任务中，SmartDJ的FAD得分为1.52，远优于最佳基线Audit的5.67；用户研究显示，在音频质量和与指令的对齐度上，SmartDJ的胜率在80%-95.5%之间（详见表1）。

框架	方法	训练	速度	FD↓	FAD↓	KL↓	LSD↓	CLAP↑
无ALM	Audit	是	2.07s	28.56	10.00	3.07	1.93	0.11
有ALM	SDEdit	否	301s (74.6s)	19.66	3.71	3.25	2.22	0.17
	Audit	是	11.6s (2.07s)	21.50	5.67	2.80	1.49	0.18
	SmartDJ (ours)	是	13.1s (2.40s)	10.60	1.52	2.84	1.40	0.21

实际意义是什么：该工作为下一代智能、直观的音频编辑工具铺平了道路，有望革新VR/AR、游戏、影视制作等领域的音频后处理工作流，提升创作效率和沉浸感。
主要局限性是什么：整个框架的训练和评估完全依赖于合成数据集，其在真实、复杂、非结构化声场中的性能未被验证。ALM生成步骤的推理时间（约4.8秒）和多步编辑的累积时间（13.1秒）相比端到端方法仍有优化空间。框架对新增编辑操作类型的扩展需要重新训练。

ICLR 2026 - 音频编辑#

📋 论文详情#

🥇 SmartDJ: Declarative Audio Editing with Audio Language Model#

📎 相关论文

ICLR 2026 - 音频编辑

📋 论文详情

🥇 SmartDJ: Declarative Audio Editing with Audio Language Model