📄 PromptSep: Generative Audio Separation Via Multimodal Prompting

#语音分离 #扩散模型 #数据增强 #多模态模型

✅ 7.5/10 | 前10% | #语音分离 | #扩散模型 | #数据增强 #多模态模型

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高

👥 作者与机构

第一作者：Yutong Wen (Adobe Research & University of Illinois Urbana-Champaign)
通讯作者：未明确说明
作者列表：Yutong Wen (Adobe Research & University of Illinois Urbana-Champaign), Ke Chen (Adobe Research), Prem Seetharaman (Adobe Research), Oriol Nieto (Adobe Research), Jiaqi Su (Adobe Research), Rithesh Kumar (Adobe Research), Minje Kim (University of Illinois Urbana-Champaign), Paris Smaragdis (MIT), Zeyu Jin (Adobe Research), Justin Salamon (Adobe Research)

💡 毒舌点评

亮点：创新性地将“声音移除”与“声乐模仿”整合进统一框架，直击现有LASS系统的两大软肋，实验设计（多基准、多设置、消融研究）堪称全面典范。短板：训练过程的“黑盒”化严重，关键优化超参数、硬件配置等细节缺失，使得其强大的结果难以被独立复现验证，削弱了学术贡献的坚实性。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：论文中未提及公开权重。
数据集：论文中提及新建了VimSketchGen数据集，但未说明是否公开或如何获取。
Demo：论文中未提及在线演示。
复现材料：提供了部分训练数据描述（规模、来源、增强方法）和模型架构描述，但关键训练超参数（优化器、学习率等）、硬件信息、完整训练脚本或配置均未提及。
论文中引用的开源项目：依赖Sketch2Sound进行数据增强，依赖VimSketch数据集，采用Descript Audio Codec (DAC) 架构作为VAE，使用FLAN-T5作为文本编码器。

📌 核心摘要

PromptSep旨在解决现有语言查询音频源分离系统的两大局限：仅支持声音提取操作，以及纯文本提示的模糊与不直观性。其核心方法是构建一个条件扩散模型，通过精心设计的数据模拟流程，统一支持提取与移除两种操作符；同时，创新性地引入用户声乐模仿作为新的提示模态，并利用Sketch2Sound模型进行数据增强以获得对齐的训练数据。与现有方法相比，新意在于首次在单一模型中集成提取/移除操作，并首次将声乐模仿作为开放域分离的引导条件。主要实验结果表明，在声音移除任务上，PromptSep在多个基准（如FSD-Mix的SDRi为-3.34）上显著优于FlowSep和SoloAudio等基线；在声乐模仿引导的分离任务上，取得了SDRi 9.99 dB的强性能。其实际意义在于为用户提供了更灵活、更直观的音频编辑工具。主要局限性在于训练细节公开不足，可能影响复现，且未探讨文本与模仿提示联合使用的潜力。

🏗️ 模型架构

PromptSep是一个基于潜在扩散模型的架构，整体流程如图1所示。

图1: pdf-image-page2-idx0

输入与处理流程：

音频混合信号：10秒的单声道音频，由2-5个不同类别的声音事件混合而成（SNR在-3到10 dB间随机采样）。
条件输入（可单独或联合使用）：
- 文本提示：对目标声音的文字描述。模型支持从单个关键词到复杂句子的不同长度和风格。
- 声乐模仿：用户模仿目标声音的录音。
编码：
- 音频：音频混合信号和声乐模仿信号分别通过一个预训练的变分自编码器（VAE，采用Descript Audio Codec架构）编码成连续的潜在表示（128维，40Hz）。
- 文本：文本提示通过预训练的FLAN-T5编码器进行编码。
条件融合：音频混合信号和声乐模仿信号的潜在表示，分别通过各自的MLP层进行处理，然后以“原位相加”的方式注入到扩散模型的嘈杂潜在表示中。文本嵌入则通过交叉注意力机制与DiT块交互。
生成与解码：扩散Transformer（DiT）模型在去噪过程中，以文本嵌入为交叉注意力条件，以处理后的音频混合与声乐模仿的潜在和为加性条件，生成目标分离音频的干净潜在表示。最后，通过VAE解码器将潜在表示解码回波形，得到最终的分离音频（可以是提取的目标声音，也可以是移除目标后剩余的声音）。

关键设计选择与动机：

双条件加性融合：将音频混合（相当于参考信号）和声乐模仿（同样是音频信号）与嘈杂目标进行原位相加，是因为它们与目标音频具有相同的潜在维度，这种设计直接且有效，已被多项工作验证。
扩散Transformer (DiT)：采用DiT架构作为扩散模型的主干，以处理多模态条件和长序列。
训练时的条件丢弃：采用分类器自由引导（CFG），随机丢弃条件信号。文本和混合信号的丢弃率为10%，但声乐模仿的丢弃率高达90%，动机是防止模型过度依赖该强条件而过拟合。
防止平凡解：在训练目标（多声音子集的提取）中，为输入添加轻微信号扰动，以防止模型通过简单复制混合信号来获得低损失。

💡 核心创新点

统一提取与移除的双操作符框架：首次在LASS框架中显式支持“移除”操作。通过设计包含“提取”和“移除”操作符的文本模板，并进行数据模拟，使单一模型能灵活响应两种命令，解决了实际应用中“移除”需求更普遍的痛点。
引入声乐模仿作为新的提示模态：针对文本描述声音的模糊性，提出并实现了声乐模仿作为引导条件。这为用户提供了一种更自然、更直观（尤其是针对“失真”、“嗡嗡声”等抽象声音）的交互方式，是对纯文本查询的重要补充。
大规模时对齐声乐模仿数据的模拟生成：为解决缺乏时对齐声乐模仿-声音效果配对数据的问题，创造性地利用Sketch2Sound模型。该方法将VimSketch数据集中的1.2万条声乐模仿扩展为8.7万条与声效时对齐的训练对，并加入了时移、音高偏移和环境噪声增强，为训练声乐模仿条件模块提供了关键数据基础。
提出F1决策误差新指标：为评估模型在时间维度上定位目标声音的准确性，提出了基于帧级RMS能量二值化计算的F1决策误差指标，弥补了传统SDR等指标对时间精度评估的不足。

🔬 细节详述

训练数据：
- 声音事件：约1.1M样本，来自内部授权和公开数据集。每个声音附带多种长度和风格的文本描述。
- 声乐模仿：新建数据集VimSketchGen，共87,171对时对齐的声乐模仿与音效。由VimSketch的12,453条模仿，经Sketch2Sound（使用不同中值滤波器尺寸∈{0, 3, 6, 9, 12, 15, 19}）各生成7条音效构成。所有音频为8秒立体声，采样率44.1kHz。
训练策略：
- 输入构造：每次输入为10秒混合音频，由2-5个不同类声音事件混合（SNR：-3至10 dB）。
- 目标选择：随机选择混合中的一部分声音事件作为分离目标（若使用声乐模仿，则目标为模仿对应的单个声音事件）。
- 条件使用：训练时，模型总是被条件于文本或声乐模仿中的一种，不同时使用两者。
- 噪声扰动：为防止模型学习到平凡解（复制混合音频），会对输入添加轻微信号扰动。
- 分类器自由引导：训练时随机丢弃条件。文本和混合信号丢弃率10%，声乐模仿丢弃率90%。
- 损失/框架：采用v-prediction框架。
- 优化器/学习率：未说明。
- Batch Size：未说明。
- 训练步数/轮数：未说明。
- 训练硬件：未说明。
模型细节：
- 参数量：约0.9B参数。
- VAE：采用Descript Audio Codec架构，将44.1kHz单声道音频压缩为128维连续潜在表示，时间分辨率40Hz。
- 文本编码器：预训练的FLAN-T5。
- 主干网络：Diffusion Transformer (DiT)。
推理细节：
- 采样器：DPM-Solver++。
- CFG Scale：推理时设置为1.0。
- 声乐模仿变体测试：对比了使用完整波形作为条件，与仅使用其逐帧音高和RMS曲线作为条件的效果。后者的中值滤波器大小在推理时固定为8。

📊 实验结果

基准测试与设置：

标准提取设置：在AudioCaps + ESC50（ACESC）、FSD-Mix（FSD）和Adobe Audition Sound Effects（ASFX，完全域外）上评估。声音移除设置：使用负面文本操作符。同时设计了一个“上界锚点”设置（FlowSep和SoloAudio*），即让这些模型通过提取所有非目标声音来达到等效移除效果。
声乐模仿设置：在VimSketchGen-Mix上评估，无基线对比。

主要结果表格（摘自论文）：

表1：标准提取设置下的结果

模型	SDRi ↑	L2 Mel ↓	F1 Decision Error ↑	CLAPScore ↑	CLAPScoreA ↑	FAD PANN ↓
	ACESC	FSD	ASFX	ACESC	FSD	ASFX
FlowSep [19]	-4.26	2.05	-2.75	3.06	13.80	4.93
SoloAudio [20]	2.42	14.75	5.15	8.35	2.26	4.73
PromptSep	1.74	10.89	5.65	5.04	7.60	4.23

表2：声音移除设置下的结果

模型	SDRi ↑	L2 Mel ↓	F1 Decision Error ↑	CLAPScoreA ↑	FAD PANN ↓
	ACESC	FSD	ASFX	ACESC	FSD
FlowSep [19]	-4.45	-12.44	-9.53	6.30	13.27
SoloAudio [20]	-1.08	-10.85	-5.50	12.40	37.84
PromptSep	1.17	-3.34	-3.20	6.40	9.13
FlowSep* [19]	-4.35	-13.14	-9.36	3.01	6.64
SoloAudio* [20]	2.26	-9.82	-3.77	8.60	35.31

表3：主观评估结果（ASFX测试集）

模型	Extraction	Removal
	REL↑	OVL↑
Mixture	2.96 ± 0.08	3.55 ± 0.07
GT	3.94 ± 0.07	4.17 ± 0.06
FlowSep [19]	3.19 ± 0.07	3.46 ± 0.07
SoloAudio [20]	3.31 ± 0.08	3.64 ± 0.07
PromptSep	3.34 ± 0.08	3.75 ± 0.07

表4：声乐模仿引导分离的消融实验结果（VimSketchGen-Mix）

条件	SDRi ↑	L2 Mel ↓	F1 Decision Error ↑	CLAPScoreA ↑	FAD ↓
Imitation (完整波形)	9.99	0.92	0.95	0.87	2.19
Pitch+RMS	7.17	3.30	0.84	0.71	6.66

关键结论：

提取任务：PromptSep在完全域外的ASFX数据集上几乎所有指标最优，显示出强大的泛化能力。在ACESC和FSD上，性能与专门优化的基线持平或略优。
移除任务：PromptSep全面超越了所有基线，包括试图通过提取剩余声音来模拟移除的基线（*标记），证明了其双操作符框架的有效性。
主观评估：在相关性和整体质量上均获得最高分，尤其在移除任务中优势明显。
模仿条件：完整的声乐模仿波形作为条件，在所有指标上显著优于仅使用其音高和RMS曲线，证明了波形输入提供了更丰富的信息。

⚖️ 评分理由

学术质量：6.0/7：创新点明确且实用（双操作符、新模态），技术路线合理。实验设计非常全面，覆盖多任务、多基准、主客观评估及消融实验，结果具有说服力。扣分主要在于训练过程细节（如优化器、学习率、batch size、训练时长等）缺失，影响了论文的可复现性和严谨性。
选题价值：1.5/2：选题切中了当前LASS技术的痛点，向更通用的“可控音频编辑”迈进了一步，具有很好的应用前景和学术关注度。
开源与复现加成：0.0/1：论文仅提供项目主页链接，未提及代码、模型权重或详细训练配置的公开计划，复现信息严重不足。

← 返回 ICASSP 2026 论文分析

📄 PromptSep: Generative Audio Separation Via Multimodal Prompting#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文