📄 PromptSep: Generative Audio Separation Via Multimodal Prompting
#语音分离 #扩散模型 #数据增强 #多模态模型
✅ 7.5/10 | 前10% | #语音分离 | #扩散模型 | #数据增强 #多模态模型
学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高
👥 作者与机构
- 第一作者:Yutong Wen (Adobe Research & University of Illinois Urbana-Champaign)
- 通讯作者:未明确说明
- 作者列表:Yutong Wen (Adobe Research & University of Illinois Urbana-Champaign), Ke Chen (Adobe Research), Prem Seetharaman (Adobe Research), Oriol Nieto (Adobe Research), Jiaqi Su (Adobe Research), Rithesh Kumar (Adobe Research), Minje Kim (University of Illinois Urbana-Champaign), Paris Smaragdis (MIT), Zeyu Jin (Adobe Research), Justin Salamon (Adobe Research)
💡 毒舌点评
亮点: 创新性地将“声音移除”与“声乐模仿”整合进统一框架,直击现有LASS系统的两大软肋,实验设计(多基准、多设置、消融研究)堪称全面典范。短板: 训练过程的“黑盒”化严重,关键优化超参数、硬件配置等细节缺失,使得其强大的结果难以被独立复现验证,削弱了学术贡献的坚实性。
📌 核心摘要
PromptSep旨在解决现有语言查询音频源分离系统的两大局限:仅支持声音提取操作,以及纯文本提示的模糊与不直观性。其核心方法是构建一个条件扩散模型,通过精心设计的数据模拟流程,统一支持提取与移除两种操作符;同时,创新性地引入用户声乐模仿作为新的提示模态,并利用Sketch2Sound模型进行数据增强以获得对齐的训练数据。与现有方法相比,新意在于首次在单一模型中集成提取/移除操作,并首次将声乐模仿作为开放域分离的引导条件。主要实验结果表明,在声音移除任务上,PromptSep在多个基准(如FSD-Mix的SDRi为-3.34)上显著优于FlowSep和SoloAudio等基线;在声乐模仿引导的分离任务上,取得了SDRi 9.99 dB的强性能。其实际意义在于为用户提供了更灵活、更直观的音频编辑工具。主要局限性在于训练细节公开不足,可能影响复现,且未探讨文本与模仿提示联合使用的潜力。
🏗️ 模型架构
PromptSep是一个基于潜在扩散模型的架构,整体流程如图1所示。

输入与处理流程:
- 音频混合信号:10秒的单声道音频,由2-5个不同类别的声音事件混合而成(SNR在-3到10 dB间随机采样)。
- 条件输入(可单独或联合使用):
- 文本提示:对目标声音的文字描述。模型支持从单个关键词到复杂句子的不同长度和风格。
- 声乐模仿:用户模仿目标声音的录音。
- 编码:
- 音频:音频混合信号和声乐模仿信号分别通过一个预训练的变分自编码器(VAE,采用Descript Audio Codec架构)编码成连续的潜在表示(128维,40Hz)。
- 文本:文本提示通过预训练的FLAN-T5编码器进行编码。
- 条件融合:音频混合信号和声乐模仿信号的潜在表示,分别通过各自的MLP层进行处理,然后以“原位相加”的方式注入到扩散模型的嘈杂潜在表示中。文本嵌入则通过交叉注意力机制与DiT块交互。
- 生成与解码:扩散Transformer(DiT)模型在去噪过程中,以文本嵌入为交叉注意力条件,以处理后的音频混合与声乐模仿的潜在和为加性条件,生成目标分离音频的干净潜在表示。最后,通过VAE解码器将潜在表示解码回波形,得到最终的分离音频(可以是提取的目标声音,也可以是移除目标后剩余的声音)。
关键设计选择与动机:
- 双条件加性融合:将音频混合(相当于参考信号)和声乐模仿(同样是音频信号)与嘈杂目标进行原位相加,是因为它们与目标音频具有相同的潜在维度,这种设计直接且有效,已被多项工作验证。
- 扩散Transformer (DiT):采用DiT架构作为扩散模型的主干,以处理多模态条件和长序列。
- 训练时的条件丢弃:采用分类器自由引导(CFG),随机丢弃条件信号。文本和混合信号的丢弃率为10%,但声乐模仿的丢弃率高达90%,动机是防止模型过度依赖该强条件而过拟合。
- 防止平凡解:在训练目标(多声音子集的提取)中,为输入添加轻微信号扰动,以防止模型通过简单复制混合信号来获得低损失。
💡 核心创新点
- 统一提取与移除的双操作符框架:首次在LASS框架中显式支持“移除”操作。通过设计包含“提取”和“移除”操作符的文本模板,并进行数据模拟,使单一模型能灵活响应两种命令,解决了实际应用中“移除”需求更普遍的痛点。
- 引入声乐模仿作为新的提示模态:针对文本描述声音的模糊性,提出并实现了声乐模仿作为引导条件。这为用户提供了一种更自然、更直观(尤其是针对“失真”、“嗡嗡声”等抽象声音)的交互方式,是对纯文本查询的重要补充。
- 大规模时对齐声乐模仿数据的模拟生成:为解决缺乏时对齐声乐模仿-声音效果配对数据的问题,创造性地利用Sketch2Sound模型。该方法将VimSketch数据集中的1.2万条声乐模仿扩展为8.7万条与声效时对齐的训练对,并加入了时移、音高偏移和环境噪声增强,为训练声乐模仿条件模块提供了关键数据基础。
- 提出F1决策误差新指标:为评估模型在时间维度上定位目标声音的准确性,提出了基于帧级RMS能量二值化计算的F1决策误差指标,弥补了传统SDR等指标对时间精度评估的不足。
🔬 细节详述
- 训练数据:
- 声音事件:约1.1M样本,来自内部授权和公开数据集。每个声音附带多种长度和风格的文本描述。
- 声乐模仿:新建数据集
VimSketchGen,共87,171对时对齐的声乐模仿与音效。由VimSketch的12,453条模仿,经Sketch2Sound(使用不同中值滤波器尺寸∈{0, 3, 6, 9, 12, 15, 19})各生成7条音效构成。所有音频为8秒立体声,采样率44.1kHz。
- 训练策略:
- 输入构造:每次输入为10秒混合音频,由2-5个不同类声音事件混合(SNR:-3至10 dB)。
- 目标选择:随机选择混合中的一部分声音事件作为分离目标(若使用声乐模仿,则目标为模仿对应的单个声音事件)。
- 条件使用:训练时,模型总是被条件于文本或声乐模仿中的一种,不同时使用两者。
- 噪声扰动:为防止模型学习到平凡解(复制混合音频),会对输入添加轻微信号扰动。
- 分类器自由引导:训练时随机丢弃条件。文本和混合信号丢弃率10%,声乐模仿丢弃率90%。
- 损失/框架:采用v-prediction框架。
- 优化器/学习率:未说明。
- Batch Size:未说明。
- 训练步数/轮数:未说明。
- 训练硬件:未说明。
- 模型细节:
- 参数量:约0.9B参数。
- VAE:采用Descript Audio Codec架构,将44.1kHz单声道音频压缩为128维连续潜在表示,时间分辨率40Hz。
- 文本编码器:预训练的FLAN-T5。
- 主干网络:Diffusion Transformer (DiT)。
- 推理细节:
- 采样器:DPM-Solver++。
- CFG Scale:推理时设置为1.0。
- 声乐模仿变体测试:对比了使用完整波形作为条件,与仅使用其逐帧音高和RMS曲线作为条件的效果。后者的中值滤波器大小在推理时固定为8。
📊 实验结果
基准测试与设置:
- 标准提取设置:在AudioCaps + ESC50(ACESC)、FSD-Mix(FSD)和Adobe Audition Sound Effects(ASFX,完全域外)上评估。 声音移除设置:使用负面文本操作符。同时设计了一个“上界锚点”设置(FlowSep和SoloAudio*),即让这些模型通过提取所有非目标声音来达到等效移除效果。
- 声乐模仿设置:在VimSketchGen-Mix上评估,无基线对比。
主要结果表格(摘自论文):
表1:标准提取设置下的结果
| 模型 | SDRi ↑ | L2 Mel ↓ | F1 Decision Error ↑ | CLAPScore ↑ | CLAPScoreA ↑ | FAD PANN ↓ |
|---|---|---|---|---|---|---|
| ACESC | FSD | ASFX | ACESC | FSD | ASFX | |
| FlowSep [19] | -4.26 | 2.05 | -2.75 | 3.06 | 13.80 | 4.93 |
| SoloAudio [20] | 2.42 | 14.75 | 5.15 | 8.35 | 2.26 | 4.73 |
| PromptSep | 1.74 | 10.89 | 5.65 | 5.04 | 7.60 | 4.23 |
表2:声音移除设置下的结果
| 模型 | SDRi ↑ | L2 Mel ↓ | F1 Decision Error ↑ | CLAPScoreA ↑ | FAD PANN ↓ |
|---|---|---|---|---|---|
| ACESC | FSD | ASFX | ACESC | FSD | |
| FlowSep [19] | -4.45 | -12.44 | -9.53 | 6.30 | 13.27 |
| SoloAudio [20] | -1.08 | -10.85 | -5.50 | 12.40 | 37.84 |
| PromptSep | 1.17 | -3.34 | -3.20 | 6.40 | 9.13 |
| FlowSep* [19] | -4.35 | -13.14 | -9.36 | 3.01 | 6.64 |
| SoloAudio* [20] | 2.26 | -9.82 | -3.77 | 8.60 | 35.31 |
表3:主观评估结果(ASFX测试集)
| 模型 | Extraction | Removal |
|---|---|---|
| REL↑ | OVL↑ | |
| Mixture | 2.96 ± 0.08 | 3.55 ± 0.07 |
| GT | 3.94 ± 0.07 | 4.17 ± 0.06 |
| FlowSep [19] | 3.19 ± 0.07 | 3.46 ± 0.07 |
| SoloAudio [20] | 3.31 ± 0.08 | 3.64 ± 0.07 |
| PromptSep | 3.34 ± 0.08 | 3.75 ± 0.07 |
表4:声乐模仿引导分离的消融实验结果(VimSketchGen-Mix)
| 条件 | SDRi ↑ | L2 Mel ↓ | F1 Decision Error ↑ | CLAPScoreA ↑ | FAD ↓ |
|---|---|---|---|---|---|
| Imitation (完整波形) | 9.99 | 0.92 | 0.95 | 0.87 | 2.19 |
| Pitch+RMS | 7.17 | 3.30 | 0.84 | 0.71 | 6.66 |
关键结论:
- 提取任务:PromptSep在完全域外的ASFX数据集上几乎所有指标最优,显示出强大的泛化能力。在ACESC和FSD上,性能与专门优化的基线持平或略优。
- 移除任务:PromptSep全面超越了所有基线,包括试图通过提取剩余声音来模拟移除的基线(*标记),证明了其双操作符框架的有效性。
- 主观评估:在相关性和整体质量上均获得最高分,尤其在移除任务中优势明显。
- 模仿条件:完整的声乐模仿波形作为条件,在所有指标上显著优于仅使用其音高和RMS曲线,证明了波形输入提供了更丰富的信息。
⚖️ 评分理由
- 学术质量:6.0/7:创新点明确且实用(双操作符、新模态),技术路线合理。实验设计非常全面,覆盖多任务、多基准、主客观评估及消融实验,结果具有说服力。扣分主要在于训练过程细节(如优化器、学习率、batch size、训练时长等)缺失,影响了论文的可复现性和严谨性。
- 选题价值:1.5/2:选题切中了当前LASS技术的痛点,向更通用的“可控音频编辑”迈进了一步,具有很好的应用前景和学术关注度。
- 开源与复现加成:0.0/1:论文仅提供项目主页链接,未提及代码、模型权重或详细训练配置的公开计划,复现信息严重不足。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:论文中未提及公开权重。
- 数据集:论文中提及新建了VimSketchGen数据集,但未说明是否公开或如何获取。
- Demo:论文中未提及在线演示。
- 复现材料:提供了部分训练数据描述(规模、来源、增强方法)和模型架构描述,但关键训练超参数(优化器、学习率等)、硬件信息、完整训练脚本或配置均未提及。
- 论文中引用的开源项目:依赖Sketch2Sound进行数据增强,依赖VimSketch数据集,采用Descript Audio Codec (DAC) 架构作为VAE,使用FLAN-T5作为文本编码器。