📄 PromptSep: Generative Audio Separation Via Multimodal Prompting

#语音分离 #扩散模型 #数据增强 #多模态模型

7.5/10 | 前10% | #语音分离 | #扩散模型 | #数据增强 #多模态模型

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高

👥 作者与机构

  • 第一作者:Yutong Wen (Adobe Research & University of Illinois Urbana-Champaign)
  • 通讯作者:未明确说明
  • 作者列表:Yutong Wen (Adobe Research & University of Illinois Urbana-Champaign), Ke Chen (Adobe Research), Prem Seetharaman (Adobe Research), Oriol Nieto (Adobe Research), Jiaqi Su (Adobe Research), Rithesh Kumar (Adobe Research), Minje Kim (University of Illinois Urbana-Champaign), Paris Smaragdis (MIT), Zeyu Jin (Adobe Research), Justin Salamon (Adobe Research)

💡 毒舌点评

亮点: 创新性地将“声音移除”与“声乐模仿”整合进统一框架,直击现有LASS系统的两大软肋,实验设计(多基准、多设置、消融研究)堪称全面典范。短板: 训练过程的“黑盒”化严重,关键优化超参数、硬件配置等细节缺失,使得其强大的结果难以被独立复现验证,削弱了学术贡献的坚实性。

📌 核心摘要

PromptSep旨在解决现有语言查询音频源分离系统的两大局限:仅支持声音提取操作,以及纯文本提示的模糊与不直观性。其核心方法是构建一个条件扩散模型,通过精心设计的数据模拟流程,统一支持提取与移除两种操作符;同时,创新性地引入用户声乐模仿作为新的提示模态,并利用Sketch2Sound模型进行数据增强以获得对齐的训练数据。与现有方法相比,新意在于首次在单一模型中集成提取/移除操作,并首次将声乐模仿作为开放域分离的引导条件。主要实验结果表明,在声音移除任务上,PromptSep在多个基准(如FSD-Mix的SDRi为-3.34)上显著优于FlowSep和SoloAudio等基线;在声乐模仿引导的分离任务上,取得了SDRi 9.99 dB的强性能。其实际意义在于为用户提供了更灵活、更直观的音频编辑工具。主要局限性在于训练细节公开不足,可能影响复现,且未探讨文本与模仿提示联合使用的潜力。

🏗️ 模型架构

PromptSep是一个基于潜在扩散模型的架构,整体流程如图1所示。

图1: pdf-image-page2-idx0

输入与处理流程:

  1. 音频混合信号:10秒的单声道音频,由2-5个不同类别的声音事件混合而成(SNR在-3到10 dB间随机采样)。
  2. 条件输入(可单独或联合使用):
    • 文本提示:对目标声音的文字描述。模型支持从单个关键词到复杂句子的不同长度和风格。
    • 声乐模仿:用户模仿目标声音的录音。
  3. 编码:
    • 音频:音频混合信号和声乐模仿信号分别通过一个预训练的变分自编码器(VAE,采用Descript Audio Codec架构)编码成连续的潜在表示(128维,40Hz)。
    • 文本:文本提示通过预训练的FLAN-T5编码器进行编码。
  4. 条件融合:音频混合信号和声乐模仿信号的潜在表示,分别通过各自的MLP层进行处理,然后以“原位相加”的方式注入到扩散模型的嘈杂潜在表示中。文本嵌入则通过交叉注意力机制与DiT块交互。
  5. 生成与解码:扩散Transformer(DiT)模型在去噪过程中,以文本嵌入为交叉注意力条件,以处理后的音频混合与声乐模仿的潜在和为加性条件,生成目标分离音频的干净潜在表示。最后,通过VAE解码器将潜在表示解码回波形,得到最终的分离音频(可以是提取的目标声音,也可以是移除目标后剩余的声音)。

关键设计选择与动机:

  • 双条件加性融合:将音频混合(相当于参考信号)和声乐模仿(同样是音频信号)与嘈杂目标进行原位相加,是因为它们与目标音频具有相同的潜在维度,这种设计直接且有效,已被多项工作验证。
  • 扩散Transformer (DiT):采用DiT架构作为扩散模型的主干,以处理多模态条件和长序列。
  • 训练时的条件丢弃:采用分类器自由引导(CFG),随机丢弃条件信号。文本和混合信号的丢弃率为10%,但声乐模仿的丢弃率高达90%,动机是防止模型过度依赖该强条件而过拟合。
  • 防止平凡解:在训练目标(多声音子集的提取)中,为输入添加轻微信号扰动,以防止模型通过简单复制混合信号来获得低损失。

💡 核心创新点

  1. 统一提取与移除的双操作符框架:首次在LASS框架中显式支持“移除”操作。通过设计包含“提取”和“移除”操作符的文本模板,并进行数据模拟,使单一模型能灵活响应两种命令,解决了实际应用中“移除”需求更普遍的痛点。
  2. 引入声乐模仿作为新的提示模态:针对文本描述声音的模糊性,提出并实现了声乐模仿作为引导条件。这为用户提供了一种更自然、更直观(尤其是针对“失真”、“嗡嗡声”等抽象声音)的交互方式,是对纯文本查询的重要补充。
  3. 大规模时对齐声乐模仿数据的模拟生成:为解决缺乏时对齐声乐模仿-声音效果配对数据的问题,创造性地利用Sketch2Sound模型。该方法将VimSketch数据集中的1.2万条声乐模仿扩展为8.7万条与声效时对齐的训练对,并加入了时移、音高偏移和环境噪声增强,为训练声乐模仿条件模块提供了关键数据基础。
  4. 提出F1决策误差新指标:为评估模型在时间维度上定位目标声音的准确性,提出了基于帧级RMS能量二值化计算的F1决策误差指标,弥补了传统SDR等指标对时间精度评估的不足。

🔬 细节详述

  • 训练数据:
    • 声音事件:约1.1M样本,来自内部授权和公开数据集。每个声音附带多种长度和风格的文本描述。
    • 声乐模仿:新建数据集VimSketchGen,共87,171对时对齐的声乐模仿与音效。由VimSketch的12,453条模仿,经Sketch2Sound(使用不同中值滤波器尺寸∈{0, 3, 6, 9, 12, 15, 19})各生成7条音效构成。所有音频为8秒立体声,采样率44.1kHz。
  • 训练策略:
    • 输入构造:每次输入为10秒混合音频,由2-5个不同类声音事件混合(SNR:-3至10 dB)。
    • 目标选择:随机选择混合中的一部分声音事件作为分离目标(若使用声乐模仿,则目标为模仿对应的单个声音事件)。
    • 条件使用:训练时,模型总是被条件于文本或声乐模仿中的一种,不同时使用两者。
    • 噪声扰动:为防止模型学习到平凡解(复制混合音频),会对输入添加轻微信号扰动。
    • 分类器自由引导:训练时随机丢弃条件。文本和混合信号丢弃率10%,声乐模仿丢弃率90%。
    • 损失/框架:采用v-prediction框架。
    • 优化器/学习率:未说明。
    • Batch Size:未说明。
    • 训练步数/轮数:未说明。
    • 训练硬件:未说明。
  • 模型细节:
    • 参数量:约0.9B参数。
    • VAE:采用Descript Audio Codec架构,将44.1kHz单声道音频压缩为128维连续潜在表示,时间分辨率40Hz。
    • 文本编码器:预训练的FLAN-T5。
    • 主干网络:Diffusion Transformer (DiT)。
  • 推理细节:
    • 采样器:DPM-Solver++。
    • CFG Scale:推理时设置为1.0。
    • 声乐模仿变体测试:对比了使用完整波形作为条件,与仅使用其逐帧音高和RMS曲线作为条件的效果。后者的中值滤波器大小在推理时固定为8。

📊 实验结果

基准测试与设置:

  • 标准提取设置:在AudioCaps + ESC50(ACESC)、FSD-Mix(FSD)和Adobe Audition Sound Effects(ASFX,完全域外)上评估。 声音移除设置:使用负面文本操作符。同时设计了一个“上界锚点”设置(FlowSep和SoloAudio*),即让这些模型通过提取所有非目标声音来达到等效移除效果。
  • 声乐模仿设置:在VimSketchGen-Mix上评估,无基线对比。

主要结果表格(摘自论文):

表1:标准提取设置下的结果

模型SDRi ↑L2 Mel ↓F1 Decision Error ↑CLAPScore ↑CLAPScoreA ↑FAD PANN ↓
ACESCFSDASFXACESCFSDASFX
FlowSep [19]-4.262.05-2.753.0613.804.93
SoloAudio [20]2.4214.755.158.352.264.73
PromptSep1.7410.895.655.047.604.23

表2:声音移除设置下的结果

模型SDRi ↑L2 Mel ↓F1 Decision Error ↑CLAPScoreA ↑FAD PANN ↓
ACESCFSDASFXACESCFSD
FlowSep [19]-4.45-12.44-9.536.3013.27
SoloAudio [20]-1.08-10.85-5.5012.4037.84
PromptSep1.17-3.34-3.206.409.13
FlowSep* [19]-4.35-13.14-9.363.016.64
SoloAudio* [20]2.26-9.82-3.778.6035.31

表3:主观评估结果(ASFX测试集)

模型ExtractionRemoval
REL↑OVL↑
Mixture2.96 ± 0.083.55 ± 0.07
GT3.94 ± 0.074.17 ± 0.06
FlowSep [19]3.19 ± 0.073.46 ± 0.07
SoloAudio [20]3.31 ± 0.083.64 ± 0.07
PromptSep3.34 ± 0.083.75 ± 0.07

表4:声乐模仿引导分离的消融实验结果(VimSketchGen-Mix)

条件SDRi ↑L2 Mel ↓F1 Decision Error ↑CLAPScoreA ↑FAD ↓
Imitation (完整波形)9.990.920.950.872.19
Pitch+RMS7.173.300.840.716.66

关键结论:

  1. 提取任务:PromptSep在完全域外的ASFX数据集上几乎所有指标最优,显示出强大的泛化能力。在ACESC和FSD上,性能与专门优化的基线持平或略优。
  2. 移除任务:PromptSep全面超越了所有基线,包括试图通过提取剩余声音来模拟移除的基线(*标记),证明了其双操作符框架的有效性。
  3. 主观评估:在相关性和整体质量上均获得最高分,尤其在移除任务中优势明显。
  4. 模仿条件:完整的声乐模仿波形作为条件,在所有指标上显著优于仅使用其音高和RMS曲线,证明了波形输入提供了更丰富的信息。

⚖️ 评分理由

  • 学术质量:6.0/7:创新点明确且实用(双操作符、新模态),技术路线合理。实验设计非常全面,覆盖多任务、多基准、主客观评估及消融实验,结果具有说服力。扣分主要在于训练过程细节(如优化器、学习率、batch size、训练时长等)缺失,影响了论文的可复现性和严谨性。
  • 选题价值:1.5/2:选题切中了当前LASS技术的痛点,向更通用的“可控音频编辑”迈进了一步,具有很好的应用前景和学术关注度。
  • 开源与复现加成:0.0/1:论文仅提供项目主页链接,未提及代码、模型权重或详细训练配置的公开计划,复现信息严重不足。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:论文中未提及公开权重。
  • 数据集:论文中提及新建了VimSketchGen数据集,但未说明是否公开或如何获取。
  • Demo:论文中未提及在线演示。
  • 复现材料:提供了部分训练数据描述(规模、来源、增强方法)和模型架构描述,但关键训练超参数(优化器、学习率等)、硬件信息、完整训练脚本或配置均未提及。
  • 论文中引用的开源项目:依赖Sketch2Sound进行数据增强,依赖VimSketch数据集,采用Descript Audio Codec (DAC) 架构作为VAE,使用FLAN-T5作为文本编码器。

← 返回 ICASSP 2026 论文分析