📄 Predictive-Generative Drift Decomposition for Speech Enhancement and Separation
#语音增强 #语音分离 #扩散模型 #即插即用框架
🔥 8.5/10 | 前25% | #语音增强 | #扩散模型 | #语音分离 #即插即用框架 | arxiv
学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高
👥 作者与机构
- 第一作者:Julius Richter(MERL)
- 通讯作者:未明确说明(作者列表为共同署名,未指定通讯作者)
- 作者列表:Julius Richter(MERL)、Yoshiki Masuyama(MERL)、Christoph Boeddeker(MERL)、Takahiro Edo(MERL)、Gordon Wichern(MERL)、Jonathan Le Roux(MERL)
💡 毒舌点评
论文的亮点在于将随机插值的数学优雅性与即插即用的工程实用性结合,提出了一个理论上扎实、实验上有效的语音处理增强框架。它巧妙地将预测器的输出转化为SDE中的恒定漂移项,实现了模块的松散耦合。然而,其“即插即用”的承诺在面对像语音分离这样尺度模糊的复杂任务时,需要额外处理(如实验中对SepFormer使用的尺度补偿),这暴露了该框架在面对不同任务内在差异时的潜在通用性边界。
📌 核心摘要
- 问题:预测模型在语音恢复任务中可能导致不自然的伪影,而生成模型可能产生幻觉或与观测不一致的输出。需要一种方法能结合二者的优点:保持对原始信号的忠实度,同时提升感知自然度。
- 方法核心:提出名为SIPS的即插即用框架。该框架基于随机插值理论,将生成采样过程中的总漂移分解为两部分:一是由预训练预测器提供的确定性漂移(\(\hat{v} = P_\phi(y) - y\)),用于引导采样朝向任务一致的解;二是由仅在干净语音上训练的去噪器/分数模型\(D_\theta\)估计的随机成分,用于增强输出的自然度和一致性。采样通过求解一个随机微分方程(SDE)实现。
- 创新点:与现有混合方法(如StoRM, Diffiner)相比,SIPS具有以下新特性:(a) 基于随机插值理论的数学原理漂移分解,而非经验性组合;(b) 去噪器仅需在干净语音上训练,与具体退化任务无关,可跨任务复用;(c) 推理时无需针对特定预测器重新训练或适配,真正实现即插即用。
- 主要实验结果:在语音增强和分离任务上,结合多种最新预测器(如SEMamba, FlexIO),SIPS能持续提升非侵入式感知质量指标(NISQA, UTMOS),同时对信号级失真指标(SI-SDR, PESQ)影响较小。
- 语音增强(匹配条件, VoiceBank-DEMAND)关键数据:
模型 SI-SDR ↑ [dB] PESQ ↑ DNSMOS ↑ [P.808] NISQA ↑ UTMOS ↑ WER ↓ [%] SEMamba 19.72 3.56 3.58 4.60 4.07 8.87 SEMamba + SIPS 19.63 3.43 3.57 4.73 4.09 8.81 FlexIO (用于分离, WHAMR!) 8.45 1.76 3.62 3.54 2.79 21.50 FlexIO + SIPS 8.51 1.56 3.68 4.01 3.01 23.43 - 关键图表:
- 图1(论文原图)直观地展示了SIPS的推理流程。左侧显示从观测\(y\)开始,预测器\(P_\phi\)计算出漂移\(\hat{v}\)。右侧展示了采样步的细节:当前状态\(x_t\),预测器提供的漂移\(\hat{v}\),去噪器\(D_\theta\)估计的噪声分量\(\hat{z}\),以及随机噪声\(z\),共同作用产生下一步状态\(x_{t+1}\)。图注说明这是一个Euler步与漂移分解的结合。
- 图3(a)(b)表明,κ参数允许在信号失真(SI-SDR)和感知质量(NISQA)之间进行权衡,尤其在失配条件下效果明显。
- 语音增强(匹配条件, VoiceBank-DEMAND)关键数据:
- 实际意义:为语音增强与分离提供了一个模块化解决方案,允许从业者利用现有的强大预测模型,通过接入一个统一的、任务无关的生成先验来提升输出听感质量,无需为每个预测器重新训练生成模型。
- 主要局限性:引入生成组件增加了推理复杂度和计算量(尽管比Diffiner高效)。在极端退化或与训练分布差异大的情况下,性能提升有限,且可能引入影响下游任务(如ASR)的幻觉。此外,框架的通用性边界在需要尺度补偿的任务(如某些语音分离模型)中有所暴露。
🔗 开源详情
- 代码:https://github.com/merlresearch/sips-speech
- 模型权重:论文中未提及SIPS的预训练权重链接。论文中提到了使用的预测器(如SEMamba、FlexIO、Conv-TasNet、NCSN++、SepFormer)的官方或第三方实现及检查点,但仅给出了SepFormer的官方检查点链接:https://huggingface.co/speechbrain/sepformer-whamr16k。其他预测器的具体权重链接需参考其原始论文。
- 数据集:
- 训练去噪器:使用VoiceBank-DEMAND数据集的28说话人训练集(未给出具体下载链接,但可从原数据集获取)。
- 语音增强测试集(匹配条件):VoiceBank-DEMAND测试集。
- 语音增强测试集(不匹配条件):EARS-WHAM (v2) 测试集,项目主页为 https://sp-uhh.github.io/ears_dataset/。
- 语音分离测试集:WHAMR! 数据集(单声道嘈杂混响子集),基于WSJ0-2mix数据集生成。
- 论文中未提及VoiceBank-DEMAND、WHAMR!、WSJ0-2mix的具体下载链接,但指出了其来源或生成方式。
- Demo:论文中未提及
- 复现材料:
- 代码仓库(https://github.com/merlresearch/sips-speech)包含了实现细节。
- 论文附录(Appendix C)提供了详细的实现与训练细节,包括:数据表示(C.1)、实现与训练细节(C.2)、噪声调度超参数选择(C.3)、采样步数消融研究(C.4)、后处理步骤影响分析(C.5)、Diffiner在减少采样步数下的对比(C.6)以及带标准差的结果(C.7)。
- 论文中引用的开源项目:
- EDM2SE:其仓库为 https://github.com/sp-uhh/edm2se,是SIPS实现的基础。
- Conv-TasNet:论文中使用了第三方实现 https://github.com/kaituoxu/Conv-TasNet。
- NVIDIA NeMo工具包:用于计算WER,论文中提到了具体模型“QuartzNet15x5Base-En”,但未给出NeMo工具包的直接链接。
🏗️ 方法概述和架构
SIPS是一个两阶段的即插即用框架,旨在增强任何预训练语音恢复预测器的输出。其核心是一个生成采样过程,该过程被设计为一个随机微分方程(SDE),并将预测器的输出作为一个恒定的“漂移”分量嵌入其中。
整体流程:
- 预训练阶段:独立地训练一个条件去噪器/分数模型 \(D_\theta(t, x_t)\)。训练数据仅为干净语音,通过向其添加由调度函数控制的高斯噪声来构建训练样本。此阶段与具体的语音恢复任务(增强或分离)无关。
- 推理阶段:给定一个带噪语音观测 \(y\),首先运行一次预训练的预测器 \(P_\phi\) 得到初步估计 \(\hat{s} = P_\phi(y)\),并计算漂移向量 \(\hat{v} = P_\phi(y) - y\)。然后,从初始状态 \(x_0 = y\) 开始,通过数值求解一个SDE,在 \(M\) 步(论文中 \(M=15\))内迭代生成最终的清晰语音估计 \(x_1\)。每一步都同时利用漂移 \(\hat{v}\)(恒定不变)和去噪器 \(D_\theta\) 来更新状态。
主要组件/模块详解:
预测器 \(P_\phi\) (预训练,冻结):
- 功能:提供关于“清晰语音应该是什么样子”的任务特定初始猜测。它定义了整个采样过程的目标方向。具体地,它近似于条件期望 \(\mathbb{E}[S-Y|Y=y]\),即给定观测时,从观测到目标的期望漂移。
- 实现:可以是任何现成的语音增强或分离模型,如Conv-TasNet、NCSN++、SEMamba或FlexIO。论文中直接使用其公开的预训练权重。
- 输入输出:输入为含噪语音 \(y\) 的表示(压缩幅度STFT),输出为清晰语音的初步估计 \(P_\phi(y)\)。其差值 \(\hat{v} = P_\phi(y) - y\) 被用作SDE中的固定漂移项。
去噪器/分数模型 \(D_\theta\) (独立训练):
- 功能:学习估计随机插值路径中注入的噪声 \(\mathbb{E}[Z | X_t=x]\)。在SDE框架中,这等价于学习分数函数 \(\nabla_x \log \rho_t(x)\),用于在采样过程中引导轨迹,使其保持在自然语音分布的高概率区域,从而提升自然度和一致性。
- 实现:基于EDM2框架的神经网络架构。训练目标是最小化预测噪声 \(Z\) 与真实噪声之间的均方误差,见公式(9):\(\min_{\theta}\,\mathbb{E}\Big[\lVert D_{\theta}\big(t,S+(a+\gamma(t))Z\big)-Z\rVert^{2}\Big]\)。其中,\(t \sim \text{Uniform}[0,1]\),\(S \sim \rho_S\),\(Z \sim \mathcal{N}(0, I)\)。训练数据仅来自VoiceBank-DEMAND的干净语音部分(28人训练集,排除p226, p287用于验证)。噪声调度为 \(\gamma(t) = c \sin^2(\pi t)\),并引入偏移 \(a\) 以确保所有时间步都有非零噪声水平。
- 输入输出:输入为当前时间步 \(t\) 的中间状态 \(x_t\);输出为预测的噪声分量 \(\hat{z} = D_\theta(t, x_t)\)。
采样算法 (Algorithm 1):
- 功能:执行从 \(x_0=y\) 到 \(x_1\) 的SDE数值积分,生成最终输出。
- 实现:采用Euler-Maruyama离散化。核心更新公式(公式(10))为:
\(x_{t_{i+1}} = x_{t_i} + \left[ \hat{v} + (\dot{\gamma}(t_i) - \kappa) \hat{z} \right] \Delta t_i + \sqrt{2 \Delta t_i \kappa \gamma(t_i)} \, z\)
这里,\(\hat{v}\) 是来自预测器的固定漂移,\(\hat{z}\) 是来自去噪器的估计,\(z \sim \mathcal{N}(0,I)\) 是随机噪声注入。\(\gamma(t)\) 是噪声调度(正弦平方函数),\(\kappa\) 是控制随机性大小的超参数。算法具体流程为:
- 输入:观测 \(y\),预测器 \(P_\phi\),去噪器 \(D_\theta\),噪声缩放参数 \(\kappa \geq 0\),步数 \(M\),时间网格 \(\{t_i\}_{i=0}^M\) 及步长 \(\{\Delta t_i\}\)。
- 初始化:\(\hat{v} = P_\phi(y) - y\),\(x_0 = y\)。
- 循环(\(i=0\) 到 \(M-1\)):计算 \(\hat{z} = D_\theta(t_i, x_{t_i})\);采样 \(z \sim \mathcal{N}(0, I)\);更新 \(x_{t_{i+1}} = x_{t_i} + \big(\hat{v} + (\dot{\gamma}(t_i) - \kappa)\hat{z}\big)\Delta t_i + \sqrt{2 \Delta t_i \kappa \gamma(t_i)} \, z\)。
- 可选后处理:\(x_1 \leftarrow P_\phi(x_1)\)(论文实验表明无一致收益,未在主实验使用)。
- 数据流:在每一步 \(i\),算法调用一次 \(D_\theta(t_i, x_{t_i})\),并使用固定的 \(\hat{v}\),结合采样得到的随机噪声 \(z\),计算出下一步的状态 \(x_{t_{i+1}}\)。
组件间的数据流与交互:
- 预测器 \(P_\phi\) 仅在推理开始时运行一次,其输出 \(\hat{v}\) 被存储并在所有 \(M\) 个采样步中重复使用。
- 去噪器 \(D_\theta\) 在每个采样步都会被调用,处理当前状态 \(x_t\)。
- 采样算法将 \(P_\phi\) 提供的全局方向指导与 \(D_\theta\) 提供的局部流形引导相结合,并通过可控的噪声注入(由 \(\kappa\) 和 \(z\) 控制)来探索解空间。
关键设计选择及动机:
- 漂移分解 (Predictive-Generative Drift Decomposition):这是论文最核心的理论创新。它将SDE的总漂移项 \(b(t,x)\) 合理地分解为一个由条件期望 \(\mathbb{E}[S-Y|X_t=x]\) 定义的预测部分(\(v(t,x)\),由 \(P_\phi\) 在给定 \(Y=y\) 时近似)和一个由 \(\mathbb{E}[Z|X_t=x]\) 定义的去噪部分(\(\eta_z(t,x)\),由 \(D_\theta\) 近似)。这种分解提供了数学上的清晰性,避免了人为加权。
- 噪声调度与训练:选择 \(\gamma(t) = c \sin^2(\pi t)\) 并引入偏移 \(a\)(公式(9))是为了保证所有时间步都有非零的噪声水平,从而稳定训练。在干净语音上训练去噪器虽然导致了训练(仅高斯噪声)与推理���复杂退化)的不匹配,但作者假设模型能学到语音的内在结构,实验证明这种不匹配是可容忍的。
- 插件式设计:通过将预测器的影响完全注入到一个固定的漂移向量 \(\hat{v}\) 中,SIPS实现了与具体预测器架构的解耦。只要预测器能给出一个 \(P_\phi(y)\),就可以接入框架,无需重新训练。
- 随机性控制 (\(\kappa\)):参数 \(\kappa\) 允许在纯ODE(\(\kappa=0\),确定性更强,可能更忠实但更生硬)和强随机SDE(\(\kappa>0\),更具探索性,可能更自然但可能更不忠实)之间权衡。这为适配不同任务(如增强 vs. 分离,匹配 vs. 失配)提供了灵活性。
专业术语解释:
- 随机插值 (Stochastic Interpolation):一种在两个概率分布(此处为含噪语音 \(\rho_Y\) 和清晰语音 \(\rho_S\))之间构造连续随机路径的数学框架,通过线性插值和可控噪声注入实现(公式(1))。
- 分数模型/去噪器 (Score Model / Denoiser):在扩散模型中,指估计数据分布对数概率梯度(分数函数 \(\nabla_x \log p_t(x)\))的神经网络。在本框架中,它被训练为预测在插值过程中添加的噪声(公式(9))。
- 漂移 (Drift):在随机微分方程中,漂移项描述了状态演化的确定性趋势。
- 即插即用 (Plug-and-Play):指一个算法模块可以方便地集成到另一个系统中,无需对原系统进行修改或重新训练。这里特指SIPS框架可以适配不同的预测器,无需针对特定预测器重新训练去噪器。
- 随机微分方程 (SDE):用于描述受随机噪声影响的系统动力学的方程。SIPS中的采样过程由公式(7)的SDE定义。
💡 核心创新点
- 基于随机插值的统一数学框架:将预测-生成混合建模置于随机插值理论之下,推导出清晰的漂移分解公式(公式(5), (6), (8))。相比先前依赖启发式加权或特定架构条件化的方法(如StoRM, Diffiner),本方法在理论上更严谨,且模块间耦合更松散。
- 任务无关的生成先验:去噪器模型仅在干净语音数据上训练,使其成为一个通用的“自然语音先验”,可跨任务(增强、分离)和跨预测器重复使用。这极大地提高了框架的通用性和实用价值。
- 即插即用的采样算法:算法设计(Algorithm 1)允许将任何预测器的输出直接转化为采样SDE中的恒定漂移项。这使得提升任何现有预测器的性能变得非常直接,只需一次预测器前向传播和后续的固定步骤采样。
- 可控的保真度-自然度权衡:通过调节噪声缩放参数 \(\kappa\),用户可以在采样过程中动态调整对预测器输出(保真度)的依赖程度和对生成先验(自然度)的依赖程度,以适应不同的退化场景和需求(如图3所示)。
📊 实验结果
本文在语音增强和语音分离任务上,通过全面的实验验证了所提出的 SIPS(Stochastic Interpolant Prior for Speech)框架的有效性。实验评估了该方法在匹配与失配条件下的性能,以及其作为即插即用模块与不同预测器结合的效果。
语音增强(匹配条件)
在 VoiceBank-DEMAND 测试集(匹配条件)上,SIPS 与多种预测器结合后的性能如表 1 所示。结果显示,SIPS 在所有预测器上均能提升非侵入式感知质量指标(NISQA, UTMOS),同时仅引起侵入式指标(SI-SDR, PESQ)的轻微下降,并且对下游任务(WER)的影响通常较小或有益。
表 1:语音增强在 VoiceBank-DEMAND 测试集上的结果(平均分)。最佳值加粗,次佳值加下划线。† 表示评分模型是在 NCSN++ 的输出上训练的,因此在推理时使用的预测器存在不匹配。
| 模型 | SI-SDR ↑ [dB] | PESQ ↑ | DNSMOS ↑ [P.808] | NISQA ↑ | UTMOS ↑ | WER ↓ [%] |
|---|---|---|---|---|---|---|
| Clean | ∞ | 4.64 | 3.55 | 4.50 | 4.09 | 6.96 |
| Noisy | 8.44 | 1.97 | 3.09 | 3.03 | 3.11 | 11.01 |
| SGMSE+ [29] | 17.35 | 2.93 | 3.56 | 4.51 | 3.97 | 11.00 |
| Diffiner [33] | 17.55 | 2.67 | 3.49 | 4.79 | 3.99 | 14.65 |
| Conv-TasNet [22] | 18.57 | 2.51 | 3.31 | 3.45 | 3.61 | 11.87 |
| + StoRM† [17] | 11.99 | 2.31 | 3.36 | 3.93 | 3.65 | 16.87 |
| + StoRM [17] | 17.92 | 2.67 | 3.54 | 4.57 | 3.92 | 13.32 |
| + Diffiner [33] | 16.22 | 2.59 | 3.47 | 4.74 | 3.96 | 15.99 |
| + SIPS (ours) | 18.79 | 2.64 | 3.43 | 4.28 | 3.85 | 12.86 |
| NCSN++ [17] | 19.57 | 2.83 | 3.59 | 4.64 | 3.93 | 9.58 |
| + StoRM [17] | 18.49 | 2.89 | 3.56 | 4.52 | 3.92 | 10.21 |
| + Diffiner [33] | 16.11 | 2.83 | 3.52 | 4.80 | 4.02 | 13.03 |
| + SIPS (ours) | 19.20 | 2.88 | 3.56 | 4.72 | 3.97 | 10.00 |
| SEMamba [4] | 19.72 | 3.56 | 3.58 | 4.60 | 4.07 | 8.87 |
| + StoRM† [17] | 12.49 | 2.79 | 3.54 | 4.42 | 3.91 | 11.11 |
| + StoRM [17] | 18.89 | 3.17 | 3.56 | 4.54 | 4.01 | 9.37 |
| + Diffiner [33] | 16.51 | 2.87 | 3.53 | 4.81 | 4.04 | 12.43 |
| + SIPS (ours) | 19.63 | 3.43 | 3.57 | 4.73 | 4.09 | 8.81 |
语音增强(失配条件)
在更具挑战性的 EARS-WHAM (v2) 测试集(失配条件)上,结果如表 2 所示。SIPS 同样提升了非侵入式指标。尽管 WER 值整体较高(反映了失配条件的难度),SIPS 相比其他混合方法通常能维持更合理或更优的 WER。
表 2:失配场景:语音增强在 EARS-WHAM (v2) 测试集上的结果(平均分)。最佳值加粗,次佳值加下划线。† 表示评分模型是在 NCSN++ 的输出上训练的,因此在推理时使用的预测器存在不匹配。
| 模型 | SI-SDR ↑ [dB] | PESQ ↑ | DNSMOS ↑ [P.808] | NISQA ↑ | UTMOS ↑ | WER ↓ [%] |
|---|---|---|---|---|---|---|
| Clean | ∞ | 4.64 | 3.89 | 4.09 | 3.68 | 8.95 |
| Noisy | 5.36 | 1.24 | 2.73 | 1.95 | 1.68 | 32.87 |
| SGMSE+ [29] | 11.64 | 1.86 | 3.86 | 4.09 | 3.10 | 37.60 |
| Conv-TasNet [22] | 3.95 | 1.35 | 2.90 | 1.43 | 1.66 | 53.87 |
| + StoRM† [17] | -2.69 | 1.15 | 3.22 | 2.14 | 1.50 | 80.60 |
| + StoRM [17] | 3.24 | 1.29 | 3.44 | 3.33 | 2.21 | 64.56 |
| + Diffiner [33] | -2.31 | 1.16 | 2.99 | 3.02 | 1.97 | 87.79 |
| + SIPS (ours) | 3.86 | 1.32 | 3.09 | 1.98 | 1.73 | 59.10 |
| NCSN++ [17] | 13.24 | 1.81 | 3.72 | 3.84 | 2.75 | 29.15 |
| + StoRM [17] | 12.49 | 1.90 | 3.83 | 4.12 | 2.86 | 31.74 |
| + Diffiner [33] | -0.11 | 1.30 | 3.50 | 3.40 | 2.22 | 69.05 |
| + SIPS (ours) | 12.28 | 1.73 | 3.68 | 3.87 | 2.77 | 30.98 |
| SEMamba [4] | 11.36 | 2.19 | 3.71 | 3.57 | 2.93 | 28.08 |
| + StoRM† [17] | 1.40 | 1.38 | 3.63 | 2.90 | 2.07 | 55.60 |
| + StoRM [17] | 10.92 | 2.01 | 3.71 | 3.72 | 2.88 | 29.63 |
| + Diffiner [33] | 4.88 | 1.43 | 3.44 | 3.67 | 2.53 | 64.21 |
| + SIPS (ours) | 11.28 | 2.05 | 3.74 | 3.82 | 2.97 | 29.27 |
语音分离
在 WHAMR! 数据集(单通道含噪混响语音分离)上的结果如表 3 所示。SIPS 与 SepFormer 和 FlexIO 结合后,显著提升了非侵入式指标(特别是 NISQA 和 UTMOS),同时 SI-SDR 保持相当或略有提升。图 4 展示了 FlexIO 结合 SIPS 前后 SI-SDR 和 UTMOS 的逐样本分布。
表 3:语音分离在 WHAMR! 上的结果。对于混合语音,SI-SDR 和 PESQ 是相对于每个说话者的语音计算后取平均值。
| 模型 | SI-SDR ↑ [dB] | PESQ ↑ | DNSMOS ↑ [P.808] | NISQA ↑ | UTMOS ↑ | WER ↓ [%] |
|---|---|---|---|---|---|---|
| Mixture | -7.20 | 1.08 | 2.53 | 1.21 | 1.35 | 92.62 |
| SepFormer [37] | 6.99 | 1.55 | 3.13 | 2.06 | 2.34 | 32.22 |
| + SIPS (ours) | 6.79 | 1.41 | 3.36 | 3.01 | 2.60 | 34.29 |
| FlexIO [24] | 8.45 | 1.76 | 3.62 | 3.54 | 2.79 | 21.50 |
| + SIPS (ours) | 8.51 | 1.56 | 3.68 | 4.01 | 3.01 | 23.43 |


消融实验与分析
噪声调度超参数 (a, c)
表 4 展示了在 VoiceBank-DEMAND 上对噪声调度超参数 a 和 c 进行网格搜索的结果。结果表明,a=0.1, c=0.5 在 SI-SDR 和感知质量指标之间取得了最佳平衡。a=0 导致训练崩溃,而过大的 c 值会显著降低 SI-SDR。
表 4:不同噪声调度超参数 a 和 c 下的语音增强结果(VoiceBank-DEMAND)。
| a | c | SI-SDR ↑ [dB] | PESQ ↑ | NISQA ↑ | UTMOS ↑ |
|---|---|---|---|---|---|
| - | - | 8.44 | 1.97 | 3.03 | 3.11 |
| SEMamba | - | 19.72 | 3.56 | 4.60 | 4.07 |
| 0.0 | 0.3 | -71.22 | 1.10 | 1.55 | 3.28 |
| 0.0 | 0.5 | -71.22 | 1.10 | 1.55 | 3.28 |
| 0.001 | 0.1 | 19.10 | 3.45 | 4.63 | 4.11 |
| 0.001 | 0.5 | 19.22 | 3.18 | 4.74 | 4.11 |
| 0.01 | 2.0 | 17.61 | 2.89 | 4.76 | 4.07 |
| 0.05 | 0.0 | 19.08 | 3.53 | 4.65 | 4.11 |
| 0.05 | 0.5 | 19.23 | 3.37 | 4.75 | 4.11 |
| 0.05 | 1.0 | 18.74 | 3.27 | 4.77 | 4.11 |
| 0.05 | 2.0 | 17.39 | 3.13 | 4.80 | 4.10 |
| 0.05 | 3.0 | 16.32 | 2.91 | 4.80 | 4.07 |
| 0.05 | 4.0 | 14.66 | 2.69 | 4.77 | 4.00 |
| 0.1 | 0.0 | 19.08 | 3.53 | 4.65 | 4.11 |
| 0.1 | 0.1 | 19.20 | 3.51 | 4.68 | 4.11 |
| 0.1 | 0.3 | 19.28 | 3.44 | 4.71 | 4.10 |
| 0.1 | 0.5 | 19.15 | 3.40 | 4.74 | 4.10 |
| 0.1 | 1.0 | 19.06 | 3.32 | 4.78 | 4.08 |
| 0.1 | 2.0 | 16.92 | 3.11 | 4.79 | 4.08 |
| 0.2 | 0.0 | 19.08 | 3.53 | 4.65 | 4.11 |
| 0.2 | 0.1 | 19.27 | 3.50 | 4.66 | 4.09 |
| 0.2 | 0.3 | 19.17 | 3.40 | 4.65 | 4.08 |
采样步数 M
图 6 展示了在匹配和失配验证集上,性能随采样步数 M 的变化。性能随步数增加而提升并趋于饱和,表明存在推理成本与增强质量之间的权衡。基于此,本文在所有实验中默认使用 M=15 步。表 7 进一步表明,当 Diffiner 也使用 M=15 步时,其性能远低于 SIPS。

表 7:语音增强在 VoiceBank-DEMAND 测试集上的结果(比较 Diffiner 与 SIPS 在不同采样步数下的性能)。
| 模型 | SI-SDR ↑ [dB] | PESQ ↑ | DNSMOS ↑ [P.808] | NISQA ↑ | UTMOS ↑ | WER ↓ [%] |
|---|---|---|---|---|---|---|
| Noisy | 8.44 | 1.97 | 3.09 | 3.03 | 3.11 | 11.01 |
| Conv-TasNet [22] | 18.57 | 2.51 | 3.31 | 3.45 | 3.61 | 11.87 |
| + Diffiner (M=200) | 16.22 | 2.59 | 3.47 | 4.74 | 3.96 | 15.99 |
| + Diffiner (M=15) | 13.05 | 2.07 | 3.22 | 4.43 | 3.64 | 31.41 |
| + SIPS (M=15) | 18.79 | 2.64 | 3.43 | 4.28 | 3.85 | 12.86 |
| NCSN++ [17] | 19.57 | 2.83 | 3.59 | 4.64 | 3.93 | 9.58 |
| + Diffiner (M=200) | 16.11 | 2.83 | 3.52 | 4.80 | 4.02 | 13.03 |
| + Diffiner (M=15) | 13.05 | 2.16 | 3.26 | 4.52 | 3.69 | 29.59 |
| + SIPS (M=15) | 19.20 | 2.88 | 3.56 | 4.72 | 3.97 | 10.00 |
| SEMamba [4] | 19.72 | 3.56 | 3.58 | 4.60 | 4.07 | 8.87 |
| + Diffiner (M=200) | 16.51 | 2.87 | 3.53 | 4.81 | 4.04 | 12.43 |
| + Diffiner (M=15) | 13.18 | 2.19 | 3.29 | 4.56 | 3.72 | 26.23 |
| + SIPS (M=15) | 19.63 | 3.43 | 3.57 | 4.73 | 4.09 | 8.81 |
噪声缩放参数 κ
图 3 展示了 κ 对性能的影响。在匹配条件下,κ=0 时性能最佳。在失配条件下,增加 κ(如 0.4)可以提升 NISQA,但可能会降低 SI-SDR,这为性能权衡提供了灵活性。
后处理效果
表 5 和表 6 分别展示了在匹配和失配条件下,在 SIPS 采样后应用预测器作为后处理步骤的影响。总体而言,后处理并未在所有指标上带来一致的性能提升,有时甚至会轻微降低性能,因此本文的主实验中未采用此步骤。
表 5:语音增强在 VoiceBank-DEMAND 测试集上的结果(含/不含后处理)。 (数据省略以避免重复,完整数据见附录 C.5 表 5)
表 6:语音增强在 EARS-WHAM (v2) 测试集上的结果(含/不含后处理)。 (数据省略以避免重复,完整数据见附录 C.5 表 6)
带标准差的结果
为提供更全面的评估,表 8 给出了 VoiceBank-DEMAND 测试集上主要实验结果的均值与标准差。
表 8:语音增强在 VoiceBank-DEMAND 测试集上的结果(均值 ± 标准差)。最佳值加粗,次佳值加下划线。 (数据省略以避免重复,完整数据见附录 C.7 表 8)
关键结论: SIPS 作为一种即插即用的框架,通过将预测器的确定性漂移与基于分数的生成先验相结合,在语音增强和分离任务中均能有效提升非侵入式感知质量指标(NISQA, UTMOS)。它在保持与强预测器相当的信号级保真度(SI-SDR)和下游任务性能(WER)的同时,弥补了纯预测模型在感知自然度上的不足。该框架在匹配和失配条件下均表现稳健,且能够与多种不同架构的预测器(Conv-TasNet, NCSN++, SEMamba, FlexIO, SepFormer)灵活结合,证明了其通用性和实用性。
开源详情
- 代码:https://github.com/merlresearch/sips-speech
- 模型权重:论文中未提及SIPS的预训练权重链接。论文中提到了使用的预测器(如SEMamba、FlexIO、Conv-TasNet、NCSN++、SepFormer)的官方或第三方实现及检查点,但仅给出了SepFormer的官方检查点链接:https://huggingface.co/speechbrain/sepformer-whamr16k。其他预测器的具体权重链接需参考其原始论文。
- 数据集:
- 训练去噪器:使用VoiceBank-DEMAND数据集的28说话人训练集(未给出具体下载链接,但可从原数据集获取)。
- 语音增强测试集(匹配条件):VoiceBank-DEMAND测试集。
- 语音增强测试集(不匹配条件):EARS-WHAM (v2) 测试集,项目主页为 https://sp-uhh.github.io/ears_dataset/。
- 语音分离测试集:WHAMR! 数据集(单声道嘈杂混响子集),基于WSJ0-2mix数据集生成。
- 论文中未提及VoiceBank-DEMAND、WHAMR!、WSJ0-2mix的具体下载链接,但指出了其来源或生成方式。
- Demo:论文中未提及
- 复现材料:
- 代码仓库(https://github.com/merlresearch/sips-speech)包含了实现细节。
- 论文附录(Appendix C)提供了详细的实现与训练细节,包括:数据表示(C.1)、实现与训练细节(C.2)、噪声调度超参数选择(C.3)、采样步数消融研究(C.4)、后处理步骤影响分析(C.5)、Diffiner在减少采样步数下的对比(C.6)以及带标准差的结果(C.7)。
- 论文中引用的开源项目:
- EDM2SE:其仓库为 https://github.com/sp-uhh/edm2se,是SIPS实现的基础。
- Conv-TasNet:论文中使用了第三方实现 https://github.com/kaituoxu/Conv-TasNet。
- NVIDIA NeMo工具包:用于计算WER,论文中提到了具体模型“QuartzNet15x5Base-En”,但未给出NeMo工具包的直接链接。