Speech Enhancement Based on Drifting Models
📄 Speech Enhancement Based on Drifting Models #语音增强 #流匹配 #自监督学习 #单步生成 #无监督训练 ✅ 7.5/10 | 前25% | #语音增强 | #流匹配 | #自监督学习 #单步生成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(根据作者列表顺序,Liang Xu排首位,但论文未明确标注“第一作者”) 通讯作者:未说明(论文未明确标注“通讯作者”) 作者列表:Liang Xu(维多利亚大学惠灵顿分校)、Diego Caviedes-Nozal(GN Audio A/S)、Bastiaan Kleijn(维多利亚大学惠灵顿分校)、Longfei Felix Yan(维多利亚大学惠灵顿分校)、Rasmus Kongsgaard Olsson(GN Audio A/S) 💡 毒舌点评 亮点在于概念创新,将生成式建模重新表述为“漂移-平衡”问题,优雅地实现了无需迭代的一步增强,并证明了其在无配对数据训练上的潜力。短板是论文中部分实验细节(如无监督训练的完整设置)不够透明,且在PESQ等保真度指标上虽具竞争力,但并未全面超越顶尖的单步蒸馏方法,其“SOTA”主张需结合具体指标看待。 📌 核心摘要 问题:现有基于扩散模型的语音增强方法虽然效果好,但推理过程需要多步迭代(10-100步),导致计算延迟高,难以满足实时应用需求。 方法核心:提出DriftSE框架,将语音增强重构为一个分布平衡问题。其核心是学习一个“漂移场”,该场由指向干净语音分布的吸引力和远离当前生成分布的排斥力组成,驱动映射函数的输出分布直接演化至目标分布,从而实现单步推理。 新意:与基于轨迹(如扩散、流匹配)的迭代方法不同,DriftSE通过分布演化求解均衡,原生支持一步生成。论文设计了两种增强范式:直接映射(含噪语音到干净语音)和条件生成(从噪声先验生成)。漂移计算在预训练SSL模型的潜空间多层特征上进行,以捕捉多层级语音结构。 主要实验结果: 在VoiceBank-DEMAND基准测试上,直接映射变体(DistilHuBERT, σ=0)达到PESQ 3.15, SI-SDR 16.1 dB,优于30步的SGMSE+(PESQ 2.90)和单步MeanFlowSE(PESQ 2.81)。条件生成变体(DriftSE*)在无参考指标上表现优异,达到SCOREQ 4.33,DNSMOS 3.64。在DNS Challenge 2020真实录音测试中,DriftSE(DistilHuBERT)取得了领先的WV-MOS 2.65和SCOREQ 2.97。 关键数据对比表(VB-DMD测试集): ...