Speech Enhancement Based on Drifting Models

📄 Speech Enhancement Based on Drifting Models #语音增强 #流匹配 #自监督学习 #单步生成 #无监督训练 ✅ 7.5/10 | 前25% | #语音增强 | #流匹配 | #自监督学习 #单步生成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(根据作者列表顺序,Liang Xu排首位,但论文未明确标注“第一作者”) 通讯作者:未说明(论文未明确标注“通讯作者”) 作者列表:Liang Xu(维多利亚大学惠灵顿分校)、Diego Caviedes-Nozal(GN Audio A/S)、Bastiaan Kleijn(维多利亚大学惠灵顿分校)、Longfei Felix Yan(维多利亚大学惠灵顿分校)、Rasmus Kongsgaard Olsson(GN Audio A/S) 💡 毒舌点评 亮点在于概念创新,将生成式建模重新表述为“漂移-平衡”问题,优雅地实现了无需迭代的一步增强,并证明了其在无配对数据训练上的潜力。短板是论文中部分实验细节(如无监督训练的完整设置)不够透明,且在PESQ等保真度指标上虽具竞争力,但并未全面超越顶尖的单步蒸馏方法,其“SOTA”主张需结合具体指标看待。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用公开数据集VoiceBank和DEMAND,并提及了DNS Challenge 2020测试集,但未提供论文自身生成的增强样本集。 Demo:未提及在线演示。 复现材料:论文提供了较详细的实验设置(网络架构、SSL编码器及层数、训练超参数、损失函数描述),但未提供完整的配置文件或预训练检查点。 论文中引用的开源项目:引用了NCSN++V2架构(来自SGMSE+)、DistilHuBERT等预训练模型。 📌 核心摘要 问题:现有基于扩散模型的语音增强方法虽然效果好,但推理过程需要多步迭代(10-100步),导致计算延迟高,难以满足实时应用需求。 方法核心:提出DriftSE框架,将语音增强重构为一个分布平衡问题。其核心是学习一个“漂移场”,该场由指向干净语音分布的吸引力和远离当前生成分布的排斥力组成,驱动映射函数的输出分布直接演化至目标分布,从而实现单步推理。 ...

2026-04-28 · 更新于 2026-05-19 · 2 min · 361 words