Exploring Resolution-Wise Shared Attention in Hybrid Mamba-U-Nets for Improved Cross-Corpus Speech Enhancement

📄 Exploring Resolution-Wise Shared Attention in Hybrid Mamba-U-Nets for Improved Cross-Corpus Speech Enhancement #语音增强 #混合模型 #Mamba #跨语料库 🔥 8.0/10 | 前25% | #语音增强 | #混合模型 | #Mamba #跨语料库 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Nikolai Lund Kühne(奥尔堡大学电子系) 通讯作者:未明确说明(推测为Jan Østergaard,同一单位) 作者列表:Nikolai Lund Kühne(奥尔堡大学电子系)、Jesper Jensen(奥尔堡大学电子系;Oticon A/S)、Jan Østergaard(奥尔堡大学电子系)、Zheng-Hua Tan(奥尔堡大学电子系) 💡 毒舌点评 亮点:提出的RWSA机制构思巧妙,通过在U-Net的不同分辨率层间共享注意力参数,不仅减少了计算开销,还显著提升了模型在未见数据集(跨语料库)上的泛化能力,这是当前语音增强领域的一个关键痛点。短板:模型架构相对复杂,涉及Mamba、注意力机制、U-Net以及多种损失函数,虽然提供了代码,但其核心贡献“分辨率共享注意力”更像是一种工程优化,而非根本性的理论突破;此外,论文虽然声称SOTA,但与部分基线模型的参数量和计算量差距并不总是特别巨大,说服力可进一步增强。 📌 核心摘要 要解决什么问题:现有语音增强模型在训练集以外的语料(跨语料库)上性能下降显著,尤其是基于序列模型(如LSTM, Mamba)的方法。本文旨在提升模型的跨语料库泛化能力。 方法核心是什么:提出了RWSA-MambaUNet模型。其核心是分辨率共享注意力(RWSA) 机制,即在U-Net结构的下采样和上采样路径中,将对应时间/频率分辨率的MambAttention块内的多头注意力(MHA)模块参数共享。模型结合了Mamba在时频维度建模的线性复杂度优势与注意力机制的全局关系捕捉能力。 与已有方法相比新在哪里:首次将RWSA引入基于Mamba的U-Net架构用于语音增强。通过层间共享注意力参数,模型能在不同分辨率上对齐全局时频依赖关系,这被认为对跨语料库泛化至关重要。与先前MambAttention模型相比,本文模型更轻量且泛化能力更强。 主要实验结果如何:在两个域外测试集上达到SOTA。例如,在VB-DemandEx训练的模型中,最小的RWSA-MambaUNet-XS(1.02M参数)在DNS 2020测试集上PESQ达2.940, SSNR达9.421, ESTOI达0.922;在EARS-WHAM v2测试集上SSNR达3.106, ESTOI达0.729, SI-SDR达8.541,超越了所有基线模型(如MambAttention、MP-SENet),同时参数量和FLOPs大幅减少。消融实验证实了RWSA和MHA模块对性能的贡献。 实际意义是什么:该工作为构建高效、强泛化能力的语音增强系统提供了新思路,特别是在处理训练数据未覆盖的新说话人、新噪声场景时具有潜在应用价值(如助听器、移动通信)。 主要局限性是什么:论文未提及模型在含混响数据或真实复杂环境下的性能;SI-SDR指标在部分测试集上不如基线,作者归因于参考信号特性,但这可能影响其在需要波形精确匹配场景下的适用性;此外,实验设置(如STFT参数)与某些近期工作有差异,可能影响公平比较。 🏗️ 模型架构 图1:RWSA-MambaUNet整体架构示意图。展示了从带噪语音输入到增强语音输出的完整流程。 ...

2026-04-29