Mambaformer: State-Space Augmented Self-Attention with Downup Sampling for Monaural Speech Enhancement
📄 Mambaformer: State-Space Augmented Self-Attention with Downup Sampling for Monaural Speech Enhancement #语音增强 #状态空间模型 #Transformer #双路径模型 #时频分析 ✅ 7.0/10 | 前25% | #语音增强 | #状态空间模型 | #Transformer #双路径模型 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Shengkui Zhao, Haoxu Wang, Zexu Pan, Yiheng Jiang, Biao Tian, Bin Ma, Xiangang Li (阿里巴巴通义实验室,新加坡) 💡 毒舌点评 这篇论文在工程集成上确实下足了功夫,将Mamba、Conformer、ZipFormer等多种组件巧妙地缝合在一个双路径框架里,最终在标准测试集上刷新了指标。然而,其核心创新更偏向于“有效的组合技”而非“范式革新”,更像是对现有技术模块进行了一次成功的超参调优和工程排列组合,略显缺乏令人眼前一亮的原创思想火花。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用的是公开基准数据集(VoiceBank+DEMAND, DNS Challenge 2020),获取方式未在论文中说明,但可通过相关官网获取。 Demo:未提及在线演示。 复现材料:论文提供了详细的架构描述、训练配置(数据集、损失函数、优化器、学习率策略、超参数表)和硬件信息,复现信息较为充分。 论文中引用的开源项目:论文中引用了多个先前工作(如DPRNN, DPT-FSNet, CMGAN, MP-SENet, ZipEnhancer, SEMamba等)并进行了对比,这些是相关领域的重要开源工作,但MambaFormer本身未表明基于或依赖哪个具体开源仓库。 📌 核心摘要 这篇论文要解决的是单通道语音增强任务中,如何更有效地结合Transformer的全局建模能力和状态空间模型(SSM)的高效序列处理能力的问题。 方法核心是提出了MambaFormer模型,它在一个双路径(时间-频率)框架内,将Mamba模块嵌入到Transformer的自注意力机制中,并辅以Conformer卷积和对称的降采样/上采样结构。 与已有方法相比,新在三个方面:1)首次在SE任务中将Mamba与自注意力深度融合,而非简单堆叠;2)设计了双层自注意力结构并共享注意力权重以提升效率;3)采用了可学习的下采样/上采样模块来平衡计算效率与表征保真度。 主要实验结果:在VoiceBank+DEMAND测试集上,其MambaFormer (M)模型取得了3.69的PESQ得分;在DNS Challenge 2020测试集上取得了3.82的PESQ得分,均报告为新的最先进水平。关键对比数据见下表: ...