双路径模型

📄 Mambaformer: State-Space Augmented Self-Attention with Downup Sampling for Monaural Speech Enhancement #语音增强 #状态空间模型 #Transformer #双路径模型 #时频分析 ✅ 7.0/10 | 前25% | #语音增强 | #状态空间模型 | #Transformer #双路径模型学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Shengkui Zhao, Haoxu Wang, Zexu Pan, Yiheng Jiang, Biao Tian, Bin Ma, Xiangang Li (阿里巴巴通义实验室，新加坡) 💡 毒舌点评这篇论文在工程集成上确实下足了功夫，将Mamba、Conformer、ZipFormer等多种组件巧妙地缝合在一个双路径框架里，最终在标准测试集上刷新了指标。然而，其核心创新更偏向于“有效的组合技”而非“范式革新”，更像是对现有技术模块进行了一次成功的超参调优和工程排列组合，略显缺乏令人眼前一亮的原创思想火花。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用的是公开基准数据集（VoiceBank+DEMAND, DNS Challenge 2020），获取方式未在论文中说明，但可通过相关官网获取。 Demo：未提及在线演示。复现材料：论文提供了详细的架构描述、训练配置（数据集、损失函数、优化器、学习率策略、超参数表）和硬件信息，复现信息较为充分。论文中引用的开源项目：论文中引用了多个先前工作（如DPRNN, DPT-FSNet, CMGAN, MP-SENet, ZipEnhancer, SEMamba等）并进行了对比，这些是相关领域的重要开源工作，但MambaFormer本身未表明基于或依赖哪个具体开源仓库。 📌 核心摘要这篇论文要解决的是单通道语音增强任务中，如何更有效地结合Transformer的全局建模能力和状态空间模型（SSM）的高效序列处理能力的问题。方法核心是提出了MambaFormer模型，它在一个双路径（时间-频率）框架内，将Mamba模块嵌入到Transformer的自注意力机制中，并辅以Conformer卷积和对称的降采样/上采样结构。与已有方法相比，新在三个方面：1）首次在SE任务中将Mamba与自注意力深度融合，而非简单堆叠；2）设计了双层自注意力结构并共享注意力权重以提升效率；3）采用了可学习的下采样/上采样模块来平衡计算效率与表征保真度。主要实验结果：在VoiceBank+DEMAND测试集上，其MambaFormer (M)模型取得了3.69的PESQ得分；在DNS Challenge 2020测试集上取得了3.82的PESQ得分，均报告为新的最先进水平。关键对比数据见下表： ...