📄 Mambaformer: State-Space Augmented Self-Attention with Downup Sampling for Monaural Speech Enhancement

#语音增强 #状态空间模型 #Transformer #双路径模型 #时频分析

✅ 7.0/10 | 前25% | #语音增强 | #状态空间模型 | #Transformer #双路径模型

学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度高

👥 作者与机构

第一作者：未说明
通讯作者：未说明
作者列表：Shengkui Zhao, Haoxu Wang, Zexu Pan, Yiheng Jiang, Biao Tian, Bin Ma, Xiangang Li (阿里巴巴通义实验室，新加坡)

💡 毒舌点评

这篇论文在工程集成上确实下足了功夫，将Mamba、Conformer、ZipFormer等多种组件巧妙地缝合在一个双路径框架里，最终在标准测试集上刷新了指标。然而，其核心创新更偏向于“有效的组合技”而非“范式革新”，更像是对现有技术模块进行了一次成功的超参调优和工程排列组合，略显缺乏令人眼前一亮的原创思想火花。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：使用的是公开基准数据集（VoiceBank+DEMAND, DNS Challenge 2020），获取方式未在论文中说明，但可通过相关官网获取。
Demo：未提及在线演示。
复现材料：论文提供了详细的架构描述、训练配置（数据集、损失函数、优化器、学习率策略、超参数表）和硬件信息，复现信息较为充分。
论文中引用的开源项目：论文中引用了多个先前工作（如DPRNN, DPT-FSNet, CMGAN, MP-SENet, ZipEnhancer, SEMamba等）并进行了对比，这些是相关领域的重要开源工作，但MambaFormer本身未表明基于或依赖哪个具体开源仓库。

📌 核心摘要

这篇论文要解决的是单通道语音增强任务中，如何更有效地结合Transformer的全局建模能力和状态空间模型（SSM）的高效序列处理能力的问题。方法核心是提出了MambaFormer模型，它在一个双路径（时间-频率）框架内，将Mamba模块嵌入到Transformer的自注意力机制中，并辅以Conformer卷积和对称的降采样/上采样结构。与已有方法相比，新在三个方面：1）首次在SE任务中将Mamba与自注意力深度融合，而非简单堆叠；2）设计了双层自注意力结构并共享注意力权重以提升效率；3）采用了可学习的下采样/上采样模块来平衡计算效率与表征保真度。主要实验结果：在VoiceBank+DEMAND测试集上，其MambaFormer (M)模型取得了3.69的PESQ得分；在DNS Challenge 2020测试集上取得了3.82的PESQ得分，均报告为新的最先进水平。关键对比数据见下表：

模型	VoiceBank+DEMAND PESQ	DNS2020 PESQ	参数量(M)
ZipEnhancer (S)	3.63	3.69	2.04
MambaFormer (S)	3.66	3.75	2.14
MambaFormer (M)	3.69	3.82	9.04

实际意义在于验证了SSM与Transformer协同工作的有效性，为语音增强模型设计提供了新的模块化组合思路。主要局限性在于：1）创新更多是组合与适配，原创性有限；2）论文未提供代码和模型权重，复现性未验证；3）虽然提出了新的SOTA，但与基线的绝对提升幅度并不巨大。

🏗️ 模型架构

MambaFormer采用编码器-解码器结构，核心是堆叠的N个DP_MambaFormer块，整体流程如图1所示。

MambaFormer整体架构图1：MambaFormer模型概述。(a) 包含STFT/iSTFT、编码器/解码器以及N个堆叠的DP_MambaFormer块的模型流程图。(b) 用于频率建模的F_MambaFormer模块配置（用于时间建模的T_MambaFormer模块采用相同结构）。(c) Mamba结构。(d) 非线性注意力（NLA）结构。

输入与编码器：输入为含噪语音波形 y。首先进行STFT，得到幅度谱 Y_mag 和相位谱 Y_pha，将两者拼接 Y_in = [Y_mag, Y_pha] 作为编码器输入。编码器（Encoder）由两个卷积块和中间的膨胀密集网络（Dilated DenseNet）组成，将输入映射到紧凑的时-频特征空间。
DP_MambaFormer块（核心处理单元）：
- 下采样模块（Down-Sampler）：通过可学习的权重，沿时间和频率轴对特征进行降维，从 T×F×C 变为 (T/r)×(F/r)×C，其中 r 是下采样率，旨在减少计算量。
- 双路径建模：下采样后的特征依次经过 F_MambaFormer（沿频率轴建模）和 T_MambaFormer（沿时间轴建模）模块。这两个模块结构相同。
- F/T_MambaFormer模块内部：如图1(b)所示，每个模块内部结构是对Conformer块的改进。它首先是一个包含 Mamba模块（图1(c)）的线性层，用于高效的自适应序列建模；随后是一个包含非线性注意力（NLA）和共享权重多头注意力（MHAW）的自注意力层（图1(d)），用于强化全局上下文建模；然后是卷积模块（Conv）和前馈网络（FFN），沿用Conformer设计以捕获局部模式。模块内使用Bypass操作进行残差连接，并用BiasNorm替代LayerNorm。
- 上采样模块（Up-Sampler）：将处理后的低分辨率特征恢复到原始分辨率。
- 旁路连接（Bypass）：块的最终输出与块的输入进行加权融合。
解码器与输出：经过所有DP_MambaFormer块处理后，特征被送入并行的幅度解码器和相位解码器。两者分别重建增强后的幅度谱 X_mag 和相位谱 X_pha。最后通过iSTFT将增强的幅度和相位谱合并，得到最终的增强波形 x。

关键设计动机：

Mamba + 自注意力：利用Mamba高效的、输入依赖的序列建模能力处理局部连续性，同时用自注意力捕获全局的、非序列依赖关系，形成互补。
双路径（DP）：分别沿时间轴和频率轴建模，更有效地捕捉二维时频图的结构依赖，这是语音增强领域的经典有效范式。
降采样/升采样：通过降低时频分辨率来减少计算复杂度，同时通过可学习权重和对称结构尽量保留信息，实现效率与性能的平衡。

💡 核心创新点

Mamba与Transformer自注意力的深度融合：不同于以往SE-Mamba仅使用Mamba，或ZipEnhancer仅使用Transformer，MambaFormer创新性地将Mamba模块作为自注意力模块前的一个关键组件，形成了“Mamba -> 双层自注意力（NLA + SA）”的序列。这使得模型能在早期利用Mamba进行高效的自适应序列推理，再通过后续注意力层精炼全局交互，理论上结合了二者的互补优势。
基于ZipFormer改进的双层自注意力与权重共享：采用并行两次注意力计算（先NLA，后标准SA）来增强全局建模能力。通过预计算并共享多头注意力权重（MHAW），在增强表征能力的同时控制了计算成本的大幅增长。
可学习的对称降采样/升采样策略：设计了一种带有可学习softmax权重的降采样模块，并在块后使用对称的升采样模块。消融实验证明，这种设计在显著降低计算量（FLOPs）的同时，只引起微小的性能损失，实现了良好的效率-性能权衡。

🔬 细节详述

训练数据：
- VoiceBank+DEMAND：训练集包含11,572段干净语音（来自28位说话人）与10种噪声在0-15dB SNR下混合；测试集包含872段语音（来自2位未见说话人）与5种未见噪声在2.5-17.5dB SNR下混合。
- DNS Challenge 2020 (DNS2020)：训练数据由500小时干净语音（来自2150位说话人）与180+小时噪声在-5-15dB SNR下混合生成，共约3000小时；评估使用官方非盲测试集，包含150对含噪-干净语音对（来自20位未见说话人）。
- 预处理：所有音频重采样至16kHz，分割为2秒片段。STFT参数：FFT点数400，窗长25ms，窗移6.25ms，生成201个频率单元。
损失函数：采用加权组合损失，公式为 L = λ1L_pesq + λ2L_stft + λ3L_mag + λ4L_com + λ5L_pha + λ6L_time。具体项包括：基于PESQ的GAN判别器损失（L_pesq）、STFT一致性损失（L_stft）、幅度损失（L_mag）、复数损失（L_com）、相位损失（L_pha）和时域损失（L_time）。各权重为：λ1=0.05, λ2=0.1, λ3=0.9, λ4=0.1, λ5=0.3, λ6=0.2。
训练策略：
- 优化器：使用ScaleAdam。
- 学习率调度：使用Eden调度器，基础学习率 α_base = 0.04，预热步数 t_warmup = 4000，步长 α_step = 2500，周期 α_epoch = 24。
- 批次大小：4。
- 训练步数：VoiceBank+DEMAND为50万步，DNS2020为200万步。
- 稳定训练技巧：Bypass连接中的融合权重 c 在前2000步初始化在[0.9, 1.0]之间，之后放宽至[0.2, 1.0]，以稳定训练初期。使用BiasNorm替代LayerNorm。
关键超参数：论文提供了两种模型配置（S和M），见下表：

配置	块数(N)	各块降采样率列表	通道数(C)	注意力头数	参数量(M)	FLOPs(G)
MambaFormer (S)	4	{1, 2, 2, 1}	64	4	2.14	43.55
MambaFormer (M)	6	{1, 2, 3, 4, 2, 1}	128	8	9.04	163.12

训练硬件：使用单块80GB NVIDIA A800 GPU。
推理细节：论文未明确说明解码策略（如波束搜索等），对于增强任务，通常是直接前向推理得到增强谱后做iSTFT。未提及流式设置。
正则化：论文未明确提及Dropout等额外正则化手段。

📊 实验结果

论文在两个主流基准测试集上进行了全面评估，并与多种最新方法进行了对比。

表1：在VoiceBank+DEMAND测试集上的性能与计算成本对比。

模型	年份	双路径	参数量(M)	FLOPs(G)	WB-PESQ	CSIG	CBAK	COVL	STOI	SSNR	SI-SDR
ZipEnhancer (S)	2024	是	2.04	62.85	3.63	4.81	3.87	4.36	96.19	8.33	19.09
MambaFormer (S, λ6=0.0)	2025	是	2.14	43.55	3.66	4.84	3.95	4.41	96.18	10.0	19.04
MambaFormer (M, λ6=0.0)	2025	是	9.04	163.12	3.69	4.86	3.98	4.43	96.36	9.47	19.17

结论：MambaFormer (M)在PESQ上达到了3.69的新SOTA，相较于前SOTA ZipEnhancer (S)提升了0.06分，同时MambaFormer (S)在参数量相近的情况下，PESQ也优于ZipEnhancer (S)。值得注意的是，不使用时域损失（λ6=0.0）的配置在PESQ等指标上更好，而使用时域损失（λ6=0.2）则提升了STOI和SI-SDR，表明存在指标间的权衡。

表2：在DNS Challenge 2020非盲测试集（无混响）上的性能对比。

模型	参数量(M)	WB-PESQ	NB-PESQ	STOI	SI-SDR
ZipEnhancer (S)	2.04	3.69	3.99	98.3	21.2
MambaFormer (S)	2.14	3.75	4.03	98.3	19.2
ZipEnhancer (M)	11.34	3.81	4.08	98.6	22.2
MambaFormer (M)	9.04	3.82	4.09	98.6	20.9

结论：MambaFormer (M)在DNS2020上取得了3.82的PESQ新SOTA，略高于ZipEnhancer (M)。MambaFormer (S)也在小模型类别中取得了领先的PESQ分数。

消融研究：

表1（配置消融）：展示了不同降采样率配置对性能的影响。完全不降采样（S2）计算量最大但性能与S相当；适度降采样（S, S3-S8）能在轻微性能损失下大幅降低FLOPs，验证了降采样设计的有效性。
表2（组件消融）：证明了每个核心组件的贡献：将Mamba替换为自注意力，PESQ下降0.03；去掉卷积模块，PESQ下降0.04；去掉FFN模块，PESQ下降0.08（主要因参数减少）；去掉Bypass连接或替换BiasNorm为LayerNorm，性能也有轻微下降。

图2：语音谱图可视化对比。 (由于当前上下文未提供此图片的URL，无法插入。) 描述：该图可视化了含噪语音、干净真值以及SEMamba、ZipEnhancer (S)和MambaFormer (S)的增强输出谱图。MambaFormer的输出在语音成分的清晰度和噪声抑制方面��现良好，直观地展示了其增强效果。

⚖️ 评分理由

学术质量：6.5/7：论文技术路线清晰，实验设计规范，在两个权威数据集上均报告了SOTA结果，消融实验充分验证了各组件的有效性。主要扣分点在于创新性偏工程集成，虽然组合巧妙，但未提出颠覆性的新概念或新框架，属于优秀但非突破性的渐进式工作。
选题价值：1.0/2：语音增强是成熟且重要的研究方向，Mamba（SSM）与Transformer的结合是当前热门趋势，论文选题具有前沿性。但其应用场景（单通道语音增强）相对具体，对广泛的音频/语音读者的直接普适性价值中等。
开源与复现加成：-0.5/1：论文详细报告了训练数据、超参数、损失函数权重、硬件环境等信息，具备较好的文字复现指导性。然而，论文中未提及代码、模型权重或任何开源计划的链接或说明，这是重大的扣分项，严重影响社区的可复现性和验证效率。

← 返回 ICASSP 2026 论文分析

📄 Mambaformer: State-Space Augmented Self-Attention with Downup Sampling for Monaural Speech Enhancement#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文