📄 DBHN-Net: Dual-Branch Hybrid Neural Network For Low-Complexity Monaural Speech Enhancement
#语音增强
5.4/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5
📝 5.4/10 | 前25% | #语音增强 | #语音增强 | arxiv
👥 作者与机构
论文通讯作者为Enrui Liu和Xuelong Li。作者及机构如下:
- Cunhang Fan, Enrui Liu, Jian Zhou, Zhao Lv:安徽大学计算机科学与技术学院(州电信息获取与保护技术国家重点实验室)。
- Jing Zhou, Jian Kang, Jie Li:中国电信人工智能科技(北京)有限公司。
- Andong Li:中国科学院大学声学研究所。
- Xuelong Li:中国电信人工智能研究院(TeleAI)。
💡 毒舌点评
这篇论文的核心思想——用ANN分支的性能来“拯救”SNN分支因脉冲二值化导致的信息损失,同时借助SNN降低功耗——逻辑清晰且实用价值明确。实验对比了众多基线,数据集选择和指标评估都较为全面,工作量扎实。然而,作为一篇目标顶会的论文,其严谨性存在明显短板。最令人诟病的是技术细节描述的粗糙和部分公式的明显错误,例如TF-Cross Attention Fusion模块的最终输出公式(37)存在笔误,将FCA函数重复相加,这不应出现在投稿版本中。论文在阐述设计动机时,对ANN与SNN各自瓶颈的理论剖析深度不足,更像是一种“组合式创新”而非“机理式创新”。实验部分虽然广泛,但缺失了模型参数量这一关键对比指标,使得其“低复杂度”的宣称不完整。总体而言,这是一项有效且具有工程吸引力的应用研究,但若以顶会的理论深度和写作严谨性标准衡量,尚显不足。
📌 核心摘要
本文提出了一种用于单通道语音增强的双分支混合神经网络(DBHN-Net),旨在平衡性能与计算复杂度。该网络由一个ANN分支和一个SNN分支并行构成。ANN分支利用BandSplit模块和基于Mamba的TF-Mamba模块进行低复杂度序列建模;SNN分支利用LIF神经元和脉冲信号实现低功耗计算,并设计了Spiking Feature Extraction Group(SFEG)和Information Transformation Block(ITB)以缓解信息损失。为融合双分支信息,设计了贯穿网络各阶段的Interaction模块以及最终的TF-Cross Attention Fusion(TF-CAF)模块。在三个公开数据集(WSJ0+DNS-Challenge, VoiceBank+Demand, DNS-Challenge 2020)上的实验表明,DBHN-Net在PESQ、STOI、SI-SDR等指标上达到或超越了基线模型,同时相比基线模型平均降低了7.5倍的计算复杂度(MACs)。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:论文中未提及。
- 数据集:论文中使用了三个公开数据集,但未提供具体获取链接。
- WSJ0-SI84+DNS-Challenge
- VoiceBank+Demand
- DNS-Challenge 2020
- Demo:论文中未提及。
- 复现材料:论文中描述了训练配置,包括:使用 PyTorch 1.6.0 和 Adam 优化器;初始学习率为 5e-4,验证损失连续两个 epoch 停滞时减半;训练在三个 epoch 无改进后终止,最多运行 60 个 epoch;批量大小为 3;所有语音信号标准化为 16 kHz 采样率,每条语音通过截断或零填充调整为固定的 8 秒时长。信号分帧采用 20 ms 汉宁窗和 50% 重叠。然后对这些帧应用 320 点 FFT,生成具有 161 个频率仓的时频表示。对输入和目标的幅度谱应用幂律压缩(指数为 0.5)。但部分关键超参数(如BandSplit的H值,LIF神经元参数,梯度代理的\(\alpha\))未说明。
- 论文中引用的开源项目:论文中未提及所引用项目的具体开源链接。
🏗️ 方法概述和架构
本文提出的DBHN-Net是一个双分支并行架构,旨在融合ANN的性能与SNN的能效。整体架构如图1(a)所示,输入为复数频谱,经过预处理后分别送入ANN分支和SNN分支,最终通过TF-Cross Attention Fusion模块融合输出。
- ANN分支: 该分支直接处理复数频谱(实部和虚部沿通道维度拼接)。
- BandSplit模块:如图3(a)所示,该模块将频谱沿频率维度划分为\(H\)个非重叠的子带\(\{B_i\}_{i=1}^H\),每个子带通过全连接层和层归一化映射为\(N\)维嵌入向量,再沿频率维度拼接,输出维度为\(H \times T \times N\)的张量\(X_{ANN}^1\)。此设计旨在将频谱分而治之,聚焦于各频带的特征。
- Encoder:接收BandSplit输出\(X_{ANN}^1\)和来自第一个Interaction模块的输出\(Inter_1\)。先拼接两者,通过卷积、归一化和Sigmoid生成掩码,对\(Inter_1\)进行加权后与\(X_{ANN}^1\)残差相加,再经卷积、归一化和ReLU激活得到输出\(X_{ANN}^2\)。此结构用于融合来自BandSplit和跨分支交互的信息。
- TF-Mamba Block:核心序列建模单元,包含\(N\)个串联的TF-Mamba模块。每个TF-Mamba模块首先融合来自前一层和对应Interaction模块的信息(结构与Encoder类似),然后依次进行时间维度(T-Mamba)和频率维度(F-Mamba)的序列建模。T-Mamba使用单向Mamba,处理维度从\((B, F, N, T)\)变换为\((BF, N, T)\);F-Mamba使用双向Mamba,处理维度从\((BF, N, T)\)变换为\((BT, N, F)\)。Mamba是选择性状态空间模型,其离散状态计算如公式(9)(10)所示。该模块实现了线性复杂度的高效长程依赖建模。
- Decoder:结构与Encoder对称,通过转置卷积、归一化和ReLU激活恢复特征,并融合来自最后一个TF-Mamba模块和对应Interaction模块的信息。
- Band-Merge模块:如图3(b)所示,将Decoder输出\(G\)沿频率维度切分为\(H\)个子带\(G_i\),每个子带通过线性层、层归一化、Tanh和GLU层恢复到原始频带维度,最后沿频率维度合并,重建完整的复数频谱表示\(X_{ANN}^{final}\)。
- SNN分支: 输入为将复数频谱沿时间维度复制\(K\)次(模拟SNN时间步)后得到的张量\(\overline{Y}\)。
- Spiking Feature Extraction Block(SFEB):如图1(b)所示,是SNN分支的核心处理单元,采用残差结构设计。第一个SFEB接收来自输入层卷积的特征\(X_{SNN}^1\)和第一个Interaction模块的输出\(Inter_1\)。其内部包含两个并行分支:一个分支先通过LIF神经元将信息转换为二值脉冲信号,再经卷积和组归一化(GN)处理;另一个分支直接进行卷积和GN处理。两个分支的输出与经过\(Interaction(X_{SNN}^1, Inter_1)\)处理的原始输入进行逐元素求和,得到SFEB的输出\(X_{SNN}^2\)。此设计旨在脉冲编码的同时,通过残差路径保留更多连续值信息。LIF神经元模型如公式(27)-(29)所示,其膜电位积分输入并在超过阈值\(V_{thr}\)时发放脉冲。
- DownSampling/UpSampling Block:下采样块由LIF神经元、卷积和GN层构成,对SFEB输出\(X_{SNN}^2\)进行降维和特征提取,得到\(X_{SNN}^3\)。上采样块结构类似,负责恢复特征维度。
- Information Transformation Block(ITB):如图4所示,位于SNN分支末端。它将离散的脉冲特征\(X_{SNN}^3\)转换回连续表示。该模块包含两个并行分支:一个分支对\(X_{SNN}^3\)依次进行卷积、Sigmoid和ReLU激活得到\(Q_1\);另一个分支先进行平均池化,再进行相同的卷积和Sigmoid、ReLU操作得到\(Q_2\)。最终输出\(X_{SNN}^{final}\)由\(Q_1\)和\(Q_2\)以门控方式融合\(X_{SNN}^3\)得到,旨在精细化特征并减少二值化损失。
- 跨分支融合机制:
- Interaction模块:如图2(b)所示,设计用于网络各阶段的跨分支信息交换。它同时接收来自ANN分支和SNN分支的输入(\(ANN_{in}\), \(SNN_{in}\))。内部首先对\(ANN_{in}\)进行线性变换,对\(SNN_{in}\)进行全局平均池化,拼接后经卷积和层归一化,并与\(ANN_{in}\)和\(SNN_{in}\)的原始输入相加得到\(OUT_1\);再通过Sigmoid和层归一化生成门控信号,与\(OUT_1\)逐元素相乘得到\(OUT_2\);最后\(OUT_2\)经过转置和线性变换,分别生成输出\(ANN_{out}\)和\(SNN_{out}\),反馈给两个分支。该模块实现了连续与离散表示在各处理阶段的渐进式融合。
- TF-Cross Attention Fusion(TF-CAF)模块:如图2(a)所示,用于最终融合ANN和SNN分支的输出。它首先将两个分支的输出\(X_{ANN}^{final}\)和\(X_{SNN}^{final}\)分别变换到相同维度,然后进行时间域交叉注意力(T-Cross Attention)处理,得到\(F_{ANN}^T\)和\(F_{SNN}^T\);随后对这两个结果进行频率域交叉注意力(F-Cross Attention)处理,生成最终融合特征\(F_{final}\)。公式(37)描述了最终融合过程,但其数学表达式似乎有重复,可能存在笔误。
- 数据流与交互:网络整体流程为:输入频谱分别进入双分支,在多个阶段(对应多个SFEB/TF-Mamba模块和Interaction模块)进行信息提取和跨分支交换。Interaction模块在早期促进信息互补,TF-CAF模块在末端完成基于注意力的深度融合,共同指导两个分支协同优化增强性能。


💡 核心创新点
- ANN-SNN双分支互补架构:创新性地设计了一个并行双分支网络,让ANN分支专注于高性能特征提取与建模,而SNN分支专注于低功耗计算,两者通过多层次融合机制协同工作,以同时满足语音增强任务对性能和能效的双重需求。
- 多层次跨分支信息融合机制:设计了贯穿网络处理全流程的Interaction模块,实现了连续值(ANN)与离散脉冲(SNN)表征的渐进式信息交换;并设计了最终的TF-Cross Attention Fusion模块,在时频双域进行自适应融合,有效整合了异构网络的信息。
- 针对语音特征的ANN分支设计:在ANN分支中引入BandSplit模块进行频带划分建模,并采用Mamba作为核心序列建模器,利用其线性复杂度特性,构建了高效的序列建模模块TF-Mamba。
- 针对信息损失的SNN分支优化:在SNN分支中提出了基于残差连接的SFEB模块,以在脉冲编码过程中保留更多关键信息;并设计了ITB模块,在SNN末端将离散脉冲信号转换回连续特征,进一步缓解二值化带来的信息损失。
📊 实验结果
论文在三个主流语音增强公开数据集上进行了实验,并与众多基线模型进行了对比,结果表明DBHN-Net在性能和复杂度上均具优势。
表6:WSJ0-SI84+DNS-Challenge数据集上的性能对比
| 模型 | PESQ (AVG) | ESTOI (AVG) | SI-SDR (AVG) |
|---|---|---|---|
| Noisy | 1.85 | 43.30% | 0.00 dB |
| ConvTasNet | 2.52 | 72.25% | 10.21 dB |
| DPRNN | 2.57 | 73.34% | 10.43 dB |
| CRN | 2.41 | 64.66% | 6.89 dB |
| GaG-Net | 2.81 | 76.59% | 10.57 dB |
| BSDB-Net | 2.87 | 77.04% | 11.05 dB |
| Spiking-UNet | 2.44 | 61.82% | 6.69 dB |
| DBHN-Net (OURS) | 3.14 | 81.32% | 11.93 dB |
表7:VoiceBank+Demand数据集上的性能对比
| 模型 | WB-PESQ | STOI | CSIG | CBAK | COVL |
|---|---|---|---|---|---|
| Noisy | 1.97 | 92.1% | 3.35 | 2.44 | 2.63 |
| DCCRN | 2.68 | 93.7% | 3.88 | 3.18 | 3.27 |
| FullSubNet+ | 3.17 | 94.8% | 4.32 | 3.58 | 3.71 |
| BSDB-Net | 3.17 | 94.8% | 4.32 | 3.58 | 3.71 |
| Fullsub-Spiking | 2.79 | 93.7% | 3.96 | 3.26 | 3.29 |
| DBHN-Net (OURS) | 3.08 | 95% | 4.32 | 3.59 | 3.74 |
表8:DNS-Challenge 2020数据集上的性能对比
| 模型 | WB-PESQ | PESQ | STOI | SI-SDR |
|---|---|---|---|---|
| Noisy | 1.58 | 2.45 | 91.52% | 9.07 dB |
| NSNet | 2.15 | 2.87 | 94.47% | 15.61 dB |
| TaylorSENet | 3.22 | 3.59 | 98% | 19.15 dB |
| MFNet | 3.43 | 3.74 | 98% | 20.31 dB |
| DBHN-Net | 3.45 | 3.74 | 98% | 20.63 dB |
计算复杂度对比(表9):DBHN-Net的MACs为1.32 G/s,显著低于大多数基线模型(如CRN: 2.54 G/s, GaG-Net: 2.81 G/s, BSDB-Net: 1.68 G/s),论文声称实现了平均7.5倍的复杂度降低。
消融实验:论文通过在WSJ0数据集上的消融研究验证了各组件的有效性:
- 双分支结构:移除ANN或SNN分支均导致性能下降,证明双分支互补的必要性(表II)。
- Mamba模块:将TF-Mamba替换为Transformer或LSTM会显著增加计算复杂度并降低性能(表III)。
- SFEB与ITB:在SNN分支中,用简单LIF替代SFEB或直接移除ITB,均会引起性能下降,证明了这些模块在缓解信息损失上的作用(表IV)。
- 融合模块:同时移除Interaction模块和TF-CAF模块会导致性能显著下降,其中TF-CAF模块贡献更大(表V)。
- 可视化分析:图5展示了在-5dB极端信噪比下,不同消融配置的语谱图,直观显示了各模块对噪声抑制和细节保留的贡献。


⚖️ 评分理由
- 创新性 (1.3/2):提出了ANN-SNN双分支并行融合的框架来解决语音增强中性能与能耗的权衡问题,思路清晰且具有实用价值。然而,各模块(如BandSplit、Mamba、残差SNN块)均为现有技术的组合应用,原创的“交互”与“融合”机制设计较为常规,缺乏从信息论或神经形态计算角度的深层机理创新。
- 技术严谨性 (1.0/1.5):论文提供了较为详细的模型描述和公式推导,但存在明显疏漏。公式(37)存在明显的数学错误(
FCA函数被重复相加)。对Interaction模块内部计算(如Avg(SNN_in)后接Liner(Transpose(OUT2)))的描述可以更精确。BandSplit的划分策略(H值)、梯度代理函数的超参数\(\alpha\)等关键细节未在正文中明确说明。 - 实验充分性 (0.8/1):实验设计全面,覆盖了三个主流数据集和多个基线模型,消融研究系统。主要不足是完全缺失了模型参数量(Parameters)的对比报告,这是评估模型规模和实际部署成本的关键指标。此外,对“降低7.5倍复杂度”的计算是基于多个基线的平均值,未清晰说明与特定基线(如BSDB-Net)的具体差距和优势来源分析。
- 清晰度 (0.7/1):论文结构完整,图表丰富。但部分技术细节表述模糊,如公式(37)的错误、Interaction模块中
Transpose操作的具体目的未阐明。英文写作存在少量语法错误(如Furthemore)。 - 影响力 (0.5/0.5):该工作直接针对语音增强模型部署中的功耗-性能平衡痛点,提出了一种可行的混合架构解决方案,对低功耗语音前端处理领域有明确的实际应用价值。
- 开源 (0.0/1):论文未提供代码、预训练模型权重或数据集处理脚本的链接,完全未开源。
- 可复现性 (0.5/1):论文详细描述了数据集、训练策略��学习率、优化器、损失函数等)和超参数设置,为复现提供了基础。但部分关键超参数(如BandSplit的\(H\)值、LIF神经元的\(V_{thr}\)、梯度代理的\(\alpha\))未报告,且缺乏开源代码,严重限制了完全复现的可能性。
- 工程/实践价值 (0.6/1):模型在保持竞争力的同时显著降低了MACs(1.32 G/s),并明确指出了在移动设备等前端部署的潜力。实验中对比了计算复杂度,证明了工程优化效果。但未提供模型推理速度(如RTF)的实际测量数据,也未在神经形态硬件上进行能效验证,实践价值评估不完整。
🚨 局限与问题
- 技术细节与严谨性不足:如前所述,TF-CAF模块的融合公式(37)存在明显的数学表述错误(\(F_{final}\)计算式中
FCA项重复)。Interaction模块中对输入SNN特征进行全局平均池化(Avg(SNN_in))再与线性变换后的ANN特征拼接的设计,其理论依据和与SNN脉冲特性匹配的论述不够充分。 - 关键评估指标缺失:论文最大的缺失之一是没有报告任何模型的参数量(Parameters)。仅比较MACs是不够的,参数量直接关系到模型存储和内存占用,是评估模型轻量化程度的另一个核心维度。这使得其“低复杂度”的宣称不够全面。
- 复杂度分析深度不足:虽然报告了MACs,但未分析MACs减少的具体来源。例如,ANN分支中Mamba的线性复杂度贡献了多少?SNN分支的稀疏脉冲计算在实际硬件上能带来多少能效提升?这些分析对于理解模型优势至关重要。此外,声称“降低7.5倍”是基于与多个基线的平均值比较,应更明确地指出与当前最强轻量级基线(如BSDB-Net)的对比优势(1.32G vs 1.68G)。
- SNN训练策略描述模糊:论文提到使用Sigmoid作为梯度代理函数,但未说明其陡度超参数\(\alpha\)的具体值及其对训练稳定性和最终性能的影响。这是一个SNN训练中的关键超参数。
- BandSplit模块细节缺失:文中提到将频谱划分为\(H\)个子带,但\(H\)的具体数值、子带划分策略(均匀划分还是基于语音频带的非均匀划分?)均未说明,影响了方法的透明度和可复现性。
- 实验对比的公平性:在VoiceBank+Demand数据集上,论文将DBHN-Net(WB-PESQ 3.08)与BSDB-Net(WB-PESQ 3.17)对比时,前者性能略低,但在结论中却称“取得了具有竞争力的结果”。需要更客观地分析这种细微差距以及在复杂度上的优势是否足以弥补。
- 未来工作泛化性讨论不足:论文结论中提到将框架扩展到多通道增强等任务,但未深入讨论将现有双分支交互机制(特别是处理固定维度输入的Interaction模块和TF-CAF模块)迁移到这些更复杂任务时可能面临的具体挑战(如多通道信息在SNN分支中的表征和交互方式)。
📷 论文图片
