A Lightweight Fourier-Based Network for Binaural Speech Enhancement with Spatial Cue Preservation
📄 A Lightweight Fourier-Based Network for Binaural Speech Enhancement with Spatial Cue Preservation #语音增强 #深度学习 #轻量级模型 #空间音频 #实时处理 🔥 8.5/10 | 前25% | #语音增强 | #深度学习 | #轻量级模型 #空间音频 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Xikun Lu(华东师范大学教育人工智能研究院) 通讯作者:Jinqiu Sang(华东师范大学计算机科学与技术学院) 作者列表:Xikun Lu(华东师范大学教育人工智能研究院)、Yujian Ma(华东师范大学教育人工智能研究院)、Xianquan Jiang(泊听科技(上海)有限公司)、Xuelong Wang(华东师范大学计算机科学与技术学院)、Jinqiu Sang(华东师范大学计算机科学与技术学院) 💡 毒舌点评 这篇论文的核心亮点在于其精巧的“取舍”设计:通过一个轻量级(129K参数)的傅里叶域调制器(GAFM)和动态门控(DRG),在极低的计算开销下,实现了双耳线索(ILD、IPD)保存和可懂度(MBSTOI)上的显著优势,成功解决了该领域一个痛点。然而,这种优化的代价也显而易见:在感知质量(PESQ)上,它未能超越最强大的、但笨重得多的基线模型,这暗示其“保护线索优先”的策略可能在某些纯听感场景下是次优选择,且过小的模型容量也限制了其性能上限的绝对高度。 📌 核心摘要 本文针对双耳语音增强中高性能模型计算复杂度高、轻量级模型性能下降的矛盾,提出了一种全局自适应傅里叶网络(GAF-Net)。其核心在于三个创新模块:1)双特征编码与融合模块,结合STFT特征和Gammatone特征,增强声学表征的鲁棒性;2)全局自适应傅里叶调制器(GAFM),作为轻量级骨干网络,在傅里叶域高效建模长期依赖,同时通过保持通道独立性来保护空间线索;3)动态精炼门(DRG),通过动态加权混合原始和增强信号,抑制处理伪影。实验结果表明,GAF-Net以仅129K参数和2.79 GMACs的开销,在关键指标(MBSTOI, LILD, LIPD)上达到了SOTA水平,同时保持了有竞争力的PESQ分数。主要局限性在于,目前的评估主要限于消声环境,未来需在混响等更复杂场景中验证其鲁棒性。 主要实验结果对比表(平均性能) 方法 MBSTOI ↑ ∆PESQ ↑ LILD ↓ LIPD ↓ 参数量 GMACs BCCTN [15] 0.84 0.35 4.59 0.79 11.1 M 16.38 G LBCCN [16] 0.85 0.20 5.32 0.88 38.0 K 0.30 G GAF-Net 0.86 0.22 3.86 0.75 129.0 K 2.79 G 🏗️ 模型架构 GAF-Net采用编码器-骨干网络-解码器的结构,核心处理流程如下: 图1:GAF-Net整体架构示意图(来源:论文图1)。 ...