📄 Deep Learning-Based Joint Optimization of Adaptive Feedback Cancellation and Residual Feedback Suppression for Hearing Aids

#语音增强 #信号处理 #深度学习 #实时处理

🔥 8.0/10 | 前25% | #语音增强 | #深度学习 | #信号处理 #实时处理

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高

👥 作者与机构

  • 第一作者:Xiaofan Zhan (1,2)
  • 通讯作者:Chengshi Zheng (1,2)
  • 作者列表:
    1. Xiaofan Zhan (中国科学院声学研究所噪声与音频研究实验室;中国科学院大学)
    2. Brian C. J. Moore (剑桥大学心理学系剑桥听力组)
    3. Xiaodong Li (中国科学院声学研究所噪声与音频研究实验室;中国科学院大学)
    4. Chengshi Zheng (中国科学院声学研究所噪声与音频研究实验室;中国科学院大学)

💡 毒舌点评

亮点是它成功地将信号处理领域的经典思路(先线性对消,再非线性抑制)与深度学习巧妙结合,设计了两阶段框架和针对性的三步训练法,在实验上也确实做到了“1+1>2”的效果。短板在于,论文对闭环训练中两个网络如何具体协调、误差如何反向传播等“脏活累活”的细节描述略显含糊,只给出了宏观步骤,让想复现的人可能卡在调参的细节里;另外,只用了客观指标,缺乏真实的听感测试或临床数据支持,说服力打了点折扣。

📌 核心摘要

  1. 解决的问题:助听器中固有的声反馈问题(麦克风重拾放大的声音导致啸叫和失真),严重限制了可用增益,尤其在现代小型、开放式设计中更为突出。现有基于深度学习的方法(DeepAFS和DeepAFC)各有局限:前者计算复杂且高增益效果有限,后者在反馈路径快速变化时性能下降。
  2. 方法核心:提出JointDFC,一个两阶段深度学习框架。第一阶段使用LFCNet(集成预测误差方法的深度自适应反馈取消网络)进行线性反馈对消;第二阶段使用RFSNet(带全局因果时频注意力机制的全子带递归网络)抑制残余反馈和噪声。设计了“单独预训练 -> 数据生成 -> 端到端微调”的三步训练策略以解决闭环系统训练难题。
  3. 与已有方法相比新在哪里:这是首次将深度学习框架用于整合反馈取消与残余反馈抑制的联合优化,融合了DeepAFC(侧重建模反馈路径)和DeepAFS(侧重直接信号分离)的优势。网络设计上引入了全局时频注意力以精准定位残余反馈,训练策略上专门设计了适配闭环系统的三步法。
  4. 主要实验结果:在模拟用户内(Set A)和用户间(Set B)反馈路径变化的测试集上,JointDFC在多种高增益(5-11dB)条件下全面优于两个基线(DeepPEM-AFC, DeepAFS)。例如,在Set A的11dB增益条件下,JointDFC的WB-PESQ为4.12,eSTOI为98.01%,SI-SDR为16.14 dB,显著高于DeepPEM-AFC(PESQ 3.11, eSTOI 90.87%, SI-SDR -1.85 dB)和DeepAFS(PESQ 3.53, eSTOI 93.86%, SI-SDR 11.39 dB)。消融实验表明,移除全局注意力或联合训练均会导致性能下降。
    方法参数量(M)计算量(G/s)WB-PESQ (5/7/9/11dB)eSTOI(%) (5/7/9/11dB)SI-SDR(dB) (5/7/9/11dB)
    Set A
    DeepPEM-AFC0.2400.0604.32/4.23/3.71/3.1199.24/98.84/93.64/90.8719.03/17.79/9.80/-1.85
    DeepAFS0.3020.3194.28/4.18/3.90/3.5398.45/97.90/96.11/93.8617.62/16.22/14.13/11.39
    JointDFC (ours)0.3960.2274.30/4.26/4.21/4.1298.87/98.68/98.40/98.0118.71/17.95/17.16/16.14
    w/o Global cTFA0.3910.2244.23/4.19/4.13/4.0298.47/98.27/97.90/97.3217.74/17.07/16.27/14.98
    w/o joint training0.3960.2274.17/4.13/4.09/4.0997.80/97.72/97.58/97.5113.98/13.28/13.03/13.10
    Set B
    DeepPEM-AFC0.2400.0604.15/4.04/3.85/3.5498.62/98.36/97.50/96.0016.01/14.78/11.53/6.71
    DeepAFS0.3020.3194.23/4.13/3.93/3.6398.36/97.81/96.42/93.9717.33/15.88/13.83/10.86
    JointDFC (ours)0.3960.2274.21/4.16/4.11/4.0798.59/98.39/98.11/97.9216.91/15.99/15.25/14.66
    w/o Global cTFA0.3910.2244.13/4.07/4.02/3.9598.13/97.90/97.59/97.1216.19/15.22/14.47/13.18
    w/o joint training0.3960.2274.12/4.07/4.01/3.9597.68/97.50/97.21/96.9213.96/13.16/12.28/11.67
  5. 实际意义:该方法有望显著提升助听器在复杂动态环境下的稳定工作增益,改善中重度听力损失用户的听力补偿效果,同时保持了适合实时助听器芯片部署的计算复杂度(0.227 G MACs/s)。
  6. 主要局限性:研究主要基于客观指标(PESQ, eSTOI, SI-SDR)评估,未提供主观听感测试或真实用户佩戴实验数据;模型在反馈路径剧变时的瞬态性能有待进一步探究;实际硬件部署的功耗、内存占用等未讨论。

🏗️ 模型架构

本文提出的JointDFC系统是一个两阶段的深度学习框架,整体流程如图1(b)所示。

阶段一:线性反馈取消网络(LFCNet)

  • 输入:接收器信号 u(t) 和麦克风信号 y(t)
  • 功能:估计并去除反馈信号中的主要线性成分。
  • 内部结构:基于预测误差方法(PEM)和深度学习(图2(b))。首先对输入信号进行PEM预白化以减少信号相关性导致的估计偏差。然后通过在线均值归一化和降维提取特征。核心是一个堆叠的GRU网络,用于建模自适应滤波器的收敛状态。最后,通过一个步长掩码矩阵和误差信号掩码矩阵生成每个时频单元的最优步长,更新反馈消除器系数。
  • 输出:经过线性反馈消除后的信号 e(t)
  • 设计动机:利用PEM-AFC在低增益时收敛快、信号保真度高的优势,作为整个系统的前端。

阶段二:残余反馈抑制网络(RFSNet)

  • 输入:第一阶段输出的信号 e(t) 和原始麦克风信号 y(t) 的压缩实部和虚部。
  • 功能:进一步抑制 e(t) 中的残余反馈和背景噪声。
  • 内部结构:基于全子带(FSB)级联递归结构(图2(a))。主要组件包括:
    1. 编码器:通过卷积层提取时频嵌入特征。
    2. 全局因果时频注意力模块(cTFA)(图2(c)):这是关键创新点。它分别在时间和频率维度上应用轻量级注意力机制,帮助模型在第一阶段消除后,更精准地定位和抑制残余的反馈分量。
    3. 全子带GRU模块(图2(d)(e)):包含全带和子带GRU,结合门控卷积单元和逐点卷积,在较低复杂度下建模谱时依赖关系,执行最终的信号增强。
    4. 解码器:通过反卷积和重叠相加合成最终输出。
  • 输出:增强后的目标信号 ŝ(t)
  • 设计动机:针对LFCNet的输出,用一个紧凑但有效的后处理网络进行“精加工”,提升高增益和动态环境下的鲁棒性。

两阶段交互与数据流:LFCNet的输出直接作为RFSNet的输入之一。在训练中,通过三步策略(独立预训练、生成数据、联合微调)来协调两个网络的参数,使其在闭环系统中协同工作。推理时,信号依次流经两个网络。

Fig. 1: System flow (图1:助听器系统流程:(a) 无任何反馈控制方法;(b) 使用所提出的JointDFC方法)

Fig. 2: Model structure (图2:JointDFC的整体模型结构,包括残余反馈抑制网络(RFSNet)和线性反馈取消网络(LFCNet))

💡 核心创新点

  1. 两阶段联合优化框架(JointDFC):首次将深度学习方法应用于反馈取消与残余反馈抑制的联合设计。之前DeepAFC只关注取消,DeepAFS只关注直接抑制,本框架将两者优势互补,先线性对消再非线性抑制,在高增益场景下取得了显著性能提升。
  2. 全局因果时频注意力机制(cTFA):在RFSNet中引入轻量级的cTFA模块,能够沿着时间和频率维度,对编码特征施加注意力权重。这使网络能更聚焦于第一阶段后残留的反馈成分,实现更精准的抑制,消融实验证明了其有效性。
  3. 面向闭环系统的三步训练策略:为解决联合闭环模型训练困难的问题,设计了“LFCNet预训练(用固定RFSNet) -> 生成训练数据 -> 端到端联合微调”的策略。这缓解了闭环训练中梯度传播复杂、网络互相干扰的问题,提升了模块间协调性。

🔬 细节详述

  • 训练数据:
    • 来源:训练集来自LibriSpeech语料库(30,000个4秒干净语音),验证集来自LibriSpeech(3,000个)。80%的语音混有来自DNS Challenge数据集的噪声,信噪比为{10, 15, 20, 25} dB。
    • 反馈路径:10,000条模拟的64抽头反馈路径,MSG服从N(15, 3) dB正态分布。
    • 数据生成:每个语音序列配对两条随机采样反馈路径,并在[1, 3]秒内随机时刻发生突变。前馈增益G设置在无反馈取消器的MSG之上,范围为-5 dB至5 dB。
  • 损失函数:整体损失为两项加权和(公式7):L = λ₁·NESD_loss + λ₂·log((1-c)L_mag + cL_comp)。
    • LFCNet损失:使用归一化欧几里德系统距离(NESD)损失,用于优化自适应滤波器系数。
    • RFSNet损失:复合谱损失,结合了谱幅度损失和复数谱均方误差(MSE),用于频谱映射。
    • 权重:λ₁=0.2, λ₂=5, 压缩系数c=0.5。
  • 训练策略:
    • 三步法:1. 预训练LFCNet(使用一个冻结的、与RFSNet结构相同的预训练降噪网络处理其输出);2. 固定预训练的LFCNet,生成闭环数据对,开环训练RFSNet;3. 端到端联合微调两个模块。
    • 优化器:AdamW,初始学习率10⁻³,60个epoch,早停耐心10个epoch。
    • 批大小:128。
    • 正则化:梯度裁剪(LFCNet阈值0.2, RFSNet阈值0.5),权重衰减10⁻⁷。
  • 关键超参数:
    • 模型大小:JointDFC总参数量约0.396M,计算量0.227 G MACs/s。RFSNet中D=16, D1=4, H1=128, D2=32, H2=32。
    • 时延与帧设置:LFCNet帧长Mc=8ms, RFSNet帧长Ms=20ms, 训练时共同帧移R=4ms(等于LFCNet滤波器长度)。通过修改的重叠相加法,总算法延迟为8ms。前馈路径随机延迟Δt∈{0, 1, 2} ms,确保总延迟<10ms。
  • 训练硬件:论文中未说明。
  • 推理细节:使用与训练相同的配置,包括PEM白化、在线归一化等。采用修改的重叠相加以降低延迟。

📊 实验结果

主要Benchmark和数据集:在模拟两种真实场景的自建测试集上进行评估:

  • Set A:使用同一耳道在不同声学环境下测量的反馈路径(图3(a)),模拟单用户日常使用。
  • Set B:使用不同耳道在自由场中测量的反馈路径(图3(b)),模拟用户间差异,更具挑战性。

指标:WB-PESQ(语音质量,↑)、eSTOI(语音可懂度,↑)、SI-SDR(反馈抑制效果,↑)。

与最强基线对比: 在Set A上,JointDFC在所有增益下均优于或持平DeepPEM-AFC(低增益基线)和DeepAFS。在11dB高增益时优势明显:PESQ 4.12 vs 3.53 (DeepAFS) vs 3.11 (DeepPEM-AFC); SI-SDR 16.14 dB vs 11.39 dB vs -1.85 dB。 在更具挑战性的Set B上,JointDFC同样在所有增益下(除5dB时SI-SDR略低于DeepAFS)取得最佳性能,体现了更强的泛化能力。

关键消融实验:

  1. 移除全局cTFA (w/o Global cTFA):在所有测试集和增益下性能下降。例如在Set A 11dB增益,WB-PESQ从4.12降至4.02, SI-SDR从16.14 dB降至14.98 dB,证实了该注意力模块对抑制残余反馈的作用。
  2. 移除联合训练 (w/o joint training):使用分别训练的模块级联。性能下降更显著,尤其是在低增益场景(此时LFCNet收敛较快)。例如在Set A 5dB增益,SI-SDR从18.71 dB骤降至13.98 dB,表明联合微调对模块间协调至关重要。

图表: Fig. 3: Feedback paths (图3:用于评估的声反馈路径幅度响应。(a) 变化环境;(b) 跨用户)

论文未给出具体数值的图表:无。所有关键结果均已在表1和正文中明确给出。

⚖️ 评分理由

  • 学术质量:5.5/7:论文提出了一个逻辑自洽、设计精良的解决方案。创新点(两阶段框架、cTFA、三步训练)清晰且有针对性。实验部分设计周全,对比了具有代表性的基线,在两种不同挑战性的设置下验证了方法的有效性,并提供了详细的消融研究。技术细节描述较为完整。主要扣分点在于闭环训练中梯度传播的具体协调机制细节可以更深入,且缺少主观听感或真实设备测试。
  • 选题价值:1.5/2:声反馈控制是助听器的核心技术瓶颈,直接影响产品性能和用户体验。该研究直接瞄准这一实际痛点,具有明确的应用价值和市场潜力。其方法思想对音频处理中类似的自适应信号对消与神经网络后处理结合的问题也有参考价值。
  • 开源与复现加成:1.0/1:论文提供了堪称详尽的复现指南:完整的模型架构图、损失函数公式、从数据准备到训练策略的所有超参数、以及三步训练的具体步骤。尽管未提供代码和预训练模型,但文本信息足以让领域内的研究人员进行复现,给予了满额加成。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:未提及。
  • 数据集:使用了公开的LibriSpeech和DNS Challenge数据集进行训练,测试集来自另一篇文献的公开测量数据。论文未提供自有数据集的下载链接。
  • Demo:未提及。
  • 复现材料:论文提供了极其详细的训练细节、模型结构、超参数配置(见第3、4节),足以作为复现指南。
  • 论文中引用的开源项目:引用了LibriSpeech数据集、DNS Challenge数据集,以及[21](FSB网络)和[23](重叠相加方法)的工作,但这些是作为方法或数据来源引用,而非本论文依赖的开源工具包。
  • 开源计划:论文中未提及开源计划。

← 返回 ICASSP 2026 论文分析