📄 In-the-Loop Training of Deep Feedback Cancellation for Hearing Aids

#自适应滤波

5.3/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5

📝 5.3/10 | 前50% | #自适应滤波 | #自适应滤波 | arxiv

👥 作者与机构

Svantje Voit, Simon Doclo Bielefeld University (比勒费尔德大学)

💡 毒舌点评

这篇文章解决了一个真实的工程痛点（开环训练的不稳定性），方法思路也足够直观（把网络塞进训练循环里）。但它的问题在于，这种“把模型放进优化环”的想法在元学习、可微分物理仿真等领域早已是常识，甚至在音频反馈消除领域，引用的NeuralAFC[20]也用了类似框架。论文没有清晰界定其与[20]的根本区别（一个是训练路径估计器，一个是训练步长控制器），导致核心贡献的“新颖性”大打折扣。更令人失望的是，全文几乎零理论分析，仅仅依靠实验表格就下了结论，这在顶会论文中显得深度不足。实验设计也存在硬伤，如DFC-OL与DFC-IL测试配置不一致造成的公平性疑问。总体而言，这是一篇扎实的领域应用论文，但离顶级机器学习会议的标准还有距离。

📌 核心摘要

本文针对深度神经网络训练的声反馈消除（DFC）方法中存在的训练-推理不匹配问题，提出了一种在环训练框架（DFC-IL）。该框架将DFC模型直接集成到包含反馈回路的训练过程中，使模型能够暴露于不稳定条件。采用两阶段训练策略（先在稳定系统上预训练，再在更宽增益范围上微调）以确保鲁棒性。实验在多种测量和合成的反馈路径上进行，结果表明：在低增益场景下，DFC-IL与开环训练的DFC-OL性能相似；在高增益场景下，DFC-IL通过维持系统稳定性显著优于DFC-OL，且平均有效闭环增益（ECLG）最低。

🔗 开源详情

代码：论文中未提及代码链接
模型权重：论文中未提及模型权重链接
数据集：论文中提及了以下数据集，但未提供具体获取链接：
- Hearpiece 数据库：包含5,740条反馈路径脉冲响应。
- LibriSpeech 语料库：作为源信号 v(n) 来源。
- 双麦克风助听器测量数据：420条反馈路径，录制于假头。
- 合成反馈路径：9,000条，根据[31]中的模型生成。
Demo：论文中未提及
复现材料：论文中提供了详细的训练配置（如两阶段训练策略、超参数），但未提供具体的训练脚本、检查点或附录材料。
论文中引用的开源项目：未提及具体项目链接。论文引用了参考文献中的工作，如[2] Hearpiece数据库、[10] DFC-OL原始论文、[20] NeuralAFC论文、[21] PEM-NLMS论文，但未明确这些参考文献对应的代码或项目主页是否开源及具体链接。

🏗️ 方法概述和架构

本文提出的在环训练DFC-IL模型，其核心架构基于先前的DFC-OL模型[10]，但进行了关键修改以实现在环训练和降低计算复杂度。模型以帧为单位操作，输入为当前时刻的归一化频域扬声器信号谱 \(`\widetilde{\boldsymbol{\mathbf{U}}}(k)`\) 和误差信号谱 \(`\widetilde{\boldsymbol{\mathbf{E}}}(k)`\)。这两个谱是由对应的时间域帧 \(`\boldsymbol{\mathbf{u}}(k)`\) 和 \(`\boldsymbol{\mathbf{e}}(k)\)（长度\(`M`\)，移位\(`R`\)）经过\(`M`\)点离散傅里叶变换并归一化（除以 \(`\lVert\boldsymbol{\mathbf{U}}(k)\rVert_{2}`\)）得到。架构如图2所示，具体处理流程如下：1）两个归一化谱首先被连接成两个通道；2）通过一个卷积核大小为5的一维卷积层，生成一个单通道的谱包络特征；3）该谱包络特征再次与原始的归一化谱 \(`\widetilde{\boldsymbol{\mathbf{U}}(k)}\) 和 \(\widetilde{\boldsymbol{\mathbf{E}}(k)}) 连接，形成 \(3(M+2)\) 维的特征向量；4）该特征向量依次经过一个带LeakyReLU激活的全连接层、一个具有256个单元的LSTM层、另一个带LeakyReLU激活的全连接层；5）最后一个带tanh激活的全连接层输出最终的时域反馈路径估计系数 \(\boldsymbol{\mathbf{\widehat{h}}}(k)=[\widehat{h}{1}(k),\dots,\widehat{h}{L}(k)]^{\textit{\scriptsize{T}}}\)，其中\(L=64`)。

在训练过程中，模型的训练方式是其核心创新：模型被直接嵌入到闭环声学系统中进行“在环”优化。具体而言，在训练的前向传播中，利用网络输出的反馈路径估计 \(`\widehat{\boldsymbol{\mathbf{h}}}(k)\) 计算反馈信号估计 \(\widehat{f}(n) = \widehat{H}(q,n)u(n))，并从麦克风信号 \(y(n)) 中减去它，得到误差信号 \(e(n) = v(n) + (H(q,n) - \widehat{H}(q,n))u(n))。这个误差信号 \(e(n)) 随后被处理并生成新的扬声器信号 \(u(n) = G \cdot e(n))，形成闭环。损失函数为归一化欧氏系统距离（NESD），旨在最小化估计路径与真实路径之间的差异。训练采用两阶段策略：第一阶段，使用学习率 \(10^{-3}\) 在稳定条件（闭环增益 \(\mathcal{C}(n) \in [-6, 0)) dB）下对模型进行预训练；第二阶段，将学习率降至 \(`10^{-4}`\)，并在更宽的、包含不稳定场景的增益范围（\(`\mathcal{C}(n) \in [-6, 16]\)` dB）下对模型进行微调。此策略使模型能够先学习基本估计能力，再在暴露于不稳定条件时学会鲁棒抑制啸叫。

💡 核心创新点

在环训练框架：将深度反馈消除（DFC）模型直接集成到包含声反馈回路的训练过程中，解决了开环训练（DFC-OL）导致的训练-推理不匹配问题，使模型能在训练时接触并学习应对不稳定条件。
两阶段训练策略：采用“先稳定后不稳定”的课程学习策略，即先在稳定系统上预训练以获得基本估计能力，再在包含高增益不稳定场景的宽范围增益上进行微调，以确保训练收敛和最终性能的鲁棒性。

📊 实验结果

论文在包含15,160条语句的数据集上进行了实验，其中训练集12,928条路径（含测量与合成），验证集1,616条，测试集616条（纯测量数据）。评估了NLMS、PEM-NLMS、NeuralAFC、DFC-OL和所提DFC-IL五种算法。实验设计了四种闭环增益范围从稳定到极不稳定的场景（\(`\mathcal{C}_1(n) \in [-5, 0)\) dB 到 \(`\mathcal{C}_4(n) \in [10, 15]\)` dB）。核心结果汇总如下表（对应论文表1）：

方法	场景 `\(`\mathcal{C}_1(n) \in [-5, 0)) `dB`	场景 `\(`\mathcal{C}_2(n) \in [0, 5]) `dB`	场景 `\(`\mathcal{C}_3(n) \in [5, 10]) `dB`	场景 `\(`\mathcal{C}_4(n) \in [10, 15]) `dB`	平均
NLMS	-3.0	-2.0	-0.2	3.0	-0.2
PEM-NLMS [21]	-6.0	-4.3	-1.6	2.2	-1.9
NeuralAFC [20]	-6.9	-5.9	-3.4	1.1	-3.2
DFC-OL [10]	-12.2	-8.9	-3.2	4.1	-2.1
DFC-IL (proposed)	-9.9	-6.8	-3.5	-0.7	-4.6

注：ECLG（有效闭环增益）为负表示系统稳定，数值越低表示估计精度越高、稳定性越好。分析表明：在低增益场景（\(`\mathcal{C}_1`\), \(\mathcal{C}_2\)），DFC-OL性能最佳；在高增益场景（\(`\mathcal{C}_3`\), \(\mathcal{C}_4\)），所提DFC-IL性能最佳，且在\(`\mathcal{C}_4`\)场景下是唯一平均ECLG为负（稳定）的方法。平均而言，DFC-IL在所有场景下ECLG最低。时域性能曲线（图3，图4）进一步证实，在反馈路径突变后，DFC-IL的收敛速度和稳态性能在高增益场景下优于DFC-OL。

⚖️ 评分理由

创新性 (1.0/2)：问题动机清晰，但方法创新度有限。“在环训练”思想在机器学习领域及音频领域的相关工作（如NeuralAFC）中已有体现。本文核心是将该框架应用于DFC模型，原创性贡献不足，且与[20]的区别讨论不够清晰。
技术严谨性 (0.8/1.5)：方法描述基本清晰，但完全缺乏理论分析。未能从优化或稳定性理论角度解释在环训练为何有效、两阶段训练的理论依据、以及在高增益不稳定数据上训练的收敛性保证。这削弱了工作的深度。
实验充分性 (1.2/1.5)：实验设计较为全面，使用了大规模、多样化的数据集（测量与合成），测试集纯用测量数据，评估了多场景和多个指标。然而，存在公平性质疑：DFC-OL测试时使用M=1696, R=1，而DFC-IL训练和测试均用M=128, R=63，这一不一致可能混淆了训练框架与测试配置的贡献。此外，计算复杂度未做任何分析。
清晰度 (0.8/1.0)：论文结构清晰，图表和公式有助于理解。但摘要和结论中对“稳定/不稳定”场景的定性描述与正文中的定量定义（闭环增益范围）对应不够紧密。
影响力 (0.5/1.0)：解决了助听器声反馈消除中的一个实际工程问题，对音频处理社区有直接价值。但其核心方法贡献（在环训练）的普适性有限，对更广泛的机器学习社区影响力一般。
开源 (0.0/1.5)：论文未提供任何代码、模型权重或数据集的公开链接，严重阻碍了结果的复现和验证。
可复现性 (0.3/1.0)：虽然提供了详细的训练配置（超参数、两阶段策略），但未开源代码，且依赖非公开的Hearpiece数据库等数据，使得外部完全复现非常困难。
工程/实践价值 (0.7/1.5)：解决了实际部署中的稳定性问题，方法直观且实验验证了其有效性，对助听器AFC算法的工程改进有参考价值。但缺乏计算复杂度分析，使其实际部署可行性评估不完整。

🚨 局限与问题

训练-推理不一致的潜在残留：尽管DFC-IL采用了在环训练，但论文未明确说明训练时使用的闭环增益范围 \(`\mathcal{C}(n) \in [-6, 16]\)` dB 是否完全覆盖了测试时可能遇到的所有极端情况，尤其是图3b/4b中所示的高增益场景下路径突变后的瞬态行为。
理论支撑缺失：为何两阶段训练（先低增益后高增益）是必要的？直接在包含高增益数据上训练是否会导致梯度不稳定或模型崩溃？论文缺乏此类理论分析或消融实验来证明该策略的必要性。
实验公平性质疑：DFC-OL与DFC-IL在测试时采用了不同的时间上下文参数（M和R），这使得性能对比不够公平。DFC-IL在高增益下的优势，部分可能源于其更一致的训练/测试配置，而非纯粹的训练框架改进。
评估指标局限性：主要依赖ECLG和ASG。ECLG是一个全局稳定性指标，但未能全面反映感知质量（如啸叫的抑制速度、对语音信号的失真影响）。ASG也主要衡量增益容量，未直接关联用户感知。
计算复杂度未评估：论文声称架构修改降低了复杂度，但未提供任何FLOPs、运行时间或内存占用的定量数据，也未与DFC-OL、NeuralAFC等基线进行比较。这对于资源受限的助听器部署至关重要。
结论部分过度概括：结论称DFC-IL“maintaining the fast tracking ability of open-loop-trained DFC”，但图3a显示在低增益场景下，DFC-IL的收敛速度略逊于DFC-OL，该声明需更精确限定范围。
数据集细节不足：虽然提及使用了LibriSpeech，但未说明具体选择的语音条目或特征（如采样率、时长分布），也未说明如何将语音与反馈路径结合的具体模拟过程（如音量调整）。

📷 论文图片

← 返回 2026-06-03 语音/音乐/音频论文速递

📄 In-the-Loop Training of Deep Feedback Cancellation for Hearing Aids#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📷 论文图片#

📎 相关论文