In-the-Loop Training of Deep Feedback Cancellation for Hearing Aids
📄 In-the-Loop Training of Deep Feedback Cancellation for Hearing Aids #自适应滤波 5.3/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 📝 5.3/10 | 前50% | #自适应滤波 | #自适应滤波 | arxiv 👥 作者与机构 Svantje Voit, Simon Doclo Bielefeld University (比勒费尔德大学) 💡 毒舌点评 这篇文章解决了一个真实的工程痛点(开环训练的不稳定性),方法思路也足够直观(把网络塞进训练循环里)。但它的问题在于,这种“把模型放进优化环”的想法在元学习、可微分物理仿真等领域早已是常识,甚至在音频反馈消除领域,引用的NeuralAFC[20]也用了类似框架。论文没有清晰界定其与[20]的根本区别(一个是训练路径估计器,一个是训练步长控制器),导致核心贡献的“新颖性”大打折扣。更令人失望的是,全文几乎零理论分析,仅仅依靠实验表格就下了结论,这在顶会论文中显得深度不足。实验设计也存在硬伤,如DFC-OL与DFC-IL测试配置不一致造成的公平性疑问。总体而言,这是一篇扎实的领域应用论文,但离顶级机器学习会议的标准还有距离。 📌 核心摘要 本文针对深度神经网络训练的声反馈消除(DFC)方法中存在的训练-推理不匹配问题,提出了一种在环训练框架(DFC-IL)。该框架将DFC模型直接集成到包含反馈回路的训练过程中,使模型能够暴露于不稳定条件。采用两阶段训练策略(先在稳定系统上预训练,再在更宽增益范围上微调)以确保鲁棒性。实验在多种测量和合成的反馈路径上进行,结果表明:在低增益场景下,DFC-IL与开环训练的DFC-OL性能相似;在高增益场景下,DFC-IL通过维持系统稳定性显著优于DFC-OL,且平均有效闭环增益(ECLG)最低。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及模型权重链接 数据集:论文中提及了以下数据集,但未提供具体获取链接: Hearpiece 数据库:包含5,740条反馈路径脉冲响应。 LibriSpeech 语料库:作为源信号 v(n) 来源。 双麦克风助听器测量数据:420条反馈路径,录制于假头。 合成反馈路径:9,000条,根据[31]中的模型生成。 Demo:论文中未提及 复现材料:论文中提供了详细的训练配置(如两阶段训练策略、超参数),但未提供具体的训练脚本、检查点或附录材料。 论文中引用的开源项目:未提及具体项目链接。论文引用了参考文献中的工作,如[2] Hearpiece数据库、[10] DFC-OL原始论文、[20] NeuralAFC论文、[21] PEM-NLMS论文,但未明确这些参考文献对应的代码或项目主页是否开源及具体链接。 🏗️ 方法概述和架构 本文提出的在环训练DFC-IL模型,其核心架构基于先前的DFC-OL模型[10],但进行了关键修改以实现在环训练和降低计算复杂度。模型以帧为单位操作,输入为当前时刻的归一化频域扬声器信号谱 \(`\widetilde{\boldsymbol{\mathbf{U}}}(k)`\) 和误差信号谱 \(`\widetilde{\boldsymbol{\mathbf{E}}}(k)`\)。这两个谱是由对应的时间域帧 \(`\boldsymbol{\mathbf{u}}(k)`\) 和 \(`\boldsymbol{\mathbf{e}}(k)\)(长度\(`M`\),移位\(`R`\))经过\(`M`\)点离散傅里叶变换并归一化(除以 \(`\lVert\boldsymbol{\mathbf{U}}(k)\rVert_{2}`\))得到。架构如图2所示,具体处理流程如下:1)两个归一化谱首先被连接成两个通道;2)通过一个卷积核大小为5的一维卷积层,生成一个单通道的谱包络特征;3)该谱包络特征再次与原始的归一化谱 \(`\widetilde{\boldsymbol{\mathbf{U}}(k)}\) 和 \(\widetilde{\boldsymbol{\mathbf{E}}(k)}) 连接,形成 \(3(M+2)\) 维的特征向量;4)该特征向量依次经过一个带LeakyReLU激活的全连接层、一个具有256个单元的LSTM层、另一个带LeakyReLU激活的全连接层;5)最后一个带tanh激活的全连接层输出最终的时域反馈路径估计系数 \(\boldsymbol{\mathbf{\widehat{h}}}(k)=[\widehat{h}{1}(k),\dots,\widehat{h}{L}(k)]^{\textit{\scriptsize{T}}}\),其中\(L=64`)。 ...