📄 Acoustic Feedback Cancellation in Hearing Aids Exploiting an Inertial Sensor

#音频分类 #信号处理 #实时处理 #多模态模型 #辅助技术

✅ 7.0/10 | 前25% | #音频分类 | #信号处理 | #实时处理 #多模态模型

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高

👥 作者与机构

第一作者：Sina Miran（完成主要工作时隶属Starkey Hearing Technologies，现隶属于Apple Inc.）
通讯作者：Henning Schepker（Starkey Hearing Technologies，邮箱：henning.schepker@starkey.de）
作者列表：
1. Sina Miran（Starkey Hearing Technologies, Eden Prairie, MN, US; 现为 Apple Inc.）
2. Henning Schepker（Starkey Hearing Technologies, Eden Prairie, MN, US）
3. Ivo Merks（现为 Chromatic，完成工作时隶属Starkey Hearing Technologies）
4. Martin McKinney（Starkey Hearing Technologies, Eden Prairie, MN, US）

💡 毒舌点评

亮点：巧妙地将惯性传感器（IMU）这一“非听觉”模态引入声反馈消除，利用头部运动与声学路径变化的相关性来动态调整算法参数，在稳态性能上确实优于纯音频基线方法，思路新颖且实用。
短板：实验仅在5名受试者和有限的几种日常活动上进行，且最终的端到端AFC性能提升（如图3所示）并非全面碾压所有基线，尤其在外部物体导致路径变化但头部未动时存在检测延迟，其普鲁棒性和泛化能力仍需在更大规模、更复杂的现实场景中验证。

🔗 开源详情

代码：论文中未提及任何代码仓库链接。
模型权重：未提及。本文算法为传统信号处理方法，不涉及深度学习模型权重。
数据集：论文中提到的声反馈路径和IMU数据由作者自行录制，未说明是否公开及如何获取。
Demo：未提供在线演示。
复现材料：论文在正文中和算法1中给出了详细的算法流程、关键参数（滤波器阶数、平滑系数、步长值、阈值选择原则）和实验设置（采样率、滤波器长度、增益等），但缺乏录制设备的具体型号、受试者具体信息、预处理代码等，属于中等复现信息。
论文中引用的开源项目：未提及依赖任何特定的开源项目。算法基于经典的NLMS和PEM方法。

📌 核心摘要

问题：助听器中的声反馈（啸叫）限制了最大可用增益并产生伪影。自适应反馈消除算法的步长调整是关键，传统方法仅依赖音频信号，易受输入音频特性影响，在稳态（无反馈路径变化）下性能受限。
方法核心：提出利用集成在助听器中的惯性测量单元（IMU）检测头部运动，当检测到强加速度（预示可能发生反馈路径变化）时，增大自适应滤波器（基于PEM-NLMS）的步长以实现快速收敛；否则使用小步长以获得更准确的稳态估计。
与已有方法相比新在哪里：突破了传统AFC步长调整仅依赖单一音频信息的局限，开创性地引入多模态（音频+运动）信息，通过物理运动信号为算法提供更直接、更可靠的反馈路径变化“预警”。
主要实验结果：
- 在五种日常活动（咀嚼、打电话、戴帽子、摇头、站坐）的实测数据上，IMU信号检测反馈路径变化的AUC值在0.81-0.87之间（见图2），表明检测可靠。
- 在端到端AFC性能对比中（归一化失调 MIS），IMU-AFC在咀嚼和打电话等路径变化场景下能快速跟踪（接近“快速滤波器”性能），而在稳态时又能获得低失调（接近“慢速滤波器”性能），综合表现优于纯音频的变步长方法（VSS）和影子滤波器方法（Shadow）（见图3）。
实际意义：为助听器等可穿戴设备的信号处理提供了新的多模态融合范式，有望提升用户体验，减少啸叫，增加舒适可用的增益。
主要局限性：检测延迟问题（当外部物体移动导致路径变化但头部未及时运动时）；实验规模有限；最终性能提升并非在所有条件下都显著；需要额外的IMU硬件。

🏗️ 模型架构

本文并非提出一个复杂的深度学习模型，而是提出一种基于IMU的自适应滤波器步长控制策略，其整体架构可视为一个两阶段的闭环系统：

阶段一：IMU信号处理与运动状态决策（算法1）
- 输入：实时的三轴IMU信号 s[k] = [sx[k], sy[k], sz[k]]⊤。
- 流程： a. 带通滤波：对每个轴进行1-15Hz带通滤波，保留与头部运动相关的频率成分，得到 sB[k]。 b. 幅度计算：计算滤波后信号的幅值 m[k] = |sB[k]|。 c. 非对称平滑：对 m[k] 进行非对称一阶平滑 mS[k]。当信号上升时（m[k] > mS[k-1]），使用快速平滑系数 κR=1（无平滑），实现快速响应；当信号下降时，使用慢速平滑系数 κF=0.0096（约1秒时间常数），平滑掉快速波动。 d. 阈值决策：将 mS[k] 与预设阈值 T0 比较。若 mS[k] > T0，则判断为“显著运动状态”，输出决策信号为1；否则为0。
- 输出：实时二值决策信号，指示是否处于可能伴随反馈路径变化的运动状态。
阶段二：自适应反馈消除（PEM-NLMS）
- 输入：麦克风信号 y[k]，前一时刻的扬声器信号 u[k]，以及阶段一的决策信号。
- 核心：采用带预白化滤波器（PEM）的归一化最小均方（NLMS）算法来估计声反馈路径 h。关键修改在于步长 µ 的切换：
  - 当阶段一决策信号为1（检测到显著运动）时，设置 µ = µL = 0.04（大步长，快速跟踪）。
  - 当决策信号为0时，设置 µ = µS = 0.004（小步长，高精度）。
- 流程：接收信号 y[k] 减去由当前路径估计 ˆh[k] 与扬声器信号 u[k] 卷积得到的反馈估计，得到误差信号 e[k]（即估计的纯输入信号）。e[k] 和 u[k] 先经过一个每10ms更新一次的预白化滤波器处理，以减少闭环系统带来的偏差，然后用于更新自适应滤波器 ˆh[k]。
- 输出：估计的反馈路径 ˆh[k] 和误差信号 e[k]。

架构图：论文中的图1是系统框图，清晰地展示了上述两阶段架构的关系。

助听器AFC系统框图图1：带IMU和AFC的助听器系统示意图。上半部分（灰色区域）是阶段二的自适应反馈消除闭环；IMU信号作为独立输入，经过处理（未在图中详细画出）后用于控制自适应滤波器的步长。

💡 核心创新点

引入惯性传感模态解决AFC步长控制问题：是什么：首次提出利用助听器内置IMU的加速度信号来辅助调整自适应滤波器的步长。之前局限：传统AFC步长调整方法仅基于音频信号，其调整决策容易受到输入音频（如音乐、语音）自身能量波动的影响，导致在稳态下无法充分减小步长以获得高精度估计。如何起作用：IMU直接感知头部/身体运动，而这些运动与反馈路径的物理变化（如转头、物体靠近）有强相关性，为步长调整提供了一个更直接、与输入音频内容无关的物理线索。收益：在稳态（无显著运动）时能更可靠地使用小步长，从而获得比纯音频方法更低的稳态失调（如图3Row C所示）。
非对称平滑的运动检测算法：是什么：设计了一种简单的实时运动检测算法（算法1），采用非对称平滑。之前局限：简单的平滑可能导致对快速发生的路径变化检测延迟。如何起作用：对IMU信号幅值进行非对称平滑：当运动增强（信号上升）时，使用无平滑的快速响应（κR=1），确保不漏报；当运动减弱（信号下降）时，使用慢速平滑（κF≈0.0096），避免误报并保持状态稳定。收益：在快速响应变化和避免误报之间取得了较好平衡，实验AUC值达到0.82（整体），证实了其有效性。
构建了从IMU信号到AFC性能的完整评估框架：是什么：不仅提出了算法，还通过实测动态反馈路径和IMU信号，系统评估了IMU信号检测路径变化的准确性（ROC/AUC）及其对最终AFC性能（MIS）的影响。之前局限：多数AFC研究仅在模拟或静态反馈路径下验证。如何起作用：使用真实助听器在五种典型日常活动下同步录制声学路径和IMU数据，构建了更贴近实际的评估场景。收益：提供了多模态AFC在实际应用场景下有效性的初步证据，并指出了方法的具体优势（稳态）和局限（检测延迟）。

🔬 细节详述

训练数据：
- 名称/来源：未说明使用公开数据集。数据由研究人员使用一台BTE助听器自行录制。
- 规模：5名受试者，每人进行5种活动（咀嚼、打电话、戴帽子、摇头、站坐），每种活动2次试验，每次试验时长T=32秒。
- 预处理/增强：未说明。声反馈路径脉冲响应以20kHz采样率测量，并截断至长度 Lh = 90。IMU信号采样率为104 Hz。
损失函数：本文核心是自适应滤波算法，不涉及传统意义上的训练损失函数。评估指标是归一化失调（MIS），定义为 MIS[k] = 10log10( ||h[k] - ˆh[k]||^2 / ||h[k]||^2 )，衡量估计路径与真实路径的差异。
训练策略：本文的AFC算法是在线自适应算法，无需离线“训练”。关键参数设置如下：
- 前向路径增益 G = 25 dB，处理延迟 dP = 4 ms。
- 自适应滤波器长度 L̂h = 60。
- 大步长 µL = 0.04，小步长 µS = 0.004。
- 预白化滤波器阶数：16阶。更新频率：每10ms（从最近10ms的麦克风信号通过Levinson-Durbin递归更新）。
关键超参数（算法1）：
- IMU带通滤波器：10阶巴特沃斯滤波器，通带 [1, 15] Hz。
- 非对称平滑系数：κR = 1， κF = 0.0096（对应约1秒的下降时间常数）。
- 运动检测阈值 T0：在实验中用于生成ROC曲线，具体操作点根据需求选择。
训练硬件：未说明。
推理细节：算法为实时设计，输入为连续IMU和音频信号流。未提及特殊解码策略。
正则化或稳定训练技巧：NLMS算法中使用了 δ 作为分母正则化项（公式4/5）。预白化滤波器本身是一种减少偏差的稳定技术。

📊 实验结果

IMU运动检测性能（图2）论文评估了算法1检测反馈路径变化的性能，以ROC曲线和AUC值呈现。

不同活动下检测反馈路径变化的ROC曲线图2：使用算法1检测反馈路径变化的ROC曲线。AUC值：整体0.82，“物体移近”0.86，“物体移开”0.76。各分活动AUC在0.81-0.87之间。图中百分比表示该活动在试验中占据的时间比例。结论：IMU信号能可靠地检测各种自然活动引起的反馈路径变化。

端到端AFC性能对比（图3）论文将IMU-AFC与四种基线方法在“咀嚼”和“打电话”两种典型场景下进行对比，评估归一化失调（MIS）。

咀嚼和打电话场景下的性能对比 *图3：IMU-AFC在示例试验中的性能。Row A显示IMU信号处理过程及运动检测区间（阴影）。Row B对比IMU-AFC与固定步长的“快速滤波器”和“慢速滤波器”。Row C对比IMU-AFC与变步长（VSS）和影子滤波器（Shadow）方法。关键结论：

IMU-AFC在路径变化时快速响应：其MIS曲线（绿色）在阴影区（检测到运动）内能快速下降，性能接近大步长的“快速滤波器”（蓝色），优于“慢速滤波器”（红色箭头处失调飙升）。
IMU-AFC在稳态下精度高：在无阴影区，其MIS能维持在低水平，接近小步长的“慢速滤波器”。
优于纯音频基线：Row C显示，VSS（黄色）和Shadow（青色）方法在稳态下的MIS普遍高于IMU-AFC，表明它们倾向于使用较大步长，牺牲了稳态精度。黄色箭头处显示了外部物体移动先于头部运动时，IMU-AFC的检测延迟。*

关键数据总结由于论文未提供具体的数值表格，以下从图表和文字中提取关键量化信息：

IMU检测反馈路径变化的整体AUC：0.82
物体移近耳朵场景的AUC：0.86
物体移开耳朵场景的AUC：0.76
AUC范围（所有活动）：0.81 - 0.87
固定步长设置：µL = 0.04, µS = 0.004（差10倍）
自适应滤波器长度：60抽头，真实路径长度90抽头。
实验使用古典音乐信号作为输入，这是公认的AFC挑战性信号。

⚖️ 评分理由

学术质量：6.0/7。创新点明确且合理，将IMU引入AFC步长控制是一个有价值的思路。技术实现上，算法设计简洁实用，实验设计覆盖了多种真实活动并对比了相关基线，结果图表（图3）清晰地展示了方法的优势和局限。扣分点在于实验规模较小（5人），且对方法的泛化性和鲁棒性（如不同环境、不同用户习惯）验证不足。
选题价值：1.5/2。对于助听器这一具体应用场景，该工作直接针对其核心痛点（啸叫），有明确的实际应用潜力和提升用户体验的价值。但对于更广泛的音频处理社区而言，其问题定义（AFC）和解决方案（IMU融合）的通用性有限。
开源与复现加成：-0.5/1。论文详细描述了算法流程、参数设置和实验条件，具备一定的可复现性。然而，完全复现需要录制类似的动态声学路径和IMU数据，且论文未提供任何代码、模型或录制的数据集链接，这大大增加了复现门槛。

← 返回 ICASSP 2026 论文分析

📄 Acoustic Feedback Cancellation in Hearing Aids Exploiting an Inertial Sensor#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文