📄 Acoustic Feedback Cancellation in Hearing Aids Exploiting an Inertial Sensor

#音频分类 #信号处理 #实时处理 #多模态模型 #辅助技术

7.0/10 | 前25% | #音频分类 | #信号处理 | #实时处理 #多模态模型

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Sina Miran(完成主要工作时隶属Starkey Hearing Technologies,现隶属于Apple Inc.)
  • 通讯作者:Henning Schepker(Starkey Hearing Technologies, 邮箱:henning.schepker@starkey.de)
  • 作者列表:
    1. Sina Miran(Starkey Hearing Technologies, Eden Prairie, MN, US; 现为 Apple Inc.)
    2. Henning Schepker(Starkey Hearing Technologies, Eden Prairie, MN, US)
    3. Ivo Merks(现为 Chromatic, 完成工作时隶属Starkey Hearing Technologies)
    4. Martin McKinney(Starkey Hearing Technologies, Eden Prairie, MN, US)

💡 毒舌点评

亮点:巧妙地将惯性传感器(IMU)这一“非听觉”模态引入声反馈消除,利用头部运动与声学路径变化的相关性来动态调整算法参数,在稳态性能上确实优于纯音频基线方法,思路新颖且实用。
短板:实验仅在5名受试者和有限的几种日常活动上进行,且最终的端到端AFC性能提升(如图3所示)并非全面碾压所有基线,尤其在外部物体导致路径变化但头部未动时存在检测延迟,其普鲁棒性和泛化能力仍需在更大规模、更复杂的现实场景中验证。

📌 核心摘要

  1. 问题:助听器中的声反馈(啸叫)限制了最大可用增益并产生伪影。自适应反馈消除算法的步长调整是关键,传统方法仅依赖音频信号,易受输入音频特性影响,在稳态(无反馈路径变化)下性能受限。
  2. 方法核心:提出利用集成在助听器中的惯性测量单元(IMU)检测头部运动,当检测到强加速度(预示可能发生反馈路径变化)时,增大自适应滤波器(基于PEM-NLMS)的步长以实现快速收敛;否则使用小步长以获得更准确的稳态估计。
  3. 与已有方法相比新在哪里:突破了传统AFC步长调整仅依赖单一音频信息的局限,开创性地引入多模态(音频+运动)信息,通过物理运动信号为算法提供更直接、更可靠的反馈路径变化“预警”。
  4. 主要实验结果:
    • 在五种日常活动(咀嚼、打电话、戴帽子、摇头、站坐)的实测数据上,IMU信号检测反馈路径变化的AUC值在0.81-0.87之间(见图2),表明检测可靠。
    • 在端到端AFC性能对比中(归一化失调 MIS),IMU-AFC在咀嚼和打电话等路径变化场景下能快速跟踪(接近“快速滤波器”性能),而在稳态时又能获得低失调(接近“慢速滤波器”性能),综合表现优于纯音频的变步长方法(VSS)和影子滤波器方法(Shadow)(见图3)。
  5. 实际意义:为助听器等可穿戴设备的信号处理提供了新的多模态融合范式,有望提升用户体验,减少啸叫,增加舒适可用的增益。
  6. 主要局限性:检测延迟问题(当外部物体移动导致路径变化但头部未及时运动时);实验规模有限;最终性能提升并非在所有条件下都显著;需要额外的IMU硬件。

🏗️ 模型架构

本文并非提出一个复杂的深度学习模型,而是提出一种基于IMU的自适应滤波器步长控制策略,其整体架构可视为一个两阶段的闭环系统:

  1. 阶段一:IMU信号处理与运动状态决策(算法1)
    • 输入:实时的三轴IMU信号 s[k] = [sx[k], sy[k], sz[k]]⊤
    • 流程: a. 带通滤波:对每个轴进行1-15Hz带通滤波,保留与头部运动相关的频率成分,得到 sB[k]。 b. 幅度计算:计算滤波后信号的幅值 m[k] = |sB[k]|。 c. 非对称平滑:对 m[k] 进行非对称一阶平滑 mS[k]。当信号上升时(m[k] > mS[k-1]),使用快速平滑系数 κR=1(无平滑),实现快速响应;当信号下降时,使用慢速平滑系数 κF=0.0096(约1秒时间常数),平滑掉快速波动。 d. 阈值决策:将 mS[k] 与预设阈值 T0 比较。若 mS[k] > T0,则判断为“显著运动状态”,输出决策信号为1;否则为0。
    • 输出:实时二值决策信号,指示是否处于可能伴随反馈路径变化的运动状态。
  2. 阶段二:自适应反馈消除(PEM-NLMS)
    • 输入:麦克风信号 y[k], 前一时刻的扬声器信号 u[k],以及阶段一的决策信号。
    • 核心:采用带预白化滤波器(PEM)的归一化最小均方(NLMS)算法来估计声反馈路径 h。关键修改在于步长 µ 的切换:
      • 当阶段一决策信号为1(检测到显著运动)时,设置 µ = µL = 0.04(大步长,快速跟踪)。
      • 当决策信号为0时,设置 µ = µS = 0.004(小步长,高精度)。
    • 流程:接收信号 y[k] 减去由当前路径估计 ˆh[k] 与扬声器信号 u[k] 卷积得到的反馈估计,得到误差信号 e[k](即估计的纯输入信号)。e[k]u[k] 先经过一个每10ms更新一次的预白化滤波器处理,以减少闭环系统带来的偏差,然后用于更新自适应滤波器 ˆh[k]
    • 输出:估计的反馈路径 ˆh[k] 和误差信号 e[k]

架构图:论文中的图1是系统框图,清晰地展示了上述两阶段架构的关系。

助听器AFC系统框图 图1:带IMU和AFC的助听器系统示意图。上半部分(灰色区域)是阶段二的自适应反馈消除闭环;IMU信号作为独立输入,经过处理(未在图中详细画出)后用于控制自适应滤波器的步长。

💡 核心创新点

  1. 引入惯性传感模态解决AFC步长控制问题:是什么:首次提出利用助听器内置IMU的加速度信号来辅助调整自适应滤波器的步长。之前局限:传统AFC步长调整方法仅基于音频信号,其调整决策容易受到输入音频(如音乐、语音)自身能量波动的影响,导致在稳态下无法充分减小步长以获得高精度估计。如何起作用:IMU直接感知头部/身体运动,而这些运动与反馈路径的物理变化(如转头、物体靠近)有强相关性,为步长调整提供了一个更直接、与输入音频内容无关的物理线索。收益:在稳态(无显著运动)时能更可靠地使用小步长,从而获得比纯音频方法更低的稳态失调(如图3Row C所示)。
  2. 非对称平滑的运动检测算法:是什么:设计了一种简单的实时运动检测算法(算法1),采用非对称平滑。之前局限:简单的平滑可能导致对快速发生的路径变化检测延迟。如何起作用:对IMU信号幅值进行非对称平滑:当运动增强(信号上升)时,使用无平滑的快速响应(κR=1),确保不漏报;当运动减弱(信号下降)时,使用慢速平滑(κF≈0.0096),避免误报并保持状态稳定。收益:在快速响应变化和避免误报之间取得了较好平衡,实验AUC值达到0.82(整体),证实了其有效性。
  3. 构建了从IMU信号到AFC性能的完整评估框架:是什么:不仅提出了算法,还通过实测动态反馈路径和IMU信号,系统评估了IMU信号检测路径变化的准确性(ROC/AUC)及其对最终AFC性能(MIS)的影响。之前局限:多数AFC研究仅在模拟或静态反馈路径下验证。如何起作用:使用真实助听器在五种典型日常活动下同步录制声学路径和IMU数据,构建了更贴近实际的评估场景。收益:提供了多模态AFC在实际应用场景下有效性的初步证据,并指出了方法的具体优势(稳态)和局限(检测延迟)。

🔬 细节详述

  • 训练数据:
    • 名称/来源:未说明使用公开数据集。数据由研究人员使用一台BTE助听器自行录制。
    • 规模:5名受试者,每人进行5种活动(咀嚼、打电话、戴帽子、摇头、站坐),每种活动2次试验,每次试验时长T=32秒。
    • 预处理/增强:未说明。声反馈路径脉冲响应以20kHz采样率测量,并截断至长度 Lh = 90。IMU信号采样率为104 Hz。
  • 损失函数:本文核心是自适应滤波算法,不涉及传统意义上的训练损失函数。评估指标是归一化失调(MIS),定义为 MIS[k] = 10log10( ||h[k] - ˆh[k]||^2 / ||h[k]||^2 ), 衡量估计路径与真实路径的差异。
  • 训练策略:本文的AFC算法是在线自适应算法,无需离线“训练”。关键参数设置如下:
    • 前向路径增益 G = 25 dB,处理延迟 dP = 4 ms
    • 自适应滤波器长度 L̂h = 60
    • 大步长 µL = 0.04, 小步长 µS = 0.004
    • 预白化滤波器阶数:16阶。更新频率:每10ms(从最近10ms的麦克风信号通过Levinson-Durbin递归更新)。
  • 关键超参数(算法1):
    • IMU带通滤波器:10阶巴特沃斯滤波器,通带 [1, 15] Hz。
    • 非对称平滑系数:κR = 1κF = 0.0096(对应约1秒的下降时间常数)。
    • 运动检测阈值 T0:在实验中用于生成ROC曲线,具体操作点根据需求选择。
  • 训练硬件:未说明。
  • 推理细节:算法为实时设计,输入为连续IMU和音频信号流。未提及特殊解码策略。
  • 正则化或稳定训练技巧:NLMS算法中使用了 δ 作为分母正则化项(公式4/5)。预白化滤波器本身是一种减少偏差的稳定技术。

📊 实验结果

  1. IMU运动检测性能(图2) 论文评估了算法1检测反馈路径变化的性能,以ROC曲线和AUC值呈现。

不同活动下检测反馈路径变化的ROC曲线 图2:使用算法1检测反馈路径变化的ROC曲线。AUC值:整体0.82,“物体移近”0.86,“物体移开”0.76。各分活动AUC在0.81-0.87之间。图中百分比表示该活动在试验中占据的时间比例。结论:IMU信号能可靠地检测各种自然活动引起的反馈路径变化。

  1. 端到端AFC性能对比(图3) 论文将IMU-AFC与四种基线方法在“咀嚼”和“打电话”两种典型场景下进行对比,评估归一化失调(MIS)。

咀嚼和打电话场景下的性能对比 *图3:IMU-AFC在示例试验中的性能。Row A显示IMU信号处理过程及运动检测区间(阴影)。Row B对比IMU-AFC与固定步长的“快速滤波器”和“慢速滤波器”。Row C对比IMU-AFC与变步长(VSS)和影子滤波器(Shadow)方法。关键结论:

  • IMU-AFC在路径变化时快速响应:其MIS曲线(绿色)在阴影区(检测到运动)内能快速下降,性能接近大步长的“快速滤波器”(蓝色),优于“慢速滤波器”(红色箭头处失调飙升)。
  • IMU-AFC在稳态下精度高:在无阴影区,其MIS能维持在低水平,接近小步长的“慢速滤波器”。
  • 优于纯音频基线:Row C显示,VSS(黄色)和Shadow(青色)方法在稳态下的MIS普遍高于IMU-AFC,表明它们倾向于使用较大步长,牺牲了稳态精度。黄色箭头处显示了外部物体移动先于头部运动时,IMU-AFC的检测延迟。*
  1. 关键数据总结 由于论文未提供具体的数值表格,以下从图表和文字中提取关键量化信息:
  • IMU检测反馈路径变化的整体AUC:0.82
  • 物体移近耳朵场景的AUC:0.86
  • 物体移开耳朵场景的AUC:0.76
  • AUC范围(所有活动):0.81 - 0.87
  • 固定步长设置:µL = 0.04, µS = 0.004(差10倍)
  • 自适应滤波器长度:60抽头,真实路径长度90抽头。
  • 实验使用古典音乐信号作为输入,这是公认的AFC挑战性信号。

⚖️ 评分理由

  • 学术质量:6.0/7。创新点明确且合理,将IMU引入AFC步长控制是一个有价值的思路。技术实现上,算法设计简洁实用,实验设计覆盖了多种真实活动并对比了相关基线,结果图表(图3)清晰地展示了方法的优势和局限。扣分点在于实验规模较小(5人),且对方法的泛化性和鲁棒性(如不同环境、不同用户习惯)验证不足。
  • 选题价值:1.5/2。对于助听器这一具体应用场景,该工作直接针对其核心痛点(啸叫),有明确的实际应用潜力和提升用户体验的价值。但对于更广泛的音频处理社区而言,其问题定义(AFC)和解决方案(IMU融合)的通用性有限。
  • 开源与复现加成:-0.5/1。论文详细描述了算法流程、参数设置和实验条件,具备一定的可复现性。然而,完全复现需要录制类似的动态声学路径和IMU数据,且论文未提供任何代码、模型或录制的数据集链接,这大大增加了复现门槛。

🔗 开源详情

  • 代码:论文中未提及任何代码仓库链接。
  • 模型权重:未提及。本文算法为传统信号处理方法,不涉及深度学习模型权重。
  • 数据集:论文中提到的声反馈路径和IMU数据由作者自行录制,未说明是否公开及如何获取。
  • Demo:未提供在线演示。
  • 复现材料:论文在正文中和算法1中给出了详细的算法流程、关键参数(滤波器阶数、平滑系数、步长值、阈值选择原则)和实验设置(采样率、滤波器长度、增益等),但缺乏录制设备的具体型号、受试者具体信息、预处理代码等,属于中等复现信息。
  • 论文中引用的开源项目:未提及依赖任何特定的开源项目。算法基于经典的NLMS和PEM方法。

← 返回 ICASSP 2026 论文分析