ICASSP 2026 - 音频信号处理
共 1 篇论文
| 排名 | 论文 | 评分 | 分档 |
|---|---|---|---|
| 🥇 | Learning Piezoelectric Hysteresis in In-Ear MEMS Loudspeaker | 7.0分 | 前50% |
📋 论文详情
🥇 Learning Piezoelectric Hysteresis in In-Ear MEMS Loudspeakers from Acoustic Measurements
✅ 7.0/10 | 前50% | #音频信号处理 | #神经网络模型 | #非线性建模 #波数字滤波
👥 作者与机构
- 第一作者:Oliviero Massi(米兰理工大学,电子、信息与生物工程系 - DEIB)
- 通讯作者:未明确说明
- 作者列表:Oliviero Massi(米兰理工大学 DEIB)、Alessandro Ilic Mezza(米兰理工大学 DEIB)、Riccardo Giampiccolo(米兰理工大学 DEIB)、Alberto Bernardini(米兰理工大学 DEIB)
💡 毒舌点评
论文巧妙地将可微分波数字滤波器(WDF)与循环神经网络(RNN)结合,构建了一个既有物理可解释性又能从纯声学数据中“黑箱”学习迟滞非线性的混合模型,思路值得称赞。然而,论文的实验部分稍显“闭环”,仅用自家设备验证自家模型,缺乏与其他主流非线性建模方法的公开较量,说服力打了折扣;同时,未开源任何代码或数据,使得这个漂亮的框架更像是一个“概念验证”而非可即刻应用的工具。
📌 核心摘要
- 问题:压电式MEMS扬声器因其小型化优势在入耳式音频领域前景广阔,但其电-机械转换过程中的迟滞非线性效应严重影响了建模精度和失真补偿。
- 方法核心:提出一种混合建模框架。使用一个循环神经网络(RNN,具体为GRU)作为非线性预失真模块,从输入电压直接映射到驱动力,以捕捉迟滞特性。该驱动力随后输入到由波数字滤波器(WDF)实现的线性等效电路模型(描述机械和声学域),最终输出声压。整个模型在离散时间仿真中是端到端可微分的,可直接从电压-声压测量数据中优化训练。
- 与已有方法相比新在何处:避免了传统迟滞模型需要的强假设(如速率无关性)和额外的、噪声敏感的压电材料电荷/极化测量。将物理模型(玻璃盒)的可解释性与数据驱动(黑箱)的灵活性相结合,非线性部分无需参数化,完全从设备输入-输出数据中推断。
- 主要实验结果:在预测的输入电压幅度(13V)外推测试中,模型预测的声压与实测值高度吻合,平均绝对误差(MAE)为1.82×10⁻¹ Pa。隔离非线性模块测试表明,其自动学到了符合物理预期的电压-力迟滞回线(图4)。应用所学的非线性模型设计逆控制器后,全频段总谐波失真(THD)显著降低(图7)。
- 实际意义:为MEMS扬声器等具有复杂非线性特性的微型音频换能器提供了高精度建模工具,其可微分特性使其可直接用于数字预失真(DPD)或非线性控制,有望提升下一代微型音频设备的音质。
- 主要局限性:模型验证仅针对一种特定的MEMS扬声器结构和测量条件(IEC 60318-4耳模拟器),其泛化性未充分验证。训练数据为单一类型的对数正弦扫频,未测试更复杂的音频信号。模型参数量极少(3393个),可能限制其表达更复杂动态的能力。未与其他先进的非线性建模方法进行直接定量对比。