📄 Learnable Mel-Frontend for Robust Underwater Acoustic Target Detection under Non-Target Interference

#水下声学目标检测 #可学习前端 #音频分类 #时频分析 #鲁棒性

6.5/10 | 前50% | #音频分类 | #时频分析 | #水下声学目标检测 #可学习前端

学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:未说明(论文中未明确标注“第一作者”,仅按署名顺序首位列出)。
  • 通讯作者:Xinwei Luo(东南大学水声信号处理教育部重点实验室)。
  • 作者列表:Lu Chen(东南大学水声信号处理教育部重点实验室、新加坡国立大学计算学院)、Xinwei Luo(东南大学水声信号处理教育部重点实验室)、Kenji Kawaguchi(新加坡国立大学计算学院)、Hanlu Zhou(东南大学水声信号处理教育部重点实验室)。

💡 毒舌点评

这篇论文的亮点在于它非常务实地找到了一个“中间地带”——在保留STFT这个稳健先验的基础上,只让Mel滤波器组和动态压缩(PCEN)变得可学习,从而以极低的计算成本换取了在非目标干扰下的性能提升,这种工程上的权衡很聪明。然而,其短板也同样明显:论文只和几个非常基础的固定特征(如STFT、log-Mel)做对比,却没有与该领域(水声检测)近年来提出的更强大的深度学习模型直接竞争,这让人对其“优越性”的幅度和实际应用价值打上一个问号。

📌 核心摘要

  1. 问题:水下声学目标检测面临非目标船只信号干扰的挑战,传统的固定音频特征(如STFT、log-Mel谱)缺乏自适应能力,导致检测性能下降。
  2. 方法:提出learnMel前端,它在STFT基础上,将Mel滤波器组参数化为可训练的权重,并用可学习的通道能量归一化(PCEN)替代固定对数压缩。learnMel与后端的TResNet检测模型联合优化。
  3. 新颖性:不同于完全从头学习的前端(如LEAF),learnMel保留了STFT框架的稳定性,仅优化关键的频域投影和动态压缩环节,在灵活性和计算成本之间取得了平衡。
  4. 主要结果:在ShipsEar数据集上,PCEN-learnMel方法的ROC-AUC(94.504±0.207%)和精确度(85.65±1.65%)均优于所有固定特征基线。其计算开销(0.25 MB特征内存)与log-Mel相近,远低于LEAF(156.25 MB)。在DeepShip数据集上,所有方法表现均近乎完美(AUC > 99.99%),但learnMel仍取得了最低的FAR(0.07%)。
  5. 实际意义:为水下声学信号处理提供了一种轻量且鲁棒的前端解决方案,能有效抑制非目标干扰,提升检测可靠性。
  6. 局限性:研究仅聚焦于“检测”这一二分类任务,未探讨目标识别等更复杂任务;对比基线有限,未与当前水声检测领域的SOTA深度学习模型对比;在ShipsEar上,PCEN-learnMel的检测概率(PD)略低于PCEN-Mel,显示可学习性在某些情况下可能引入轻微不稳定。

🏗️ 模型架构

论文提出的整体检测框架(如图1所示)包含三个核心阶段:数据构建、特征提取和目标检测。

图1 图1:提出的水下声学目标检测方法流程图。(a) 将非目标干扰信号与目标信号混合构建数据集;(b) 特征提取:对比了两种前端,下方是传统的固定Mel前端(STFT -> 固定Mel滤波器组 -> LOG),上方是所提出的可学习前端learnMel(STFT -> 可学习滤波器组 -> PCEN);(c) 目标检测:将特征输入TResNet模型,使用BCE损失进行二分类。

  1. 目标检测数据集构建:通过控制信干比(SIR),将目标信号与非目标干扰信号按比例混合,生成正样本(混合信号);随机选择纯干扰信号作为负样本。这模拟了实际水下环境中目标与干扰共存的复杂场景。
  2. 可学习Mel前端(learnMel):这是论文的核心创新点,是一个可微分的端到端特征提取模块。
    • 第一阶段:频谱特征提取:对输入原始波形进行短时傅里叶变换(STFT),得到幅度谱图。这保留了传统信号处理的稳定先验。
    • 第二阶段:可学习Mel滤波器组投影:传统Mel谱使用固定的三角滤波器组。learnMel将滤波器组矩阵 W 参数化为一个可训练的权重矩阵(初始化为标准Mel滤波器),通过矩阵乘法 M = S · W 实现从STFT频谱到Mel频谱的映射。这使模型能够自适应地调整各频带的权重,以突出目标特征并抑制干扰。
    • 第三阶段:通道能量归一化(PCEN):替代固定的对数压缩,PCEN为每个频率通道提供自适应的增益控制和噪声抑制。其核心是利用平滑能量估计 M_t 来归一化当前能量 E(x_t),参数 α, δ, r, s 均可学习,增强了模型对非平稳干扰的鲁棒性。
  3. 目标检测模型:采用TResNet-M架构作为后端分类器。TResNet是一种高效的残差网络,集成了通道注意力(Squeeze-and-Excitation)模块和抗混叠下采样等技术,适用于处理频谱图输入。模型输出一个二分类概率值,用于判断输入信号是目标还是非目标。

💡 核心创新点

  1. 提出learnMel可学习前端:创新性地将可训练的Mel滤波器组和PCEN压缩模块嵌入到传统的STFT处理流程中。这不同于完全从波形学习的端到端前端(如LEAF),也不同于固定的特征提取器,实现了在保留先验知识的同时获得任务自适应能力。
  2. 针对“非目标干扰”而非“噪声”的鲁棒性设计:论文明确指出并针对水下声学检测中一个被忽视但关键的问题——非目标船只信号的干扰——进行方法设计。learnMel的自适应滤波和动态压缩正是为了更好地在混合信号中分离目标。
  3. 极低的计算开销实现自适应:与LEAF等需要处理长时波形、内存消耗巨大的端到端前端相比,learnMel仅在STFT之后的特征空间操作,增加的参数量很少(约256k),内存占用和推理时间与传统方法相当,实现了性能与效率的平衡。

🔬 细节详述

  • 训练数据:使用ShipsEar和DeepShip两个公开数据集构建。ShipsEar:目标类为Passenger,干扰类为Classes A, B, D。DeepShip:目标类为Tanker,干扰类为Cargo, Passenger ship, Tug。通过控制SIR(-40dB至49dB)混合生成正负样本,训练/验证/测试集按70%/15%/15%划分。
  • 损失函数:使用二元交叉熵损失(BCEWithLogitsLoss),该函数在内部进行sigmoid运算,能提高数值稳定性。
  • 训练策略:优化器为AdamW(权重衰减5×10⁻⁴)。学习率:ShipsEar数据集为5×10⁻⁶,DeepShip数据集为2×10⁻⁶。采用OneCycleLR调度器,包含30%的预热期。训练100个epoch,批大小为64。
  • 关键超参数:STFT使用1024点汉宁窗,帧移320点。Mel谱图使用128个频率bins,覆盖0-14kHz。检测模型为TResNet-M。
  • 训练硬件:未说明(仅提及推理评估使用NVIDIA Titan RTX GPU)。
  • 推理细节:推理时,模型输出概率值经阈值(0.5)判定为“目标”或“非目标”。
  • 正则化技巧:未提及除权重衰减外的其他显式正则化技巧。

📊 实验结果

论文在两个数据集上与多种特征提取方法(STFT, log-Mel, PCEN-Mel, log-learnMel)进行了对比,主要结果如下:

表1:在ShipsEar和DeepShip数据集上的检测结果

数据集特征提取器检测概率(PD)虚警率(FAR)精确度F1分数AUC
ShipsEarSTFT84.78 ± 1.50%19.21 ± 3.17%80.29 ± 2.58%82.47 ± 2.06%90.465 ± 1.587%
log-Mel90.92 ± 0.96%20.01 ± 4.70%79.76 ± 3.48%84.95 ± 1.56%93.042 ± 1.004%
PCEN-Mel90.95 ± 0.28%15.70 ± 3.21%83.78 ± 1.90%87.22 ± 1.16%94.443 ± 0.219%
log-learnMel91.99 ± 1.32%19.50 ± 4.36%81.34 ± 1.89%86.36 ± 1.65%92.564 ± 0.990%
PCEN-learnMel88.89 ± 3.06%14.26 ± 1.19%85.65 ± 1.65%87.24 ± 2.33%94.504 ± 0.207%
DeepShipSTFT100 ± 0.00%5.56 ± 1.16%94.34 ± 3.07%97.08 ± 1.62%99.997 ± 0.002%
log-Mel99.87 ± 0.16%2.74 ± 1.33%99.74 ± 0.25%99.81 ± 0.20%99.994 ± 0.160%
PCEN-Mel99.79 ± 0.09%0.12 ± 0.08%99.87 ± 0.09%99.83 ± 0.09%99.998 ± 0.001%
log-learnMel99.95 ± 0.04%0.12 ± 0.04%99.87 ± 0.05%99.91 ± 0.02%99.998 ± 0.003%
PCEN-learnMel99.92 ± 0.11%0.07 ± 0.00%99.92 ± 0.00%99.92 ± 0.05%99.999 ± 0.001%

关键结论:在更具挑战性的ShipsEar数据集上,PCEN-learnMel在AUC、精确度和FAR三个关键指标上均达到最优,表明其在控制虚警的同时整体检测性能最强。在DeepShip上,虽然所有方法表现都很好,但PCEN-learnMel依然取得了最低的虚警率(0.07%)。

表2:不同特征提取器的计算成本和效率

特征提取器特征大小特征内存参数量ShipsEar推理时间(s)DeepShip推理时间(s)
STFT501×5130.99 MB00.55 ± 0.000.52 ± 0.00
log-Mel501×1280.25 MB00.20 ± 0.000.30 ± 0.04
PCEN-Mel501×1280.25 MB2K0.30 ± 0.000.25 ± 0.00
log-learnMel501×1280.25 MB256.5K0.24 ± 0.000.19 ± 0.00
PCEN-learnMel501×1280.25 MB258.5K0.29 ± 0.000.25 ± 0.00
LEAF256×160000156.25 MB3.5K//

关键结论:learnMel(PCEN-learnMel)的特征内存和推理时间与log-Mel、PCEN-Mel等固定前端相当(均在0.25MB和0.3s左右),但远低于LEAF前端(156.25MB)。这证明了learnMel在实现性能提升的同时,没有带来显著的计算负担。

图2 图2:两个数据集中正样本的信干比(SIR)分布图。显示了训练集、验证集和测试集在不同SIR区间的样本数量,表明实验覆盖了从-40dB到+40dB的广泛干扰强度范围。

图3 图3:(a) ShipsEar数据集上的ROC-AUC曲线;(b) DeepShip数据集上的ROC-AUC曲线(因性能极高,曲线集中于左上角);(c) ShipsEar数据集上不同SIR区间内的检测概率(DP);(d) DeepShip数据集上不同SIR区间内的检测概率。图3(a)显示PCEN-learnMel在低虚警率区域(FAR<10%)表现优异。图3(c)显示在ShipsEar中,即使在SIR低于-10dB的强干扰下,PCEN-learnMel仍能保持约77%-93%的检测概率。

⚖️ 评分理由

  • 学术质量:5.5/7。论文提出了一个设计巧妙、计算高效的学习前端,并在特定任务上通过详实的实验证明了其有效性。技术路线正确,实验分析较为深入(如对不同SIR区间性能的分析)。主要扣分点在于对比基线不够前沿,未与当前该领域更复杂的检测模型进行对比,限制了结论的普适性和影响力。
  • 选题价值:1.0/2。水下声学信号处理是一个重要且具有挑战性的工程领域,该论文针对其中的具体问题(非目标干扰下的检测)提出了实用的解决方案,具有明确的应用价值。但对于更广泛的音频/语音处理研究社区而言,其研究场景较为垂直,相关性一般。
  • 开源与复现加成:0.5/1。论文提供了非常详细的训练配置(优化器、学习率、调度器、batch size等)和模型选择信息,这极大地便利了学术复现。然而,未提供任何代码、预训练模型或数据集的处理脚本,复现仍需开发者自行准备数据和编写训练代码,因此给予有限加分。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:未提及是否公开模型权重。
  • 数据集:使用的是公开数据集ShipsEar和DeepShip,但论文未提供数据处理脚本或具体链接。
  • Demo:未提及。
  • 复现材料:提供了详细的模型架构(TResNet-M)、超参数(学习率、权重衰减、批大小等)、训练策略(OneCycleLR、warm-up比例)以及特征提取的具体参数(STFT窗长、Mel bins等),这些信息对复现至关重要。
  • 论文中引用的开源项目:主要引用了TResNet模���、PCEN算法以及相关数据集论文,未明确提及使用了哪些开源代码库。

← 返回 ICASSP 2026 论文分析