📄 Learnable Mel-Frontend for Robust Underwater Acoustic Target Detection under Non-Target Interference

#水下声学目标检测 #可学习前端 #音频分类 #时频分析 #鲁棒性

✅ 6.5/10 | 前50% | #音频分类 | #时频分析 | #水下声学目标检测 #可学习前端

学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：未说明（论文中未明确标注“第一作者”，仅按署名顺序首位列出）。
通讯作者：Xinwei Luo（东南大学水声信号处理教育部重点实验室）。
作者列表：Lu Chen（东南大学水声信号处理教育部重点实验室、新加坡国立大学计算学院）、Xinwei Luo（东南大学水声信号处理教育部重点实验室）、Kenji Kawaguchi（新加坡国立大学计算学院）、Hanlu Zhou（东南大学水声信号处理教育部重点实验室）。

💡 毒舌点评

这篇论文的亮点在于它非常务实地找到了一个“中间地带”——在保留STFT这个稳健先验的基础上，只让Mel滤波器组和动态压缩（PCEN）变得可学习，从而以极低的计算成本换取了在非目标干扰下的性能提升，这种工程上的权衡很聪明。然而，其短板也同样明显：论文只和几个非常基础的固定特征（如STFT、log-Mel）做对比，却没有与该领域（水声检测）近年来提出的更强大的深度学习模型直接竞争，这让人对其“优越性”的幅度和实际应用价值打上一个问号。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及是否公开模型权重。
数据集：使用的是公开数据集ShipsEar和DeepShip，但论文未提供数据处理脚本或具体链接。
Demo：未提及。
复现材料：提供了详细的模型架构（TResNet-M）、超参数（学习率、权重衰减、批大小等）、训练策略（OneCycleLR、warm-up比例）以及特征提取的具体参数（STFT窗长、Mel bins等），这些信息对复现至关重要。
论文中引用的开源项目：主要引用了TResNet模��、PCEN算法以及相关数据集论文，未明确提及使用了哪些开源代码库。

📌 核心摘要

问题：水下声学目标检测面临非目标船只信号干扰的挑战，传统的固定音频特征（如STFT、log-Mel谱）缺乏自适应能力，导致检测性能下降。
方法：提出learnMel前端，它在STFT基础上，将Mel滤波器组参数化为可训练的权重，并用可学习的通道能量归一化（PCEN）替代固定对数压缩。learnMel与后端的TResNet检测模型联合优化。
新颖性：不同于完全从头学习的前端（如LEAF），learnMel保留了STFT框架的稳定性，仅优化关键的频域投影和动态压缩环节，在灵活性和计算成本之间取得了平衡。
主要结果：在ShipsEar数据集上，PCEN-learnMel方法的ROC-AUC（94.504±0.207%）和精确度（85.65±1.65%）均优于所有固定特征基线。其计算开销（0.25 MB特征内存）与log-Mel相近，远低于LEAF（156.25 MB）。在DeepShip数据集上，所有方法表现均近乎完美（AUC > 99.99%），但learnMel仍取得了最低的FAR（0.07%）。
实际意义：为水下声学信号处理提供了一种轻量且鲁棒的前端解决方案，能有效抑制非目标干扰，提升检测可靠性。
局限性：研究仅聚焦于“检测”这一二分类任务，未探讨目标识别等更复杂任务；对比基线有限，未与当前水声检测领域的SOTA深度学习模型对比；在ShipsEar上，PCEN-learnMel的检测概率（PD）略低于PCEN-Mel，显示可学习性在某些情况下可能引入轻微不稳定。

🏗️ 模型架构

论文提出的整体检测框架（如图1所示）包含三个核心阶段：数据构建、特征提取和目标检测。

图1：提出的水下声学目标检测方法流程图。(a) 将非目标干扰信号与目标信号混合构建数据集；(b) 特征提取：对比了两种前端，下方是传统的固定Mel前端（STFT -> 固定Mel滤波器组 -> LOG），上方是所提出的可学习前端learnMel（STFT -> 可学习滤波器组 -> PCEN）；(c) 目标检测：将特征输入TResNet模型，使用BCE损失进行二分类。

目标检测数据集构建：通过控制信干比（SIR），将目标信号与非目标干扰信号按比例混合，生成正样本（混合信号）；随机选择纯干扰信号作为负样本。这模拟了实际水下环境中目标与干扰共存的复杂场景。
可学习Mel前端（learnMel）：这是论文的核心创新点，是一个可微分的端到端特征提取模块。
- 第一阶段：频谱特征提取：对输入原始波形进行短时傅里叶变换（STFT），得到幅度谱图。这保留了传统信号处理的稳定先验。
- 第二阶段：可学习Mel滤波器组投影：传统Mel谱使用固定的三角滤波器组。learnMel将滤波器组矩阵 W 参数化为一个可训练的权重矩阵（初始化为标准Mel滤波器），通过矩阵乘法 M = S · W 实现从STFT频谱到Mel频谱的映射。这使模型能够自适应地调整各频带的权重，以突出目标特征并抑制干扰。
- 第三阶段：通道能量归一化（PCEN）：替代固定的对数压缩，PCEN为每个频率通道提供自适应的增益控制和噪声抑制。其核心是利用平滑能量估计 M_t 来归一化当前能量 E(x_t)，参数 α, δ, r, s 均可学习，增强了模型对非平稳干扰的鲁棒性。
目标检测模型：采用TResNet-M架构作为后端分类器。TResNet是一种高效的残差网络，集成了通道注意力（Squeeze-and-Excitation）模块和抗混叠下采样等技术，适用于处理频谱图输入。模型输出一个二分类概率值，用于判断输入信号是目标还是非目标。

💡 核心创新点

提出learnMel可学习前端：创新性地将可训练的Mel滤波器组和PCEN压缩模块嵌入到传统的STFT处理流程中。这不同于完全从波形学习的端到端前端（如LEAF），也不同于固定的特征提取器，实现了在保留先验知识的同时获得任务自适应能力。
针对“非目标干扰”而非“噪声”的鲁棒性设计：论文明确指出并针对水下声学检测中一个被忽视但关键的问题——非目标船只信号的干扰——进行方法设计。learnMel的自适应滤波和动态压缩正是为了更好地在混合信号中分离目标。
极低的计算开销实现自适应：与LEAF等需要处理长时波形、内存消耗巨大的端到端前端相比，learnMel仅在STFT之后的特征空间操作，增加的参数量很少（约256k），内存占用和推理时间与传统方法相当，实现了性能与效率的平衡。

🔬 细节详述

训练数据：使用ShipsEar和DeepShip两个公开数据集构建。ShipsEar：目标类为Passenger，干扰类为Classes A, B, D。DeepShip：目标类为Tanker，干扰类为Cargo, Passenger ship, Tug。通过控制SIR（-40dB至49dB）混合生成正负样本，训练/验证/测试集按70%/15%/15%划分。
损失函数：使用二元交叉熵损失（BCEWithLogitsLoss），该函数在内部进行sigmoid运算，能提高数值稳定性。
训练策略：优化器为AdamW（权重衰减5×10⁻⁴）。学习率：ShipsEar数据集为5×10⁻⁶，DeepShip数据集为2×10⁻⁶。采用OneCycleLR调度器，包含30%的预热期。训练100个epoch，批大小为64。
关键超参数：STFT使用1024点汉宁窗，帧移320点。Mel谱图使用128个频率bins，覆盖0-14kHz。检测模型为TResNet-M。
训练硬件：未说明（仅提及推理评估使用NVIDIA Titan RTX GPU）。
推理细节：推理时，模型输出概率值经阈值（0.5）判定为“目标”或“非目标”。
正则化技巧：未提及除权重衰减外的其他显式正则化技巧。

📊 实验结果

论文在两个数据集上与多种特征提取方法（STFT, log-Mel, PCEN-Mel, log-learnMel）进行了对比，主要结果如下：

表1：在ShipsEar和DeepShip数据集上的检测结果

数据集	特征提取器	检测概率(PD)	虚警率(FAR)	精确度	F1分数	AUC
ShipsEar	STFT	84.78 ± 1.50%	19.21 ± 3.17%	80.29 ± 2.58%	82.47 ± 2.06%	90.465 ± 1.587%
	log-Mel	90.92 ± 0.96%	20.01 ± 4.70%	79.76 ± 3.48%	84.95 ± 1.56%	93.042 ± 1.004%
	PCEN-Mel	90.95 ± 0.28%	15.70 ± 3.21%	83.78 ± 1.90%	87.22 ± 1.16%	94.443 ± 0.219%
	log-learnMel	91.99 ± 1.32%	19.50 ± 4.36%	81.34 ± 1.89%	86.36 ± 1.65%	92.564 ± 0.990%
	PCEN-learnMel	88.89 ± 3.06%	14.26 ± 1.19%	85.65 ± 1.65%	87.24 ± 2.33%	94.504 ± 0.207%
DeepShip	STFT	100 ± 0.00%	5.56 ± 1.16%	94.34 ± 3.07%	97.08 ± 1.62%	99.997 ± 0.002%
	log-Mel	99.87 ± 0.16%	2.74 ± 1.33%	99.74 ± 0.25%	99.81 ± 0.20%	99.994 ± 0.160%
	PCEN-Mel	99.79 ± 0.09%	0.12 ± 0.08%	99.87 ± 0.09%	99.83 ± 0.09%	99.998 ± 0.001%
	log-learnMel	99.95 ± 0.04%	0.12 ± 0.04%	99.87 ± 0.05%	99.91 ± 0.02%	99.998 ± 0.003%
	PCEN-learnMel	99.92 ± 0.11%	0.07 ± 0.00%	99.92 ± 0.00%	99.92 ± 0.05%	99.999 ± 0.001%

关键结论：在更具挑战性的ShipsEar数据集上，PCEN-learnMel在AUC、精确度和FAR三个关键指标上均达到最优，表明其在控制虚警的同时整体检测性能最强。在DeepShip上，虽然所有方法表现都很好，但PCEN-learnMel依然取得了最低的虚警率（0.07%）。

表2：不同特征提取器的计算成本和效率

特征提取器	特征大小	特征内存	参数量	ShipsEar推理时间(s)	DeepShip推理时间(s)
STFT	501×513	0.99 MB	0	0.55 ± 0.00	0.52 ± 0.00
log-Mel	501×128	0.25 MB	0	0.20 ± 0.00	0.30 ± 0.04
PCEN-Mel	501×128	0.25 MB	2K	0.30 ± 0.00	0.25 ± 0.00
log-learnMel	501×128	0.25 MB	256.5K	0.24 ± 0.00	0.19 ± 0.00
PCEN-learnMel	501×128	0.25 MB	258.5K	0.29 ± 0.00	0.25 ± 0.00
LEAF	256×160000	156.25 MB	3.5K	/	/

关键结论：learnMel（PCEN-learnMel）的特征内存和推理时间与log-Mel、PCEN-Mel等固定前端相当（均在0.25MB和0.3s左右），但远低于LEAF前端（156.25MB）。这证明了learnMel在实现性能提升的同时，没有带来显著的计算负担。

图2：两个数据集中正样本的信干比(SIR)分布图。显示了训练集、验证集和测试集在不同SIR区间的样本数量，表明实验覆盖了从-40dB到+40dB的广泛干扰强度范围。

图3：(a) ShipsEar数据集上的ROC-AUC曲线；(b) DeepShip数据集上的ROC-AUC曲线（因性能极高，曲线集中于左上角）；(c) ShipsEar数据集上不同SIR区间内的检测概率(DP)；(d) DeepShip数据集上不同SIR区间内的检测概率。图3(a)显示PCEN-learnMel在低虚警率区域（FAR<10%）表现优异。图3(c)显示在ShipsEar中，即使在SIR低于-10dB的强干扰下，PCEN-learnMel仍能保持约77%-93%的检测概率。

⚖️ 评分理由

学术质量：5.5/7。论文提出了一个设计巧妙、计算高效的学习前端，并在特定任务上通过详实的实验证明了其有效性。技术路线正确，实验分析较为深入（如对不同SIR区间性能的分析）。主要扣分点在于对比基线不够前沿，未与当前该领域更复杂的检测模型进行对比，限制了结论的普适性和影响力。
选题价值：1.0/2。水下声学信号处理是一个重要且具有挑战性的工程领域，该论文针对其中的具体问题（非目标干扰下的检测）提出了实用的解决方案，具有明确的应用价值。但对于更广泛的音频/语音处理研究社区而言，其研究场景较为垂直，相关性一般。
开源与复现加成：0.5/1。论文提供了非常详细的训练配置（优化器、学习率、调度器、batch size等）和模型选择信息，这极大地便利了学术复现。然而，未提供任何代码、预训练模型或数据集的处理脚本，复现仍需开发者自行准备数据和编写训练代码，因此给予有限加分。

← 返回 ICASSP 2026 论文分析

📄 Learnable Mel-Frontend for Robust Underwater Acoustic Target Detection under Non-Target Interference#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文