📄 DSRMS-TransUnet: A Decentralized Non-Shifted Transunet for Shallow Water Acoustic Source Range Estimation

#声源定位 #自回归模型 #端到端 #鲁棒性 #模型评估

🔥 8.0/10 | 前10% | #声源定位 | #端到端 | #自回归模型 #鲁棒性

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中

👥 作者与机构

  • 第一作者:Bin Zhang(中国海洋大学计算机科学与技术系)
  • 通讯作者:Peishun Liu(中国海洋大学计算机科学与技术系)
  • 作者列表:Bin Zhang† (中国海洋大学计算机科学与技术系), Jiawen He† (中国海洋大学计算机科学与技术系), Liang Wang‡ (中国海洋大学海洋技术系), Wenxu Wang† (中国海洋大学计算机科学与技术系), Ruichun Tang† (中国海洋大学计算机科学与技术系), Peishun Liu†⋆ (中国海洋大学计算机科学与技术系)

💡 毒舌点评

论文亮点在于巧妙地将复杂的复值协方差矩阵分解为双通道实值图像进行处理,避免了复杂的复数运算,同时用深度可分离卷积和RMSNorm大幅降低了原始TransUNet的计算量,实现了“轻量化”与“高性能”的结合。然而,论文标题和摘要中强调的“去中心化”和“非移位”这两个关键特性,在正文的方法描述和实验中几乎找不到具体的实现细节或与传统集中式、移位机制的对比实验,使得这部分贡献显得有些悬空。

📌 核心摘要

  1. 要解决什么问题? 水下声学被动定位中,声源测距任务受介质吸收、多径效应和噪声影响严重,传统匹配场处理方法对信噪比敏感且依赖精确的环境参数,性能不稳定。
  2. 方法核心是什么? 提出DSRMS-TransUNet模型。核心在于:a) 将接收信号的复协方差矩阵分解为实部和虚部两个独立通道输入,保留了完整的空间结构;b) 在编码器-解码器框架中用深度可分离卷积替代标准卷积以减少参数;c) 引入基于RMSNorm的轻量化视觉Transformer(RViT)以增强全局特征捕获能力并简化计算。
  3. 与已有方法相比新在哪里? 首次提出将复协方差矩阵分解为双通道实值特征图输入深度学习模型。创新性地结合了DSC的轻量化和ViT的长程依赖建模能力,并对ViT进行了针对水声特征的RMSNorm优化。采用端到端的网格分类方式进行测距。
  4. 主要实验结果如何? 在模拟数据上,模型在噪声条件下相比基线(TransUNet)准确率提升超过19%。在真实数据集SWellEx-96的两个阵列(HLAH, HLAS)上,分别取得了91%和94%的准确率,均方根误差(RMSE)低至0.0426和0.1011,在准确率和误差指标上均优于MFP、Transformer、Conformer等传统及深度学习方法。关键实验数据见下表。
    模型参数量仿真-无噪声准确率HLAH准确率HLAS准确率HLAH RMSEHLAS RMSE
    Baseline (TransUNet)74,905,77674.75%78%78%0.14260.3597
    DS-TransUnet54,834,05082.75%84%87%0.09910.3249
    DSRMS-TransUnet54,817,666100.00%91%94%0.04260.1011
    MFP (传统方法)----0.26790.4897
  5. 实际意义是什么? 为浅海环境下的水下被动声源测距提供了一种高精度、高鲁棒性的深度学习解决方案,其轻量化的设计有利于在资源受限的水下设备上部署。
  6. 主要局限性是什么? a) 论文标题中的“去中心化”和“非移位”特性在方法描述中未详细阐述,具体实现机制不明确;b) 对于水下声学这一高度依赖物理模型的领域,纯数据驱动模型的泛化性和在极端未知环境下的鲁棒性有待更多验证;c) 训练策略、超参数等复现关键信息缺失。

🏗️ 模型架构

DSRMS-TransUNet是一个端到端的深度学习模型,整体分为特征提取、特征学习、特征评估三个阶段。

  1. 特征提取阶段:输入为阵列接收的声压信号$p \in \mathbb{R}^{M \times T}$,经FFT变换到频域得到$p_f \in \mathbb{C}^{M \times T}$。计算其归一化协方差矩阵$x \in \mathbb{C}^{M \times M}$。与先前工作将协方差矩阵的上三角元素拼接为向量不同,本文创新性地将$x$的实部和虚部分离,形成双通道实值特征图$\hat{x} \in \mathbb{R}^{2 \times M \times M}$作为模型输入,以保留完整的空间结构和相位信息。

  2. 特征学习阶段:这是模型的核心,采用编码器-解码器架构,并融合了轻量化Transformer。

    • 编码器:由多个DSC模块组成,逐步对输入特征图$\hat{x}$进行下采样(1/2, 1/4, 1/8),提取从低级到高级的语义特征。每个DSC模块包含深度可分离卷积、批归一化(Batch Normalization)和ReLU激活。
    • 瓶颈层:在编码器的最深层特征图后,连接一个简化的视觉Transformer模块——RViT。它使用RMSNorm代替标准的LayerNorm,减少了均值中心化操作,加速收敛。RViT内部包含多头自注意力(MSA)和前馈网络(MLP),用于捕获特征图的全局长程依赖关系。
    • 解码器:由多个反向深度可分离转置卷积层组成,逐步上采样。通过跳跃连接(Skip Connection)融合编码器相应层级的特征,以恢复空间细节,最终输出与输入维度相同的分割图。
    • 组件交互:编码器提取多尺度特征,瓶颈层RViT对最抽象特征进行全局建模,解码器融合多尺度特征进行精确重建。
  3. 特征评估阶段:将解码器输出的特征图展平,通过三个全连接层(每层后接BN和ReLU)进行分类。最终输出一个$N \times L$的矩阵,表示$N$个样本属于$L$个距离类别的概率分布,使用二元交叉熵损失进行训练。

pdf-image-page3-idx0] 图1 (pdf-image-page3-idx0):DSRMS-TransUNet整体架构图。展示了从数据接收、特征提取(协方差矩阵双通道分解)、特征学习(DSC编码器-RViT-解码器)到特征评估(MLP分类)的完整流程,以及RViT模块的内部结构。

💡 核心创新点

  1. 复协方差矩阵的双通道实值化分解:针对水声信号处理中常见的复值协方差矩阵,首次提出将其分解为实部和虚部两个独立的二维特征图作为深度学习模型的输入。这避免了复杂的复数神经网络设计,同时比先前的上三角向量拼接方法保留了更完整的空间拓扑和相位信息,增强了模型对物理特征的捕获能力。
  2. 基于DSC的轻量化编码器-解码器:采用深度可分离卷积(DSC)替代传统卷积构建编码器和解码器。通过将标准卷积的参数量从$O(K^2 \cdot C_{in} \cdot C_{out})$降低到$O(K^2 \cdot C_{in} + C_{in} \cdot C_{out})$,在显著减少模型参数和计算量(相比基线TransUNet减少约2000万参数)的同时,维持了模型性能。
  3. RMSNorm优化的轻量化ViT(RViT):在Transformer编码器中,用RMSNorm替代LayerNorm,移除了对特征进行均值中心化的步骤。这简化了计算,减少了特征尺度方差,加速了训练收敛,并提高了稳定性。结合设置的4个注意力头和8个编码器块,形成了一个适合水声特征维度的轻量化全局特征提取模块。
  4. 端到端的网格分类测距框架:将水下声源测距任务转化为对距离网格的分类问题。模型输入为原始的声学数据预处理结果(协方差矩阵特征图),输出直接为距离类别的概率,实现了从数据预处理、特征提取到测距的端到端流程,避免了传统方法中复杂的环境建模和参数调优。

🔬 细节详述

  • 训练数据:
    • 模拟数据:使用KRAKEN简正波模型生成,搜索范围1-2000米,步长5米。阵元数M=28,采样率fs=2320 Hz,信号频率232 Hz。输入维度为2×28×28,共400个类别。训练集/验证集/测试集划分为280k/80k/40k样本。
    • 真实数据:SWellEx-96海试数据集的HLAH和HLAS两个垂直线阵数据。输入维度分别为2×27×27和2×28×28,类别数51和53。训练集/验证集/测试集划分见表I。数据标注策略为按1分钟分段,取起止距离中点作为标签。
  • 损失函数:采用二元交叉熵损失(Binary Cross-Entropy with Log Loss),公式如论文公式(2)所示,用于最小化预测概率分布与真实标签分布之间的差异。
  • 训练策略:论文中未说明学习率、优化器、批量大小、训练轮数、预热策略等具体超参数。
  • 关键超参数:模型核心参数量为54,817,666(表II)。在RViT模块中,设置了$n_h=4$个注意力头和$n_b=8$个编码器块。
  • 训练硬件:论文中未提及。
  • 推理细节:采用分类头进行网格概率预测,选择概率最高的类别作为测距结果。论文未提及温度、波束搜索等策略。
  • 正则化技巧:在DSC模块中使用Batch Normalization;在分类头中也使用了Batch Normalization和ReLU。

📊 实验结果

论文在模拟数据和真实数据集上进行了充分的实验对比。

  1. 模拟数据实验(表II):主要验证模型在不同信噪比(SNR)下的鲁棒性。
    模型参数量无噪声准确率5dB10dB15dB20dB
    Baseline (TransUNet)74,905,77674.75%51.84%67.74%73.11%74.15%
    DS-TransUnet54,834,05082.75%54.22%74.37%81.10%82.63%
    DSRMS-TransUnet54,817,666100.00%71.23%93.99%99.53%99.96%

结论:DSRMS-TransUnet在参数量最少的情况下,在所有SNR条件下均大幅领先于基线模型。

  1. 真实数据集实验:
  • 准确率对比(图2):在HLAH和HLAS数据集上,DSRMS-TransUnet的预测值与真实值分布最接近,准确率分别达到91%和94%,显著优于其他模型。
  • RMSE对比(表III):
    模型HLAH RMSEHLAS RMSE
    MFP0.26790.4897
    Transformer1.53822.8495
    Baseline0.14260.3597
    DS-TransUnet0.09910.3249
    DSRMS-TransUnet0.04260.1011
    结论:DSRMS-TransUnet的RMSE最低,误差最小。
  • 主流骨干模型交叉验证(表IV):在HLAH和HLAS上,DSRMS-TransUnet的平均准确率(89.6%, 91.6%)和中位数准确率(90%, 91%)均最高,且四分位距(IQR)小,表明性能稳定。

pdf-image-page3-idx1] 图2 (pdf-image-page3-idx1):三个模型(Baseline, DS-TransUnet, DSRMS-TransUnet)在HLAH和HLAS数据集上预测范围与真实范围的散点分布对比图。DSRMS-TransUnet的点最贴近对角线,准确率最高。

pdf-image-page3-idx2] 图3 (pdf-image-page3-idx2):论文中用于生成模拟数据的水下环境示意图,展示了垂直线阵、声源、海底分层结构等信息。

⚖️ 评分理由

  • 学术质量:6.0/7 - 论文提出了有实际意义的创新(双通道输入、DSC+RViT的轻量化设计),技术路线正确,实验设计较为全面,包含了模拟和真实数据、多种指标和基线对比,结果具有说服力。扣分点在于“去中心化非移位”这一标题强调的创新点在正文中缺乏清晰阐述和验证,部分训练细节缺失,理论深度一般。
  • 选题价值:1.5/2 - 水下声源测距是海洋观测、安防和通信的基础问题,具有明确的工程应用需求。论文解决了一个具体但垂直的挑战,对于水声信号处理领域的研究者有较高价值。但与更广泛的语音音频社区相关性较弱。
  • 开源与复现加成:0.5/1 - 论文在文末提供了GitHub代码链接,这是一个重大加分项,表明作者有开源意愿。但未提供预训练模型、完整的复现配置、数据集获取方式(SWellEx-96为公开数据集,但论文未说明如何获取其处理后的版本),因此复现仍需较多工作。

🔗 开源详情

  • 代码:提供了GitHub仓库链接(https://github.com/binzhangbin/DSRMS-TranUNet)。
  • 模型权重:论文中未提及是否公开预训练模型权重。
  • 数据集:模拟数据由作者生成,真实数据来自公开的SWellEx-96海试项目(https://swellex96.ucsd.edu)。论文未说明如何获取或预处理其版本。
  • Demo:未提及。
  • 复现材料:论文给出了模型架构、主要模块(DSC, RViT)的原理和参数,但未提供详细的训练超参数(学习率、batch size等)、硬件配置、训练脚本或配置文件。
  • 论文中引用的开源项目:未明确引用外部开源项目,但提到了参考TransUNet架构,并引用了MobileNet、Xception等使用DSC的模型作为基础。

← 返回 ICASSP 2026 论文分析