UMV: A Mixture-Of-Experts Vision Transformer with Multi-Spectrogram Fusion for Underwater Ship Noise Classification

📄 UMV: A Mixture-Of-Experts Vision Transformer with Multi-Spectrogram Fusion for Underwater Ship Noise Classification #音频分类 #时频分析 #混合专家模型 #Vision #鲁棒性 ✅ 7.5/10 | 前25% | #音频分类 | #混合专家模型 | #时频分析 #Vision 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:未说明(论文标题下列出 Haihan Zhang†,但正文未明确其排序,且有两个†符号) 通讯作者:Guowei Wu(根据脚注“Corresponding author: wgwdut@dlut.edu.cn”) 作者列表:Haihan Zhang†, Guowei Wu†(†School of Software, Dalian University of Technology) Haihan Zhang(大连理工大学软件学院) Guowei Wu(大连理工大学软件学院) 💡 毒舌点评 亮点:论文提出了一个直观且有效的“多频谱特征拼接 + 卷积投影融合”策略,确实提升了基线ViT的性能,证明了特征多样性对小数据任务的价值。短板:将MoE引入ViT带来了显著的参数量(约284M)和计算复杂度(约68.8G FLOPs)增长,对于一个仅有四分类、数据量有限的任务而言,模型效率令人质疑,且论文未探讨轻量化方案。 📌 核心摘要 这篇论文旨在解决水下船舶噪声分类中数据稀缺和噪声环境复杂两大挑战。作者提出了一种名为UMV(Underwater Mixture-of-Experts Vision Transformer)的新型架构。该方法的核心在于:1)通过一个卷积融合模块,将STFT功率谱图、梅尔谱图和梅尔频率倒谱系数(MFCC)三种互补的频谱特征进行融合,形成更丰富的输入表示;2)在Vision Transformer编码器的前馈网络中,集成了一个采用Top-k稀疏路由机制的混合专家模型,以提升模型的表达能力和鲁棒性。在DeepShip数据集上,UMV达到了99.14%的分类准确率,相比基线ViT提升了3.18%,并且在高斯、粉红、虾类和螺旋桨等噪声环境下仍能保持超过92%的准确率(在20dB SNR下),显著优于现有的基于CNN和Transformer的方法。该工作的实际意义在于为水下声学监测提供了一种高精度、高鲁棒性的分类模型。主要局限性包括:模型参数量和计算量较大,可能不适合实时或资源受限的部署;未与更多最新的、专门的水下声学Transformer模型进行直接对比;且未开源代码或模型。 ...

2026-04-29