A LLM-Driven Acoustic Semantic Enriched Framework for Underwater Acoustic Target Recognition
📄 A LLM-Driven Acoustic Semantic Enriched Framework for Underwater Acoustic Target Recognition #水声目标识别 #音频分类 #对比学习 #大语言模型 #跨模态 ✅ 7.0/10 | 前25% | #音频分类 | #对比学习 #大语言模型 | #水声目标识别 #对比学习 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Jingkai Cao(东华大学计算机科学与技术学院) 通讯作者:Shuai Yu(大连理工大学信息与通信工程学院),Wei Li(复旦大学计算机科学与技术学院) 作者列表:Jingkai Cao(东华大学计算机科学与技术学院),Shicheng Ding(Tabor Academy, Massachusetts, USA),Shuai Yu(大连理工大学信息与通信工程学院),Wei Li(复旦大学计算机科学与技术学院) 💡 毒舌点评 亮点:该工作巧妙地利用LLM(Gemini 2.5)生成细粒度的声学语义描述,构建知识库,以此“丰富”简单的类别标签,从而更精准地对齐音频与文本特征,有效缓解了多模态学习中常见的信息不对称问题。 短板:方法严重依赖于外部LLM生成的文本质量,且整个推理流程(特别是LKR模块)引入了额外的检索和融合计算开销。最致命的是,代码和模型均未开源,这极大限制了其在实际研究社区中的可验证性和影响力。 📌 核心摘要 问题:现有的水声目标识别(UATR)方法,无论是纯声学分类器还是早期的多模态方法,都存在“语义间隙”。后者通常仅使用粗糙的类别标签文本(如“这是一艘货船的声音”),无法充分描述音频信号中丰富的细节,导致文本引导能力不足,模型难以学到更具判别性的声学特征。 方法核心:本文提出了一个LLM驱动的声学语义增强框架(ASE-CLAP)。核心在于引入LLM驱动的知识检索(LKR)模块,利用LLM为每类船舶生成多条详细的声学特性描述,并编码成“声学-语义知识库”。在推理时,为每个类别检索最相关的语义描述并融合,生成比原始标签更丰富的“语义原型”。随后,通过多层次对比学习(全局级+原型级),将音频嵌入与这些细化的文本表示进行对齐。 创新性:与已有工作相比,新在:(1)首次将LLM生成的知识显式引入水声目标识别的文本表示中,实现了从“标签”到“知识增强原型”的升级;(2)设计了多层次对比学习机制,同时对齐全局类别信息和细粒度声学语义,增强了特征判别力。 实验结果:在DeepShip和ShipsEar两个公开数据集上,ASE-CLAP均取得了最优性能。例如,在DeepShip数据集上,OA(总体准确率)达到84.5%,超越了最强的多模态基线(MF-UATR, 79.3%)5.2个百分点,也显著优于纯声学模型(MHT-Transformer, 78.8%���。消融实验表明,LKR模块和多层次对比学习均带来了性能提升。图2的可视化显示,本方法学得的嵌入空间聚类更紧凑、类间分离度更高。 实际意义:该工作为提升UATR系统的识别精度提供了一种有效的多模态学习范式,证明了引入领域特定语义知识的价值,对水下声学感知、海洋监测等应用有积极意义。 主要局限性:(1)对生成高质量语义描述的LLM存在强依赖;(2)LKR模块在推理时引入了额外的检索和融合计算复杂度;(3)论文未公开代码、模型和生成描述的具体提示词,可复现性受限。 🏗️ 模型架构 本文提出的ASE-CLAP框架整体架构如图1所示。其完整流程和主要组件如下: ...