水声目标识别

📄 A LLM-Driven Acoustic Semantic Enriched Framework for Underwater Acoustic Target Recognition #水声目标识别 #音频分类 #对比学习 #大语言模型 #跨模态 ✅ 7.0/10 | 前25% | #音频分类 | #对比学习 #大语言模型 | #水声目标识别 #对比学习学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Jingkai Cao（东华大学计算机科学与技术学院）通讯作者：Shuai Yu（大连理工大学信息与通信工程学院），Wei Li（复旦大学计算机科学与技术学院）作者列表：Jingkai Cao（东华大学计算机科学与技术学院），Shicheng Ding（Tabor Academy, Massachusetts, USA），Shuai Yu（大连理工大学信息与通信工程学院），Wei Li（复旦大学计算机科学与技术学院） 💡 毒舌点评亮点：该工作巧妙地利用LLM（Gemini 2.5）生成细粒度的声学语义描述，构建知识库，以此“丰富”简单的类别标签，从而更精准地对齐音频与文本特征，有效缓解了多模态学习中常见的信息不对称问题。短板：方法严重依赖于外部LLM生成的文本质量，且整个推理流程（特别是LKR模块）引入了额外的检索和融合计算开销。最致命的是，代码和模型均未开源，这极大限制了其在实际研究社区中的可验证性和影响力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开。数据集：使用的是公开数据集DeepShip [20]和ShipsEar [23]，但论文未提供获取方式链接。 Demo：未提供。复现材料：论文提供了非常详细的训练配置、损失函数权重、数据预处理步骤等文字描述，但未提供配置文件、检查点或附录中的额外细节。论文中引用的开源项目：主要依赖于预训练的 CLAP 模型 [13] 作为基础编码器。 📌 核心摘要问题：现有的水声目标识别（UATR）方法，无论是纯声学分类器还是早期的多模态方法，都存在“语义间隙”。后者通常仅使用粗糙的类别标签文本（如“这是一艘货船的声音”），无法充分描述音频信号中丰富的细节，导致文本引导能力不足，模型难以学到更具判别性的声学特征。方法核心：本文提出了一个LLM驱动的声学语义增强框架（ASE-CLAP）。核心在于引入LLM驱动的知识检索（LKR）模块，利用LLM为每类船舶生成多条详细的声学特性描述，并编码成“声学-语义知识库”。在推理时，为每个类别检索最相关的语义描述并融合，生成比原始标签更丰富的“语义原型”。随后，通过多层次对比学习（全局级+原型级），将音频嵌入与这些细化的文本表示进行对齐。创新性：与已有工作相比，新在：（1）首次将LLM生成的知识显式引入水声目标识别的文本表示中，实现了从“标签”到“知识增强原型”的升级；（2）设计了多层次对比学习机制，同时对齐全局类别信息和细粒度声学语义，增强了特征判别力。实验结果：在DeepShip和ShipsEar两个公开数据集上，ASE-CLAP均取得了最优性能。例如，在DeepShip数据集上，OA（总体准确率）达到84.5%，超越了最强的多模态基线（MF-UATR, 79.3%）5.2个百分点，也显著优于纯声学模型（MHT-Transformer, 78.8%��。消融实验表明，LKR模块和多层次对比学习均带来了性能提升。图2的可视化显示，本方法学得的嵌入空间聚类更紧凑、类间分离度更高。实际意义：该工作为提升UATR系统的识别精度提供了一种有效的多模态学习范式，证明了引入领域特定语义知识的价值，对水下声学感知、海洋监测等应用有积极意义。主要局限性：（1）对生成高质量语义描述的LLM存在强依赖；（2）LKR模块在推理时引入了额外的检索和融合计算复杂度；（3）论文未公开代码、模型和生成描述的具体提示词，可复现性受限。 🏗️ 模型架构本文提出的ASE-CLAP框架整体架构如图1所示。其完整流程和主要组件如下： ...