📄 A LLM-Driven Acoustic Semantic Enriched Framework for Underwater Acoustic Target Recognition

#水声目标识别 #音频分类 #对比学习 #大语言模型 #跨模态

7.0/10 | 前25% | #音频分类 | #对比学习 #大语言模型 | #水声目标识别 #对比学习

学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中

👥 作者与机构

  • 第一作者:Jingkai Cao(东华大学计算机科学与技术学院)
  • 通讯作者:Shuai Yu(大连理工大学信息与通信工程学院),Wei Li(复旦大学计算机科学与技术学院)
  • 作者列表:Jingkai Cao(东华大学计算机科学与技术学院),Shicheng Ding(Tabor Academy, Massachusetts, USA),Shuai Yu(大连理工大学信息与通信工程学院),Wei Li(复旦大学计算机科学与技术学院)

💡 毒舌点评

亮点:该工作巧妙地利用LLM(Gemini 2.5)生成细粒度的声学语义描述,构建知识库,以此“丰富”简单的类别标签,从而更精准地对齐音频与文本特征,有效缓解了多模态学习中常见的信息不对称问题。 短板:方法严重依赖于外部LLM生成的文本质量,且整个推理流程(特别是LKR模块)引入了额外的检索和融合计算开销。最致命的是,代码和模型均未开源,这极大限制了其在实际研究社区中的可验证性和影响力。

📌 核心摘要

  1. 问题:现有的水声目标识别(UATR)方法,无论是纯声学分类器还是早期的多模态方法,都存在“语义间隙”。后者通常仅使用粗糙的类别标签文本(如“这是一艘货船的声音”),无法充分描述音频信号中丰富的细节,导致文本引导能力不足,模型难以学到更具判别性的声学特征。
  2. 方法核心:本文提出了一个LLM驱动的声学语义增强框架(ASE-CLAP)。核心在于引入LLM驱动的知识检索(LKR)模块,利用LLM为每类船舶生成多条详细的声学特性描述,并编码成“声学-语义知识库”。在推理时,为每个类别检索最相关的语义描述并融合,生成比原始标签更丰富的“语义原型”。随后,通过多层次对比学习(全局级+原型级),将音频嵌入与这些细化的文本表示进行对齐。
  3. 创新性:与已有工作相比,新在:(1)首次将LLM生成的知识显式引入水声目标识别的文本表示中,实现了从“标签”到“知识增强原型”的升级;(2)设计了多层次对比学习机制,同时对齐全局类别信息和细粒度声学语义,增强了特征判别力。
  4. 实验结果:在DeepShip和ShipsEar两个公开数据集上,ASE-CLAP均取得了最优性能。例如,在DeepShip数据集上,OA(总体准确率)达到84.5%,超越了最强的多模态基线(MF-UATR, 79.3%)5.2个百分点,也显著优于纯声学模型(MHT-Transformer, 78.8%���。消融实验表明,LKR模块和多层次对比学习均带来了性能提升。图2的可视化显示,本方法学得的嵌入空间聚类更紧凑、类间分离度更高。
  5. 实际意义:该工作为提升UATR系统的识别精度提供了一种有效的多模态学习范式,证明了引入领域特定语义知识的价值,对水下声学感知、海洋监测等应用有积极意义。
  6. 主要局限性:(1)对生成高质量语义描述的LLM存在强依赖;(2)LKR模块在推理时引入了额外的检索和融合计算复杂度;(3)论文未公开代码、模型和生成描述的具体提示词,可复现性受限。

🏗️ 模型架构

本文提出的ASE-CLAP框架整体架构如图1所示。其完整流程和主要组件如下:

图1: pdf-image-page2-idx0

  1. 音频特征提取:输入原始音频波形,首先使用预训练的CLAP音频编码器提取通用音频嵌入。为适配水声领域,嵌入通过一个由两个线性层、ReLU激活和BatchNorm组成的可训练适配器进行转换,最终得到512维的水声域特征向量 a。

  2. LLM驱动的知识检索(LKR)模块:

    • 声学-语义知识库构建:利用LLM(Gemini 2.5)为C个船舶类别中的每一类,生成m条描述其声学特性的文本(如引擎低频轰鸣、船体破浪声等)。这些文本通过CLAP文本编码器和相同的适配器编码,形成一个包含 m×C 个向量的声学-语义知识库 S。
    • 语义检索:对于每个类别 c,首先用模板文本(“This is a sound of [c]”)和适配器得到其原始标签文本嵌入 t_c。然后,计算 t_c 与知识库 S 中所有向量的余弦相似度,选取相似度最高的Top-K个嵌入。
    • 原型生成:将选中的Top-K个向量通过基于注意力的融合(公式4),得到聚合的语义知识向量 u_c。最后,将原始标签嵌入 t_c 与 u_c 通过加权(λ)融合,生成最终的语义原型 p_c。这个原型包含了类别标签和细粒度声学语义知识。
  3. 多层次对比学习:

    • 全局级对齐:计算音频嵌入 a 与所有类别标签文本嵌入 t 的对比损失(L_GC,公式6),促使模型学习粗粒度的类别匹配。
    • 原型级对齐:计算音频嵌入 a 与所有语义原型 p 的对比损失(L_PC,公式7),促使模型学习细粒度的声学语义匹配。
  4. 预测与优化:预测时,计算音频嵌入与所有语义原型的余弦相似度,经Softmax得到分类概率(公式8)。训练时,总损失是全局对比损失(L_GC)、原型对比损失(L_PC)和用于分类的Focal Loss(L_focal)的加权和(公式9)。Focal Loss旨在处理类别不平衡问题。

💡 核心创新点

  1. LLM驱动的知识检索(LKR)模块:

    • 局限:传统多模态UATR仅使用“这是一艘[类别]船”这类标签级文本,信息极度匮乏,无法利用预训练文本编码器丰富的语义空间。
    • 创新:提出利用LLM为每类目标生成多条专业的声学描述文本,构建领域知识库。通过检索和融合,将粗糙标签转化为富含声学细节的“语义原型”。
    • 收益:提供了更细致、更具信息量的文本表示,引导模型关注声学信号中的判别性细节,有效弥合了模态间的信息鸿沟。消融实验(表3)显示加入LKR模块后OA提升了0.6个百分点。
  2. 多层次对比学习机制:

    • 局限:仅使用单一的全局对比学习(如CLIP)可能无法充分利用不同粒度的语义信息。
    • 创新:设计了双层对齐目标,同时优化音频特征与标签文本(全局级)以及与语义原型(原型级)的一致性。
    • 收益:使模型既能掌握宏观类别信息,又能对相似类别的细微声学差异进行区分。消融实验(表3)显示加入原型级对比损失后,OA进一步提升了1.0个百分点。
  3. 将LLM能力成功迁移至水声领域:

    • 局限:LLM在计算机视觉等领域应用广泛,但在水声等专业领域的潜力尚未充分挖掘。
    • 创新:首次探索将LLM作为“知识生成器”,为特定领域的音频任务生成细粒度语义描述,作为多模态学习的桥梁。
    • 收益:展示了LLM在特定领域知识增强方面的通用潜力,为其他音频理解任务(如生物声学、工业声学)提供了新思路。

🔬 细节详述

  • 训练数据:

    • 数据集:使用了两个公开数据集。DeepShip [20]:包含47小时4分钟真实录音,来自265艘独特船只,分为4类商船,采样率32kHz。ShipsEar [23]:包含90段录音,来自11类船舶和1类自然噪声,采样率52.734kHz。
    • 预处理:将原始音频分割为5秒、无重叠的片段,并重采样至48kHz。未应用数据增强。
    • 划分:随机按70%训练、30%验证/测试划分,确保数据无重叠。
  • 损失函数:

    • 全局对比损失 (L_GC):标准的InfoNCE对比损失,作用于音频嵌入与标签文本嵌入对。
    • 原型级对比损失 (L_PC):结构与L_GC相同,但作用于音频嵌入与语义原型嵌入对。
    • Focal Loss (L_focal):用于分类的损失,旨在解决类别不平衡。公式为 -α(1-̂y)^γ log(̂y),其中 α=0.25γ=2.0
    • 总损失 (L_total):L_GC + L_PC + λ_f * L_focal,其中 λ_f=10
  • 训练策略:

    • 优化器:Adam。
    • 学习率:1e-5。
    • 批大小:32。
    • 训练硬件:单张 NVIDIA RTX 3090 Ti GPU。
    • 框架:PyTorch 3.0。
    • 温度参数 τ:所有对比损失均设为0.07。
    • 训练轮数/步数:论文未明确说明。
  • 关键超参数:

    • 音频适配器/文本适配器:均为两层全连接网络,中间维度1024,最终输出512维。
    • LKR模块中的融合权重 λ:论文公式(5)中提及,但未给出具体数值。
    • Top-K阈值:消融实验(表4)探索了top-k从1.0到0.7的影响,最佳性能出现在 top-k=0.9
  • 训练硬件:单张 NVIDIA RTX 3090 Ti GPU。

  • 推理细节:通过计算音频嵌入与所有语义原型的相似度并Softmax得到概率分布,选择概率最高的类别作为预测结果。论文未提及流式、beam search等特殊解码策略。

  • 正则化/稳定训练技巧:使用了BatchNorm,损失函数中使用了Focal Loss来处理不平衡。

📊 实验结果

论文在两个主流水声目标识别数据集上与多种方法进行了对比,结果如下:

表1. 在DeepShip数据集上的性能比较

方法OAAAKappaF1
EfficientNet [5]67.867.461.866.5
CRNN [9]70.370.164.169.8
MF-UATR [11]79.380.4
MHT-Transformer [21]78.878.671.678.8
CLAP+Adapter (基线)80.680.273.980.5
ASE-CLAP (本文)84.584.379.384.5

表2. 在ShipsEar数据集上的性能比较

方法OAAAKappaF1
EfficientNet [5]74.271.269.474.2
CRNN [9]78.775.373.978.7
MF-UATR [11]93.192.4
MHT-Transformer [21]87.484.083.287.4
CLAP+Adapter (基线)87.784.483.587.7
ASE-CLAP (本文)90.688.687.490.7
注:MF-UATR在ShipsEar上原始报告结果为93.1,但论文指出因预处理差异可能无法直接对比。

关键结论:在DeepShip上,本文方法在所有指标上大幅领先。在ShipsEar上,OA高于多数基线,但低于MF-UATR的报告值(93.1 vs 90.6),论文对此差异进行了解释。

表3. 在DeepShip数据集上的消融实验

方法OAAAKappaF1
CLAP+adapter (基线)80.680.273.980.5
+ GCloss82.982.677.182.9
+ GCloss + LKR83.583.377.983.5
+ GCloss + PCloss + LKR84.584.379.384.5

关键结论:逐步添加全局对比损失(GCloss)、LKR模块和原型级对比损失(PCloss),性能持续提升,验证了每个组件的有效性。

表4. LKR模块中不同top-k阈值对性能的影响(DeepShip数据集)

top-kOAAAKappaF1
1.083.483.077.883.4
0.984.584.379.384.5
0.883.483.177.783.3
0.782.882.577.082.8

关键结论:Top-k阈值(按相似度比例筛选)为0.9时性能最佳。过高(1.0)会引入噪声,过低(<0.9)则丢失必要语义信息。

图2: pdf-image-page2-idx1 图2: pdf-image-page2-idx1 关键结论:该图可视化了基线模型(a)和本文ASE-CLAP模型(b)学到的音频嵌入(使用t-SNE降维)。ASE-CLAP的嵌入点聚类更紧凑、不同类别之间的边界更清晰,直观证明了其学到的特征更具判别性。

⚖️ 评分理由

  • 学术质量:7.0/7.0 - 本文针对明确的痛点(语义间隙),提出了完整且合理的解决方案(LKR+多层次对比学习)。技术细节描述清晰,实验设计包含充分的基线对比、消融实验和超参数分析,结果显著,证据链完整。创新性在于将LLM生成知识引入多模态对齐框架,属于有效的组合创新。
  • 选题价值:1.5/2.0 - 水声目标识别是海洋科技和国防领域的关键应用,具有重要现实意义。将先进的多模态学习技术应用于此垂直领域,体现了技术迁移的价值。但对更广泛的音频/语音社区而言,其直接影响力相对有限。
  • 开源与复现加成:0/1.0 - 论文详细公开了几乎所有实验超参数和训练细节,理论上按文复现的门槛较低。然而,论文未提供代码、模型权重、LLM生成的描述文本库以及具体的提示词,这实质性地阻碍了快速、精确的复现,无法给予加分。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:未提及是否公开。
  • 数据集:使用的是公开数据集DeepShip [20]和ShipsEar [23],但论文未提供获取方式链接。
  • Demo:未提供。
  • 复现材料:论文提供了非常详细的训练配置、损失函数权重、数据预处理步骤等文字描述,但未提供配置文件、检查点或附录中的额外细节。
  • 论文中引用的开源项目:主要依赖于预训练的 CLAP 模型 [13] 作为基础编码器。

← 返回 ICASSP 2026 论文分析