📄 A LLM-Driven Acoustic Semantic Enriched Framework for Underwater Acoustic Target Recognition

#水声目标识别 #音频分类 #对比学习 #大语言模型 #跨模态

✅ 7.0/10 | 前25% | #音频分类 | #对比学习 #大语言模型 | #水声目标识别 #对比学习

学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中

👥 作者与机构

第一作者：Jingkai Cao（东华大学计算机科学与技术学院）
通讯作者：Shuai Yu（大连理工大学信息与通信工程学院），Wei Li（复旦大学计算机科学与技术学院）
作者列表：Jingkai Cao（东华大学计算机科学与技术学院），Shicheng Ding（Tabor Academy, Massachusetts, USA），Shuai Yu（大连理工大学信息与通信工程学院），Wei Li（复旦大学计算机科学与技术学院）

💡 毒舌点评

亮点：该工作巧妙地利用LLM（Gemini 2.5）生成细粒度的声学语义描述，构建知识库，以此“丰富”简单的类别标签，从而更精准地对齐音频与文本特征，有效缓解了多模态学习中常见的信息不对称问题。短板：方法严重依赖于外部LLM生成的文本质量，且整个推理流程（特别是LKR模块）引入了额外的检索和融合计算开销。最致命的是，代码和模型均未开源，这极大限制了其在实际研究社区中的可验证性和影响力。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及是否公开。
数据集：使用的是公开数据集DeepShip [20]和ShipsEar [23]，但论文未提供获取方式链接。
Demo：未提供。
复现材料：论文提供了非常详细的训练配置、损失函数权重、数据预处理步骤等文字描述，但未提供配置文件、检查点或附录中的额外细节。
论文中引用的开源项目：主要依赖于预训练的 CLAP 模型 [13] 作为基础编码器。

📌 核心摘要

问题：现有的水声目标识别（UATR）方法，无论是纯声学分类器还是早期的多模态方法，都存在“语义间隙”。后者通常仅使用粗糙的类别标签文本（如“这是一艘货船的声音”），无法充分描述音频信号中丰富的细节，导致文本引导能力不足，模型难以学到更具判别性的声学特征。
方法核心：本文提出了一个LLM驱动的声学语义增强框架（ASE-CLAP）。核心在于引入LLM驱动的知识检索（LKR）模块，利用LLM为每类船舶生成多条详细的声学特性描述，并编码成“声学-语义知识库”。在推理时，为每个类别检索最相关的语义描述并融合，生成比原始标签更丰富的“语义原型”。随后，通过多层次对比学习（全局级+原型级），将音频嵌入与这些细化的文本表示进行对齐。
创新性：与已有工作相比，新在：（1）首次将LLM生成的知识显式引入水声目标识别的文本表示中，实现了从“标签”到“知识增强原型”的升级；（2）设计了多层次对比学习机制，同时对齐全局类别信息和细粒度声学语义，增强了特征判别力。
实验结果：在DeepShip和ShipsEar两个公开数据集上，ASE-CLAP均取得了最优性能。例如，在DeepShip数据集上，OA（总体准确率）达到84.5%，超越了最强的多模态基线（MF-UATR, 79.3%）5.2个百分点，也显著优于纯声学模型（MHT-Transformer, 78.8%��。消融实验表明，LKR模块和多层次对比学习均带来了性能提升。图2的可视化显示，本方法学得的嵌入空间聚类更紧凑、类间分离度更高。
实际意义：该工作为提升UATR系统的识别精度提供了一种有效的多模态学习范式，证明了引入领域特定语义知识的价值，对水下声学感知、海洋监测等应用有积极意义。
主要局限性：（1）对生成高质量语义描述的LLM存在强依赖；（2）LKR模块在推理时引入了额外的检索和融合计算复杂度；（3）论文未公开代码、模型和生成描述的具体提示词，可复现性受限。

🏗️ 模型架构

本文提出的ASE-CLAP框架整体架构如图1所示。其完整流程和主要组件如下：

图1: pdf-image-page2-idx0

音频特征提取：输入原始音频波形，首先使用预训练的CLAP音频编码器提取通用音频嵌入。为适配水声领域，嵌入通过一个由两个线性层、ReLU激活和BatchNorm组成的可训练适配器进行转换，最终得到512维的水声域特征向量 a。
LLM驱动的知识检索（LKR）模块：
- 声学-语义知识库构建：利用LLM（Gemini 2.5）为C个船舶类别中的每一类，生成m条描述其声学特性的文本（如引擎低频轰鸣、船体破浪声等）。这些文本通过CLAP文本编码器和相同的适配器编码，形成一个包含 m×C 个向量的声学-语义知识库 S。
- 语义检索：对于每个类别 c，首先用模板文本（“This is a sound of [c]”）和适配器得到其原始标签文本嵌入 t_c。然后，计算 t_c 与知识库 S 中所有向量的余弦相似度，选取相似度最高的Top-K个嵌入。
- 原型生成：将选中的Top-K个向量通过基于注意力的融合（公式4），得到聚合的语义知识向量 u_c。最后，将原始标签嵌入 t_c 与 u_c 通过加权（λ）融合，生成最终的语义原型 p_c。这个原型包含了类别标签和细粒度声学语义知识。
多层次对比学习：
- 全局级对齐：计算音频嵌入 a 与所有类别标签文本嵌入 t 的对比损失（L_GC，公式6），促使模型学习粗粒度的类别匹配。
- 原型级对齐：计算音频嵌入 a 与所有语义原型 p 的对比损失（L_PC，公式7），促使模型学习细粒度的声学语义匹配。
预测与优化：预测时，计算音频嵌入与所有语义原型的余弦相似度，经Softmax得到分类概率（公式8）。训练时，总损失是全局对比损失（L_GC）、原型对比损失（L_PC）和用于分类的Focal Loss（L_focal）的加权和（公式9）。Focal Loss旨在处理类别不平衡问题。

💡 核心创新点

LLM驱动的知识检索（LKR）模块：
- 局限：传统多模态UATR仅使用“这是一艘[类别]船”这类标签级文本，信息极度匮乏，无法利用预训练文本编码器丰富的语义空间。
- 创新：提出利用LLM为每类目标生成多条专业的声学描述文本，构建领域知识库。通过检索和融合，将粗糙标签转化为富含声学细节的“语义原型”。
- 收益：提供了更细致、更具信息量的文本表示，引导模型关注声学信号中的判别性细节，有效弥合了模态间的信息鸿沟。消融实验（表3）显示加入LKR模块后OA提升了0.6个百分点。
多层次对比学习机制：
- 局限：仅使用单一的全局对比学习（如CLIP）可能无法充分利用不同粒度的语义信息。
- 创新：设计了双层对齐目标，同时优化音频特征与标签文本（全局级）以及与语义原型（原型级）的一致性。
- 收益：使模型既能掌握宏观类别信息，又能对相似类别的细微声学差异进行区分。消融实验（表3）显示加入原型级对比损失后，OA进一步提升了1.0个百分点。
将LLM能力成功迁移至水声领域：
- 局限：LLM在计算机视觉等领域应用广泛，但在水声等专业领域的潜力尚未充分挖掘。
- 创新：首次探索将LLM作为“知识生成器”，为特定领域的音频任务生成细粒度语义描述，作为多模态学习的桥梁。
- 收益：展示了LLM在特定领域知识增强方面的通用潜力，为其他音频理解任务（如生物声学、工业声学）提供了新思路。

🔬 细节详述

训练数据：
- 数据集：使用了两个公开数据集。DeepShip [20]：包含47小时4分钟真实录音，来自265艘独特船只，分为4类商船，采样率32kHz。ShipsEar [23]：包含90段录音，来自11类船舶和1类自然噪声，采样率52.734kHz。
- 预处理：将原始音频分割为5秒、无重叠的片段，并重采样至48kHz。未应用数据增强。
- 划分：随机按70%训练、30%验证/测试划分，确保数据无重叠。
损失函数：
- 全局对比损失 (L_GC)：标准的InfoNCE对比损失，作用于音频嵌入与标签文本嵌入对。
- 原型级对比损失 (L_PC)：结构与L_GC相同，但作用于音频嵌入与语义原型嵌入对。
- Focal Loss (L_focal)：用于分类的损失，旨在解决类别不平衡。公式为 -α(1-̂y)^γ log(̂y)，其中 α=0.25，γ=2.0。
- 总损失 (L_total)：L_GC + L_PC + λ_f * L_focal，其中 λ_f=10。
训练策略：
- 优化器：Adam。
- 学习率：1e-5。
- 批大小：32。
- 训练硬件：单张 NVIDIA RTX 3090 Ti GPU。
- 框架：PyTorch 3.0。
- 温度参数 τ：所有对比损失均设为0.07。
- 训练轮数/步数：论文未明确说明。
关键超参数：
- 音频适配器/文本适配器：均为两层全连接网络，中间维度1024，最终输出512维。
- LKR模块中的融合权重 λ：论文公式（5）中提及，但未给出具体数值。
- Top-K阈值：消融实验（表4）探索了top-k从1.0到0.7的影响，最佳性能出现在 top-k=0.9。
训练硬件：单张 NVIDIA RTX 3090 Ti GPU。
推理细节：通过计算音频嵌入与所有语义原型的相似度并Softmax得到概率分布，选择概率最高的类别作为预测结果。论文未提及流式、beam search等特殊解码策略。
正则化/稳定训练技巧：使用了BatchNorm，损失函数中使用了Focal Loss来处理不平衡。

📊 实验结果

论文在两个主流水声目标识别数据集上与多种方法进行了对比，结果如下：

表1. 在DeepShip数据集上的性能比较

方法	OA	AA	Kappa	F1
EfficientNet [5]	67.8	67.4	61.8	66.5
CRNN [9]	70.3	70.1	64.1	69.8
MF-UATR [11]	79.3	—	—	80.4
MHT-Transformer [21]	78.8	78.6	71.6	78.8
CLAP+Adapter (基线)	80.6	80.2	73.9	80.5
ASE-CLAP (本文)	84.5	84.3	79.3	84.5

表2. 在ShipsEar数据集上的性能比较

方法	OA	AA	Kappa	F1
EfficientNet [5]	74.2	71.2	69.4	74.2
CRNN [9]	78.7	75.3	73.9	78.7
MF-UATR [11]	93.1	—	—	92.4
MHT-Transformer [21]	87.4	84.0	83.2	87.4
CLAP+Adapter (基线)	87.7	84.4	83.5	87.7
ASE-CLAP (本文)	90.6	88.6	87.4	90.7
注：MF-UATR在ShipsEar上原始报告结果为93.1，但论文指出因预处理差异可能无法直接对比。

关键结论：在DeepShip上，本文方法在所有指标上大幅领先。在ShipsEar上，OA高于多数基线，但低于MF-UATR的报告值（93.1 vs 90.6），论文对此差异进行了解释。

表3. 在DeepShip数据集上的消融实验

方法	OA	AA	Kappa	F1
CLAP+adapter (基线)	80.6	80.2	73.9	80.5
+ GCloss	82.9	82.6	77.1	82.9
+ GCloss + LKR	83.5	83.3	77.9	83.5
+ GCloss + PCloss + LKR	84.5	84.3	79.3	84.5

关键结论：逐步添加全局对比损失（GCloss）、LKR模块和原型级对比损失（PCloss），性能持续提升，验证了每个组件的有效性。

表4. LKR模块中不同top-k阈值对性能的影响（DeepShip数据集）

top-k	OA	AA	Kappa	F1
1.0	83.4	83.0	77.8	83.4
0.9	84.5	84.3	79.3	84.5
0.8	83.4	83.1	77.7	83.3
0.7	82.8	82.5	77.0	82.8

关键结论：Top-k阈值（按相似度比例筛选）为0.9时性能最佳。过高（1.0）会引入噪声，过低（<0.9）则丢失必要语义信息。

图2: pdf-image-page2-idx1 关键结论：该图可视化了基线模型（a）和本文ASE-CLAP模型（b）学到的音频嵌入（使用t-SNE降维）。ASE-CLAP的嵌入点聚类更紧凑、不同类别之间的边界更清晰，直观证明了其学到的特征更具判别性。

⚖️ 评分理由

学术质量：7.0/7.0 - 本文针对明确的痛点（语义间隙），提出了完整且合理的解决方案（LKR+多层次对比学习）。技术细节描述清晰，实验设计包含充分的基线对比、消融实验和超参数分析，结果显著，证据链完整。创新性在于将LLM生成知识引入多模态对齐框架，属于有效的组合创新。
选题价值：1.5/2.0 - 水声目标识别是海洋科技和国防领域的关键应用，具有重要现实意义。将先进的多模态学习技术应用于此垂直领域，体现了技术迁移的价值。但对更广泛的音频/语音社区而言，其直接影响力相对有限。
开源与复现加成：0/1.0 - 论文详细公开了几乎所有实验超参数和训练细节，理论上按文复现的门槛较低。然而，论文未提供代码、模型权重、LLM生成的描述文本库以及具体的提示词，这实质性地阻碍了快速、精确的复现，无法给予加分。

← 返回 ICASSP 2026 论文分析

📄 A LLM-Driven Acoustic Semantic Enriched Framework for Underwater Acoustic Target Recognition#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文