📄 Parameter-efficient Dual-encoder Architecture with Differentiable Choquet Integral Fusion for Underwater Acoustic Classification

#参数高效微调 #模型融合 #音频分类

6.4/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0/1.5

👥 作者与机构

Amirmohammad Mohammadi: 德克萨斯A&M大学，电气与计算机工程系博士生。
Joshua Peeples: 德克萨斯A&M大学，电气与计算机工程系助理教授。
Alexandra Van Dine: 麻省理工学院林肯实验室，先进水下系统与技术组助理组长。

💡 毒舌点评

这篇论文瞄准了一个实际且重要的领域（水下声学分类），并试图用一个听起来很“高级”的数学工具（Choquet积分）来解决多模态融合问题。然而，其核心贡献——那个所谓的“可微分Choquet积分融合层”——更像是一场精心包装的数学体操，而非一个稳健的工程解决方案。作者声称其能“动态路由”到“被最少腐蚀”的表示，但在实验中，当模型容量足够时（完全微调），这个复杂机制的“动态性”却消失了（权重恒为0.5），这恰恰暴露了其理论动机与工程实践之间的脱节。论文在解释“为什么这样工作”时用力过猛，但在证明“它确实这样工作”以及“它比简单方法好多少”上却显乏力。实验设计上，与简单基线（如Concatenation Fusion）的缺失对比是硬伤，让人怀疑其复杂性的必要性。此外，将水下声学分类——一个明确的音频信号处理任务——包装成与“Foundation Model”相关的工作，多少有些蹭热点之嫌，其核心创新与通用基础模型的发展关联甚微。

📌 核心摘要

本文针对水下声学分类中单一表示（波形或频谱图）信息不全的问题，提出了一种参数高效的双编码器架构。该架构使用冻结的预训练模型（AVES处理波形，AST处理频谱图）作为骨干，并集成参数高效微调（PEFT）模块（如LoRA、HPT）进行领域适配。核心创新在于引入了一个基于Choquet积分的可微分决策级融合机制。该机制通过一个基于sigmoid的“软排序门控”实现，能够根据两个编码器对各类别的置信度差异，动态调整融合时对波形或频谱图特征的依赖（通过可学习的模糊测度权重）。在DeepShip和ShipsEar数据集上的实验表明，该双编码器PEFT框架在仅训练少量参数（约10万）的情况下，分类准确率优于单编码器基线，并且通过分析学习到的模糊测度和梯度显著性图，提供了一定的决策可解释性，展示了模型在不同类别上对输入表示的动态依赖。

🔗 开源详情

代码：论文中未提及任何代码仓库或开源链接。
模型权重：论文未提供任何训练好的模型权重下载地址。
数据集：论文使用了公开的DeepShip和ShipsEar数据集，但未在文中提供具体的下载链接。数据划分索引已保存以保证可复现性。
Demo：未提及。
复现材料：未提供训练配置文件、检查点或详细的超参数列表等。
论文中引用的开源项目：
1. AST (Audio Spectrogram Transformer)：用于频谱图分支的预训练模型。通常代码在：https://github.com/YuanGongND/ast。
2. AVES (Animal Vocalization Encoder based on Self-Supervision)：用于波形分支的预训练模型，本文使用AVES-nonbio变体。通常代码在：https://github.com/MitchellOng/AVES。
3. LoRA (Low-Rank Adaptation)：参数高效微调方法之一。原始论文代码通常在：https://github.com/microsoft/LoRA。
4. HPT (Histogram-based Parameter-efficient Tuning)：参数高效微调方法之一。论文引用[20]，其代码通常在：https://github.com/lin-zy/HPT。
5. 其他作为基线引用的模型（ResNet-50, ConvNeXtV2, CNN14, SSAST）通常可在其原始论文对应的公开代码库中找到。

🏗️ 方法概述和架构

所提方法是一个双流并行处理框架，旨在融合一维声学波形（\(\\mathbf{x}_{w}\)）和二维对数梅尔频谱图（\(\\mathbf{x}_{s}\)）的互补信息。

编码器分支：
- 波形编码器：使用在AudioSet和VGGSound子集上预训练的AVES-nonbio模型作为骨干。该模型擅长处理非生物音频信号。骨干网络保持冻结，仅在其内部层注入共享权重的PEFT模块（如LoRA或HPT）。
- 频谱图编码器：使用在AudioSet和ImageNet上预训练的AST模型作为骨干。该模型将频谱图视为图像块序列，通过自注意力机制建模全局依赖。同样，骨干冻结，注入独立的PEFT模块。
- PEFT模块：每个骨干网络内部的PEFT模块参数在其各层间共享。在训练期间，仅这些PEFT模块和最终的分类头可更新参数，实现了高效的领域适配。
分类头：
- 每个编码器分支的输出（\(\\mathbf{h}_{w}\), \(\\mathbf{h}_{s}\)）分别通过一个独立的、可训练的线性分类层，得到类别logits（\(\\mathbf{z}_{w}\), \(\\mathbf{z}_{s}\)）。
- 这些logits经过softmax函数转换为概率分布（\(\\mathbf{p}_{w}\), \(\\mathbf{p}_{s}\)），如公式(1)(2)所示。
可微分Choquet积分融合层：
- 这是本文的核心创新，用于替代简单的平均或拼接融合。Choquet积分能够建模输入间的冗余与协同关系，但其标准形式需要硬排序，不可微。
- 软排序门控：为解决可微性问题，提出了基于sigmoid的门控向量 \(\\mathbf{s} = \\sigma(k(\\mathbf{p}_{w} - \\mathbf{p}_{s}))\)（公式(4)）。当波形分支对某个类的置信度高于频谱图时，\(\\mathbf{s}\) 接近1，反之接近0。超参数 \(k=10.0\) 控制了门控的陡峭程度。
- 融合计算：最终的融合概率 \(\\mathbf{C}\) 通过公式(5)逐类计算： \[\\mathbf{C} = \\mathbf{s} \\odot \\left( \\mathbf{p}_{s} + (\\mathbf{p}_{w} - \\mathbf{p}_{s}) \\odot \\mathbf{g}_{w} \\right) + (1 - \\mathbf{s}) \\odot \\left( \\mathbf{p}_{w} + (\\mathbf{p}_{s} - \\mathbf{p}_{w}) \\odot \\mathbf{g}_{s} \\right)\] 其中 \(\\mathbf{g}_{w}\) 和 \(\\mathbf{g}_{s}\) 是可学习的、按类别优化的模糊测度权重，量化了每个表示在融合中的重要性。它们通过sigmoid激活函数约束在[0,1]之间。
- 归一化：计算得到的 \(\\mathbf{C}\) 经过除以各元素之和，得到最终融合概率分布 \(\\mathbf{p}_{fused}\)。
训练目标：
- 采用多任务损失函数（公式(6)）：\(L_{total} = \\frac{1}{4}(2 \\cdot CE(\\mathbf{p}_{fused}, \\mathbf{y}) + CE(\\mathbf{p}_{w}, \\mathbf{y}) + CE(\\mathbf{p}_{s}, \\mathbf{y}))\)。
- 该损失函数同时优化融合预测和两个分支的独立预测，其中融合预测的损失权重为2，以强调联合决策的重要性。

💡 核心创新点

应用于水下声学分类的可微分Choquet积分融合：将模糊积分理论引入该领域的决策级融合，以建模波形与频谱图表示间的非线性相互作用（冗余与协同）。关键贡献在于提出了一种可微分的近似实现（软排序门控），使得整个融合模块可与编码器端到端联合优化。
参数高效双编码器框架：设计了一个同时利用冻结预训练骨干（AVES, AST）和共享权重PEFT模块的架构，在显著减少可训练参数量（相比全参数微调）的同时，实现了接近或超过全微调单编码器基线的性能。
动态表示路由与可解释性：通过分析训练后学习到的模糊测度权重（\(\\mathbf{g}_{w}, \\mathbf{g}_{s}\)）和梯度显著性图，展示了模型能够根据样本和类别，动态调整对波形或频谱图特征的依赖，为黑箱模型的决策提供了一定的可解释性。

📊 实验结果

论文在DeepShip（4类）和ShipsEar（5类）两个水下声学数据集上进行了评估。数据划分采用70%/15%/15%的训练/验证/测试集，并确保了可复现性。

表 I：单/双编码器架构在数据集上的准确率（%）及可训练参数量（千）

编码器类型	方法	DeepShip	ShipsEar	# 参数 (k)
波形	全微调	67.9 ± 1.3	65.1 ± 1.9	90.2×10³
	线性探测	65.6 ± 1.4	63.0 ± 0.6	3.1 / 3.8
	LoRA-q-16	66.0 ± 0.2	63.4 ± 1.1	27.7 / 28.4
	LoRA-q-32	65.2 ± 0.4	63.9 ± 0.8	52.2 / 53.0
	HPT-16	66.2 ± 1.2	65.1 ± 0.2	15.4 / 16.2
	HPT-32	66.7 ± 0.3	62.7 ± 0.7	27.7 / 28.5
	HPT-64	66.6 ± 0.4	64.3 ± 0.4	52.4 / 53.1
频谱图	全微调	72.3 ± 1.4	67.3 ± 0.2	85.3×10³
	线性探测	63.7 ± 0.7	60.5 ± 1.5	3.1 / 3.8
	LoRA-q-16	68.9 ± 1.0	66.1 ± 1.3	27.7 / 28.4
	LoRA-q-32	69.4 ± 1.2	67.0 ± 1.4	52.2 / 53.0
	HPT-16	69.3 ± 1.3	66.1 ± 1.3	15.4 / 16.2
	HPT-32	69.8 ± 0.7	66.6 ± 0.8	27.7 / 28.5
	HPT-64	70.6 ± 1.8	67.3 ± 1.2	52.4 / 53.1
双编码器	全微调	74.7 ± 1.6	69.3 ± 0.6	175.4×10³
	线性探测	67.7 ± 0.2	64.0 ± 0.8	6.2 / 7.7
	LoRA-q-16	71.6 ± 1.0	68.3 ± 1.6	55.3 / 56.9
	LoRA-q-32	71.2 ± 1.2	68.7 ± 0.9	104.5 / 106.0
	HPT-16	71.0 ± 0.8	65.9 ± 0.7	30.8 / 32.3
	HPT-32	71.1 ± 1.1	67.3 ± 1.2	55.4 / 57.0
	HPT-64	71.1 ± 0.4	68.1 ± 0.6	104.7 / 106.3

表 II：与SOTA全微调单编码器基线的对比

方法	DeepShip	ShipsEar	# 参数 (k)
ResNet-50	64.3 ± 2.2	58.3 ± 3.7	23.5×10³
ConvNeXtV2-tiny	71.1 ± 0.3	56.7 ± 3.5	27.9×10³
SSAST	71.0 ± 0.9	63.2 ± 0.6	85.3×10³
AST	72.3 ± 1.4	67.3 ± 0.2	85.3×10³
CNN14	71.2 ± 1.5	61.6 ± 1.6	79.7×10³
AVES	67.9 ± 1.3	65.1 ± 1.9	90.2×10³
Dual Full Fine-Tune	75.3 ± 1.2	69.6 ± 0.5	175.5×10³
Dual LoRA	71.2 ± 1.2	68.7 ± 0.9	104.5 / 106.0
Dual HPT	71.1 ± 0.4	68.1 ± 0.6	104.7 / 106.3

主要发现：
1. 双编码器一致性优势：无论采用何种调优策略（全微调、PEFT、线性探测），双编码器架构的性能均优于对应的单编码器架构。
2. PEFT的效率：双编码器PEFT方法（如Dual LoRA-q-32）在仅训练约10万参数的情况下，准确率（DeepShip: 71.2%, ShipsEar: 68.7%）接近或超过多数全微调的单编码器SOTA模型（如AST、CNN14），同时参数量减少了约40%-80%。
3. 可解释性：在全微调设置下，融合模糊测度权重保持初始化的0.5，表明模型认为两个表示同等重要。在PEFT/线性探测下，权重向频谱图分支倾斜，表明在该约束下频谱图特征更鲁棒。但该权重表现出类别特异性（如DeepShip线性探测中，Tanker类的波形权重0.22 > 频谱图权重0.18）。
4. 表示路由可视化：通过Gradient × Input方法生成的显著性图（Figures 2, 3）展示了模型根据样本动态调整关注区域（如关注波形包络或频谱谐波）。
5. 低假阳性率优势：在ShipsEar数据集上，双编码器HPT方法的低FPR区域（pAUC0.30）表现显著优于单编码器全微调方法。

🔬 细节详述

数据处理：音频统一重采样至16kHz，分割为5秒非重叠片段。DeepShip训练/验证/测试样本数：23,362 / 5,080 / 5,067；ShipsEar：1,476 / 268 / 450。对波形和频谱图均应用了逐样本的z-score标准化。
Choquet积分的可微分实现细节：公式(5)是本文对标准Choquet积分的可微分近似。其核心思想是利用软门控 \(\\mathbf{s}\) 来近似硬排序后的选择操作，从而绕过不可微的排序步骤。该公式的具体数学推导和其与标准Choquet积分的理论关系（如近似程度、误差界）在文中未给出，是一个局限性。
CKA分析：论文使用中心核对齐（CKA）分析了不同PEFT方法学到的表示与全微调基线在各层的相似度（Figures 6, 7）。结果显示，随着网络加深，表示相似度下降，且波形分支的相似度普遍低于频谱图分支，表明波形表示的适配更具挑战性。在PEFT方法中，LoRA的表示对齐度最高，线性探测最低。

⚖️ 评分理由

创新性 (2.1/3)：将Choquet积分应用于音频多模态融合并实现可微分化是一个新颖的想法，在水下声学领域有明确动机。但Choquet积分本身并非新工具，且其可微实现（公式5）的理论深度和通用性有待进一步论证。主要创新点在于将PEFT与特定领域的双编码器融合框架相结合。
技术严谨性 (1.2/1.5)：整体方法描述清晰，实验设计合理，有多个数据集和基线对比。然而，核心融合公式的理论基础略显薄弱，缺乏对近似误差的分析。实验部分缺少与更简单融合方法（如Concatenation, Weighted Sum）的直接对比，以证明Choquet积分机制的必要性。
实验充分性 (1.1/1.5)：实验包含了准确率、参数量、可解释性（模糊测度、显著性图）、表示分析（CKA）等多个维度，较为全面。数据集选择合理。不足在于：1) 未提供计算成本（如推理时间、内存占用）的量化对比；2) 缺少消融实验验证各组件（如软排序门控中的 \(k\) 值、损失函数权重）的有效性。
清晰度 (0.8/1)：论文结构清晰，图表（如架构图、显著性图、CKA图）有效辅助了说明。数学公式表述规范。部分图表（如ROC曲线的缩放面板）设计有助于深入分析。不足是公式(5)的直观解释可以更充分。
影响力 (1.0/2)：工作对水下声学分类领域有直接价值，提供了一种高效且可解释的融合方案。然而，其核心方法（PEFT、融合机制）具有领域通用性，但论文聚焦于一个相对专业的应用领域（水下声学），对语音/音乐/音频更广泛社区的直接影响力有限。
开源 (0.0/1.5)：论文未提供代码、预训练模型权重或处理后的数据集链接，极大地限制了工作的可复现性和社区验证。这是主要扣分项。
可复现性 (0.3/0.5)：论文详细描述了数据划分、采样率、归一化方法，并保存了分割索引以保证可复现性。但受限于未开源代码，完整的实验复现仍有门槛。

🚨 局限与问题

理论保证不足：所提出的软排序门控Choquet积分融合（公式5）是一种启发式近似。论文未提供该近似与标准Choquet积分在数学上的等价性、近似误差或收敛性方面的理论分析，其有效性主要依赖于经验验证。
必要性证据缺失：实验中未与简单的决策级融合方法（如置信度加权平均、直接拼接后线性融合）进行对比。这使得读者无法判断复杂的Choquet积分机制是否带来了实质性的性能提升，还是仅仅增加了复杂性。
计算成本未知：尽管声称降低计算成本，但论文未报告模型的推理速度、训练内存占用或FLOPs等关键效率指标，其“参数高效”的声明缺乏完整的工程化支撑。
可微分门控的脆弱性：软排序门控（公式4）依赖于超参数 \(k\)，其值对最终融合行为有显著影响。论文仅报告了 \(k=10.0\) 这一固定值，未探讨其敏感性或提供选择依据。
可解释性的边界：模糊测度权重的分析仅限于最终层，且其在模型内部的传播和影响机制不清晰。梯度显著性图提供了样本级解释，但未量化融合决策对最终分类结果的贡献度。
泛化性未验证：实验仅在两个特定的水下声学数据集上进行。该框架在更嘈杂、更多样的水下环境或其他音频分类任务（如环境声、语音）上的泛化能力未知。
作者声明的局限：论文最后承认，未来需要进行更全面的计算成本评估，并研究量化方法以减少冻结骨干网络的内存开销。

📷 论文图片

← 返回 2026-06-02 语音/音乐/音频论文速递

📄 Parameter-efficient Dual-encoder Architecture with Differentiable Choquet Integral Fusion for Underwater Acoustic Classification#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

🔬 细节详述#

⚖️ 评分理由#

🚨 局限与问题#

📷 论文图片#

📎 相关论文