Adaptive Embedding Fusion with Contrastive Learning for Robust Fully Few-Shot Class-Incremental Audio Classification

📄 Adaptive Embedding Fusion with Contrastive Learning for Robust Fully Few-Shot Class-Incremental Audio Classification #音频分类 #对比学习 #少样本学习 #增量学习 #自适应特征融合 ✅ 7.5/10 | 前25% | #音频分类 | #对比学习 | #少样本学习 #增量学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kai Guo(北京理工大学) 通讯作者:Xiang Xie†*(北京理工大学, †北京理工大学珠海校区) 作者列表:Kai Guo(北京理工大学), Xiang Xie(北京理工大学, 北京理工大学珠海校区), Shangkai Zhao(北京理工大学) 💡 毒舌点评 该论文精准地“手术”解决了EDE模型膨胀的痛点,并通过引入对比学习“补血”提升性能,实验结果亮眼,工程改进思路清晰。但理论分析稍显薄弱,为何自适应融合后对比学习效果更佳,未给出更深层次的解释;且对比学习的应用较为常规,未探索更前沿的对比策略。 📌 核心摘要 问题:论文针对“全少样本类增量音频分类”(FFCAC)任务,即每个新类音频样本极少且需持续学习新类别的场景。现有基线方法EDE通过拼接多个特征提取器的输出来保留旧知识,但导致模型输入维度随学习进程无限膨胀,影响效率与性能。 方法核心:提出“自适应嵌入融合EDE(AEF-EDE)”。核心是引入一个可学习的加权融合模块,将不同时期(会话)的特征提取器输出进行加权求和,而非简单拼接,从而固定模型输入维度。同时,在增量学习阶段引入监督对比学习损失(LCL),以增强特征的判别性。 创新点:(1) 设计AEF模块,通过可学习参数自适应融合多会话嵌入,避免模型膨胀;(2) 将对比学习策略从基类会话(样本少)调整至增量会话(样本相对多),并证明其在AEF结构下能有效提升性能;(3) AEF与对比学习的结合在多个数据集上超越了原始EDE。 主要实验结果:在三个数据集上,AEF-EDE的平均准确率(AA)均优于EDE和其他方法。例如,在FSC-89上AA为43.39%(EDE为38.74%),在LS-100上为61.15%(EDE为56.65%),在NSynth-100上为56.44%(EDE为51.19%)。消融实验证实了AEF模块与对比学习损失(LCL)的协同有效性。 实际意义:为资源受限的音频持续学习场景(如野外声音监测)提供了一种更高效、可扩展的解决方案。 主要局限性:对比学习在基类会话中因样本过少而失效,作者承认这是未来工作方向;论文未讨论AEF模块的计算复杂度与EDE的具体对比;可学习参数θ的初始化和收敛性未深入分析。 🏗️ 模型架构 论文提出的AEF-EDE模型架构是对基线EDE的改进,其整体流程和核心模块如图1、图2所示。 ...

2026-04-29

Adaptive Task-Incremental Learning For Underwater Acoustic Recognition Based on Mixture-of-Experts Adapter

📄 Adaptive Task-Incremental Learning For Underwater Acoustic Recognition Based on Mixture-of-Experts Adapter #水下声学目标识别 #增量学习 #混合专家 #适配器 #参数高效微调 ✅ 7.0/10 | 前25% | #水下声学目标识别 | #混合专家 | #增量学习 #适配器 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Yang Zhang(国防科技大学计算机学院,与Changjian Wang并列第一作者) 通讯作者:Weiguo Chen(国防科技大学计算机学院) 作者列表:Yang Zhang†(国防科技大学计算机学院)、Changjian Wang†(国防科技大学计算机学院)、Weiguo Chen*(国防科技大学计算机学院)、Yuan Yuan(国防科技大学计算机学院)、Yingzhi Chen(国防科技大学计算机学院) 💡 毒舌点评 亮点: 将混合专家(MoE)与参数高效适配器结合,并创新性地引入基于重放数据分布的自适应任务识别模块(RA-TID),为无需显式任务标签的增量学习提供了优雅的解决方案,在多个水声数据集上取得了优异的遗忘控制性能。 短板: 论文声称“自适应”和“未知任务”感知,但所有实验都是在固定的、任务ID明确的序列上进行的,缺乏在真正动态、任务边界模糊或未知任务出现的真实场景下的验证;此外,实验部分完全缺乏对计算资源、训练时长的描述,且未开源,极大削弱了其说服力。 📌 核心摘要 这篇论文针对水下声学目标识别(UATR)中增量学习(IL)场景下,现有参数隔离方法依赖显式任务标签且忽略任务关联性的问题,提出了一种基于混合专家适配器(MoE-Adapter)的自适应任务增量学习框架。其核心方法是将预训练声学模型与稀疏门控的MoE-Adapter结合,通过轻量级路由器动态选择专家以实现跨任务知识共享;同时,设计了一个基于重放数据分布的任务识别模块(RA-TID),通过匹配输入特征与历史任务原型来自动推断任务身份,从而无需外部标签。实验在DeepShip等五个公开水声数据集上进行,结果显示,该方法在平均性能退化(PD)指标上达到了最低的1.93%,显著优于对比方法(如Meta-SC的2.86%),同时其可训练参数量仅为4.9M,相比全参数微调减少了90%以上。该工作的实际意义在于为水声系统在实际部署中应对新出现的目标类别提供了一种参数高效、自适应的增量学习方案。主要局限性在于缺乏对真实动态增量场景(如任务顺序未知、重叠)的验证,且复现信息严重不足。 🏗️ 模型架构 整体框架如图1所示,包含两个并行模块:MoE-Adapter模块和RA-TID模块。 特征提取骨干:输入水声信号经过预处理为对数梅尔频谱图,送入固定的预训练音频编码器(文中提到使用SSAST)提取特征。该骨干网络参数被冻结,以保留其通用声学表示能力。 MoE-Adapter模块: 位置与功能:该模块被插入到预训练Transformer块的自注意力层之后,作用是根据任务信息对特征进行调制。 专家(Expert):由多个并行的适配器网络组成。每个专家是一个瓶颈结构,包含一个下投影层、ReLU激活和一个上投影层,公式为:Ada(x) = W_up · ReLU(W_down · x + b_down) + b_up。这种设计在减少参数的同时保持了表达能力。 路由器(Router):是一个轻量级线性网络,接收来自RA-TID模块的任务表示向量z_t作为输入,通过线性投影R(z_t) = w_r · z_t + b_r得到每个专家的门控分数。 稀疏选择与聚合:采用Top-K机制,仅选择K个门控分数最高的专家。被选专家的分数经Softmax归一化后得到权重W_i,最终输出为选中专家输出的加权和与原始输入的残差连接:Y_t = Σ(W_i · Ada_i(X_t)) + X_t。 平衡与冻结策略:引入辅助负载均衡损失L_bal(基于KL散度)鼓励均匀使用专家。同时,通过指数移动平均追踪专家激活频率,对超过阈值的专家进行临时冻结以保留知识,并为利用率低的专家添加路由偏置以优先适应新任务。 RA-TID(重放感知任务识别)模块: 任务特征提取器(TINet):一组针对不同历史任务独立训练的任务相关自编码器。当前输入通过TINet得到任务特征向量z_t,该向量隐含了输入与历史任务的相似度信息。 向量重放比较器(VRC):维护一个任务原型重放记忆库M,每个原型m_t由高斯分布(均值μ_t,方差δ_t)表示。比较器计算z_t与每个原型的马氏距离d_t,并通过温度缩放的指数函数转换为相似度分数s_t。 任务识别:通过阈值比较实现:若最大相似度s_max超过阈值Thres,则判定为已知任务t;否则判定为未知任务。该结果指导MoE-Adapter路由器激活相应的专家子集。阈值Thres通过历史分数的移动百分位数进行自适应调整。 💡 核心创新点 自适应任务感知的MoE-Adapter框架:首次将混合专家架构与参数高效适配器结合应用于水声目标识别的增量学习。路由器的决策不依赖外部任务标签,而是由RA-TID模块生成的任务表示向量驱动,实现了从“显式任务ID”到“隐式任务表征”的转变。 基于重放数据分布的任务识别模块(RA-TID):创新性地利用任务相关自编码器提取的特征分布和存储的高斯原型,通过概率距离度量(马氏距离)进行任务识别。这解决了参数隔离方法需要任务标签的痛点,并为处理未知任务(通过阈值判定)提供了可能。 动态专家管理与负载均衡:设计了结合负载均衡损失、激活频率追踪、动态冻结和路由偏置的专家管理策略。这超越了简单的Top-K选择,旨在实现专家资源的合理分配和长期知识的有效保留,是保障增量学习稳定性的关键。 🔬 细节详述 训练数据:使用了五个公开水声数据集(DeepShip, ShipsEar, WhaleSound, Watkins, OceanShip)作为五个独立的增量任务。音频统一重采样至16kHz,提取128频带的对数梅尔频谱图。数据增强未提及。 损失函数:主要损失为任务分类损失(未明确说明,应为交叉熵损失)。此外,引入了辅助负载均衡损失L_bal(公式5)以平衡专家利用率。 训练策略:论文中未说明具体的学习率、优化器、批量大小、训练轮数、调度策略、预训练骨干网络(SSAST)的微调策略(文中提到骨干冻结)等关键训练细节。 关键超参数:骨干网络参数约86.1M(来自表2)。MoE-Adapter模块的核心超参数包括专家数量(N_E)和路由器数量(N_R),消融实验中探索了10E/1R, 10E/5R, 20E/1R, 20E/5R,最终选择20E/5R。适配器瓶颈维度d_neck ≪ d(具体值未说明)。RA-TID中的温度参数τ和阈值Thres未说明具体值。 训练硬件:论文中未提及。 推理细节:推理时,RA-TID模块计算输入与所有历史任务原型的相似度,通过阈值判断任务类别。已知任务激活相应路由器进行前向传播;未知任务使用冻结骨干进行零样本推理。具体推理速度、是否支持流式处理未说明。 正则化或稳定训练技巧:除负载均衡损失外,还采用了残差连接(公式4)、专家动态冻结策略、路由偏置调节等。 📊 实验结果 主要实验在五个数据集(视为五个任务)的序列上进行,评估指标为准确率(Acc)和最终准确率(Last),以及平均性能退化(PD)。 ...

2026-04-29

Incremental Learning for Audio Classification with Hebbian Deep Neural Networks

📄 Incremental Learning for Audio Classification with Hebbian Deep Neural Networks #音频分类 #增量学习 #灾难性遗忘 #Hebbian学习 #稳定性-可塑性 ✅ 7.5/10 | 前25% | #音频分类 | #增量学习 | #灾难性遗忘 #Hebbian学习 学术质量 7.0/7 | 选题价值 7.5/2 | 复现加成 8.0 | 置信度 高 👥 作者与机构 第一作者:Riccardo Casciotti (Tampere University, Signal Processing Research Centre) 通讯作者:未说明 作者列表:Riccardo Casciotti (Tampere University, Signal Processing Research Centre), Francesco De Santis (Politecnico di Milano, Department of Electronics, Information and Bioengineering), Alberto Antonietti (Politecnico di Milano, Department of Electronics, Information and Bioengineering), Annamaria Mesaros (Tampere University, Signal Processing Research Centre) 💡 毒舌点评 亮点:巧妙借用神经科学中的“多巴胺调节”概念,设计了一个简单而有效的核可塑性调制规则,在Hebbian学习框架下稳定了记忆,这是一个优雅的生物启发式工程实现。短板:所有验证仅基于一个规模和难度都有限的环境声数据集ESC-50,这使得“显著提升”和“生物合理性”的说法缺乏更有力的普适性证据,让人怀疑该方法在更大、更复杂的音频任务(如语音、音乐)或开放集增量学习中的真实效用。 ...

2026-04-29