Adaptive Embedding Fusion with Contrastive Learning for Robust Fully Few-Shot Class-Incremental Audio Classification
📄 Adaptive Embedding Fusion with Contrastive Learning for Robust Fully Few-Shot Class-Incremental Audio Classification #音频分类 #对比学习 #少样本学习 #增量学习 #自适应特征融合 ✅ 7.5/10 | 前25% | #音频分类 | #对比学习 | #少样本学习 #增量学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kai Guo(北京理工大学) 通讯作者:Xiang Xie†*(北京理工大学, †北京理工大学珠海校区) 作者列表:Kai Guo(北京理工大学), Xiang Xie(北京理工大学, 北京理工大学珠海校区), Shangkai Zhao(北京理工大学) 💡 毒舌点评 该论文精准地“手术”解决了EDE模型膨胀的痛点,并通过引入对比学习“补血”提升性能,实验结果亮眼,工程改进思路清晰。但理论分析稍显薄弱,为何自适应融合后对比学习效果更佳,未给出更深层次的解释;且对比学习的应用较为常规,未探索更前沿的对比策略。 📌 核心摘要 问题:论文针对“全少样本类增量音频分类”(FFCAC)任务,即每个新类音频样本极少且需持续学习新类别的场景。现有基线方法EDE通过拼接多个特征提取器的输出来保留旧知识,但导致模型输入维度随学习进程无限膨胀,影响效率与性能。 方法核心:提出“自适应嵌入融合EDE(AEF-EDE)”。核心是引入一个可学习的加权融合模块,将不同时期(会话)的特征提取器输出进行加权求和,而非简单拼接,从而固定模型输入维度。同时,在增量学习阶段引入监督对比学习损失(LCL),以增强特征的判别性。 创新点:(1) 设计AEF模块,通过可学习参数自适应融合多会话嵌入,避免模型膨胀;(2) 将对比学习策略从基类会话(样本少)调整至增量会话(样本相对多),并证明其在AEF结构下能有效提升性能;(3) AEF与对比学习的结合在多个数据集上超越了原始EDE。 主要实验结果:在三个数据集上,AEF-EDE的平均准确率(AA)均优于EDE和其他方法。例如,在FSC-89上AA为43.39%(EDE为38.74%),在LS-100上为61.15%(EDE为56.65%),在NSynth-100上为56.44%(EDE为51.19%)。消融实验证实了AEF模块与对比学习损失(LCL)的协同有效性。 实际意义:为资源受限的音频持续学习场景(如野外声音监测)提供了一种更高效、可扩展的解决方案。 主要局限性:对比学习在基类会话中因样本过少而失效,作者承认这是未来工作方向;论文未讨论AEF模块的计算复杂度与EDE的具体对比;可学习参数θ的初始化和收敛性未深入分析。 🏗️ 模型架构 论文提出的AEF-EDE模型架构是对基线EDE的改进,其整体流程和核心模块如图1、图2所示。 ...