Cross Domain Few-Shot Class-Incremental Audio Classification Via Adversarial Contrastive Learning
📄 Cross Domain Few-Shot Class-Incremental Audio Classification Via Adversarial Contrastive Learning #音频分类 #对抗训练 #对比学习 #持续学习 7.4/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1.3/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 7.4/10 | 前50% | #音频分类 | #对抗训练 | #对比学习 #持续学习 | arxiv 👥 作者与机构 第一作者:Yongjie Si(华南理工大学电子与信息工程学院,广州) 通讯作者:Yanxiong Li(华南理工大学电子与信息工程学院,广州) 作者列表:Yongjie Si、Yanxiong Li、Sen Huang、Beibei Liu(均隶属于华南理工大学电子与信息工程学院) 💡 毒舌点评 本文首次在音频分类中形式化跨域少样本类增量学习(CD-FCAC)问题,并用对抗训练和对比学习给出直接解法,立意实用。然而,方法核心是将CV领域的域泛化策略(网络随机化+Wasserstein-style对抗训练)和监督对比学习套用至音频,技术深度有限;且仅靠谱图扰动模拟域偏移,在物理声学上缺乏依据。实验仅在三个公开数据集的六组域对上验证,回避了真实场景中的录音设备、声学环境等复杂域偏移,结论迁移性存疑。平均准确率作为主指标过于粗糙,掩盖了模型在增量后期的灾难性遗忘问题。 📌 核心摘要 问题:解决跨域少样本类增量音频分类(CD-FCAC)。基类样本来自源域,增量类样本来自存在域偏移的目标域,且每类仅有少量样本(如K-shot)。 方法核心:提出对抗对比训练策略。在基类训练阶段,使用谱扰动器对源域log-Mel谱图施加随机卷积扰动,并通过梯度上升最大化基于Wasserstein距离松弛的对抗损失,生成语义一致的伪目标域样本;随后联合源域和生成的对抗样本,最小化标准交叉熵与监督对比损失的组合目标,迫使编码器学习域不变且类内紧凑、类间可分的高区分度嵌入。增量阶段,冻结编码器以保留知识,仅用旧类嵌入均值和新类样本更新分类器。 与已有方法的新颖之处:首次在FCAC框架内显式处理源域与目标域分布差异,将单源域泛化的对抗训练与监督对比学习结合,为少样本增量学习提供域鲁棒的特征表示。 主要实验结果:在由LS-100、NSynth-100、FSC-89构造的六组跨域对上进行5-way 5-shot实验,方法在平均准确率(AA)上均超过对比基线(如NS→LS上79.09%,对比最佳基线AMFO+AFA的78.50%)。 实际意义:为智能家居、机器人等场景中,需要从不同域持续识别少量新音频类别的应用提供了一种轻量级方案。 主要局限性:域偏移仅通过谱图对抗扰动近似,未验证其对真实声学物理因素(录音设备、混响、噪声等)的模拟能力;冻结编码器策略完全放弃从目标域学习,限制性能上限;未探讨多源域或域标签未知的更复杂情形。 🔗 开源详情 代码:https://github.com/YongjieSi/ACL (论文公开) 模型权重:未提及 数据集:LS-100, NSynth-100, FSC-89,均在ModelScope公开: https://www.modelscope.cn/datasets/pp199124903/LS-100/summary https://www.modelscope.cn/datasets/pp199124903/FSC-89/summary https://www.modelscope.cn/datasets/pp199124903/NSynth-100/summary Demo:未提及 复现材料:未提及 🏗️ 方法概述和架构 该方法将CD-FCAC问题分解为基类训练(m=0)与增量训练(1≤m≤M-1)两个阶段。模型由编码器(如ResNet-18)、分类器(权重向量为 \(\{c_{y_j}\}\))和一个专用于数据增强的谱扰动器(Spectral Disruptor)构成。输入音频被转换为128维log-Mel谱图。 ...