PACE: Pretrained Audio Continual Learning
📄 PACE: Pretrained Audio Continual Learning #音频分类 #持续学习 #预训练 #自监督学习 #参数高效微调 🔥 9.0/10 | 前10% | #音频分类 | #持续学习 | #预训练 #自监督学习 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Chang Li (清华大学心理与认知科学系) 通讯作者:Liyuan Wang (liyuanwang@tsinghua.edu.cn, 清华大学心理与认知科学系) 作者列表:Chang Li(清华大学心理与认知科学系)、Kanglei Zhou(清华大学心理与认知科学系)、Liyuan Wang†(清华大学心理与认知科学系) (注:*表示共同第一作者,†表示通讯作者) 💡 毒舌点评 亮点:这是一篇问题定义清晰、实验极其扎实的“工程科学”论文。它首次将音频持续学习(ACL)问题系统化,并通过精巧的分析(如图1、图3)揭示了音频域与视觉域CL的根本差异,提出的PACE方法在6个差异巨大的基准上均显著刷新SOTA,特别是将性能逼近了联合训练上界。 短板:方法设计虽然有效,但各模块(改进FSA、子空间正交PEFT、边界感知扰动)组合起来略显复杂,调参空间可能不小。此外,对于计算资源敏感的场景,其多会话自适应(MSA)阶段的额外开销是否总能接受,论文讨论略显不足。 🔗 开源详情 代码:论文中提及“we will release all constructed benchmarks and reproduced baselines along with our codebase upon acceptance”,但未在当前文本提供具体代码仓库链接。 模型权重:未提及公开预训练EAT模型的权重获取方式(可能默认为已有公开模型)。 数据集:论文构建的CL基准分割将随代码发布。原始数据集(ESC-50, US8K等)均为公开可用。 Demo:未提及在线演示。 复现材料:提供了详细的超参数设置(表5)、训练硬件(NVIDIA A800 GPU)、关键算法伪代码(Algorithm 1)以及大量的消融实验结果和敏感性分析,复现细节充分。 引用的开源项目:论文依赖或对比的开源项目包括:EAT模型、SSLAM模型、RanPAC、ACL、L2P、DualPrompt等持续学习基线方法。 📌 核心摘要 本文针对预训练音频模型在数据分布动态变化的现实场景中面临灾难性遗忘的问题,首次系统研究了音频持续学习(Audio Continual Learning, ACL)。论文的核心工作包括: ...