ICASSP 2026 - 迁移学习

1 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇GLUE: Gradient-free Learning to Unify Experts6.5分前50%

📋 论文详情

🥇 GLUE: Gradient-free Learning to Unify Experts

6.5/10 | 前50% | #迁移学习 | #预训练 | #知识蒸馏 #多任务学习

👥 作者与机构

  • 第一作者:Jong-Ik Park (卡内基梅隆大学电气与计算机工程系)
  • 通讯作者:未说明 (论文中未明确指定通讯作者)
  • 作者列表:Jong-Ik Park (卡内基梅隆大学电气与计算机工程系)、Shreyas Chaudhari (卡内基梅隆大学电气与计算机工程系)、Srinivasa Pranav* (卡内基梅隆大学电气与计算机工程系)、Carlee Joe-Wong (卡内基梅隆大学电气与计算机工程系)、Jos´e M. F. Moura (卡内基梅隆大学电气与计算机工程系) *作者贡献相同。

💡 毒舌点评

亮点:该研究提出了一种巧妙的“偷懒”方法——用无需反向传播的无梯度优化(SPSA)来学习多专家模型的混合系数,将计算成本从全网络反向传播降至仅需两次前向传播,在保持与全梯度优化方法相当性能的同时,显著提升了效率。 短板:论文的实验验证场景较为理想化(使用同构模型在简单CV数据集上的混合),缺乏对真实世界复杂场景(如模型架构不同、训练数据量巨大、或需要在线学习)的验证,且未提供任何代码或复现细节,大大削弱了其实用价值和说服力。

📌 核心摘要

  1. 要解决的问题:在需要将多个领域专家模型融合成一个适用于新目标域的通用初始化模型时,启发式混合(如按数据量加权)效果不佳,而基于梯度的学习混合系数的方法计算成本高昂(需要完整的反向传播)。
  2. 方法核心:提出GLUE方法,将目标模型初始化为固定专家模型的凸组合,通过一种称为“同时扰动随机近似”(SPSA)的无梯度优化技术来学习混合系数。每次迭代仅需两次前向传播(对混合参数进行微小扰动),无需反向传播。
  3. 与已有方法相比新在哪里:传统方法要么使用与目标域无关的启发式(如数据量),要么使用计算昂贵的全梯度优化。GLUE的核心创新在于,它将优化变量从高维的模型参数(P)降低到低维的专家混合系数(K,专家数量),从而使得在低维空间使用无梯度优化方法变得高效且稳定。
  4. 主要实验结果:在CIFAR-10、SVHN、Imagenette三个数据集和三种网络架构(ResNet-20、MobileNetV2、8层ViT)上的实验表明:
    • GLUE生成的初始化模型在微调后,测试准确率比按数据量加权基线最高提升8.5%,比按代理准确性加权基线最高提升9.1%。
    • GLUE的性能与需要完整反向传播的全梯度优化方法(Config 3)非常接近,在CIFAR-10上甚至最高高出4.5%,在SVHN和Imagenette上的差异分别在1.4% 和 0.5% 以内。
    • 图1展示了在微调过程中,GLUE(Config 4)能从更强的先验开始,并收敛到更高的测试准确率,趋势与全梯度方法(Config 3)高度一致。
  5. 实际意义:为跨领域模型融合提供了一种轻量级、低成本的部署方案。特别适用于需要快速将多个预训练专家模型适配到新领域,且计算资源受限的场景。
  6. 主要局限性:方法假设所有专家模型架构兼容;融合结果被限制在专家参数的凸组合内(目标最优解可能在外);SPSA方法的性能对扰动半径等超参数敏感;实验仅在相对简单和小规模的视觉数据集上验证,未涉及真实复杂任务(如其摘要中提到的多语言ASR)。