Adaptive Regularization for Sparsity Control in Bregman-Based Optimizers
📄 Adaptive Regularization for Sparsity Control in Bregman-Based Optimizers #说话人验证 #模型量化 #鲁棒性 #高效推理 ✅ 6.5/10 | #说话人验证 #模型量化 | arxiv 👥 作者与机构 第一作者:Ahmad Aloradi(FAU Erlangen-Nürnberg, 数据科学系 & 国际音频实验室) 通讯作者:未说明 作者列表:Ahmad Aloradi(FAU Erlangen-Nürnberg, 数据科学系 & 国际音频实验室)、Tim Roith(慕尼黑工业大学, 计算、信息与技术学院 & 慕尼黑机器学习中心)、Emanuël A. P. Habets(FAU Erlangen-Nürnberg, 国际音频实验室)、Daniel Tenbrinck(FAU Erlangen-Nürnberg, 数据科学系) 💡 毒舌点评 本文针对Bregman优化器中正则化参数λ对最终稀疏度极其敏感这一实际痛点,提出了一个简单有效的自适应调整策略,成功实现了在指定稀疏度下的稳定训练,且性能不错。然而,论文的理论贡献非常薄弱,仅提供了一个简单的收敛性引理,缺乏对自适应策略稳定性和震荡控制的深入分析,且实验验证主要局限在语音识别任务上,其方法在其他深度学习领域的普适性和影响力有待商榷。 📌 核心摘要 要解决什么问题:在基于Bregman的稀疏优化框架(如LinBreg和AdaBreg)中,控制最终模型稀疏度的正则化参数λ对用户非常不友好,相同的稀疏度目标需要相差几个数量级的λ值,需要耗时的网格搜索来找到“神谕”参数。 方法核心是什么:提出一种自适应正则化方案,在训练过程中根据当前模型稀疏度与目标稀疏度的差异(稀疏度缺陷ε)来动态调整λ。采用乘性更新规则,并在误差接近目标时通过调整更新频率和步长进行阻尼,以减少震荡。 与已有方法相比新在哪里:这是首次将这种基于稀疏度反馈的自适应参数控制策略应用于基于Bregman散度的优化器(镜像下降/线性化Bregman迭代)。不同于固定的λ调度或双层优化,该方法更轻量、直观,并与Bregman迭代的框架自然结合。 主要实验结果如何:在VoxCeleb和CNCeleb数据集上,使用ECAPA-TDNN和ResNet34模型,自适应方法能在75%到99%的稀疏度目标下,可靠地收敛到目标稀疏度。性能上,自适应方法在收敛速度和最终EER上等于或优于需要手动调参的非自适应“神谕”基线。例如,在VoxCeleb 1-O测试集上,ECAPA-TDNN使用AdaBreg在95%稀疏度下的EER为9.52%,而非自适应基线(λ=10)为9.70%。在OOD的CNCeleb-E上,稀疏模型(如ECAPA-TDNN, 95%稀疏度,EER 18.99%)优于密集模型(AdamW, EER 21.47%),展现了稀疏性带来的鲁棒性。 实际意义是什么:消除了在Bregman稀疏优化中寻找特定λ的繁琐过程,使得用户能直接指定所需的稀疏度进行训练,降低了使用该类高效优化器的门槛,有利于推动稀疏模型在资源受限场景下的应用。 主要局限性是什么:理论分析较弱,缺乏对自适应策略稳定性和震荡控制的严格保证。实验仅在两个语音数据集和两个模型架构上验证,方法在更广泛的任务和模型上的有效性未知。此外,发现并指出了Bregman优化器存在不理想的层间稀疏度分配问题(如分类器层过于稠密),导致在极端稀疏度下模型崩溃,这可能是该框架的内在缺陷。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中未提及数据集获取链接。论文使用了VoxCeleb [10] 和 CNCeleb [26] 数据集,但未提供直接的获取URL。 Demo:论文中未提及Demo。 复现材料:论文中提及了详细的训练配置(如表2和表3所示),但未提供具体的检查点、代码包或复现指南链接。 论文中引用的开源项目: WeSpeaker toolkit [43]:论文中引用了此工具包用于获取ECAPA-TDNN和ResNet34模型实现,但未提供其具体链接。 🏗️ 方法概述和架构 整体流程概述:该方法嵌入到基于Bregman迭代的稀疏训练循环中。在每次迭代中,首先执行常规的梯度步和基于ElasticNet的近端算子步来更新模型参数θ;然后,计算当前稀疏度与目标稀疏度的差异(稀疏度缺陷ε);最后,每隔f步,根据ε的大小和方向,通过一个乘性公式自适应地更新正则化参数λ,从而控制下一轮近端算子中软阈值的大小,间接控制参数的稀疏性。整个流程形成一个反馈控制回路。 ...