Inverse-Hessian Regularization for Continual Learning in ASR

📄 Inverse-Hessian Regularization for Continual Learning in ASR #语音识别 #持续学习 #正则化 #领域适应 ✅ 7.5/10 | 前25% | #语音识别 | #持续学习 #正则化 | #持续学习 #正则化 学术质量 6.8/7 | 选题价值 1.7/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Steven Vander Eeckt(KU Leuven, ESAT-PSI部门) 通讯作者:Hugo Van hamme(KU Leuven, ESAT-PSI部门) 作者列表:Steven Vander Eeckt(KU Leuven, ESAT-PSI部门)、Hugo Van hamme(KU Leuven, ESAT-PSI部门) 💡 毒舌点评 亮点在于优雅地将“往平坦方向走”的优化直觉转化为一个无需存储旧数据的实用合并步骤,并在实验中证明了其有效性,甚至超越了需要记忆库的方法。短板是其实验验证场景(两个小规模单语口音/麦克风适应任务)相对“温室”,离证明其在真实世界复杂、多语言、流式ASR系统中的鲁棒性还有距离。 📌 核心摘要 问题:自动语音识别(ASR)系统在持续学习新领域(如新口音、方言、麦克风类型)时,会遭遇灾难性遗忘,即在新任务上学习后,性能在旧任务上急剧下降。现有的无记忆方法(如权重平均)是启发式的,忽略了任务损失曲面的几何信息,限制了适应性。 方法核心:提出逆Hessian正则化(IHR)。在模型于新任务上微调后,得到参数更新量Δθ。IHR不直接使用该更新量,而是将其乘以旧任务损失函数在旧参数处的逆Hessian矩阵(或近似),从而将更新方向调整到对旧任务不敏感(即位于旧任务低损失区域)的方向,再与旧参数合并得到最终模型。 创新与新意: 首次将逆Hessian信息应用于ASR持续学习的合并步骤:与在训练中加入正则化项不同,IHR将其作为后处理,计算量小。 轻量级分层实现:采用Kronecker分块对角近似,仅针对占模型绝大多数参数的线性层计算并应用逆Hessian更新,保持计算和存储开销恒定。 实证优势:在两个基准测试上显著优于现有无记忆方法,并在遗忘指标上优于需要存储旧数据的回放缓存(ER)方法。 主要实验结果: 实验1(Common Voice口音适应):IHR的平均WER为13.32%,显著优于最强基线FTA(13.71%)和ER(13.97%)。BWT为-0.1(近乎零遗忘),而FTA为-0.3,Fine-Tuning为-3.6。 实验2(LibriSpeech → Libri-Adapt麦克风+口音适应):IHR的平均WER为7.40%,优于FTA(8.97%)、UOE(12.10%)等基线,但略逊于ER(6.43%)。BWT为-1.4。 消融实验证实,仅使用最近任务的逆Hessian近似(而非所有历史任务之和)效果相当,且对剩余参数使用1/t平均能进一步减少遗忘。 实际意义:为ASR模型提供了一种无需存储历史数据、计算高效且原理更合理的持续适应方案,有助于部署能够安全、隐私地不断学习新用户特征的ASR服务。 主要局限性: 实验验证的场景相对简单,均为单一语言、小规模任务序列的领域适应。在任务差异更大、序列更长或更复杂的持续学习场景下的有效性有待验证。 方法依赖于对Hessian的近似(特别是忽略跨层交互),且仅应用于线性层,其近似效果在更大模型上的理论保证和实际影响未深入分析。 超参数τ需要针对不同场景调整。 🏗️ 模型架构 本文的核心贡献在于优化策略(持续学习方法),而非全新的ASR模型架构。ASR模型本身采用标准的编码器-解码器结构: ...

2026-04-29

Prototype-Guided Cross-Modal Contrastive Learning for Continual Audio-Visual Sound Separation

📄 Prototype-Guided Cross-Modal Contrastive Learning for Continual Audio-Visual Sound Separation #语音分离 #对比学习 #持续学习 #多模态模型 #音视频 ✅ 7.5/10 | 前25% | #语音分离 | #对比学习 | #持续学习 #多模态模型 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Wanrong Ma (国防科技大学计算机科学与技术学院,2. 国防科技大学并行与分布式计算国家重点实验室) (注:论文标注为共同第一作者) 通讯作者:Kele Xu (国防科技大学计算机科学与技术学院,2. 国防科技大学并行与分布式计算国家重点实验室) 作者列表:Wanrong Ma(国防科技大学计算机科学与技术学院;国防科技大学并行与分布式计算国家重点实验室)、Hongyu Wen(国防科技大学计算机科学与技术学院;国防科技大学并行与分布式计算国家重点实验室)、Zijian Gao(国防科技大学计算机科学与技术学院;国防科技大学并行与分布式计算国家重点实验室)、Qisheng Xu(国防科技大学计算机科学与技术学院;国防科技大学并行与分布式计算国家重点实验室)、Kele Xu(国防科技大学计算机科学与技术学院;国防科技大学并行与分布式计算国家重点实验室) 💡 毒舌点评 该工作在持续学习与多模态声音分离的交叉领域做得扎实,用原型和对比学习“框住”特征空间的想法巧妙且实验效果显著。但任务场景较为细分,且论文完全没提代码开源,对于想快速复现或在其他多模态任务上借鉴的读者不太友好。 📌 核心摘要 问题:本文研究持续音视频声音分离(CAVSS),即模型需在不断学习新声音类别的同时,不忘记如何分离已学类别的声音。主要挑战是灾难性遗忘(学新忘旧)和跨模态干扰(不同类别或不同模态的特征在表示空间中纠缠不清)。 方法核心:提出原型引导的跨模态对比学习(PGCCL) 框架。核心是为每个声音类别维护一个类级原型(该类别所有样本多模态特征的平均),将其作为锚点来构建和约束多模态表示空间。训练时,原型与当前批次的样本特征一起,进行成对的跨模态对比学习(音频-运动、音频-物体、运动-物体),以增强类间可分性和类内一致性。同时,使用指数移动平均(EMA) 机制更新模型参数和原型以稳定特征,并结合掩码蒸馏保留旧任务知识。 创新点:与现有基于样本回放或参数正则化的方法(如AV-CIL, ContAV-Sep)相比,PGCCL的创新在于:(1) 引入类级原型作为稳定锚点,直接结构化表示空间;(2) 设计了一种将原型融入批次进行跨模态对比学习的机制,同时强化实例判别和类别对齐;(3) 结合EMA和掩码蒸馏,在持续学习中更好地平衡稳定性与可塑性。 实验结果:在MUSIC-21数据集上的实验表明,PGCCL显著优于所有基线方法。在最后一个学习步骤上,其SDR达到8.16(最强基线ContAV-Sep为6.49),SIR和SAR也分别为14.11和13.26。在所有步骤的平均性能上,SDR为6.87。消融实验证明原型对比学习(PRO)、EMA和掩码蒸馏(MD)三个组件共同作用时性能最佳(SDR 7.88)。增加回放样本数(NS)能持续提升性能。t-SNE可视化(图2)显示PGCCL产生的多模态特征边界更清晰,重叠更少。 实际意义:为动态环境中的音频-视觉协同处理(如机器人、增强现实、辅助听觉设备)提供了一种可扩展的持续学习解决方案。 主要局限性:实验仅在一个数据集(MUSIC-21,仅21类乐器)上进行,验证了方法在该设置下的有效性,但对其在更复杂、更多样的真实世界声音场景中的泛化能力尚未验证。此外,论文未提供代码,限制了可复现性和快速验证。 🏗️ 模型架构 PGCCL框架(图1)旨在处理持续音视频声音分离任务。其整体流程和核心组件如下: ...

2026-04-29