Inverse-Hessian Regularization for Continual Learning in ASR

📄 Inverse-Hessian Regularization for Continual Learning in ASR #语音识别 #持续学习 #正则化 #领域适应 ✅ 7.5/10 | 前25% | #语音识别 | #持续学习 #正则化 | #持续学习 #正则化 学术质量 6.8/7 | 选题价值 1.7/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Steven Vander Eeckt(KU Leuven, ESAT-PSI部门) 通讯作者:Hugo Van hamme(KU Leuven, ESAT-PSI部门) 作者列表:Steven Vander Eeckt(KU Leuven, ESAT-PSI部门)、Hugo Van hamme(KU Leuven, ESAT-PSI部门) 💡 毒舌点评 亮点在于优雅地将“往平坦方向走”的优化直觉转化为一个无需存储旧数据的实用合并步骤,并在实验中证明了其有效性,甚至超越了需要记忆库的方法。短板是其实验验证场景(两个小规模单语口音/麦克风适应任务)相对“温室”,离证明其在真实世界复杂、多语言、流式ASR系统中的鲁棒性还有距离。 🔗 开源详情 代码:论文明确提供了GitHub仓库链接:https://github.com/StevenVdEeckt/inverse-hessian-regularization。论文中写道“更多细节,包括代码和详细结果,可在我们的GitHub仓库中找到。” 模型权重:论文中未提及公开模型权重。 数据集:使用了Common Voice和LibriSpeech/Libri-Adapt等公开数据集。论文中未提及提供额外数据集。 Demo:论文中未提供在线演示。 复现材料:论文提供了方法算法伪代码(Algorithm 1)、关键超参数(τ值)、以及基于ESPnet2���架的实现环境。代码仓库预计包含更多训练细节。 论文中引用的开源项目:ESPnet2[17](实验框架)、SentencePiece[24](分词器)、Adam优化器[25]。 📌 核心摘要 问题:自动语音识别(ASR)系统在持续学习新领域(如新口音、方言、麦克风类型)时,会遭遇灾难性遗忘,即在新任务上学习后,性能在旧任务上急剧下降。现有的无记忆方法(如权重平均)是启发式的,忽略了任务损失曲面的几何信息,限制了适应性。 方法核心:提出逆Hessian正则化(IHR)。在模型于新任务上微调后,得到参数更新量Δθ。IHR不直接使用该更新量,而是将其乘以旧任务损失函数在旧参数处的逆Hessian矩阵(或近似),从而将更新方向调整到对旧任务不敏感(即位于旧任务低损失区域)的方向,再与旧参数合并得到最终模型。 创新与新意: 首次将逆Hessian信息应用于ASR持续学习的合并步骤:与在训练中加入正则化项不同,IHR将其作为后处理,计算量小。 轻量级分层实现:采用Kronecker分块对角近似,仅针对占模型绝大多数参数的线性层计算并应用逆Hessian更新,保持计算和存储开销恒定。 实证优势:在两个基准测试上显著优于现有无记忆方法,并在遗忘指标上优于需要存储旧数据的回放缓存(ER)方法。 主要实验结果: 实验1(Common Voice口音适应):IHR的平均WER为13.32%,显著优于最强基线FTA(13.71%)和ER(13.97%)。BWT为-0.1(近乎零遗忘),而FTA为-0.3,Fine-Tuning为-3.6。 实验2(LibriSpeech → Libri-Adapt麦克风+口音适应):IHR的平均WER为7.40%,优于FTA(8.97%)、UOE(12.10%)等基线,但略逊于ER(6.43%)。BWT为-1.4。 消融实验证实,仅使用最近任务的逆Hessian近似(而非所有历史任务之和)效果相当,且对剩余参数使用1/t平均能进一步减少遗忘。 实际意义:为ASR模型提供了一种无需存储历史数据、计算高效且原理更合理的持续适应方案,有助于部署能够安全、隐私地不断学习新用户特征的ASR服务。 主要局限性: 实验验证的场景相对简单,均为单一语言、小规模任务序列的领域适应。在任务差异更大、序列更长或更复杂的持续学习场景下的有效性有待验证。 方法依赖于对Hessian的近似(特别是忽略跨层交互),且仅应用于线性层,其近似效果在更大模型上的理论保证和实际影响未深入分析。 超参数τ需要针对不同场景调整。 🏗️ 模型架构 本文的核心贡献在于优化策略(持续学习方法),而非全新的ASR模型架构。ASR模型本身采用标准的编码器-解码器结构: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 219 words

Prototype-Guided Cross-Modal Contrastive Learning for Continual Audio-Visual Sound Separation

📄 Prototype-Guided Cross-Modal Contrastive Learning for Continual Audio-Visual Sound Separation #语音分离 #对比学习 #持续学习 #多模态模型 #音视频 ✅ 7.5/10 | 前25% | #语音分离 | #对比学习 | #持续学习 #多模态模型 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Wanrong Ma (国防科技大学计算机科学与技术学院,2. 国防科技大学并行与分布式计算国家重点实验室) (注:论文标注为共同第一作者) 通讯作者:Kele Xu (国防科技大学计算机科学与技术学院,2. 国防科技大学并行与分布式计算国家重点实验室) 作者列表:Wanrong Ma(国防科技大学计算机科学与技术学院;国防科技大学并行与分布式计算国家重点实验室)、Hongyu Wen(国防科技大学计算机科学与技术学院;国防科技大学并行与分布式计算国家重点实验室)、Zijian Gao(国防科技大学计算机科学与技术学院;国防科技大学并行与分布式计算国家重点实验室)、Qisheng Xu(国防科技大学计算机科学与技术学院;国防科技大学并行与分布式计算国家重点实验室)、Kele Xu(国防科技大学计算机科学与技术学院;国防科技大学并行与分布式计算国家重点实验室) 💡 毒舌点评 该工作在持续学习与多模态声音分离的交叉领域做得扎实,用原型和对比学习“框住”特征空间的想法巧妙且实验效果显著。但任务场景较为细分,且论文完全没提代码开源,对于想快速复现或在其他多模态任务上借鉴的读者不太友好。 🔗 开源详情 论文中未提及代码链接。 论文中未提及模型权重公开。 数据集MUSIC-21是公开的,但论文未说明具体获取方式或是否修改。 论文中未提及Demo。 论文提供了一定的训练细节(优化器、学习率、批大小、部分超参数),但缺少完整配置、检查点和代码,复现材料不充分。 论文中引用的开源项目/工具包括:iQuery [5] (用于特征提取流程参考)、Video-MAE [15] (预训练视频编码器)、CLIP [16] (预训练视觉编码器)。 论文中未提及开源计划。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 292 words