Lattice-Guided Consistency Regularization of Dual-Mode Transducers for Automatic Speech Recognition

📄 Lattice-Guided Consistency Regularization of Dual-Mode Transducers for Automatic Speech Recognition #语音识别 #自回归模型 #一致性正则化 #端到端 #语码转换 🔥 8.0/10 | 前25% | #语音识别 | #一致性正则化 | #自回归模型 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wen Ding(NVIDIA Corporation) 通讯作者:未说明(论文中未明确指定) 作者列表:Wen Ding(NVIDIA Corporation)、Hainan Xu(NVIDIA Corporation)、Jagadeesh Balam(NVIDIA Corporation)、Junjie Lai(NVIDIA Corporation) 💡 毒舌点评 亮点:方法设计巧妙,将一致性正则化与语音格(lattice)的后验概率权重相结合,使得训练能聚焦于关键的对齐位置,避免了对无关位置的无效正则化,这比朴素的随机掩码(如HAINAN)更精巧。短板:尽管在语码切换(SEAME)数据集上验证了方法的有效性,但实验主要基于中文和英中切换场景,对于其他语言或更复杂的语音条件(如嘈杂、多说话人)下的泛化能力,论文未提供证据。 📌 核心摘要 这篇论文旨在解决双模式(自回归AR与非自回归NAR)语音识别模型中,NAR推理模式通常性能落后于AR模式的问题。方法核心是在Token-and-Duration Transducer (TDT)模型的基础上,提出一种名为Lattice-guided Consistency Regularization (LCR)的训练框架。该框架的损失函数由三部分组成:标准的AR TDT损失、NAR TDT损失(预测器输入被掩码),以及一个一致性正则化损失。新意在于,该一致性损失(L2距离或KL散度)用于最小化AR与NAR预测分布之间的差异,但其权重由格(lattice)后验概率加权,从而聚焦于模型认为最可能发生的语音-文本对齐路径。实验结果显示,在AISHELL-1单语普通话任务上,LCR-T模型在AR模式下相比HAINAN基线获得了6.42%的相对CER降低;在SEAME英中语码切换任务上,获得了7.76%和7.09%的相对MER降低。其实际意义在于提供了一个统一、高效的训练框架,使得单个模型在两种推理模式下都能达到顶尖性能,尤其NAR模式也能超越许多传统AR模型。主要局限性是实验场景相对集中(普通话及英中切换),缺乏对更多语言和复杂声学条件的验证。 🏗️ 模型架构 本文提出的模型称为LCR-T (Lattice-guided Consistency Regularization Transducer),其基础是TDT (Token-and-Duration Transducer)架构,并借鉴了HAINAN实现双模式推理的设计。 ...

2026-04-29