Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization
📄 Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization #语音识别,#流式处理,#一致性正则化,#统一音频模型,#开源工具 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Andrei Andrusenko (NVIDIA, Armenia) 通讯作者:Vitaly Lavrukhin (NVIDIA, USA) - 基于联系邮箱推断 其他作者: Vladimir Bataev (NVIDIA, Armenia) Lilit Grigoryan (NVIDIA, Armenia) Nune Tadevosyan (NVIDIA, Armenia) Boris Ginsburg (NVIDIA, USA) 💡 毒舌点评 亮点在于为统一ASR的“模式冲突”这个老大难问题,开了一剂叫MCR-RNNT的“正则化药方”,并且贴心地用Triton写好了“高效服用说明书”(GPU实现),让训练不至于慢到天荒地老。槽点是,这药方在延迟压到0.16秒这种“极限操作”时,药效似乎有点跟不上,而且双模式训练毕竟还是让显存和计算量翻了倍,钱包有点疼。 📌 核心摘要 本文旨在解决训练单一自动语音识别(ASR)模型同时高效支持高精度离线转写和低延迟流式识别这一挑战。现有统一模型在低延迟流式模式下性能下降明显。作者提出了一个统一的RNN-Transducer (RNNT) 框架,其核心是结合了带右上下文的chunk限制注意力和动态chunk卷积(DCConv) 来适配流式解码。为更进一步缩小离线与流式模式间的性能差距,本文创新性地引入了模式一致性正则化损失(MCR-RNNT),并通过高效的Triton内核实现,直接在RNNT的完整对齐格(lattice)上计算离线与流式输出分布的KL散度,鼓励两种模式下模型预测的一致性。实验表明,该方法在120K小时数据上训练的L-size模型,在多数流式延迟设定下(低至0.24秒)取得了最佳的权衡。将方法扩展到280K小时数据训练的600M参数XL模型,在Open ASR Leaderboard上达到5.76%的平均词错率(WER),在离线和流式场景均超越了强开源基线。该工作开源了代码和模型,为工业界部署统一ASR模型提供了高效解决方案。 🏗️ 模型架构 论文提出的是一个统一的RNN-Transducer (RNNT) 模型,其核心思想是使用同一套模型参数,通过不同的输入处理方式(掩码和卷积操作)来同时支持离线和流式两种解码模式。 整体输入输出流程: 输入:原始音频波形 -> 提取128维FBank特征(经过8倍初始下采样)。 编码器 (Encoder):处理音频特征,生成上下文感知的声学表示。这是统一的关键,离线和流式模式使用不同的注意力掩码和卷积方式,但共享所有参数。 预测器 (Predictor):一个单层LSTM(640单元),作为语言模型,根据之前已生成的文本令牌序列,输出预测的文本表示。 联合网络 (Joint Network):将编码器输出的声学表示和预测器输出的文本表示进行融合(通常是拼接后经过线性层和激活函数),生成一个在词表(包括空白符)上的概率分布。 输出:通过束搜索(本文使用高效贪婪解码)在联合网络的输出上解码出最终的文本序列。 主要组件与内部结构: ...