语音识别，流式处理，一致性正则化，统一音频模型，开源工具

📄 Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization #语音识别，#流式处理，#一致性正则化，#统一音频模型，#开源工具 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Andrei Andrusenko (NVIDIA, Armenia) 通讯作者：Vitaly Lavrukhin (NVIDIA, USA) - 基于联系邮箱推断其他作者： Vladimir Bataev (NVIDIA, Armenia) Lilit Grigoryan (NVIDIA, Armenia) Nune Tadevosyan (NVIDIA, Armenia) Boris Ginsburg (NVIDIA, USA) 💡 毒舌点评亮点在于为统一ASR的“模式冲突”这个老大难问题，开了一剂叫MCR-RNNT的“正则化药方”，并且贴心地用Triton写好了“高效服用说明书”（GPU实现），让训练不至于慢到天荒地老。槽点是，这药方在延迟压到0.16秒这种“极限操作”时，药效似乎有点跟不上，而且双模式训练毕竟还是让显存和计算量翻了倍，钱包有点疼。 🔗 开源详情代码：已开源。论文中提供了GitHub链接（https://github.com/NVIDIA/NeMo 相关），框架基于NeMo。模型权重：已开源。在HuggingFace上发布了英文模型检查点：https://huggingface.co/nvidia/parakeet-unified-en-0.6b，参数量约600M（XL-size）。数据集：使用了公开的Granary数据集，但数据集本身是否由作者团队开源未在文中明确说明，仅提及是“public Granary dataset”。预训练权重：基于FastConformer编码器，但论文未明确说明是否使用了预训练权重进行初始化。在线 Demo：论文中未提及。引用的开源项目：依赖NeMo框架、PyTorch、Triton。 📌 核心摘要本文旨在解决训练单一自动语音识别（ASR）模型同时高效支持高精度离线转写和低延迟流式识别这一挑战。现有统一模型在低延迟流式模式下性能下降明显。作者提出了一个统一的RNN-Transducer (RNNT) 框架，其核心是结合了带右上下文的chunk限制注意力和动态chunk卷积（DCConv）来适配流式解码。为更进一步缩小离线与流式模式间的性能差距，本文创新性地引入了模式一致性正则化损失（MCR-RNNT），并通过高效的Triton内核实现，直接在RNNT的完整对齐格（lattice）上计算离线与流式输出分布的KL散度，鼓励两种模式下模型预测的一致性。实验表明，该方法在120K小时数据上训练的L-size模型，在多数流式延迟设定下（低至0.24秒）取得了最佳的权衡。将方法扩展到280K小时数据训练的600M参数XL模型，在Open ASR Leaderboard上达到5.76%的平均词错率（WER），在离线和流式场景均超越了强开源基线。该工作开源了代码和模型，为工业界部署统一ASR模型提供了高效解决方案。 🏗️ 模型架构论文提出的是一个统一的RNN-Transducer (RNNT) 模型，其核心思想是使用同一套模型参数，通过不同的输入处理方式（掩码和卷积操作）来同时支持离线和流式两种解码模式。 ...