Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization
📄 Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization #语音识别 #端到端 #流式处理 #统一音频模型 #模型评估 ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #流式处理 #统一音频模型 | arxiv 学术质量 7.5/7 | 选题价值 0.8/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Andrei Andrusenko (NVIDIA, Armenia) 通讯作者:未说明 作者列表: Andrei Andrusenko (NVIDIA, Armenia) Vladimir Bataev (NVIDIA, Armenia) Lilit Grigoryan (NVIDIA, Armenia) Nune Tadevosyan (NVIDIA, Armenia) Vitaly Lavrukhin (NVIDIA, Armenia) Boris Ginsburg (NVIDIA, USA) 💡 毒舌点评 亮点:MCR-RNNT正则化方法设计巧妙,通过强制离线和流式模式在RNNT联合网络输出层面保持一致,有效缓解了低延迟下的性能崩塌,且其实现的Triton内核保证了训练效率。短板:尽管在多个延迟点上取得了SOTA,但在极端低延迟(如0.16s)场景下,统一模型仍略逊于专门为流式优化的基线,表明“统一”与“极致性能”之间仍存在根本性张力。 ...