Production-Scale Dynamic Vocabulary ASR Biasing with Word-Level FST and Robust Training

📄 Production-Scale Dynamic Vocabulary ASR Biasing with Word-Level FST and Robust Training #语音识别 #上下文偏差 #动态词汇 #有限状态转录机 #工业应用 ✅ 7.5/10 | 前25% | #语音识别 | #上下文偏差 | #动态词汇 #有限状态转录机 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:José E. García Lainez(微软核心AI) 通讯作者:未说明 作者列表:José E. García Lainez(微软核心AI), Tianyang Sun(微软核心AI), Shaoshi Ling(微软核心AI), Yifan Gong(微软核心AI), Huaming Wang(微软核心AI) 💡 毒舌点评 亮点:这篇论文没有停留在提出一个“新方法”,而是系统性地诊断并解决了其前身DynVoc技术在走向生产部署时会遇到的所有“硬骨头”(如短语重叠、虚警、无偏退化),展现了非常扎实的工程问题解决能力。 短板:所有实验均在微软未公开的大规模内部数据上进行,这虽然是工业论文的常态,但极大地限制了方法的可验证性和可复现性,使得学术界难以直接跟进和公平比较。 📌 核心摘要 这篇论文旨在解决动态词汇语音识别偏差技术在生产环境部署中面临的三大挑战:1) 对重叠或多词短语的处理能力差,易导致重复识别;2) 偏差过强,虚警率高;3) 引入偏差训练后,在无偏差场景下基础ASR性能下降。为此,作者提出了一套改进方案:核心方法是引入词级有限状态转录机来保留多词短语的序列信息,解决歧义;同时采用训练时扩充干扰项、动态对数几率缩放和边缘损失来降低虚警;并通过在训练中引入无偏批次采样来恢复无偏性能。在基于6万小时英语语音训练的510M参数混合CTC/注意力模型上,实验表明,改进后的方法相比原始DynVoc方法,在召回率上绝对提升6.34%,虚警率绝对降低4.72%,同时将无偏场景的词错率恢复至基线水平。该工作首次将DynVoc技术扩展到生产规模并系统性地解决了其实用化障碍,显著提升了上下文偏差的准确性和可靠性。 🏗️ 模型架构 论文基于一个混合CTC/注意力架构的端到端ASR模型,主要组件及数据流如下: ...

2026-04-29