Contextual Biasing for Streaming ASR via CTC-based Word Spotting
📄 Contextual Biasing for Streaming ASR via CTC-based Word Spotting #语音识别 #关键词检测 #流式处理 #CTC #上下文偏置 ✅ 7.2/10 | 前50% | #语音识别 | #关键词检测 | #流式处理 #CTC | arxiv 学术质量 6.1/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Kai-Chen Tsai (Department of Computer Science and Information Engineering, National Taiwan Normal University) 通讯作者:柏林(Berlin Chen),未明确标注,但作为资深作者通常默认为通讯作者(原文仅列出机构邮箱)。 作者列表:Kai-Chen Tsai, Tien-Hong Lo, Yun-Ting Sun, Berlin Chen (均来自台湾师范大学资讯工程学系) 💡 毒舌点评 本文针对一个明确的工程需求(流式ASR的上下文偏置)提出了一个即插即用的后处理解决方案,其工程价值在于将离线CTC-WS无缝扩展到流式场景,且无需模型重训。然而,其核心创新(状态维护与增量提交)是解决流式状态管理问题的直接工程设计,缺乏算法层面的深度。实验仅在两个规模较小、领域特定的英文数据集上验证,且与相对较弱的基线(贪婪解码模式的GPU-PB)对比,其宣称的普适性和优越性说服力不足。 📌 核心摘要 本文针对流式语音识别(Streaming ASR)中对特定领域或罕见词汇识别率低的问题,提出了一种基于CTC的流式关键词检测(Streaming CTC-WS)方法。该方法是对离线CTC-WS的流式扩展,其核心在于设计了一个状态化的词检测器,使其能够跨音频块(chunk)保持活跃的关键词匹配路径(记录图节点、累积分数、起始帧),从而检测被块边界分割的关键词。同时,引入了一个增量提交机制(Incremental Commitment Mechanism),通过维护由所有活跃token最小起始帧定义的“提交前沿”(commit frontier),仅输出不受未来音频影响的稳定识别结果,而保持不确定区域待处理,以平衡延迟与准确性。与深度融合或浅融合方法不同,Streaming CTC-WS可以直接应用于已有的流式ASR系统(如CTC或RNN-T解码器),无需修改模型架构或进行额外训练。实验在STOP1(人名)和STOP2(地名)数据集上进行,结果显示,在CTC和RNN-T解码器下,该方法相比无偏置基线和GPU-PB方法,均显著降低了整体词错误率(WER)并提升了关键词F-score。例如,在STOP1上,使用CTC解码时,WER从18.36%降至12.83%,F-score从66.84%提升至89.61%。该方法在增加少量计算开销(平均额外处理占比小于4.1% chunk时长)的情况下,有效提升了流式ASR对关键短语的识别能力。主要局限性在于其性能依赖于CTC概率质量,且在实验规模、对比基线和消融研究上存在不足。 ...