Improving Contextual Asr Via Multi-Grained Fusion With Large Language Models
📄 Improving Contextual Asr Via Multi-Grained Fusion With Large Language Models #语音识别 #多粒度融合 #大语言模型 #端到端 #多语言 🔥 8.5/10 | 前25% | #语音识别 | #多粒度融合 | #大语言模型 #端到端 学术质量 8.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shilin Zhou(苏州大学计算机科学与技术学院) 通讯作者:Zhenghua Li*(苏州大学计算机科学与技术学院) 作者列表:Shilin Zhou(苏州大学计算机科学与技术学院)、Zhenghua Li*(苏州大学计算机科学与技术学院)。论文中未提及其他作者。 💡 毒舌点评 该论文系统性地将上下文ASR中“逐token生成”和“整短语复制”这两种主流但互斥的策略融合进一个统一框架,并利用LLM提供强大的语义先验,在关键词识别上取得了显著提升(最高9.8%的召回率提升),证明了多粒度协同的有效性。然而,其效率提升(RTF)的评估相对初步,且在英文数据集上的绝对优势并不突出,框架的实时性与LLM引入的额外计算开销之间的平衡在工业级大规模部署中仍是潜在挑战。 📌 核心摘要 解决的问题:现有上下文语音识别方法通常在token级(细粒度控制,但易破坏关键词完整性)和phrase级(保持短语完整,但易损害非关键词识别)之间二选一,未能有效结合两者的互补优势。 方法核心:提出一个多粒度融合框架。该框架以CopyNE为基础,引入大型语言模型(LLM),并行运行两个分支:(1) Token级分支:基于ASR模型与LLM输出token概率的动态不确定性融合。(2) Phrase级分支:联合使用LLM的语义隐藏状态与ASR的声学状态,通过注意力机制选择关键词短语。最后,通过联合融合机制将两个分支的输出统一到一个概率空间进行解码。 创新点:首次在统一框架内系统地融合token级和phrase级方法;创新性地将LLM作为语义先验源,用于指导两个粒度的融合过程(token级提供概率,phrase级提供状态);提出了基于ASR不确定性的自适应融合策略。 主要实验结果:在中文数据集(Aishell, DC, ICI)上,相比强基线CopyNE,该方法在关键词相关的偏置CER(B-CER)上最多降低1.2%绝对值,关键词召回率(R)最多提升9.8%。在英文数据集(Slidespeech)上,达到了与MaLa-ASR等方法可比的SOTA水平(B-WER最低为5.36%)。消融实验证明,去掉phrase级模块主要损害关键词指标,去掉token级模块主要损害非关键词文本识别性能,二者互补。 中文关键结果表 (表1) Model Using Textual Keywords Aishell CER↓ Aishell B-CER↓ Aishell U-CER↓ Aishell R↑ DC B-CER↓ DC R↑ ICI B-CER↓ ICI R↑ Whisper ✗ 5.2 10.4 4.7 80.6 22.9 71.1 30.7 40.8 CopyNE ✓ 4.6 3.4 4.7 94.4 14.9 82.0 16.8 70.0 Ours ✓ 3.7 2.2 3.8 96.4 11.4 86.6 10.9 79.8 Ours w/o P ✓ 4.3 7.0 4.0 86.9 17.9 77.3 20.1 61.8 Ours w/o T ✓ 4.5 2.7 4.7 95.5 13.2 84.3 14.7 73.1 英文关键结果表 (表2) Model Using Textual Keywords WER↓ B-WER↓ U-WER↓ R↑ Whisper ✗ 9.28 8.12 9.37 92.20 CopyNE ✓ 9.27 6.88 9.45 93.42 MaLa-ASR ✓ 9.14 5.47 9.42 94.87 Ours ✓ 9.14 5.36 9.42 95.18 实际意义:为构建更鲁棒、全面的上下文感知语音识别系统提供了有效框架,能更好地服务于包含大量专有名词或领域术语的应用场景(如通讯录拨号、医疗记录转写)。 ...