Improving Contextual Asr Via Multi-Grained Fusion With Large Language Models
📄 Improving Contextual Asr Via Multi-Grained Fusion With Large Language Models #语音识别 #多粒度融合 #大语言模型 #端到端 #多语言 🔥 8.5/10 | 前25% | #语音识别 | #多粒度融合 | #大语言模型 #端到端 学术质量 8.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shilin Zhou(苏州大学计算机科学与技术学院) 通讯作者:Zhenghua Li*(苏州大学计算机科学与技术学院) 作者列表:Shilin Zhou(苏州大学计算机科学与技术学院)、Zhenghua Li*(苏州大学计算机科学与技术学院)。论文中未提及其他作者。 💡 毒舌点评 该论文系统性地将上下文ASR中“逐token生成”和“整短语复制”这两种主流但互斥的策略融合进一个统一框架,并利用LLM提供强大的语义先验,在关键词识别上取得了显著提升(最高9.8%的召回率提升),证明了多粒度协同的有效性。然而,其效率提升(RTF)的评估相对初步,且在英文数据集上的绝对优势并不突出,框架的实时性与LLM引入的额外计算开销之间的平衡在工业级大规模部署中仍是潜在挑战。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/zsLin177/MGF-ASR。 模型权重:论文提及“We will release the code and models”,但未提供具体的预训练模型下载链接或存储位置,状态为计划公开。 数据集:实验所用的Aishell、Slidespeech等为公开数据集。RWCS-NER由作者团队发布,论文中引用了相关论文。 Demo:未提及。 复现材料:论文提供了详细的架构图、算法公式和主要实验设置描述,但关键训练细节(如学习率、优化器、具体训练步数)未在正文中给出。依赖的开源项目包括Whisper、Qwen2、Phi-3.5等大模型。 引用的开源项目:论文明确使用了Whisper作为ASR骨干,Qwen2和Phi-3.5作为LLM组件。 📌 核心摘要 解决的问题:现有上下文语音识别方法通常在token级(细粒度控制,但易破坏关键词完整性)和phrase级(保持短语完整,但易损害非关键词识别)之间二选一,未能有效结合两者的互补优势。 方法核心:提出一个多粒度融合框架。该框架以CopyNE为基础,引入大型语言模型(LLM),并行运行两个分支:(1) Token级分支:基于ASR模型与LLM输出token概率的动态不确定性融合。(2) Phrase级分支:联合使用LLM的语义隐藏状态与ASR的声学状态,通过注意力机制选择关键词短语。最后,通过联合融合机制将两个分支的输出统一到一个概率空间进行解码。 创新点:首次在统一框架内系统地融合token级和phrase级方法;创新性地将LLM作为语义先验源,用于指导两个粒度的融合过程(token级提供概率,phrase级提供状态);提出了基于ASR不确定性的自适应融合策略。 ...