Streaming Speech Recognition with Decoder-Only Large Language Models and Latency Optimization
📄 Streaming Speech Recognition with Decoder-Only Large Language Models and Latency Optimization #语音识别 #语音大模型 #流式处理 #端到端 ✅ 7.0/10 | 前25% | #语音识别 | #语音大模型 | #流式处理 #端到端 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Genshun Wan(中国科学技术大学)†1 (论文标注†Equal contribution) 通讯作者:Jing-Xuan Zhang(陕西师范大学人工智能与计算机科学学院)⋆3 作者列表: Genshun Wan(中国科学技术大学,合肥)†1 Wenhui Zhang(科大讯飞研究院,科大讯飞有限公司,合肥)†2 Jing-Xuan Zhang(陕西师范大学人工智能与计算机科学学院,西安)⋆3 Shifu Xiong(中国科学技术大学,合肥)1 Jianqing Gao(科大讯飞研究院,科大讯飞有限公司,合肥)2 Zhongfu Ye(中国科学技术大学,合肥)1 💡 毒舌点评 这篇论文的亮点在于提出了一种优雅的“统一训练”范式,让一个LLM同时掌握流式和非流式ASR,并巧妙地利用MoChA作为可训练的“读/写”策略,实现了延迟降低62.5%的显著效果。不过,其短板也很明显:创新性主要是对已有模块(MoChA, LoRA, Qwen)的集成与优化,在模型架构上未提出根本性的新范式;且实验仅限于中文数据集,对于流式ASR在多语言、嘈杂环境或更长上下文场景下的泛化能力,缺乏有力验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:使用公开的AISHELL-1和AISHELL-2数据集。内部多领域数据集(MD)未公开。 Demo:未提及在线演示。 复现材料:论文详细说明了模型架构、超参数(如Conformer层数、LoRA秩、学习率调度、损失函数权重λ等)和训练流程(总步数、优化器),提供了较高的可复现性信息。未提供检查点或附录。 论文中引用的开源项目:引用了WeNet [32] 作为基线,但未说明是否依赖其代码。LLM初始化使用了公开的预训练模型 Qwen 2.5-1.5B。 论文中未提及开源计划。 📌 核心摘要 要解决什么问题? 如何在基于解码器-only大语言模型的语音识别框架中,实现高效的流式识别,并解决延迟与精度的平衡问题。 方法核心是什么? 提出了一种基于单调分块注意力的读/写策略网络,用于动态分割语音流;结合最小延迟训练目标优化分割边界;并采用流式与非流式���型共享参数的联合训练策略。 与已有方法相比新在哪里? 与依赖CTC或强制对齐的级联方法不同,该方法实现了端到端训练;通过动态的读/写策略替代固定大小音频块的处理,实现了自适应的低延迟解码;统一了流式与非流式模式的训练。 主要实验结果如何? 在AISHELL-1和AISHELL-2数据集上,流式模式的字符错误率分别为5.1%和5.5%,优于基线系统。延迟优化(minLT)在保持精度几乎不变的情况下,将平均令牌生成延迟从16帧降低到6帧(降低62.5%)。消融实验证实了联合训练、LoRA和预训练LLM初始化的重要性。 实际意义是什么? 为实时语音应用(如实时字幕、同声传译)提供了一种高精度、低延迟的语音识别解决方案,同时简化了支持流式/非流式双模式的ASR系统开发流程。 主要局限性是什么? 实验仅在中文普通话数据集上验证,缺乏在多语言、低资源或嘈杂环境下的泛化性评估;方法性能依赖于前置的HMM强制对齐来生成最小延迟训练的目标边界;未公开代码与模型,限制了可复现性。 🏗️ 模型架构 本文提出了一种用于流式语音识别的解码器-only大语言模型(LLM)架构,其核心是集成一个自适应的读/写策略网络。整体架构如论文中图2所示。 ...