OMNI-AVSR: Towards Unified Multimodal Speech Recognition With Large Language Models
📄 OMNI-AVSR: Towards Unified Multimodal Speech Recognition With Large Language Models #语音识别 #多任务学习 #多模态模型 #大语言模型 #音视频 🔥 8.5/10 | 前10% | #语音识别 | #多任务学习 | #多模态模型 #大语言模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Umberto Cappellazzo(Imperial College London, UK) 通讯作者:未说明 作者列表:Umberto Cappellazzo(Imperial College London, UK)、Xubo Liu(University of Surrey, UK)、Pingchuan Ma(Imperial College London, UK)、Stavros Petridis(Imperial College London, UK)、Maja Pantic(Imperial College London, UK) 💡 毒舌点评 这篇论文的亮点在于其“统一”和“弹性”的工程设计思想——用一个模型搞定三种语音识别任务,并在推理时按需调整计算量,这比训练一堆专用模型要高明得多,且实验数据扎实。但短板在于,其“统一”建立在对现有LLM(Llama/Qwen)的微调之上,核心创新更多是训练范式和适配策略的巧妙组合,而非提出一个新的基础架构,因此其天花板可能受限于基础LLM的能力。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/umbertocappellazzo/Omni-AVSR。 模型权重:论文中未提及是否公开预训练或微调后的完整模型权重。 数据集:使用公开的LRS2和LRS3数据集,论文中未说明是否提供额外数据。 Demo:论文中未提及在线演示。 复现材料:论文详细说明了模型架构、训练细节(优化器、学习率、轮数、增强策略)、关键超参数(LoRA秩、压缩率、束搜索设置)等,复现信息较为充分。 论文中引用的开源项目:主要依赖预训练模型:Whisper(音频编码器)、AV-HuBERT(视频编码器)、Llama 3.2(LLM骨干)。 📌 核心摘要 问题:现有的基于大语言模型(LLM)的语音识别方法通常为听觉语音识别(ASR)、视觉语音识别(VSR)和音视频语音识别(AVSR)分别训练独立的模型,这导致了高昂的计算和部署成本,且忽略了任务间的潜在协同。此外,它们依赖固定的令牌压缩率,限制了在准确率和效率之间灵活权衡的能力。 方法核心:本文提出Omni-AVSR,一个统一的音视频LLM框架,能在单一模型中支持ASR、VSR和AVSR,并支持弹性推理。其核心技术包括:a) 优化后的“套娃表示学习”训练范式,通过在训练时随机采样音频和视频压缩率,将训练成本从与压缩率组合数成正比降低到仅与任务数成正比;b) 探索了三种基于LoRA的参数高效微调策略(Omni-LoRA-S/T/ST),以平衡共享与任务特异性。 创新点:与先前工作相比,Omni-AVSR首次在单一模型中同时实现了:i) 对ASR、VSR和AVSR三种任务的统一支持;ii) 支持弹性推理的多粒度训练。这使其训练和部署资源需求显著低于需要为每个任务和压缩率组合训练单独模型的方法(如Llama-AVSR)。 实验结果:在LRS2和LRS3数据集上,Omni-AVSR在三种任务和多种压缩率下均达到与或优于独立SOTA模型(如Llama-AVSR, Llama-MTSK)的性能。例如,在LRS3上,Omni-AVSR-T的平均WER达到7.9%。模型在噪声环境下表现出鲁棒性。通过缩放实验发现,1-3B参数的LLM在性能与效率间取得了良好平衡。关键结果如下表所示: 表I:LRS2与LRS3数据集上不同压缩率的ASR/VSR/AVSR结果(WER%) ...