📄 OMNI-AVSR: Towards Unified Multimodal Speech Recognition With Large Language Models

#语音识别 #多任务学习 #多模态模型 #大语言模型 #音视频

🔥 8.5/10 | 前10% | #语音识别 | #多任务学习 | #多模态模型 #大语言模型

学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高

👥 作者与机构

第一作者：Umberto Cappellazzo（Imperial College London, UK）
通讯作者：未说明
作者列表：Umberto Cappellazzo（Imperial College London, UK）、Xubo Liu（University of Surrey, UK）、Pingchuan Ma（Imperial College London, UK）、Stavros Petridis（Imperial College London, UK）、Maja Pantic（Imperial College London, UK）

💡 毒舌点评

这篇论文的亮点在于其“统一”和“弹性”的工程设计思想——用一个模型搞定三种语音识别任务，并在推理时按需调整计算量，这比训练一堆专用模型要高明得多，且实验数据扎实。但短板在于，其“统一”建立在对现有LLM（Llama/Qwen）的微调之上，核心创新更多是训练范式和适配策略的巧妙组合，而非提出一个新的基础架构，因此其天花板可能受限于基础LLM的能力。

🔗 开源详情

代码：论文提供了代码仓库链接：https://github.com/umbertocappellazzo/Omni-AVSR。
模型权重：论文中未提及是否公开预训练或微调后的完整模型权重。
数据集：使用公开的LRS2和LRS3数据集，论文中未说明是否提供额外数据。
Demo：论文中未提及在线演示。
复现材料：论文详细说明了模型架构、训练细节（优化器、学习率、轮数、增强策略）、关键超参数（LoRA秩、压缩率、束搜索设置）等，复现信息较为充分。
论文中引用的开源项目：主要依赖预训练模型：Whisper（音频编码器）、AV-HuBERT（视频编码器）、Llama 3.2（LLM骨干）。

📌 核心摘要

问题：现有的基于大语言模型（LLM）的语音识别方法通常为听觉语音识别（ASR）、视觉语音识别（VSR）和音视频语音识别（AVSR）分别训练独立的模型，这导致了高昂的计算和部署成本，且忽略了任务间的潜在协同。此外，它们依赖固定的令牌压缩率，限制了在准确率和效率之间灵活权衡的能力。
方法核心：本文提出Omni-AVSR，一个统一的音视频LLM框架，能在单一模型中支持ASR、VSR和AVSR，并支持弹性推理。其核心技术包括：a) 优化后的“套娃表示学习”训练范式，通过在训练时随机采样音频和视频压缩率，将训练成本从与压缩率组合数成正比降低到仅与任务数成正比；b) 探索了三种基于LoRA的参数高效微调策略（Omni-LoRA-S/T/ST），以平衡共享与任务特异性。
创新点：与先前工作相比，Omni-AVSR首次在单一模型中同时实现了：i) 对ASR、VSR和AVSR三种任务的统一支持；ii) 支持弹性推理的多粒度训练。这使其训练和部署资源需求显著低于需要为每个任务和压缩率组合训练单独模型的方法（如Llama-AVSR）。
实验结果：在LRS2和LRS3数据集上，Omni-AVSR在三种任务和多种压缩率下均达到与或优于独立SOTA模型（如Llama-AVSR, Llama-MTSK）的性能。例如，在LRS3上，Omni-AVSR-T的平均WER达到7.9%。模型在噪声环境下表现出鲁棒性。通过缩放实验发现，1-3B参数的LLM在性能与效率间取得了良好平衡。关键结果如下表所示：

表I：LRS2与LRS3数据集上不同压缩率的ASR/VSR/AVSR结果（WER%）

方法	ASR(4)	ASR(16)	VSR(2)	VSR(5)	AVSR(4,2)	AVSR(4,5)	AVSR(16,2)	AVSR(16,5)	平均WER
LRS2数据集
Llama-AVSR [25]	3.3	4.3	26.9	30.0	2.5	2.6	3.9	4.6	9.8
Llama-MTSK [30]	2.5	3.9	26.7	28.5	2.5	2.5	3.7	4.0	9.3
Omni-AVSR-T	2.7	4.5	26.8	28.3	2.6	2.7	3.9	4.0	9.4
LRS3数据集
Llama-AVSR [25]	1.1	2.0	27.4	29.5	1.1	1.2	2.0	2.1	8.3
Llama-MTSK [30]	1.0	2.0	26.9	27.8	1.0	1.0	1.9	2.0	8.0
Omni-AVSR-S	1.1	2.4	26.6	27.4	1.1	1.0	1.9	2.0	7.9

表II：计算成本分析

方法	训练模型数量	LLM前向/后向传播次数
Llama-AVSR [25]	CA+CV+CA·CV	CA+CV+CA·CV
Llama-MTSK [30]	T	CA+CV+CA·CV
Llama-MT	CA·CV	T·(CA·CV)
Omni-AVSR	1	T

注：T为任务数（此处为3），CA/CV为音频/视频压缩率数量（此处均为2）。

实际意义：Omni-AVSR提供了一种高效、统一的音视频语音识别解决方案，能大幅降低从训练到部署的资源门槛，推动多模态语音识别技术在实际应用（如嘈杂环境下的语音助手、边缘设备部署）中的普及。
主要局限性：1）实验规模有限，仅在LRS2/LRS3两个数据集上进行评估，且主要基于英语。2）性能高度依赖于预训练的音频、视频编码器和LLM骨干网络。3）虽然降低了训练计算量，但统一多任务训练仍可能引入任务间的干扰，论文通过任务权重调节，但最优权重需验证。

🏗️ 模型架构

Omni-AVSR的架构旨在统一处理音频、视频输入，并输出文本转录。整体流程如图1a所示：

输入：音频波形a和对应的嘴部区域视频v。
编码器：
- 音频编码器：使用预训练的Whisper-medium模型，将音频波形编码为音频令牌序列Za。
- 视频编码器：使用预训练的AV-HuBERT-Large模型，将视频帧编码为视觉令牌序列Zv。
多粒度压缩：为了实现弹性推理，论文采用“套娃表示学习”范式。在训练时，随机从预定义的音频压缩率集合{a1, a2, ..., aCA}和视频压缩率集合{v1, v2, ..., vCV}中各采样一个率。令牌序列通过平均池化进行压缩，得到Zai和Zvj。这一步是模型“弹性”能力的核心。
投影层：压缩后的音频和视觉令牌分别通过模态特定的投影层（两个带ReLU的线性层），投影到LLM的嵌入空间。
任务提示与拼接：为每个任务构造特定的文本提示XP_t（例如，对于AVSR：“Transcribe speech and video to text.”）。将投影后的视觉令牌Zvj（对于ASR则无）和音频令牌Zai（对于VSR则无）与文本提示拼接，形成每个任务的输入序列：
- ASR: ZASR = [Zai, XP_ASR]
- VSR: ZVSR = [Zvj, XP_VSR]
- AVSR: ZAVSR = [Zai, Zvj, XP_AVSR]
LLM骨干网络与适配：使用预训练的LLM（如Llama 3.2-1B）作为骨干。LLM被冻结，通过LoRA模块进行参数高效微调。论文探索了三种LoRA配置（图1b）：
- Omni-LoRA-S：使用一个共享的LoRA模块适配所有任务。
- Omni-LoRA-T：为每个任务使用独立的LoRA模块。
- Omni-LoRA-ST：同时使用共享和任务特定的LoRA模块。
输出：LLM以自回归方式生成转录文本Y。

架构图： Omni-AVSR整体架构及其LoRA变体图1：Omni-AVSR架构概览(a)及其LoRA变体(b)。音频和视频输入分别由预训练编码器处理，通过选定的压缩率压缩后投影到LLM空间。模型探索了三种LoRA适配策略。

💡 核心创新点

统一的多任务音视频LLM框架：首次提出一个单一的LLM框架，能同时处理ASR、VSR和AVSR三种任务，打破了先前方法为每种任务训练独立模型的范式。这带来了参数共享和任务间协同学习的潜在收益。
高效多粒度训练：对“套娃表示学习”进行优化，将训练时需计算的所有压缩率组合（CA*CV次前向传播）改为随机采样，将总前向传播次数降至仅为任务数T。这极大降低了支持弹性推理（动态调整推理时的令牌数量）所需的训练成本。
系统性的LoRA适配策略研究：针对多任务设置，提出了三种从共享到特异的LoRA配置（Omni-LoRA-S/T/ST），系统性地研究了参数共享与任务特化之间的平衡，为在统一框架下适配不同任务提供了实证参考。

🔬 细节详述

训练数据：
- 数据集：LRS2（225小时BBC节目）、LRS3（433小时TED演讲）。
- 预处理：视频裁剪96x96嘴部区域并归一化；音频进行逐话语的z-normalization。预处理流程遵循先前工作[17, 25, 30]。
- 数据增强：视频使用水平翻转、随机裁剪、自适应时间掩码；音频使用自适应时间掩码。
损失函数：使用自回归的下一令牌预测损失。每个任务的损失Lt是目标转录Y的负对数似然。最终损失为三个任务损失的加权和：L_OMNI = λASRL_ASR + λVSRL_VSR + λAVSR*L_AVSR。权重经消融实验设定为λASR=λAVSR=1, λVSR=1.5（VSR最具挑战性，给予更高权重）。
训练策略：
- 优化器：AdamW，权重衰减0.1。
- 学习率调度：余弦退火调度器，学习率1e-3。
- 训练轮数：8个epoch。
- 批次大小：论文中未明确说明。
关键超参数：
- LLM骨干：Llama 3.2-1B（主实验），并测试了0.5B到32B不同规模。
- 音视频编码器：Whisper-medium（音频），AV-HuBERT-Large（视频）。
- LoRA：应用于LLM自注意力层的查询和值投影矩阵，秩r=64。
- 压缩率：音频{4, 16}，视频{2, 5}，AVSR为其笛卡尔积。
训练硬件：论文中未明确说明。
推理细节：解码策略为束搜索（Beam search），束宽15，温度0.6。在推理时，可根据资源或任务需求，选择不同的音频和视频压缩率组合，实现弹性推理。

📊 实验结果

主要结果（LRS2/LRS3数据集）：见上文“核心摘要”中的表I和表II。关键结论：

所有Omni-AVSR变体均优于需要为每个任务和压缩率训练独立模型的基线Llama-AVSR。
Omni-AVSR在支持弹性推理和多任务学习的同时，性能匹配或超越了仅支持弹性推理（Llama-MTSK）或多任务但固定压缩率（Llama-MT）的基线。
模型在VSR任务上受益明显。

计算成本分析：见表II。Omni-AVSR仅需训练1个模型，且LLM前向/后向传播次数仅为任务数T（3次），远低于其他基线。

噪声鲁棒性（LRS3数据集，AVSR任务）：

表III：不同噪声条件下AVSR结果（WER%）

方法	SNR 5dB	SNR 2.5dB	SNR 0dB	SNR -2.5dB	SNR -5dB
压缩率(4,2)
Llama-AVSR [25]	2.6	4.1	4.8	12.1	19.1
Llama-MTSK [30]	2.5	3.9	4.8	11.7	18.5
Omni-AVSR-ST	2.5	3.8	4.4	11.4	18.0
压缩率(16,5)
Llama-AVSR [25]	4.2	5.8	6.5	14.9	22.1
Llama-MTSK [30]	3.8	5.5	6.0	14.0	20.5
Omni-AVSR-ST	3.9	5.3	5.9	13.5	19.5
Omni-AVSR在噪声环境下性能稳定，尤其在低SNR下表现优于或不差于基线。

与其他单模型方法对比（LRS3数据集）：

表IV：与支持单模型ASR/VSR/AVSR的SOTA方法对比

方法	训练参数(M)	训练数据(小时)	ASR WER↓	VSR WER↓	AVSR WER↓
u-HuBERT [38]‡	325	1759	1.5	29.1	1.3
AV-CPL [39]‡	325	1759	2.3	47.4	2.2
MultiAVSR [40]	274	433	2.4	31.1	2.5
USR [37]	171	433	1.9	34.3	1.6
Omni-AVSR-ST (4,2)	58	433	1.2	26.8	1.0

注：Omni-AVSR仅需约58M可训练参数（LLM的LoRA部分+投影层），远少于基线。

缩放趋势分析：

LLM规模对性能的影响图2右侧：在LRS3上，随着LLM参数规模从0.5B增加到32B，ASR/VSR/AVSR任务的WER均下降，尤其在VSR和高压缩率ASR上收益更明显。1-3B规模是性能与效率的较好平衡点。

⚖️ 评分理由

学术质量（6.0/7）：创新性体现在对现有技术（MRL， LoRA）进行系统性整合与优化，以解决一个具体的、有价值的工程问题（统一多任务多粒度语音识别LLM）。技术路线正确，设计合理。实验充分，覆盖了多任务、多压缩率、噪声鲁棒性、缩放效应等多个维度，对比基线全面。证据可信度高，结果一致。扣分在于原创性更多是“组合创新”而非“基础创新”。
选题价值（1.8/2）：选题切中多模态语音识别领域模型碎片化和效率低下的关键痛点，具有很高的前沿性。所提出的统一、弹性推理框架对降低AIoT、智能助手等实际应用部署成本有直接价值。与语音/音频处理领域的读者高度相关。
开源与复现加成（0.8/1）：论文明确提供了GitHub代码仓库链接，文中详细描述了模型架构、训练超参数、数据预处理、解码设置等关键细节，复现门槛较低。扣分在于未提及是否开源预训练的完整模型权重（仅提供了微调代码和框架）。

← 返回 ICASSP 2026 论文分析

📄 OMNI-AVSR: Towards Unified Multimodal Speech Recognition With Large Language Models#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文