📄 M2S-AVSR: Modality-aware Multi-view Self-supervised Representation for Robust Audio-Visual Speech Recognition

#多模态模型 #自监督学习 #语音识别 #音视频

9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5

🔥 9/10 | 前25% | #语音识别 | #自监督学习 | #多模态模型 #音视频 | arxiv

👥 作者与机构

作者:Fei Su, Cancan Li, Ming Li, Juan Liu。 机构:武汉大学人工智能学院与计算机科学学院;香港中文大学(深圳)人工智能学院;武汉大学人工智能学院。

💡 毒舌点评

这篇论文工作扎实,动机明确,旨在解决真实世界AVSR中视角变化和模态退化的核心痛点。方法上,将多视角自监督学习(MVL编码器)与细粒度的模态感知融合(同时考虑质量和同步性)相结合,思路清晰且有新意。新发布的AISHELL8-RealScene数据集(室外、多视角)填补了部分空白,实验也较为全面。主要问题在于:1)部分实验对比可能受限于特定设置(如LLM基线未完全对齐训练数据规模),使得“最优”结论需谨慎解读;2)模态感知模块的计算开销和实际部署时的延迟未充分讨论;3)合成多视角数据的真实性和多样性可能限制MVL编码器的泛化上限。总体是一篇达到顶会门槛的工作,但部分细节的论证和工程实践考量有待加强。

📌 核心摘要

本文提出了M2S-AVSR,一个用于鲁棒音视觉语音识别(AVSR)的模态感知多视角自监督表征框架。该框架针对真实场景下常见的视角变化、音频失真和视觉遮挡等问题,主要包含两个核心创新:1)一个多视角表征学习(MVL)编码器,通过结合真实与合成视角的多视角自监督学习策略,学习视角不变的视觉表征;2)一个模态感知融合机制,在解码时显式建模视觉模态质量与跨模态同步性,实现细粒度的自适应信息注入。此外,论文发布了新的公开数据集AISHELL8-RealScene,包含多场景(室内/室外)、多视角的真实世界对话数据,用于建立更贴近现实的基准。在LRS3、MISP2021-AVSR和AISHELL8-RealScene上的实验表明,M2S-AVSR在应对视角扰动和视觉退化时显著优于现有方法,并在MISP2021-AVSR测试集上取得了新的最先进性能。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:论文中未提及模型权重链接。
  • 数据集:AISHELL8-RealScene。论文中明确声明该数据集公开可用,并提供了具体链接和开源协议。
    • 名称:AISHELL8-RealScene
    • 获取链接:https://huggingface.co/datasets/SMIIP-lab/AISHELL8-RealScene
    • 开源协议:CC BY-NC-SA 4.0
  • Demo:论文中未提及在线演示链接。
  • 复现材料:论文中未提及完整的复现配置包或检查点下载链接,但提供了详细的实验设置(如网络配置、学习率、批大小、GPU型号等)。
  • 论文中引用的开源项目:
    • Whisper:OpenAI的开源语音识别模型。GitHub: https://github.com/openai/whisper;HuggingFace模型库: https://huggingface.co/openai/whisper-large-v3
    • AV-HuBERT:Facebook AI Research的音视频自监督表征学习模型。GitHub: https://github.com/facebookresearch/av_hubert
    • LRS3:大规模的视听语音识别数据集。项目主页: https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs3.html
    • VoxCeleb2:大规模的视听人物识别数据集。项目主页: https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html
    • MISP2021-AVSR:多模态远场语音识别挑战赛数据集。项目主页: https://mispchallenge.github.io/
    • OuluVS2:多视角视听语音数据集。论文中未提供具体链接,但为已知公开数据集。
    • MUSAN:用于噪声增强的开源噪声数据集。论文中未提供具体链接,但为已知公开数据集。
    • WPE:加权预测误差法(盲解混响算法)。论文中未提供具体链接,但为已知公开工具。
    • GSS:引导源分离法。论文中未提供具体链接,但为已知公开工具。
    • ResNet-18:深度残差网络模型,广泛使用。论文中未提供具体链接,但为已知开源模型。
    • LLaMA:Meta的大语言模型系列。论文中未提供具体链接,但为已知开源模型。
    • Fun-ASR:阿里云达摩院的开源语音识别框架。GitHub: https://github.com/modelscope/FunASR
    • FireRed-ASR:论文中提及为LLM-based ASR模型。论文中未提供具体链接。
    • Qwen3-ASR:论文中提及为LLM-based ASR模型。论文中未提供具体链接。

🏗️ 方法概述和架构

M2S-AVSR的整体框架如图2所示。其核心思想是分别从音频和视觉模态中提取鲁棒表征,并通过模态感知机制在解码器中进行融合。

  1. 整体架构:采用双分支编码器架构。音频前端是一个两层的一维卷积网络,用于从原始波形中提取特征,随后输入到基于Transformer的Whisper大型编码器中,得到音频表征\(\hat{\mathbf{X}}_{a}\)。视觉前端是一个ResNet-18网络,用于从唇部视频帧中提取特征,随后输入到MVL编码器(也基于Transformer架构)中,得到视觉表征\(\hat{\mathbf{X}}_{v}\)。解码器部分基于Whisper解码器改造,在每个解码器块的自注意力层之前插入一个门控视觉交叉注意力层,以实现视觉信息的融合。

  2. MVL编码器:这是视觉前端的核心,旨在学习对视角变化鲁棒的视觉表征。它初始化自AV-HuBERT大型模型,并在多视角数据(真实数据与合成数据的混合)上进行自监督预训练。其训练由三个损失函数联合优化(公式6):

    • 多视角一致性(MVC)损失:鼓励同一话语的真实视角和合成视角表征在特征空间(\(L_{\mathrm{mse}}\),公式1)和相关结构(\(L_{\mathrm{corr}}\),公式2)上保持一致,从而学习视角不变的表示。
    • 表征域对齐(RDA)损失:采用对比学习目标(公式5),以真实视角样本和与其视角最接近的合成样本为正对,拉近其表征,同时拉远与其他样本的表征,以减少合成数据带来的域偏移,聚焦于语音相关的运动模式。
    • 掩码多模态预测(MMP)损失:继承自AV-HuBERT的预训练目标。
  3. 模态感知融合机制:该模块在解码时动态调节视觉信息的注入程度,由三个子部分构成(图3):

    • 模态质量感知分支:从视觉表征\(\hat{\mathbf{X}}_{v}\)估计每个时间帧的质量门控分数\(g_q(t)\)(公式7-9)。它通过时序卷积和两层MLP,输出一个0到1之间的分数,用于表征该时间步视觉信息的可靠程度(如遮挡、模糊时分数降低)。
    • 跨模态同步感知分支:估计音频和视觉表征在共享嵌入空间中的同步性门控分数\(g_s(t)\)。首先通过各自投影网络将音频和视觉表征投影到同步嵌入空间\(\mathbf{E}_a\)和\(\mathbf{E}_v\)(公式10),然后计算局部时间窗内的\(L_2\)距离\(D_s(t)\),最后通过缩放函数将其转换为门控分数\(g_s(t)\)(公式11),距离越小(同步性越好),分数越高。
    • 模态感知融合:将质量门控和同步门控通过logit变换和可学习权重(\(w_q, w_s\))融合为最终的模态感知门控\(g_{\mathrm{ma}}(t)\)(公式12)。该门控值随后用于调节视觉交叉注意力层的输出(公式13),决定在每个解码时间步注入多少视觉信息。
  4. 训练策略:分三阶段:1)预训练MVL编码器;2)在音频数据上微调Whisper编码器以进行域适应;3)冻结两个编码器,仅训练模态感知模块(包括视觉交叉注意力层和模态感知门控)。在第三阶段,训练目标由标准的序列到序列注意力损失\(L_{\mathrm{att}}\)(公式16)和一个辅助的跨模态同步对比损失\(L_{\mathrm{sync}}\)(公式14)组成,鼓励同步的音视觉片段对距离近,异步的距离远。

图1

图2

💡 核心创新点

  1. 多视角自监督视觉表征学习策略:通过结合真实视角和合成视角数据,利用多视角一致性损失和表征域对齐损失进行自监督训练,使MVL编码器能够学习到视角不变且域对齐的视觉语音表征,有效应对视角变化。
  2. 模态感知融合机制:提出了一种同时考虑视觉模态质量(如遮挡、模糊)和跨模态同步性(如时序对齐)的细粒度门控融合方法。该机制在解码时动态调节视觉信息的注入,使模型能在模态可靠且同步时充分利用视觉线索,在不可靠时减少干扰,显著提升了系统在现实复杂条件下的鲁棒性。
  3. 发布新基准数据集:发布了AISHELL8-RealScene,这是一个包含多场景(室内、室外)、多视角(三个摄像机角度)、多说话人(前景/背景)的真实世界对话音视觉数据集。它提供了近场和多通道远场音频,以及经过处理的唇部区域视频,为研究真实环境下的鲁棒音视觉语音识别提供了新的基准。

📊 实验结果

实验在三个主要数据集上进行评估:LRS3、MISP2021-AVSR和AISHELL8-RealScene。

  1. LRS3数据集上的鲁棒性评估(表III):在标准测试集(Clean)和加噪测试集(Noisy,0dB SNR的babble noise)上进行评估。M2S-AVSR在无多视角数据时,433h设置下Clean WER为0.82%,Noisy WER为3.00%;1759h设置下Clean WER为0.68%,Noisy WER为2.12%。在评估视角扰动(5°, 15°)和视觉遮挡(0.1, 0.3)的鲁棒性时,M2S-AVSR(使用多视角数据训练)表现最佳。例如,在1759h设置下,15°视角扰动WER为4.05%,0.3遮挡WER为5.77%。与Whisper-Flamingo相比,在挑战性视觉条件下(15°扰动+0.3遮挡)实现了高达29.4%的相对WER降低。

  2. MISP2021-AVSR数据集评估(表IV):评估在真实室内场景下的性能。M2S-AVSR(A+V)达到了21.95%的CER,超过了之前所有系统(如ModalBiasAVSR的22.13%)。使用ROVER后,CER进一步降低至18.82%,实现了相对于之前最佳结果(21.53%)12.6%的相对降低。

  3. AISHELL8-RealScene数据集基准测试(表V):建立了涵盖大规模预训练ASR系统和LLM-based ASR系统的基准。所有系统在室外场景表现均较差。M2S-AVSR在室外场景(6.37h)取得了37.47%的最佳CER,相比Whisper-Flamingo(41.64%)和MMS-LLaMA(39.16%)的平均值实现了7.3%的相对降低。整体CER为31.41%,优于音频单模态的M2S-AVSR(33.64%)和Whisper-Flamingo(34.97%)。

  4. 消融研究(表VI):在LRS3 433h设置下验证了各组件的有效性。从基线(无MVL和MAF,Noisy WER 5.55%)开始,引入MVL编码器(结合MVC和RDA损失)将Noisy WER降至5.43%,15°视角WER从7.16%显著降至6.05%。加入模态感知融合(质量门控+同步门控)后,Noisy WER大幅降至2.88%,Clean WER降至0.88%。当所有组件(MVL+MAF)结合使用多视角数据时,达到最佳性能(Clean 0.82%, Noisy 2.84%)。

图3

图4

⚖️ 评分理由

  • 创新性 (1.6/2):问题定义清晰,针对真实世界AVSR的视角和模态退化问题。方法结合了多视角自监督学习和模态感知融合两个关键组件,后者同时建模质量和同步性,具有明确的新意。发布新数据集也增加了贡献。 技术严谨性 (1.4/1.5):方法描述详细,公式推导完整。MVL和模态感知模块的设计有理论动机。主要扣分点在于:1)部分与LLM基线的对比可能未完全对齐预训练数据规模(如FireRed-ASR, Qwen3-ASR标注为“”且未在LRS3上微调),使得直接比较需谨慎;2)模态感知模块增加了显著的计算复杂度和参数量(Whisper decoder每块增加一个cross-attn层),文中未分析其对推理速度的影响。
  • 实验充分性 (1.5/2):实验全面,覆盖英文/中文、室内/室外、干净/加噪/视角变化/遮挡等多种条件。消融实验清晰地验证了各组件贡献。提供了可视化(图6,图7)辅助理解。不足之处:1)未报告模型参数量的具体对比(表III虽有Params列,但未深入分析MAF模块带来的额外开销);2)在AISHELL8-RealScene上仅报告了平均结果,但未展示各说话人或不同遮挡程度下的细分性能分析。
  • 清晰度 (1.3/1.5):论文结构清晰,图表(特别是图2,图3)对方法描述有很好的辅助作用。数学符号定义一致。部分表述可以更精确,例如“Modality-aware Multi-view Self-supervised Representation”的简称“M2S”在中文语境下易与“模态(Modality)”混淆,但不算严重问题。
  • 影响力 (1.2/1.5):工作对音视觉语音识别社区有明确价值,尤其是在推动系统向真实场景鲁棒性发展方面。新数据集AISHELL8-RealScene填补了公开多视角室外AVSR数据集的空白,有望促进后续研究。影响力未得满分是因为核心方法(自监督学习、门控融合)本身并非革命性突破,且应用场景相对垂直。
  • 开源 (1.0/1.5):论文明确公开了AISHELL8-RealScene数据集并提供了获取链接,这是一项重要贡献。然而,论文未提及开源模型权重、代码或完整的复现配置包,这限制了工作的可复现性和直接影响力。
  • 可复现性 (1.0/1.5):论文提供了详细的实验设置(网络配置、超参数、训练阶段、数据处理细节),这有助于复现。但由于未开源代码和模型权重,其他研究者需要重写大量代码并可能面临调参困难,完全复现的成本很高。
  • 工程/实践价值 (0.8/1):方法在标准学术基准上展示了优异的性能,证明了其技术有效性。然而,其工程实践价值受限于:1)框架依赖于大型预训练模型(Whisper, AV-HuBERT),计算资源要求高;2)多阶段训练流程复杂;3)未讨论部署时的实时性和延迟优化。对于工业级应用,可能需要进一步的模型压缩和流程简化。

🚨 局限与问题

  1. 计算成本与效率:作者未明确讨论M2S-AVSR相比基线模型(如Whisper-Flamingo)增加的计算开销。引入MVL编码器和每层解码器的额外视觉交叉注意力层,显著增加了模型参数量和计算量,这在实时或资源受限的部署场景中是重要考量。
  2. 合成数据的局限性:多视角合成数据(用于LRS3训练)的质量和多样性直接影响MVL编码器的泛化能力。论文中未详细分析合成数据与真实数据在分布上的差异,以及这种差异是否会导致模型在极端或未见视角下性能下降。
  3. 对比实验的公平性:在表III中,部分LLM-based基线(如FireRed-ASR, Qwen3-ASR)标注为未经LRS3微调(*),其在LRS3上的表现可能无法代表其最优水平。尽管论文指出了这一点,但在直接比较绝对性能数值时,读者需注意此差异。M2S-AVSR与同等预训练规模(1759h)和参数量(如MMS-Llama 3.2B)的模型对比,优势明显但非压倒性。
  4. 消融实验的深度:消融实验(表VI)主要验证了模块的有效性,但对于关键超参数(如MVC损失中的\(\alpha\), 模态感知融合中的\(w_q, w_s\)初始化策略)的敏感性分析不足。此外,仅在LRS3 433h设置下进行消融,未在更大规模或其它数据集上验证组件贡献的一致性。
  5. 室外场景的挑战:在AISHELL8-RealScene室外测试中,M2S-AVSR虽取得最佳结果,但CER(37.47%)仍较高。论文指出室外场景噪声和视觉干扰更强,但未深入分析错误主要源于音频失真还是视觉失真,也未探讨针对性改进策略(如更强的音频增强或视觉修复)。
  6. 模态感知模块的泛化性:该模块依赖于对当前输入音视觉对质量和同步性的估计。当遇到训练分布之外的严重失真模式(如特定类型的光照变化、运动模糊或非自然噪声)时,门控机制的可靠性尚未得到充分验证。

📷 论文图片

图5


← 返回 2026-06-05 语音/音乐/音频论文速递