M2S-AVSR: Modality-aware Multi-view Self-supervised Representation for Robust Audio-Visual Speech Recognition
📄 M2S-AVSR: Modality-aware Multi-view Self-supervised Representation for Robust Audio-Visual Speech Recognition #多模态模型 #自监督学习 #语音识别 #音视频 9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 9/10 | 前25% | #语音识别 | #自监督学习 | #多模态模型 #音视频 | arxiv 👥 作者与机构 作者:Fei Su, Cancan Li, Ming Li, Juan Liu。 机构:武汉大学人工智能学院与计算机科学学院;香港中文大学(深圳)人工智能学院;武汉大学人工智能学院。 💡 毒舌点评 这篇论文工作扎实,动机明确,旨在解决真实世界AVSR中视角变化和模态退化的核心痛点。方法上,将多视角自监督学习(MVL编码器)与细粒度的模态感知融合(同时考虑质量和同步性)相结合,思路清晰且有新意。新发布的AISHELL8-RealScene数据集(室外、多视角)填补了部分空白,实验也较为全面。主要问题在于:1)部分实验对比可能受限于特定设置(如LLM基线未完全对齐训练数据规模),使得“最优”结论需谨慎解读;2)模态感知模块的计算开销和实际部署时的延迟未充分讨论;3)合成多视角数据的真实性和多样性可能限制MVL编码器的泛化上限。总体是一篇达到顶会门槛的工作,但部分细节的论证和工程实践考量有待加强。 📌 核心摘要 本文提出了M2S-AVSR,一个用于鲁棒音视觉语音识别(AVSR)的模态感知多视角自监督表征框架。该框架针对真实场景下常见的视角变化、音频失真和视觉遮挡等问题,主要包含两个核心创新:1)一个多视角表征学习(MVL)编码器,通过结合真实与合成视角的多视角自监督学习策略,学习视角不变的视觉表征;2)一个模态感知融合机制,在解码时显式建模视觉模态质量与跨模态同步性,实现细粒度的自适应信息注入。此外,论文发布了新的公开数据集AISHELL8-RealScene,包含多场景(室内/室外)、多视角的真实世界对话数据,用于建立更贴近现实的基准。在LRS3、MISP2021-AVSR和AISHELL8-RealScene上的实验表明,M2S-AVSR在应对视角扰动和视觉退化时显著优于现有方法,并在MISP2021-AVSR测试集上取得了新的最先进性能。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:AISHELL8-RealScene。论文中明确声明该数据集公开可用,并提供了具体链接和开源协议。 名称:AISHELL8-RealScene 获取链接:https://huggingface.co/datasets/SMIIP-lab/AISHELL8-RealScene 开源协议:CC BY-NC-SA 4.0 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及完整的复现配置包或检查点下载链接,但提供了详细的实验设置(如网络配置、学习率、批大小、GPU型号等)。 论文中引用的开源项目: Whisper:OpenAI的开源语音识别模型。GitHub: https://github.com/openai/whisper;HuggingFace模型库: https://huggingface.co/openai/whisper-large-v3 AV-HuBERT:Facebook AI Research的音视频自监督表征学习模型。GitHub: https://github.com/facebookresearch/av_hubert LRS3:大规模的视听语音识别数据集。项目主页: https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs3.html VoxCeleb2:大规模的视听人物识别数据集。项目主页: https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html MISP2021-AVSR:多模态远场语音识别挑战赛数据集。项目主页: https://mispchallenge.github.io/ OuluVS2:多视角视听语音数据集。论文中未提供具体链接,但为已知公开数据集。 MUSAN:用于噪声增强的开源噪声数据集。论文中未提供具体链接,但为已知公开数据集。 WPE:加权预测误差法(盲解混响算法)。论文中未提供具体链接,但为已知公开工具。 GSS:引导源分离法。论文中未提供具体链接,但为已知公开工具。 ResNet-18:深度残差网络模型,广泛使用。论文中未提供具体链接,但为已知开源模型。 LLaMA:Meta的大语言模型系列。论文中未提供具体链接,但为已知开源模型。 Fun-ASR:阿里云达摩院的开源语音识别框架。GitHub: https://github.com/modelscope/FunASR FireRed-ASR:论文中提及为LLM-based ASR模型。论文中未提供具体链接。 Qwen3-ASR:论文中提及为LLM-based ASR模型。论文中未提供具体链接。 🏗️ 方法概述和架构 M2S-AVSR的整体框架如图2所示。其核心思想是分别从音频和视觉模态中提取鲁棒表征,并通过模态感知机制在解码器中进行融合。 ...