多模态模型

Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks

📄 Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks #语音识别 #对抗样本 #多模态模型 9.2/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 9.2/10 | 前25% | #语音识别 | #对抗样本 | #多模态模型 | arxiv 👥 作者与机构 Jiani Xie, University of Melbourne Andrew C. Cullen, University of Melbourne Paul Montague, DST Group Benjamin I. P. Rubinstein, University of Melbourne ...

Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization

📄 Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization #多模态模型 6.2/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 ✅ 6.2/10 | 前50% | #多模态模型 | #图神经网络 | arxiv 👥 作者与机构哈尔滨工业大学（计算学院）、鹏城实验室、哈尔滨工业大学苏州研究院。 💡 毒舌点评这篇论文在“概念缝合”上做得不错，把图网络、双曲几何和开放词汇这些热门方向缝合成一个新框架。想法听起来很“顶会”，但仔细看技术实现，双阈值机制里的 \(w_1/w_2\) 是拍脑袋定的超参数，指示函数不可微也没交代，理论部分对双曲空间的作用解释得像玄学。实验上，消融研究做了，但“为什么有效”的分析深度不够，更像是组件堆叠的功劳报告。最让人皱眉的是开源方面，啥也没提供，这对于顶会论文来说是重大减分项——光说代码“可复现”是不够的。作者声称解决了开放词汇泛化问题，但实验里未见类别性能仍远低于已见类别，这“显著提升”的结论需要打个问号。总的来说，包装大于实质，想法有价值，但执行和论证的严谨性离顶级工作还有差距。 📌 核心摘要本文针对开放词汇音频-视觉事件定位（OV-AVEL）任务，提出一种分层语义约束异构图（HSCHG）框架。该框架包含两个主要阶段：首先，在欧氏空间构建异构层次图网络（HHGN），联合建模片段级和视频级的音视一致性表示；其次，将多层级表示映射到双曲空间，利用层次蕴涵正则化损失显式建模语义层次关系，以增强对未见类别的泛化能力。核心创新在于将异构图的多粒度跨模态交互与双曲空间的几何层次先验相结合，为开放词汇场景下的多模态理解提供了新思路。在OV-AVEBench基准上的实验表明，该方法在已见和未见类别上均优于现有基线，尤其在未见类别上取得显著性能提升。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文使用OV-AVEBench数据集（基于VGGSound构建），但未提供具体下载链接。 Demo：论文中未提及。复现材料：论文未提供训练配置文件、检查点或附录等复现材料的下载链接。论文中引用的开源项目： ImageBind: 论文使用其作为特征提取器。项目链接：https://github.com/facebookresearch/ImageBind 🏗️ 方法概述和架构 HSCHG框架（如图3所示）旨在为OV-AVEL任务学习具有语义一致性且层次分明的音视表示。其整体流程可分为四个主要阶段：特征提取、异构图网络处理、双曲空间映射与约束、损失优化。特征提取与初始化：使用冻结的预训练ImageBind模型分别提取音频、视觉和文本特征。对于输入视频，将其划分为\(T\)个片段，得到片段级音频特征 \(\mathbf{A}^{p} \in \mathbb{R}^{T \times D}\) 和视觉特征 \(\mathbf{V}^{p} \in \mathbb{R}^{T \times D}\)，以及类别文本特征 \(\mathbf{E} \in \mathbb{R}^{(|C|+1) \times D}\)。通过对片段特征进行时间平均池化，得到视频级音频特征 \(\mathbf{A}^{v}\) 和视觉特征 \(\mathbf{V}^{v}\)。此外，为每个样本构建一个视频级文本特征 \(e_{v}\)（通过提示“a full video of {category}”编码得到），用于后续层次约束。这些初始化的特征作为异构图网络的节点输入。 ...

SVHighlights: Towards Extremely Long Sport Video Highlight Detection

📄 SVHighlights: Towards Extremely Long Sport Video Highlight Detection #多模态模型 7/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7/10 | 前50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构作者：Donggyu Lee, Youngbin Ki, Jeonghun Kang, Taehwan Kim 机构：Ulsan National Institute of Science and Technology (UNIST), Ulsan, Republic of Korea 💡 毒舌点评这是一篇典型的“数据集驱动”工作，核心贡献是搭台（SVHighlights数据集）和给出一个免训练的强基线（TF-SELECTOR）。优点是问题定义清晰，直指当前长视频理解的一个空白点，数据集构建流程考虑周全，消融实验也比较扎实。然而，作为一篇顶会论文，其技术深度略显不足。TF-SELECTOR本质上是一个工程化的Pipeline（分割-描述-打分），创新点主要在于组合策略和如何适应长视频，而非提出新的算法模型。数据集的“免人工标注”依赖官方高光视频，这在一定程度上限制了其泛化到非体育领域的能力。实验结果中，TF-SELECTOR在HIT@1等指标上显著领先，但在mAP上不及TRACE，论文对此的解释有说服力（TRACE的稀疏预测策略）。总体而言，这是一篇扎实的系统性工作，为长视频高光检测领域提供了一个急需的基础设施和强力基线，但若期望看到颠覆性的算法创新可能会有些失望。 📌 核心摘要本文致力于解决视频高光检测领域向小时级长视频扩展的挑战。现有研究因缺乏合适基准而主要局限于短视频。为此，作者构建了首个超长体育视频高光检测基准SVHighlights，包含320个平均时长2小时的视频，总时长超过640小时。该基准通过创新的数据集生成流水线构建，利用官方高光视频与完整比赛视频进行对齐，自动生成标注，避免了昂贵的人工逐片段标注。为在长视频上提供有效基线，作者提出了TF-SELECTOR，一个免训练的框架。其核心思想是将长视频分割为基于转写文本的上下文感知语义片段，利用VLM为每个片段生成文字描述，再结合转写文本和音频音量，由LLM预测片段的高光显著性分数。在SVHighlights基准上的实验表明，TF-SELECTOR在HIT@1、HIT@K和IoU等关键指标上显著优于在短视频数据集上微调的视频时序定位模型。消融研究证实了多模态输入（尤其是转写文本）的重要性。该工作为长视频高光检测领域建立了首个标准化评测平台和强基线。 ...

Watch, Remember, Reason: Human-View Video Understanding with MLLMs

📄 Watch, Remember, Reason: Human-View Video Understanding with MLLMs #多模态模型 #流式处理 6.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 1/1.5 ✅ 6.4/10 | 前50% | #多模态模型 | #流式处理 | arxiv 👥 作者与机构作者：Jiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang 机构：J. Meng, Y. Tan, Y. Tong 隶属于北京大学智能科学与技术学院；Q. Xu, L. Qi 隶属于武汉大学；K. Gao, Y. Li 隶属于上海交通大学；J. Li 隶属于南洋理工大学；H. Wang, W. Liu 隶属于中国科学院自动化研究所（CASIA）；Q. Zhou 隶属于东京大学；G. Cheng 隶属于利物浦大学；J. Zhang 隶属于浙江大学；L. Kong 隶属于新加坡国立大学；M. Yang 隶属于加州大学默塞德分校。 ...

语音/音乐/音频论文速递 2026-06-08

语音/音乐/音频论文速递 2026-06-08 共分析 38 篇论文 ⚡ 今日概览 📥 抓取 38 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 7篇 ███████ #语音识别 6篇 ██████ #音频生成 3篇 ███ #数据增强 3篇 ███ #多模态模型 3篇 ███ #语音情感识别 2篇 ██ #音乐生成 2篇 ██ #音乐信息检索 1篇 █ 📊 论文评分排行榜（38 篇，按分数降序）排名论文总分分档主任务 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Sce 9.9分前10% #音频生成 🥈 Assessing True Generalisability of Audio-Visual Speech 9.5分前10% #语音识别 🥉 VoxCPM2 Technical Report 9.5分前50% #语音合成 4. Beyond Semantic Dominance: Cognitive Affective Reasonin 9.2分前10% #语音合成 5. Hearing the Unspoken: Language Model Priors for Acousti 9.2分前25% #语音识别 6. dots.tts Technical Report 9.0分前25% #语音合成 7. How Far Can Chord-Symbol Time-Series Adaptation Carry G 8.8分前50% #音乐信息检索 8. Where Rectified Flows Leak: Characterising Membership S 8.7分前25% #音频生成 9. BiEAR: A Human Auditory-Inspired Adaptive Binaural Fron 8.5分前25% #声源定位 10. Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech 8.4分前25% #数据增强 11. Multilingual Multi-Speaker Unit Vocoders: A Systematic 8.4分前25% #语音合成 12. Geometric Second-Order Feature Correlation Learning for 7.9分前50% #语音情感识别 13. Whisper Hallucination Detection and Mitigation via Hidd 7.9分前50% #语音识别 14. Acoustic Cue Alignment in Audio Language Models for Spe 7.8分前50% #语音情感识别 15. Towards Unified Song Generation and Singing Voice Conve 7.7分前25% #语音合成 16. Phonetic Error Analysis of Raw Waveform Acoustic Models 7.6分前50% #语音识别 17. SEAM: Shortcut-Aware Real-Time Detection of Scripted vs 7.5分前25% #语音增强 18. DirectAudioEdit: Inversion-Free Text-Guided Audio Editi 7.5分前25% #扩散模型 19. MMAE: A Massive Multitask Audio Editing Benchmark 7.5分前50% #语音编辑 20. Leveraging Soft Distributions of SSL-Derived Discrete S 7.4分前50% #语音识别 21. MyGardenBird: A Machine-Learning-Ready Bird Sound Datas 7.2分前50% #音频事件检测 22. FIGMA: Towards FIne-Grained Music retrievAl 7.2分前50% #对比学习 23. KIT's Submission to Cross-Lingual Voice Cloning in 7.2分前50% #语音合成 24. Contrastive Training with LLM-generated Near-Misses for 7.1分前50% #语音识别 25. A Large-Scale Per-Speaker Analysis of Re-identification 7.1分前50% #语音匿名化 26. SVHighlights: Towards Extremely Long Sport Video Highli 7.0分前50% #多模态模型 27. TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Con 6.8分前50% #语音转换 28. Making the Most of Limited Data: Score-Aware Training f 6.7分前50% #音乐生成 29. IRAF: Interference-Resilient Adaptive Fusion for Noise- 6.5分前50% #语音对话系统 30. Towards Event-Robust Acoustic Scene Classification 6.5分前50% #数据增强 31. FSC-Net: Integrating Fast Fourier Convolutions and Prog 6.4分前50% #音频质量评估 32. Watch, Remember, Reason: Human-View Video Understanding 6.4分前50% #多模态模型 33. Hierarchical Semantic-Constrained Heterogeneous Graph f 6.2分前50% #多模态模型 34. Audio Imitator: Controlling Timbre and Tempo in Video2A 6.0分前50% #音频生成 35. HybridCodec: Fast Dual-Stream, Semantically Enhanced Ne 5.7分前50% #语音合成 36. SpectCount: Spectrotemporal Counting via Synthetic Sign 5.5分前50% #数据增强 37. Entropy as a Structural Prior: How a Log-Barrier on DiT 4.2分后50% #音乐生成 38. VISA: A Visual Information Strengthened Audio-Reasoning 3.9分前50% #音频问答 📋 论文列表 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

Automatic Labelling of Speech Translation Errors

📄 Automatic Labelling of Speech Translation Errors #语音识别 #多模态模型 #模型评估 #低资源 6.1/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.1/10 | 前50% | #语音识别 | #多模态模型 | #模型评估 #低资源 | arxiv 👥 作者与机构 Dominik Macháček (Charles University, University of Edinburgh), Maike Züfle (Karlsruhe Institute of Technology), Ondrej Klejch (University of Edinburgh) 💡 毒舌点评这篇工作像一个精心准备的“开胃菜”：它正确地识别了ST评估领域一个鲜有人触碰的细分方向（错误跨度标注），并为此设计了一套完整的“菜单”（标注协议、数据集、基准系统）。然而，这终究不是一场盛宴。其核心贡献在于定义问题和提供初步基线，而非给出强有力的解决方案。数据集规模极小（仅约30分钟音频），且仅来自两个文档，这严重限制了结论的普适性。所谓的“自动化系统”评估，本质上只是对XCOMET和Qwen两个现有模型进行了非常浅层的“试用”，缺乏针对性的优化或深入的架构分析。最令人失望的是，论文虽然指出了语音处理的重要性，但并未真正提出或评估一个端到端的、为STEL任务设计的新模型。它更像是一份“可行性报告”或“任务说明书”，离解决所提出的问题还有很长的路要走。其最大的价值在于为后续研究铺平了道路并设立了基础基准，但就其自身而言，贡献的深度和广度有限。 ...

Beyond Generative Decoding: Discriminative Hidden-State Readout from a Native Omni-Modal LLM for Multimodal Sentiment Analysis

📄 Beyond Generative Decoding: Discriminative Hidden-State Readout from a Native Omni-Modal LLM for Multimodal Sentiment Analysis #多模态模型 #参数高效微调 #低资源 5.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 📝 5.3/10 | 前50% | #多模态模型 | #参数高效微调 | #低资源 | arxiv 👥 作者与机构作者：Bin Wen, Tien-Ping Tan。机构：School of Computer Sciences, Universiti Sains Malaysia, Penang, Malaysia。 ...

Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models

📄 Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models #音频问答 #多模态模型 6.4/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.4/10 | 前50% | #音频问答 | #多模态模型 | arxiv 👥 作者与机构 Yichen Gao, Yiqun Zhang, Zijing Wang, Yujia Li, Heng Guo, Xi Wu, Xiaocui Yang, Shi Feng, Yifei Zhang, Daling Wang 东北大学（Northeastern University, China）；上海人工智能实验室（Shanghai Artificial Intelligence Laboratory, China） ...

Forgive or forget: Understanding the context of hate in audio retrieval systems

📄 Forgive or forget: Understanding the context of hate in audio retrieval systems #多模态模型 7.4/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.4/10 | 前50% | #音频检索 | #多模态模型 | arxiv 👥 作者与机构论文未在提供的正文中明确提及作者及机构信息。根据arXiv元数据，需查阅论文首页确认。 💡 毒舌点评这篇论文处理了一个重要但尴尬的问题：你正用音频检索系统找个安静的雨声白噪音助眠，结果它热情地给你推送了一段充满人身攻击的“雨声”——因为那音频里恰好有人在暴雨中激烈争吵。文章提出的“忘掉”（Forget）和“原谅”（Forgive）双管齐下的后处理框架，试图让检索系统在“记住”语义的同时“忘掉”毒性，思路清晰且有实用价值。然而，正如审稿人总会怀疑“后处理是不是万能膏药”一样，其因果框架的简化（假设模型M是唯一混杂因子）和依赖第三方组件（LLM生成提示、ASR转录、毒性分类器）的鲁棒性，在当前实验中未得到充分压力测试。更关键的是，论文如同“自产自销”的闭环：用自己的新指标，在有限的两个数据集上，评估自己提出的方法。虽然结果“一致提升”，但缺乏在更复杂、更真实的有毒音频场景（如隐蔽的讽刺、跨语言仇恨）下的验证。对于一篇旨在解决实际安全问题的论文，这种实验的“温室”感，让人对其声称的广泛影响力打个问号。总分给到7.0，因为它确实提出了解决新问题的完整框架，但距离经得起推敲的顶会标准论文，实验的硬度和理论的深度还需捶打。 📌 核心摘要本文针对文本到音频检索系统中可能无意返回有害/仇恨音频的问题，提出了一个新颖的后处理因果去偏框架。该框架包含两个互补策略：“Forget”策略通过生成六类反事实有毒提示并应用基于Noise2Noise原理的对数平均，从模型层面系统性抑制有毒偏置；“Forgive”策略则对检索到的音频进行转录和毒性分类，通过softmax重新归一化对有毒音频进行降级，同时保留语义相关但无害的内容。为评估效果，论文提出了成功率（Success Rate）、准确性（Accuracy）和敏感度（Sensitivity）三个新指标。在AUDIOCAPS和CLOTHO数据集上，针对ATNLL、TUAR和WavCaps三个基线模型的实验表明，结合“Forget+Forgive”的方法在所有评估设置下均显著提升了成功率（即毒性抑制效果），同时保持了较高的检索准确性和敏感性。论文的消融研究显示，“Forget”在抑制毒性方面更强，而“Forgive”在保持准确性上更优。此外，音频质量分析表明处理后音频与原始参考高度相似。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集： AUDIOCAPS: 论文使用了AUDIOCAPS的测试集。该数据集由一篇论文介绍，可通过其官方渠道获取。获取详情请参考原始论文：AUDIOCAPS: Creating a Data Set for Descriptive Video Description and Training。 CLOTHO: 论文使用了CLOTHO的测试集。该数据集的获取方式请参考其论文及官方发布渠道：CLOTHO: An Audio Captioning Dataset。 Demo：论文中未提及。复现材料：论文中未提及。论文中引用的开源项目： Silero Speech-to-Text (ASR) Model: 用于将检索到的音频转换为文本。项目地址：https://github.com/snakers4/silero-vad (论文中引用为 [14])。 Detoxify: 用于对转录文本进行毒性分类。项目地址：https://github.com/unitaryai/detoxify (论文中引用为 [6])。 Noise2Noise: 论文中的Forget策略应用了其原理来平均化对数概率。相关论文：Image-to-Image Translation via Conditional Adversarial Networks (Noise2Noise) (论文中引用为 [8])。 NOMAD (Non-Matching Audio Distance): 用于评估过滤后音频质量的指标。相关论文：NOMAD: A Metric for Evaluating Generative Audio Models (论文中引用为 [12])。基准模型 (论文中作为对比基线，但未提供其官方代码链接): ATNLL: 引用文献 [15]。 TUAR: 引用文献 [11]。 WavCaps: 引用文献 [9]。 🏗️ 方法概述和架构本文提出一个后处理（post hoc）因果去偏框架，旨在不修改原有检索模型参数的前提下，集成到任何文本到音频检索系统中，以抑制有害音频的返回。该框架的核心是应用“前门调整”（front-door adjustment）来处理未观测的混杂因子（即检索模型M）。框架包含两个互补的策略模块：“Forget”和“Forgive”，其整体架构如论文图1所示。 ...

M2S-AVSR: Modality-aware Multi-view Self-supervised Representation for Robust Audio-Visual Speech Recognition

📄 M2S-AVSR: Modality-aware Multi-view Self-supervised Representation for Robust Audio-Visual Speech Recognition #多模态模型 #自监督学习 #语音识别 #音视频 9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 9/10 | 前25% | #语音识别 | #自监督学习 | #多模态模型 #音视频 | arxiv 👥 作者与机构作者：Fei Su, Cancan Li, Ming Li, Juan Liu。机构：武汉大学人工智能学院与计算机科学学院；香港中文大学（深圳）人工智能学院；武汉大学人工智能学院。 💡 毒舌点评这篇论文工作扎实，动机明确，旨在解决真实世界AVSR中视角变化和模态退化的核心痛点。方法上，将多视角自监督学习（MVL编码器）与细粒度的模态感知融合（同时考虑质量和同步性）相结合，思路清晰且有新意。新发布的AISHELL8-RealScene数据集（室外、多视角）填补了部分空白，实验也较为全面。主要问题在于：1）部分实验对比可能受限于特定设置（如LLM基线未完全对齐训练数据规模），使得“最优”结论需谨慎解读；2）模态感知模块的计算开销和实际部署时的延迟未充分讨论；3）合成多视角数据的真实性和多样性可能限制MVL编码器的泛化上限。总体是一篇达到顶会门槛的工作，但部分细节的论证和工程实践考量有待加强。 📌 核心摘要本文提出了M2S-AVSR，一个用于鲁棒音视觉语音识别（AVSR）的模态感知多视角自监督表征框架。该框架针对真实场景下常见的视角变化、音频失真和视觉遮挡等问题，主要包含两个核心创新：1）一个多视角表征学习（MVL）编码器，通过结合真实与合成视角的多视角自监督学习策略，学习视角不变的视觉表征；2）一个模态感知融合机制，在解码时显式建模视觉模态质量与跨模态同步性，实现细粒度的自适应信息注入。此外，论文发布了新的公开数据集AISHELL8-RealScene，包含多场景（室内/室外）、多视角的真实世界对话数据，用于建立更贴近现实的基准。在LRS3、MISP2021-AVSR和AISHELL8-RealScene上的实验表明，M2S-AVSR在应对视角扰动和视觉退化时显著优于现有方法，并在MISP2021-AVSR测试集上取得了新的最先进性能。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：AISHELL8-RealScene。论文中明确声明该数据集公开可用，并提供了具体链接和开源协议。名称：AISHELL8-RealScene 获取链接：https://huggingface.co/datasets/SMIIP-lab/AISHELL8-RealScene 开源协议：CC BY-NC-SA 4.0 Demo：论文中未提及在线演示链接。复现材料：论文中未提及完整的复现配置包或检查点下载链接，但提供了详细的实验设置（如网络配置、学习率、批大小、GPU型号等）。论文中引用的开源项目： Whisper：OpenAI的开源语音识别模型。GitHub: https://github.com/openai/whisper；HuggingFace模型库: https://huggingface.co/openai/whisper-large-v3 AV-HuBERT：Facebook AI Research的音视频自监督表征学习模型。GitHub: https://github.com/facebookresearch/av_hubert LRS3：大规模的视听语音识别数据集。项目主页: https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs3.html VoxCeleb2：大规模的视听人物识别数据集。项目主页: https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html MISP2021-AVSR：多模态远场语音识别挑战赛数据集。项目主页: https://mispchallenge.github.io/ OuluVS2：多视角视听语音数据集。论文中未提供具体链接，但为已知公开数据集。 MUSAN：用于噪声增强的开源噪声数据集。论文中未提供具体链接，但为已知公开数据集。 WPE：加权预测误差法（盲解混响算法）。论文中未提供具体链接，但为已知公开工具。 GSS：引导源分离法。论文中未提供具体链接，但为已知公开工具。 ResNet-18：深度残差网络模型，广泛使用。论文中未提供具体链接，但为已知开源模型。 LLaMA：Meta的大语言模型系列。论文中未提供具体链接，但为已知开源模型。 Fun-ASR：阿里云达摩院的开源语音识别框架。GitHub: https://github.com/modelscope/FunASR FireRed-ASR：论文中提及为LLM-based ASR模型。论文中未提供具体链接。 Qwen3-ASR：论文中提及为LLM-based ASR模型。论文中未提供具体链接。 🏗️ 方法概述和架构 M2S-AVSR的整体框架如图2所示。其核心思想是分别从音频和视觉模态中提取鲁棒表征，并通过模态感知机制在解码器中进行融合。 ...