M2S-AVSR: Modality-aware Multi-view Self-supervised Representation for Robust Audio-Visual Speech Recognition

📄 M2S-AVSR: Modality-aware Multi-view Self-supervised Representation for Robust Audio-Visual Speech Recognition #多模态模型 #自监督学习 #语音识别 #音视频 9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 9/10 | 前25% | #语音识别 | #自监督学习 | #多模态模型 #音视频 | arxiv 👥 作者与机构 作者:Fei Su, Cancan Li, Ming Li, Juan Liu。 机构:武汉大学人工智能学院与计算机科学学院;香港中文大学(深圳)人工智能学院;武汉大学人工智能学院。 💡 毒舌点评 这篇论文工作扎实,动机明确,旨在解决真实世界AVSR中视角变化和模态退化的核心痛点。方法上,将多视角自监督学习(MVL编码器)与细粒度的模态感知融合(同时考虑质量和同步性)相结合,思路清晰且有新意。新发布的AISHELL8-RealScene数据集(室外、多视角)填补了部分空白,实验也较为全面。主要问题在于:1)部分实验对比可能受限于特定设置(如LLM基线未完全对齐训练数据规模),使得“最优”结论需谨慎解读;2)模态感知模块的计算开销和实际部署时的延迟未充分讨论;3)合成多视角数据的真实性和多样性可能限制MVL编码器的泛化上限。总体是一篇达到顶会门槛的工作,但部分细节的论证和工程实践考量有待加强。 📌 核心摘要 本文提出了M2S-AVSR,一个用于鲁棒音视觉语音识别(AVSR)的模态感知多视角自监督表征框架。该框架针对真实场景下常见的视角变化、音频失真和视觉遮挡等问题,主要包含两个核心创新:1)一个多视角表征学习(MVL)编码器,通过结合真实与合成视角的多视角自监督学习策略,学习视角不变的视觉表征;2)一个模态感知融合机制,在解码时显式建模视觉模态质量与跨模态同步性,实现细粒度的自适应信息注入。此外,论文发布了新的公开数据集AISHELL8-RealScene,包含多场景(室内/室外)、多视角的真实世界对话数据,用于建立更贴近现实的基准。在LRS3、MISP2021-AVSR和AISHELL8-RealScene上的实验表明,M2S-AVSR在应对视角扰动和视觉退化时显著优于现有方法,并在MISP2021-AVSR测试集上取得了新的最先进性能。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:AISHELL8-RealScene。论文中明确声明该数据集公开可用,并提供了具体链接和开源协议。 名称:AISHELL8-RealScene 获取链接:https://huggingface.co/datasets/SMIIP-lab/AISHELL8-RealScene 开源协议:CC BY-NC-SA 4.0 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及完整的复现配置包或检查点下载链接,但提供了详细的实验设置(如网络配置、学习率、批大小、GPU型号等)。 论文中引用的开源项目: Whisper:OpenAI的开源语音识别模型。GitHub: https://github.com/openai/whisper;HuggingFace模型库: https://huggingface.co/openai/whisper-large-v3 AV-HuBERT:Facebook AI Research的音视频自监督表征学习模型。GitHub: https://github.com/facebookresearch/av_hubert LRS3:大规模的视听语音识别数据集。项目主页: https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs3.html VoxCeleb2:大规模的视听人物识别数据集。项目主页: https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html MISP2021-AVSR:多模态远场语音识别挑战赛数据集。项目主页: https://mispchallenge.github.io/ OuluVS2:多视角视听语音数据集。论文中未提供具体链接,但为已知公开数据集。 MUSAN:用于噪声增强的开源噪声数据集。论文中未提供具体链接,但为已知公开数据集。 WPE:加权预测误差法(盲解混响算法)。论文中未提供具体链接,但为已知公开工具。 GSS:引导源分离法。论文中未提供具体链接,但为已知公开工具。 ResNet-18:深度残差网络模型,广泛使用。论文中未提供具体链接,但为已知开源模型。 LLaMA:Meta的大语言模型系列。论文中未提供具体链接,但为已知开源模型。 Fun-ASR:阿里云达摩院的开源语音识别框架。GitHub: https://github.com/modelscope/FunASR FireRed-ASR:论文中提及为LLM-based ASR模型。论文中未提供具体链接。 Qwen3-ASR:论文中提及为LLM-based ASR模型。论文中未提供具体链接。 🏗️ 方法概述和架构 M2S-AVSR的整体框架如图2所示。其核心思想是分别从音频和视觉模态中提取鲁棒表征,并通过模态感知机制在解码器中进行融合。 ...

2026-06-05 · 更新于 2026-06-12 · 1 min · 195 words

EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

📄 EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation #音视频 #基准测试 #模型评估 #多模态模型 ✅ 7.1/10 | 前50% | #音视频 | #专家校准VLM评分 | #基准测试 #模型评估 | arxiv 学术质量 5.9/7 | 影响力 1/2 | 可复现性 0.2/2 | 置信度 High 👥 作者与机构 作者:Songlin Yang, Haobin Zhong, Ruilin Zhang, Xiaotong Zhao, Shuai Li, Kai Zheng, Xuyi Yang, Zhe Wang, Zhenchen Tang, Yang Li, Bohai Gu, Zhengwei Peng, Yidan Huang, Mengzhou Luo, Yihang Bo, Dalu Feng, Yujia Zhang, Juntao Ma, Ruiqi Wang, Lvmin Zhang, Yuwei Guo, Frank Guan, Maneesh Agrawala, Hongbo Fu, Alan Zhao, Anyi Rao. 机构:香港科技大学,腾讯,清华大学,中国科学院自动化研究所,北京电影学院,斯坦福大学,香港中文大学,新加坡技术设计大学。 ...

2026-05-25 · 更新于 2026-06-12 · 3 min · 454 words

CounterFlow: A Two-Phase Inference-Time Sampling for Counterfactual Video Foley Generation

📄 CounterFlow: A Two-Phase Inference-Time Sampling for Counterfactual Video Foley Generation #音频生成 #流匹配 #音视频 #生成模型 #模型评估 🔥 8.7/10 | 前50% | #音频生成 | #流匹配 | #音视频 #生成模型 | arxiv 学术质量 5.6/7 | 影响力 1.5/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 第一作者:Gyubin Lee(Kim Jaechul Graduate School of AI, KAIST) 通讯作者:未明确说明(论文中作者列表无明确标注,但通常最后一位作者为通讯作者) 作者列表:Gyubin Lee(Kim Jaechul Graduate School of AI, KAIST)、Junwon Lee(Kim Jaechul Graduate School of AI, KAIST)、Juhan Nam(Kim Jaechul Graduate School of AI, KAIST;Graduate School of Cultural Technology, KAIST) 💡 毒舌点评 亮点:论文精准定义了“反事实视频拟音”这一具体且有工业需求的任务,并提出了一个无需重新训练、仅在推理时操作的轻量级解决方案。核心的两阶段采样设计思路清晰,分解引导公式(Eq.1)有效对抗视觉主导问题,实验在精心构建的冲突数据集上明确证明了其优越性。短板:实验的基线对比虽然包含了SOTA方法(CAFA),但本质上仍是现有技术组件的巧妙组合,缺乏在模型架构或训练范式上的根本创新。对“视觉特征如何编码声音身份信息”这一核心假设的分析主要依赖间接证据(消融实验),缺乏更深入的探讨。 ...

2026-05-21 · 更新于 2026-06-12 · 2 min · 401 words

CounterFlow: A Two-Phase Inference-Time Sampling for Counterfactual Video Foley Generation

📄 CounterFlow: A Two-Phase Inference-Time Sampling for Counterfactual Video Foley Generation #音频生成 #流匹配 #多模态模型 #音视频 ✅ 6/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #音视频 | arxiv 学术质量 4.9/8 | 影响力 0.5/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Gyubin Lee(Kim Jaechul Graduate School of AI, KAIST) 通讯作者:Juhan Nam(Kim Jaechul Graduate School of AI, KAIST; Graduate School of Cultural Technology, KAIST)[注:论文未明确标注,但基于惯例与贡献推断] 作者列表:Gyubin Lee(Kim Jaechul Graduate School of AI, KAIST),Junwon Lee(Kim Jaechul Graduate School of AI, KAIST),Juhan Nam(Kim Jaechul Graduate School of AI, KAIST; Graduate School of Cultural Technology, KAIST) 💡 毒舌点评 论文精准地捕捉到了VT2A模型在视频与文本条件冲突时“视觉优先”的痛点,并提出了一个简洁且有效的推理时解决方案(两阶段采样+分解引导),在反事实音频生成这一细分任务上展示了明确的改进。然而,其核心方法本质上是对已有CFG、负提示和对采样过程洞察的工程化组合与调参,属于方法论层面的精巧设计而非底层算法突破。此外,所提的ΔFLAM评估指标虽然新颖,但对“听感正确性”的验证仍显间接,且评估仅在一个定制数据集上进行。 ...

2026-05-20 · 更新于 2026-06-12 · 3 min · 430 words

MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

📄 MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation #基准测试 #模型评估 #音视频 #生成模型 #多模态模型 ✅ 6.5/10 | 前40% | #基准测试 | #模型评估 | #音视频 #生成模型 | arxiv 学术质量 5.5/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 共同第一作者:Yujie Wei(复旦大学),Yujin Han(香港大学),Zhekai Chen(香港大学),Yongming Li(复旦大学) 项目负责人:Shiwei Zhang(阿里巴巴通义实验室) 通讯作者:Hongming Shan(复旦大学),Xihui Liu(香港大学) 作者列表(按原文顺序): Yujie Wei (1,复旦大学) Yujin Han (2*,香港大学) Zhekai Chen (2*,香港大学) Yongming Li (1*,复旦大学) Kaixun Jiang (1,复旦大学) Zhihang Liu (3,阿里巴巴通义实验室) Quanhao Li (1,复旦大学) Zhiwu Qing (3,阿里巴巴通义实验室) Xiang Wang (3,阿里巴巴通义实验室) Zhen Xing (3,阿里巴巴通义实验室) Ruihang Chu (3,阿里巴巴通义实验室) Lingyi Hong (1,复旦大学) Yefei He (4,浙江大学) Junjie Zhou (3,阿里巴巴通义实验室) Junqiu Yu (1,复旦大学) Yang Shi (5,北京大学) Difan Zou (2,香港大学) Kai Zhu (3,阿里巴巴通义实验室) Shiwei Zhang (3†,阿里巴巴通义实验室,项目负责人) Yingya Zhang (3,阿里巴巴通义实验室) Yu Liu (3,阿里巴巴通义实验室) Xihui Liu (2🖂,香港大学,通讯作者) Hongming Shan (1🖂,复旦大学,通讯作者) 💡 毒舌点评 亮点:论文精准切入“多镜头音视频(MSAV)生成”这一前沿评测空白,提出了首个综合性基准MSAVBench。其数据设计(四维度:视频、音频、镜头、参考)和评估框架(自校正、分层评分、工具增强代理)的系统性与前瞻性值得肯定,对19个模型的评估也提供了有价值的生态诊断。短板:论文的核心贡献在于构建一个评测“系统”和“报告”,而非提出新的生成模型或基础算法。其创新性更偏向工程设计和方法论集成,在追求算法理论突破的顶会中,原创性“硬度”不足。同时,对评估框架自身的深入分析(如不同VLM的影响、成本分析)略显仓促,对评测结果的解读存在过度泛化的风险。 ...

2026-05-20 · 更新于 2026-06-12 · 4 min · 741 words

When Vision Speaks for Sound

📄 When Vision Speaks for Sound #音视频 #偏好优化 #多模态模型 #鲁棒性 #诊断框架 ✅ 7.7/10 | 前25% | #音视频 | #偏好优化 | #多模态模型 #鲁棒性 | arxiv 学术质量 6/8 | 影响力 0.9/1 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Xiaofei Wen(University of California, Davis) 通讯作者:论文未明确标注通讯作者。 作者列表:Xiaofei Wen(University of California, Davis)、Wenjie Jacky Mo(University of California, Davis)、Xingyu Fu(Princeton University)、Rui Cai(University of California, Davis)、Tinghui Zhu(University of California, Davis)、Wendi Li(University of Wisconsin–Madison)、Yanan Xie(Uniphore)、Muhao Chen(University of California, Davis)、Peng Qi(Uniphore)。注:Xiaofei Wen与Wenjie Jacky Mo标注为共同第一作者(d)。 💡 毒舌点评 这篇论文敏锐地抓住了当前视频多模态模型“重看轻听”的要害,用一个精巧的Thud诊断框架把“聪明汉斯效应”量化得明明白白。提出的两阶段对齐配方(SFT+DPO+混合数据)在解决特定问题上取得了显著的数值提升,尤其是时间同步任务。然而,论文的核心结论“28%平均提升”主要建立在自建的Thud诊断集上,其泛化性存疑。更关键的是,对Mute和Swap两种干预的对齐训练探索极为初步,远未达到时间同步任务的深度,这使得论文关于“干预训练可扩展”的论断显得根基不稳。实验主要基于单一基座模型(Qwen3-Omni-30B),在更广泛模型上的有效性未经验证,限制了工作的普适性。 ...

2026-05-20 · 更新于 2026-06-12 · 3 min · 567 words

Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation

📄 Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation #音视频 #多模态模型 #语音克隆 #生成模型 #扩散模型 ✅ 7.3/10 | 前25% | #音视频 | #多模态模型 | #语音克隆 #生成模型 | arxiv 学术质量 6.2/8 | 影响力 0.8/1 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Yuheng Chen(上海交通大学) 通讯作者:Qingdong He(电子科技大学,论文中标注为对应作者及项目负责人) 作者列表:Yuheng Chen(上海交通大学,等同贡献)、Qingdong He(电子科技大学,等同贡献)、Teng Hu(上海交通大学)、Yuji Wang(上海交通大学)、Yabiao Wang(浙江大学)、Lizhuang Ma(上海交通大学)、Jiangning Zhang(浙江大学,对应作者) 💡 毒舌点评 这篇论文为“多主体联合音视频定制”这一具体问题提出了一套工程实现相对完整的端到端框架,其针对“Caption Vocalization”问题设计的MTP-CA掩码机制简单有效,SA-MRoPE的位置编码设计思路也具启发性。然而,其核心的OCF模块本质上是标准Transformer块对拼接序列的处理,架构创新度有限,且论文在“Caption Vocalization”的成因分析和SA-MRoPE有效性的理论解释上均显薄弱,更像是一次成功的系统工程集成而非深度理论探索。 📌 核心摘要 本文旨在解决在联合音视频生成中,为多个主体同时保持其视觉身份和声音音色,并实现精准绑定的难题。现有方法存在多主体身份混淆、无法有效跨模态绑定,以及基础模型固有的语音合成异常等问题。论文提出了Omni-Customizer,一个端到端框架。其核心方法包括:1) Omni-Context Fusion (OCF) 模块,将文本、视觉参考、音频参考和TTS嵌入拼接成统一序列,通过L层专用Transformer块进行深度跨模态交互,以富化文本表示;2) Semantic-Anchored Multimodal RoPE (SA-MRoPE),为不同模态的参考token设计了基于其对应文本描述符位置的3D位置编码,实现语义锚定;3) Masked TTS Cross-Attention (MTP-CA),通过二进制掩码机制,确保TTS语音信息仅注入到提示词中被<S>和<E>标签包裹的对话部分,消除“Caption Vocalization”异常。此外,论文提出了交错式模态解耦训练策略(交替进行联合音视频训练和纯音频训练)和渐进式课程学习(从单主体配对到多主体非配对数据),以在不损害基础模型能力的前提下,让模型适应多语言环境并学习鲁棒的身份特征。论文还详细描述了构建多主体多模态数据集的完整流程,并提出了新的评估基准OC-Bench。实验在OC-Bench上进行,结果表明,Omni-Customizer在视觉身份相似度、音色一致性、音视频同步和整体保真度上均达到了当前最佳水平。 ...

2026-05-19 · 更新于 2026-06-12 · 4 min · 673 words

WavFlow: Audio Generation in Waveform Space

📄 WavFlow: Audio Generation in Waveform Space #音频生成 #流匹配 #音视频 #音频大模型 #数据集 ✅ 6.7/10 | 前25% | #音频生成 | #流匹配 | #音视频 #音频大模型 | arxiv 学术质量 5.7/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Feiyan Zhou (Meta AI) 通讯作者:未明确说明(论文中仅标注*为Corresponding author,但未明确指出是哪位作者) 作者列表:Feiyan Zhou (Meta AI), Luyuan Wang (Meta AI), Shoufa Chen (Meta AI), Zhe Wang (Meta AI), Zhiheng Liu (Meta AI), Yuren Cong (Northeastern University), Xiaohui Zhang (Northeastern University), Fanny Yang (Northeastern University), Belinda Zeng (Northeastern University)。论文中明确标注Northeastern University为合作机构。 💡 毒舌点评 这篇论文勇敢地挑战了音频生成领域的“潜空间教条”,证明了在原始波形空间生成高质量音频是可行的,其技术路线(波形分块+幅度提升+xx预测)简洁有效,结果也颇具说服力。然而,其最大的“资产”——号称5000万样本的专有数据集——恰恰是最大的复现壁垒,使得论文的核心结论更像是一次强大的工业展示而非可广泛复现的学术研究。此外,论文声称与SOTA“匹配或超越”,但在关键的数据规模前提下,这一结论的公平性和说服力需要打上问号。 ...

2026-05-19 · 更新于 2026-06-12 · 3 min · 524 words

Sound Sparks Motion: Audio and Text Tuning for Video Editing

📄 Sound Sparks Motion: Audio and Text Tuning for Video Editing #视频编辑 #测试时调优 #音视频 #多模态模型 📝 5.5/10 | 前25% | #视频编辑 | #测试时调优 | #音视频 #多模态模型 | arxiv 学术质量 4.7/8 | 影响力 0.6/1 | 可复现性 0.2/1 | 置信度 中 👥 作者与机构 第一作者:AmirHossein Naghi Razlighi (论文中未明确说明所属机构) 通讯作者:论文中未明确说明 作者列表:AmirHossein Naghi Razlighi (未说明)、Aryan Mikaeili (未说明)、Ali Mahdavi-Amiri (未说明)、Daniel Cohen-Or (未说明)、Yiorgos Chrysanthou (未说明) 💡 毒舌点评 亮点:论文精准定位了视频生成模型在“运动编辑”上的普遍短板,并提出了一个动机清晰、框架轻量(免训练)的测试时调优解决方案。其核心洞察在于联合利用音频和文本条件作为控制轴,这一多模态视角颇具启发性。 短板:方法严重依赖一个未公开的、特定的“音频-视觉视频生成模型”,其通用性存疑;核心监督信号来自一个黑盒VLM,引入了不可控的评估偏差;且当前摘要中完全缺乏定量实验对比,使得任何关于“有效性”或“优越性”的结论都悬而未决,说服力严重不足。 📌 核心摘要 问题:现有大型视频生成模型在“运动编辑”方面表现不佳。它们能很好地响应外观变化,但难以根据文本提示在已有视频中产生特定、局部的动作或状态转换。 核心方法:提出“Sound Sparks Motion”,一个免训练的测试时调优框架。它通过对一个音频-视觉视频生成模型内部的多模态条件信号进行微调来实现运动编辑。具体是调优两个轻量变量:一个从源视频派生的音频潜在表示,以及文本条件的一个残差扰动。 新颖之处:与修改模型权重的微调或仅依赖文本提示的方法不同,该方法通过联合调优音频和文本条件信号(特别是音频通路),挖掘模型中潜在的、难以通过纯文本控制的运动控制能力。 实验结果:论文摘要未提供任何定量实验结果数值。关键结论基于定性观察和消融分析:单独调优音频或文本效果不佳,组合是必要的;学习到的调优变量具有跨视频迁移的潜力。 实际意义:为视频内容创作者提供了一种新的、基于音频线索的细粒度运动编辑工具。更重要的是,提出了一种通过测试时调优来“探针”和释放预训练多模态模型隐藏能力的范式。 主要局限:方法效果受限于底层音频-视觉生成模型的质量和多模态条件结构。评估依赖于另一个预训练的VLM,其准确性无法保证。计算成本(每个视频需要调优)和泛化到其他视频编辑任务的能力有待验证。 🔗 开源详情 代码:论文摘要提及代码可通过项目页面获取,但未给出具体链接。 模型权重:论文中未提及。 数据集:论文中未提及。 Demo:论文中未提及。 复现材料:论文摘要提及代码和数据可通过项目主页获取:https://amirhossein-razlighi.github.io/Sound_Sparks_Motion/ 论文中引用的开源项目:未提及。 🏗️ 方法概述和架构 整体流程概述:这是一个免训练的测试时调优(Test-Time Tuning)框架。输入是需要编辑的源视频、描述期望运动的文本提示,以及一个预训练的音频-视觉视频生成模型。核心处理过程是通过一个基于VLM反馈的优化环路,对模型的音频条件和文本条件进行轻微调整。输出是运动被编辑后的视频。 ...

2026-05-18 · 更新于 2026-06-12 · 1 min · 211 words

Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs

📄 Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs #音视频 #高效推理 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音视频 | #高效推理 | #多模态模型 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 0.5/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Chaeyoung Jung(Korea Advanced Institute of Science and Technology (KAIST)) 通讯作者:未明确说明(论文中列出的通讯作者地址为“Equal contribution”,与第一作者相同) 作者列表:Chaeyoung Jung(KAIST)、Kyeongha Rho(KAIST)、Joon Son Chung(KAIST) 💡 毒舌点评 这篇论文的“移除音频已知,保留音频未知”的剪枝思想确实新颖且直观,实验结果也非常亮眼,尤其是在Qwen2.5-Omni 7B上能以55%的压缩率保持甚至超越全token性能。但尴尬的是,方法最核心的“保留空间细节”分支(图2中标注2⃝)依赖于一个固定的全局空间保留比例ρspa,这在处理如球员球衣号码、面部表情等高度局部化、信息量集中的细节时显得非常脆弱,论文的失败案例也明确证实了这一点。一个自适应的、可能依赖内容或查询的空间预算分配机制,才是该方法从“有效”迈向“鲁棒”的关键下一步。此外,将所有实验仅限于短视频片段,其结论在长视频场景下的普适性存疑。 📌 核心摘要 要解决什么问题:全模态大语言模型(Omni-LLMs)在处理音视频输入时,会产生大量token,导致计算开销巨大,阻碍了实际部署。现有的token剪枝方法要么针对特定任务训练,要么过度依赖音频-视觉的强对齐信号,可能丢弃理解宽泛上下文所需的证据。 方法核心是什么:论文提出了一个名为ContextGuard的推理时token剪枝框架。其核心思想是将token压缩从“选择重要token”重新定义为“移除跨模态冗余,同时保留音频无法表达的视觉上下文”。具体实现包含三个主要步骤:a) 音频引导的语义剪枝:使用一个轻量级的音频到视觉语义预测器(A2V Predictor)从音频预测粗糙视觉语义,移除与预测语义高度相似(即可被音频解释)的视频token;b) 空间细节保留:通过网格采样和局部空间变化度量,额外保留一部分token以覆盖图像空间,保存颜色、姿态等音频无法指定的局部细节;c) 基于深度分数的时间合并:对时间上相似的chunk进行分段和合并,进一步压缩冗余帧。 与已有方法相比新在哪里:与现有训练基础的(如EchoingPixels, OmniSIFT)或基于对齐的(如OmniZip)方法不同,ContextGuard不追求为当前查询选择最相关的token,而是致力于去除被音频流冗余表达的视觉信息,并主动保留那些与音频不匹配的视觉证据(如场景文字、背景物体),以维护更广泛的上下文信息。 主要实验结果如何:在Qwen2.5-Omni(7B/3B)和Video-SALMONN2+(7B/3B)两个模型及六个音视频基准测试上,ContextGuard显著优于基线方法。关键结果如表1所示: Method Comp.↑ (%) World.↑ Daily.↑ Video-MME↑ OmniVid.↑ AVQA↑ video-SAL2.↓ Avg.↑ (%) Qwen2.5-Omni 7B Full Token 0 47.4 57.1 78.8 48.2 87.6 48.1 100.0 Random 50 45.7 52.4 78.4 43.4 86.7 50.4 95.4 FastV 50 45.6 56.6 77.9 47.6 87.0 49.8 98.1 OmniZip 54 46.8 56.6 77.1 47.0 87.0 52.8 97.3 ContextGuard 55 47.7 57.2 78.8 48.2 87.1 48.1 100.0 Qwen2.5-Omni 3B Full Token 0 47.7 57.7 75.8 44.0 87.6 53.5 100.0 Random 50 44.1 53.1 74.0 42.8 87.1 56.1 95.7 FastV 50 46.7 55.6 74.0 44.0 87.2 54.6 98.2 OmniZip 54 47.1 55.8 74.9 42.8 87.3 52.4 98.9 ContextGuard 61 47.7 56.6 75.8 45.2 87.3 52.3 100.5 Video-SALMONN2+ 7B Full Token 0 50.7 56.3 79.2 43.4 67.8 18.9 100.0 Random 50 47.3 51.6 76.2 39.5 66.8 25.7 90.7 FastV 50 46.3 51.8 79.2 42.2 66.1 24.0 92.8 OmniZip 49 47.8 53.8 79.2 42.8 68.8 22.4 95.7 ContextGuard 55 50.6 55.5 81.4 47.0 66.9 19.9 100.5 Video-SALMONN2+ 3B Full Token 0 48.1 57.7 76.2 45.8 81.6 22.7 100.0 Random 50 44.3 51.6 73.2 42.0 81.2 30.3 90.6 FastV 50 45.6 53.2 71.0 36.1 81.0 27.4 90.2 OmniZip 49 45.6 54.7 73.2 41.6 81.3 26.3 93.7 ContextGuard 56 47.1 55.5 73.6 44.6 81.4 24.2 96.9 特别是在Qwen2.5-Omni 7B上,剪枝55%的token后,在6个基准中的5个上达到了全token性能。 实际意义是什么:该方法为部署高效的全模态大模型提供了有力的工具,通过一个无需微调下游LLM、仅需一个独立训练的轻量预测器的推理时框架,大幅降低了音视频理解的计算成本和内存占用,对实时交互应用具有重要价值。 主要局限性是什么:方法依赖于固定的精细粒度空间保留比例(ρspa),这可能导致在需要非常具体局部细节的任务(如识别球衣号码、细微表情)上表现不佳,正如其失败案例所示。此外,所有评估均基于短于1分钟的视频片段,限制了结论对长视频场景的适用性。A2V预测器的鲁棒性在不同内容类型(如音乐视频)上未被充分讨论。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集: WorldSense: 论文中未提供链接。 Daily-Omni: 论文中未提供链接。 Video-MME: 论文中未提供链接。 AVQA: 论文中未提供链接。 OmniVideoBench: 论文中未提供链接。 video-SALMONN2 test set: https://huggingface.co/datasets/videoSALMONN2/video-SALMONN_2_testset AudioSet: 论文中提及,未提供具体链接。 VGGSound: 论文中提及,未提供具体链接。 Demo:论文中未提及。 复现材料:论文提供了详细的附录,包括 A2V 预测器的架构、训练目标、训练数据(AudioSet 和 VGGSound)、超参数设置、以及各项分析实验的细节(如语义保留比例、空间细节保留策略、时序合并实现等)。未提及训练检查点或代码库。 论文中引用的开源项目: Qwen2.5-Omni: 论文中作为基线模型使用,未提供代码或权重仓库链接。 Video-SALMONN2+: 论文中作为基线模型使用,未提供代码或权重仓库链接。 OmniZip: 论文中作为对比方法,未提供代码或仓库链接。 FastV: 论文中作为对比方法,未提供代码或仓库链接。 🏗️ 方法概述和架构 整体流程概述:ContextGuard是一个在LLM解码器之前运行的、多阶段的音视频token剪枝框架。其输入为交替的音视频token序列,输出为压缩后的视觉token序列和完整的音频token序列。该框架并非端到端系统,而是由一个独立训练的轻量级A2V预测器和一个基于启发式规则的剪枝-合并流水线组成。 ...

2026-05-14 · 更新于 2026-06-12 · 3 min · 510 words