AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction
📄 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction #多模态模型 #基准测试 #音视频 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Zixuan Chen(上海交通大学) 通讯作者:Tanfeng Sun,Xinghao Jiang(上海交通大学,根据论文作者顺序及常见通讯作者标注习惯推断) 其他作者: Depeng Wang(蚂蚁集团) Hao Lin(香港中文大学) Li Luo(上海交通大学) Ke Xu(上海交通大学) Ya Guo(蚂蚁集团) Huijia Zhu(蚂蚁集团) 💡 毒舌点评 这篇论文的亮点在于它敏锐地抓住了当前多模态大模型在“理解矛盾”而非“理解对齐”上的短板,并为此量身打造了一个大规模、系统化的测试基准,堪称给模型们做了一次“大家来找茬”的专项体检。槽点在于其“构造”不一致性的方法虽然巧妙且可控,但过于依赖外部大模型(Gemini)进行策略规划,且注入的“矛盾”在自然度上可能与真实世界的复杂矛盾仍有差距,有点像在实验室里精心布置的“找茬游戏”考场。 📌 核心摘要 这篇论文旨在解决当前全模态大模型在音视频不一致性理解能力上缺乏系统性评估的问题。现有基准要么只关注音视频对齐事件,要么局限于检测深度伪造中的低级伪影,无法评估模型对长视频中语义级矛盾的理解。为此,作者提出了AVID,首个大规模音视频不一致性理解基准。其核心方法是构建了一个可扩展的流水线:首先将视频按“有声有脸”、“有声无脸”、“无声有景”进行时序分割,然后利用一个由Gemini驱动的策略智能体为每个片段规划最合适的矛盾注入类型(共8类),最后通过五个专门的注入器(如时间偏移、语义矛盾、身份修改等)生成不一致视频。基于此,他们构建了包含11.2K长视频(平均235.5秒)、39.4K个已标注矛盾事件和78.7K个片段的数据集。实验表明,现有顶尖模型(包括Gemini 3.1 Pro)在时间定位和细粒度推理上存在显著不足。作者还微调了一个基线模型AVID-Qwen,其在时间定位(mIoU: 36.1% vs 26.2%)和整体理解(SODA-m: 7.47 vs 6.15)上超越了所有对比模型,验证了该基准的有效性。 🏗️ 模型架构 论文中提出的基线模型是 AVID-Qwen,其核心架构基于 Qwen3-Omni-30B-A3B-Instruct。 整体输入输出流程: 输入:原始视频文件(包含视频帧和音频流)以及一个文本指令(Prompt)。 预处理: 视觉:视频以12 FPS采样,帧被调整至最大50,176像素(保持宽高比),形成视觉token序列。 音频:直接从视频文件中提取音频流,由音频编码器处理。 模型推理:预处理后的视觉token、音频token与文本指令的token被拼接,输入到一个自回归的大型语言模型(LLM)骨干网络中。 输出:模型自回归地生成文本响应,格式根据任务而定(如检测结果、分类、时间戳、推理文本)。 主要组件: 视觉编码器:一个预训练的视觉特征提取器,将视频帧转换为视觉token。在微调期间被冻结。 音频编码器:一个预训练的音频特征提取器,处理音频流。在微调期间被冻结。 对齐模块:将视觉编码器的输出映射到LLM嵌入空间的适配器。在微调期间被冻结。 LLM骨干:一个约300亿参数(激活30亿)的解码器Transformer。这是微调的主要对象,负责跨模态推理和文本生成。 连接方式与数据流:视觉和音频编码器独立处理各自模态的原始输入,生成特征序列。这些特征序列通过各自的对齐模块(视觉需要,音频可能直接适配)转换为与LLM词嵌入空间兼容的token。这些多模态token与文本指令token拼接成一个长序列,输入LLM。LLM基于这个混合序列进行自回归解码,生成最终文本。 ...