AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction
📄 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction #多模态模型 #基准测试 #音视频 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Zixuan Chen(上海交通大学) 通讯作者:Tanfeng Sun,Xinghao Jiang(上海交通大学,根据论文作者顺序及常见通讯作者标注习惯推断) 其他作者: Depeng Wang(蚂蚁集团) Hao Lin(香港中文大学) Li Luo(上海交通大学) Ke Xu(上海交通大学) Ya Guo(蚂蚁集团) Huijia Zhu(蚂蚁集团) 💡 毒舌点评 这篇论文的亮点在于它敏锐地抓住了当前多模态大模型在“理解矛盾”而非“理解对齐”上的短板,并为此量身打造了一个大规模、系统化的测试基准,堪称给模型们做了一次“大家来找茬”的专项体检。槽点在于其“构造”不一致性的方法虽然巧妙且可控,但过于依赖外部大模型(Gemini)进行策略规划,且注入的“矛盾”在自然度上可能与真实世界的复杂矛盾仍有差距,有点像在实验室里精心布置的“找茬游戏”考场。 🔗 开源详情 代码:论文中提到GitHub仓库(https://github.com/),但未给出完整链接。计划开源。 模型权重:AVID-Qwen基于Qwen3-Omni-30B-A3B-Instruct微调。论文提到将在HuggingFace上发布模型权重。 数据集:AVID基准计划公开,包含全视频和片段级子集。 预训练权重:使用公开的Qwen3-Omni-30B-A3B-Instruct作为骨干。 在线Demo:论文中未提及。 引用的开源项目: 策略智能体:Gemini 3.1 Pro (Google)。 注入器工具:FFmpeg, Demucs (音频分离), Silero VAD, MediaPipe。 基座模型:Qwen3-Omni。 微调框架:SWIFT。 数据来源:LongVALE数据集。 📌 核心摘要 这篇论文旨在解决当前全模态大模型在音视频不一致性理解能力上缺乏系统性评估的问题。现有基准要么只关注音视频对齐事件,要么局限于检测深度伪造中的低级伪影,无法评估模型对长视频中语义级矛盾的理解。为此,作者提出了AVID,首个大规模音视频不一致性理解基准。其核心方法是构建了一个可扩展的流水线:首先将视频按“有声有脸”、“有声无脸”、“无声有景”进行时序分割,然后利用一个由Gemini驱动的策略智能体为每个片段规划最合适的矛盾注入类型(共8类),最后通过五个专门的注入器(如时间偏移、语义矛盾、身份修改等)生成不一致视频。基于此,他们构建了包含11.2K长视频(平均235.5秒)、39.4K个已标注矛盾事件和78.7K个片段的数据集。实验表明,现有顶尖模型(包括Gemini 3.1 Pro)在时间定位和细粒度推理上存在显著不足。作者还微调了一个基线模型AVID-Qwen,其在时间定位(mIoU: 36.1% vs 26.2%)和整体理解(SODA-m: 7.47 vs 6.15)上超越了所有对比模型,验证了该基准的有效性。 ...