📄 AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs

#语音识别 #多模态模型 #基准测试

8.8/10 | 创新 1.7/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5

🔥 8.8/10 | 前25% | #语音识别 | #多模态模型 | #基准测试 | arxiv

👥 作者与机构

作者:Yaoting Wang, Ziyi Zhang, Wenming Tu, Shaoxuan Xu, Wenjie Du, Cheng Liang, Weijun Wang, Yuanchao Li, Guangyao Li, Hao Fei, Yuanchun Li, Henghui Ding†, Yunxin Liu 机构:未在文中明确列出所有作者所属机构,但项目网站为 fudancvl.github.io,可能关联复旦大学视觉与学习实验室。

💡 毒舌点评

这篇论文的核心是搭建一个评测场子,然后用它测出大家都不行。动机很清晰,即全模态大模型的“视听智能”缺乏系统性评测,这点抓得准。提出的AVI-Bench框架和四层分类法是主要亮点,试图超越简单的“刷榜”,为诊断模型能力提供结构化视角,这是好的方向。但论文最大的“坑”在于那个Level-3的瓶颈不一致性度量\(\Delta_s\),公式搞得太复杂,而选择\(\alpha=0.5\)这个关键超参数却没有任何消融实验支撑,显得理论根基有点虚。实验部分,评测了28个模型,场面很大,但结论基本都在预料之中(视觉强、音频弱、推理差),缺乏更颠覆性的发现。最让人皱眉的是“原始感知”阶段,用合成的低语义数据去测模型的“下限”,这个想法有趣,但论文对其数据生成方式、任务设计合理性的论述大部分扔进了附录,正文里轻描淡写,说服力打了折扣。总的来说,是一个扎实的基础设施工作,但理论创新点(\(\Delta_s\))的严谨性和部分实验设计的论证深度还有提升空间。

📌 核心摘要

本论文提出了AVI-Bench,一个受认知科学启发的系统化基准,用于评估全模态大语言模型(Omni-MLLMs)的人类水平音频-视觉智能(AVI)。该框架将AVI分解为感知、理解、推理三个核心认知阶段,并通过一系列跨模态任务进行评估。为检验模型在陌生领域的泛化能力,论文进一步提出了AVI-Bench-PriSe子集,使用低语义、非常规的输入刺激进行测试。基于对28个开源和闭源模型的全面评估,论文揭示了当前模型存在的关键局限,如严重的“视觉主导”问题、感知/理解能力对推理的瓶颈效应,以及在细粒度定位和陌生领域任务上的巨大差距。基于这些洞察,论文提出了一个四层(任务、模态、阶段、领域)AVI分类法,以更结构化和可解释的方式诊断模型能力,超越了传统的平均分排名。

🔗 开源详情

  • 代码:提供了项目网站链接(https://fudancvl.github.io/AVI-Bench/),但未明确说明是否包含完整的评测脚本或数据加载代码。论文附录(如G.1节)提供了详细的指标计算公式。
  • 模型权重:论文中未提供任何模型的权重下载链接。评估了多种闭源模型(通过API)和开源模型,但未给出开源模型权重的具体获取地址(如HuggingFace链接)。
  • 数据集:论文中未提供AVI-Bench或AVI-Bench-PriSe数据集的直接下载链接或明确的开源协议。说明部分数据来自公开数据集(AVS-Bench, Ref-AVS, Music-AVQA等)并经过重组,但重组后的完整数据集未提供独立发布页。
  • Demo:论文中未提及在线演示链接。
  • 复现材料:未提供完整的复现代码仓库、训练配置或检查点。详细的评估设置、模型版本(Table 13)和统计分析(附录E)在文中给出。

🏗️ 方法概述和架构

AVI-Bench是一个精心设计的、四阶段(感知、理解、推理、原始感知)评测框架,旨在系统性地衡量Omni-MLLMs的音频-视觉智能。

  1. 认知阶段与任务设计:

    • 感知阶段:评估模型检测和识别基础语义实体的能力。包含四个任务:音频多实例分类(AMIC)、视频多实例分类(VMIC)、音频-视觉定位(AVL,要求在视觉场景中定位声源的空间位置)、音频-视觉匹配(AVM,判断音频与视觉输入是否全局对应)。这些任务共同评估单模态感知和跨模态对齐能力。
    • 理解阶段:评估模型整合多模态上下文并进行语义解释的能力。包含三个任务:音频-视觉描述(AVC,生成连贯的描述)、基于音频的视觉检索(AVR)、基于视觉的音频检索(VAR)。这些任务考察跨模态关联和叙事性理解。
    • 推理阶段:评估模型在融合信息后进行高阶推理和判断的能力。包含四个任务:音频-视觉问答(AVQA,粗粒度推理)、音频-视觉语言定位(AVLG,细粒度推理,需要根据自然语言描述定位目标)、音频参考的视觉幻觉检测(AVH)、视觉参考的音频幻觉检测(VAH)。后两者专门测试模型在面对跨模态不一致信息时的鲁棒性。
    • 原始感知阶段(PriSe):这是AVI-Bench的独特延伸,旨在评估模型对非常规、低语义输入的适应能力,而非其训练数据中常见的高语义场景。它包含三个任务:音频感知问答(ASQA)、视觉感知问答(VSQA)、视听感知问答(AVSQA)。数据由合成或受控生成的图像、音频和视频构成,测试模型是否具备类似人类的、不依赖丰富语境的底层感知敏感性。
  2. 四层AVI分类法:基于实验观察,论文提出了一个层次化的分类方案,用于更精细地刻画模型能力:

    • Level-1 (任务适应性):所有任务的平均性能,作为基线。
    • Level-2 (模态适应性):在Level-1的基础上,引入模态不平衡惩罚。惩罚因子 \(\Delta_m\) 定义为 \(\frac{2|\mathcal{A}-\mathcal{V}|}{\mathcal{A}+\mathcal{V}}\),其中 \(\mathcal{A}\) 和 \(\mathcal{V}\) 分别是音频主导任务和视觉主导任务的平均分。最终得分 \(\mathcal{S}_M = (1 - 0.5 \cdot \Delta_m) \cdot \mathcal{S}_T\),鼓励音频和视觉能力均衡发展。
    • Level-3 (阶段适应性):评估推理是否建立在牢固的感知和理解基础之上。首先,将各任务原始分数按公式 \(\tilde{m}_t = \max(0, \frac{m_t - c_t}{100 - c_t} \cdot 100)\) 进行“余量归一化”,消除不同任务的固有难度差异(\(c_t\)为任务特定的随机猜测基线)。计算归一化后的阶段平均分 \(\tilde{\mathcal{S}}_P, \tilde{\mathcal{S}}_U, \tilde{\mathcal{S}}_R\)。瓶颈不一致性 \(\Delta_s\) 定义为:若 \(\tilde{\mathcal{S}}_R \leq \min(\tilde{\mathcal{S}}_P, \tilde{\mathcal{S}}_U)\) 则为0,否则为 \((\tilde{\mathcal{S}}_R - \min(\tilde{\mathcal{S}}_P, \tilde{\mathcal{S}}_U)) / \tilde{\mathcal{S}}_R\)。最终得分 \(\mathcal{S}_S = (1 - 0.5 \cdot \Delta_s) \cdot \mathcal{S}_M\),惩罚“无根基”的高推理分。
    • Level-4 (领域适应性):评估模型在陌生领域的泛化能力。计算陌生领域分数 \(\mathcal{S}_{UD}\)(方法同Level-2)。最终得分 \(\mathcal{S}_D\) 为熟悉领域分数 \(\mathcal{S}_{FD}\)(即\(\mathcal{S}_S\))与 \(\mathcal{S}_{UD}\) 的调和平均数,确保模型必须在两者上都表现良好才能获得高分。
  3. 评估流程与细节:

    • 数据构成:AVI-Bench包含5864个样本,涵盖14个任务,9种指标。超过62%的数据(3657个样本)为全新手工构建。AVI-Bench-PriSe的数据则完全离线合成,确保未经训练数据污染。
    • 指标体系:每个任务使用定制化指标。例如,AVL结合了平均交并比(mIoU)和实例匹配得分;AVC使用FENSE指标(结合语义相似度和流畅性惩罚);检索任务(AVR/VAR)结合了Recall@k、F1分数,并引入了重复惩罚和置信度因子以评估输出多样性。
    • 输出格式化:为应对模型输出格式不统一的问题,使用GLM-4-Flash作为格式化模型,将原始输出统一为结构化格式。
    • 基准对比:与人类性能(基于6人试点研究)和多个现有基准(如AV-Odyssey, OmniBench等)在任务类型、模态覆盖、评估阶段等方面进行了详细对比,突出了AVI-Bench的系统性和全面性优势。

图1

图2

💡 核心创新点

  1. 首个覆盖“感知-理解-推理”认知闭环的AVI系统化评估框架:AVI-Bench超越了现有基准零散的任务集合,首次提出了一个受认知科学启发、包含三个紧密整合阶段(感知、理解、推理)以及一个额外评估陌生领域适应能力的“原始感知”阶段的统一框架。这使得对模型能力的诊断可以追溯到具体的认知环节瓶颈。
  2. 提出“原始感知(Primitive Sensation)”概念及专用测试集PriSe:为评估模型是否具备超越常见训练数据分布的、类似人类的底层感知能力,论文设计了AVI-Bench-PriSe,使用低语义、合成的视听刺激,这是一个新颖的评测维度。
  3. 提出四层AVI分类法:超越了简单的平均分排名,提出了一个从任务适应性、模态适应性、阶段适应性到领域适应性的层次化分类方案。该方案通过数学公式(如模态不平衡惩罚 \(\Delta_m\)、阶段瓶颈惩罚 \(\Delta_s\)、领域调和平均)将模型的多维度能力整合为一个可解释的评分体系,为深入分析模型强弱项提供了结构化工具。

📊 实验结果

论文对28个Omni-MLLMs进行了全面评估,主要发现如下:

  • 跨阶段协同与瓶颈:模型在感知、理解、推理三个阶段的表现存在正相关(观察1)。同时,感知和理解能力构成了推理能力的明显瓶颈(观察2),例如Baichuan-Omni-1.5和Video-LLaMA2分别在感知和理解上偏科,导致推理受限。
  • 严重的模态不平衡:绝大多数模型表现出“视觉主导”,在视觉主导任务(如VMIC, AVR, VSQA)上得分远高于音频主导任务(如AMIC, VAR, ASQA),揭示音频智能是当前关键短板(观察3)。
  • 模型规模与性能:参数规模更大的模型通常性能更好(观察4)。但Phi-4-Multimodal(5.6B)超越多个7B模型,说明架构和训练策略也很重要。
  • 细粒度定位是普遍难题:要求空间推理的AVL和AVLG任务极具挑战。最强模型Gemini-2.5-Pro在AVL上仅得39.13%,AVLG上35.08%;开源模型在AVLG上最高不超过25%(观察5)。
  • 陌生领域适应差:在原始感知阶段(PriSe),所有模型表现均远低于其推理阶段性能,性能差距范围从47.6%(Gemini-2.5-Pro)到82.7%(Video-Salmonn),表明模型在非典型分布数据上泛化能力弱(观察6)。
  • 与人类性能差距显著:人类参与者在各阶段表现稳定(平均92.6分),而最强模型Gemini-2.5-Pro平均仅57.21分。在AVSQA任务上,人类得分90.55 vs. Gemini-2.5-Pro得分16.50,差距最大。

主要性能对比表格(Table 3):

Omni-MLLMsParams.PerceptionUnderstandReasoningPrimitive Sensationavg.
AMICVMICAVLAVMavg.
Gemini-2.5-pro-43.0159.3939.1376.8054.58
Gemini-2.5-flash-27.7155.7839.1861.2045.97
Qwen2.5-Omni7B32.8740.6019.3678.4042.81
GPT-4o-24.1843.3520.6673.6040.45
… (共28个模型)

四层分类法排名(Table 5,节选前5):

ModelsParams.Level 1Level 2Level 3Level 4
Gemini-2.5-pro-64.2062.8057.0832.97
Gemini-2.5-flash-51.1548.5840.4727.72
Gemini-2.0-flash-50.1449.2139.7927.12
Qwen-Omni-turbo-46.5045.1537.7026.13
Qwen2.5-Omni7B46.9245.9337.6125.89

图3

图4

⚖️ 评分理由

  • 创新性 (1.7/2):提出的认知驱动四阶段评估框架和四层分类法具有显著的系统性和原创性,超越了现有碎片化评估。“原始感知”评测概念新颖,为评估模型鲁棒性开辟了新视角。主要扣分点在于四层分类法中Level-3的瓶颈度量\(\Delta_s\)设计略显复杂,且关键超参数\(\alpha\)的选择缺乏充分论证。
  • 技术严谨性 (1.2/1.5):实验设计全面,评估了28个模型并进行了统计显著性检验(附录E.2)。然而,核心贡献之一的四层分类法,其数学公式(特别是\(\Delta_s\))的推导和参数选择(\(\alpha=0.5\))在正文中解释不足,合理性依赖于观察结果而非更深入的理论分析或消融实验,降低了形式化部分的严谨性。
  • 实验充分性 (1.4/1.5):实验覆盖了广泛的开源和闭源模型,包括不同规模。提供了详细的逐任务和分阶段性能数据。进行了人类性能对比、单模态消融实验(附录D.1)和输出格式化讨论。不足之处在于,对于“原始感知”阶段任务构建的合理性(为何选择这些特定低语义刺激)论证主要在附录,正文论述薄弱。
  • 清晰度 (1.3/1.5):论文结构清晰,图(如Figure 2, 3)和表(Table 1, 2)有效辅助说明。主要问题在于四层分类法的数学公式在正文的表述过于紧凑,未充分解释其设计动机和直觉,部分读者可能需要深入附录才能完全理解。
  • 影响力 (1.3/1.5):AVI-Bench有望成为社区评估Omni-MLLMs视听智能的重要标准工具,四层分类法为模型能力分析提供了新范式。研究揭示了当前模型的根本性局限(如视觉偏见、推理无根基),对社区有明确指导意义。但在语音/音频领域的深度影响有限,更偏向于多模态通用评估。
  • 开源 (0.5/1.5):论文提供了项目网站链接(https://fudancvl.github.io/AVI-Bench/),可能包含评测脚本或信息。但论文正文和附录未明确承诺开源完整的AVI-Bench数据集、评估代码或已评测模型的输出/权重。数据集的使用许可未说明,模型权重未提��下载链接。
  • 可复现性 (0.6/1.5):附录提供了详细的评估设置(模型版本、指标公式)、统计检验结果和消融实验。然而,完整的复现依赖于可能未开源的评测代码和数据集。对于闭源模型的评估方法(如GPT-4o的串联方式)进行了说明,但其他模型的具体推理参数(如温度)未详细说明。
  • 工程/实践价值 (1.2/1.5):为开发和评估更鲁棒的全模态模型提供了直接可用的诊断工具和框架。四层分类法能帮助研究者更精准地定位模型短板(如模态不平衡、领域泛化差)。但方法的复杂性(四层公式)可能增加实际应用中的计算和解读成本。

🚨 局限与问题

  1. 方法论局限:四层分类法的公式设计,尤其是Level-3的\(\Delta_s\)和Level-2的\(\Delta_m\),引入了多个超参数(如\(\alpha=0.5\),\(b=6\),\(d=0.3\)等),这些参数的设定主要依赖于作者的先验选择或默认设置,缺乏系统的消融研究或理论依据来证明其普适性。不同的参数选择可能导致模型排名发生变化。
  2. 评估任务的平衡性:虽然Table 2声称平衡了各阶段的音频/视觉主导任务,但不同任务本身的固有难度和评估指标(如mIoU vs. 分类准确率)差异巨大。尽管提出了头空间归一化,但归一化所依赖的任务基线\(c_t\)(如AVLG的mIoU基线设为0)是否准确,以及它是否能完全消除任务难度对阶段分数的影响,值得商榷。
  3. “原始感知”阶段设计合理性:PriSe阶段使用的合成数据(如纯色块、简单波形)是否真正能代表“人类原始感知”仍需论证。人类在极低语义刺激下也常依赖高级语义先验,因此该评测可能更侧重于测试模型是否“过度拟合”到高语义训练分布,而非真正的感知能力。
  4. 人类评估的局限性:人类性能评估(Table 4)基于一个6人的小型试点研究,样本量较小,且任务覆盖不完全(AVLG和AVSQA未报告人类分数)。这限制了人类基线统计的可靠性和代表性。
  5. 结论强度:论文断言“当前模型普遍存在严重的‘视觉主导’问题”,虽然实验数据强烈支持,但这一结论部分依赖于所选任务和数据集的特性。在其他类型的视听任务或真实场景中,这一偏见的程度可能不同。
  6. 开源不足:尽管提供了项目网站,但核心资产(数据集、评测代码)的开源状态和许可协议未明确,这严重阻碍了社区的直接复用和验证,降低了该基准的实际影响力。

📷 论文图片

图5


← 返回 2026-06-09 语音/音乐/音频论文速递