📄 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation

#基准测试 #多模态模型 #音视频 #模型评估

7.5/10 | 前25% | #基准测试 | #多模态模型 | #音视频 #模型评估

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Jianghan Chao (中国人民大学 高瓴人工智能学院)
  • 通讯作者:Ruihua Song (中国人民大学 高瓴人工智能学院)
  • 作者列表:Jianghan Chao (中国人民大学 高瓴人工智能学院)、Jianzhang Gao (未说明,仅提供邮箱)、Wenhui Tan (未说明,仅提供邮箱)、Yuchong Sun (未说明,仅提供邮箱)、Ruihua Song (中国人民大学 高瓴人工智能学院)、Liyun Ru (百川智能)

💡 毒舌点评

这篇论文像一个精心设计的“多模态AI体能测试仪”,它系统化地定义了音视频联合推理的“考试范围”(5认知维度、4音频类型、3场景跨度)和“出题规则”(严格关联、半自动生成),并逼出了当前最强模型的“真实分数”(最高仅62.6%)。其最大亮点是提供了首个结构严谨、维度全面的评估体系,直指当前全模态模型“感知割裂、融合不深”的痛点。短板则在于,这个“测试仪”本身只生产考卷,不制造“应试技巧”——论文对模型失败原因的分析相对宏观,未能深入模型内部机制,且数据来源单一,可能让这个“考场”代表性打了折扣。

🔗 开源详情

  • 代码:论文提供了项目主页链接 (https://jointavbench.github.io),但论文中未提及是否有公开的数据生成或评估代码仓库。
  • 模型权重:未提及。本论文为评测工作,未提出新模型。
  • 数据集:已公开。JointAVBench数据集在项目主页提供,采用CC BY-NC-SA 4.0许可证。
  • Demo:未提及。
  • 复现材料:论文附录提供了非常详尽的生成流水线提示词模板(图10-图16),以及实验设置细节(如模型参数、帧采样、API设置),为复现其评测流程提供了充分信息。
  • 论文中引用的开源项目:PySceneDetect(用于场景分割),Whisper-v3(用于语音转录),以及大量被评测的开源模型(如Qwen系列、VideoLLaMA系列、SALMONN系列等)。

📌 核心摘要

  1. 问题:现有基准在评估全模态大语言模型(Omni-LLMs)的音视频联合推理能力时,存在音频-视频关联不严格、音频类型覆盖不全、缺乏对多场景推理能力评估等关键缺陷,无法全面、严格地评估模型的真实联合理解水平。

  2. 方法:提出了JointAVBench,一个首个全面的音视频联合推理评估基准。其核心是一个三维度分类体系:5种认知维度(时序、空间、情感、情节、长形式)、4种音频信息类型(语音、声音特质、声音事件、音乐)和3种场景跨度(单场景、多场景、全场景),共定义15个任务。同时,设计了一个三阶段半自动数据生成管道,利用现有视觉-LLM、音频-LLM和通用LLM生成严格要求联合理解的问答对,并经过严格质量控制和人工验证。

  3. 创新:与已有工作相比,JointAVBench实现了三个“首次”:(1) 首个系统涵盖多认知维度、多音频类型、多场景复杂度的统一评估框架;(2) 首个在数据构建层面强制确保100%音频-视频严格关联的基准(见表6);(3) 提出了一个能高效生成高质量联合推理问答对的半自动化流水线。

  4. 实验结果:在JointAVBench上评估了20个模型(Omni-LLMs, Video-LLMs, Audio-LLMs)。结果显示,当前最优Omni-LLM(Gemini 2.5 Pro)的平均准确率仅为62.6%,显著优于单模态基线(如最好的Video-LLM InternVL-2.5为51.3%),但在跨场景推理、情感识别等任务上表现不佳。关键实验结果汇总如下:

    表3:主要模型在JointAVBench 15个任务上的准确率(%)

    模型类别模型名称STLSPLSOOGSOERSPERMPTIVSSRCSAMPOPTGAFAPDPAVDMMESICRI平均
    Omni-LLMsGemini2.5-Pro73.059.460.868.935.268.176.543.866.060.765.545.775.566.181.962.6
    Qwen3-Omni71.143.473.878.435.780.375.742.145.230.959.747.361.869.284.062.1
    Video-LLMsInternVL-2.528.737.959.871.123.664.152.242.544.227.563.641.950.068.468.351.3
    GPT-4o30.434.855.769.711.653.624.840.513.514.151.747.350.956.470.943.3
    Audio-LLMsKimi-Audio56.521.948.661.732.953.334.338.033.026.265.338.740.256.169.545.9

    图表结果:图4显示模型在“音乐”和“声音事件”上表现较好,但在“语音”和“声音特质”上表现较差。图5显示“多场景”任务通常比“单场景”任务更难,但“全场景”任务因关注全局叙事,表现可能优于部分多场景任务。图6显示Omni-LLMs在“情感”和“空间”任务上甚至可能落后于单模态模型。

  5. 实际意义:JointAVBench为开发和评估具备真正音视频联合推理能力的全模态AI模型提供了一个标准化、有挑战性的度量尺,明确指出了当前模型在复杂场景关联、抽象音频(语音/特质)理解等方面的瓶颈,为未来模型优化指明了方向。

  6. 主要局限性:(1) 数据集仅来源于一个电影数据集(SF20K),可能存在数据分布偏差;(2) 提出的分类法虽全面,但可能未涵盖所有音视频联合推理维度;(3) 实验评估受限于计算资源,未涵盖所有代表性模型。

🏗️ 模型架构

本文提出的JointAVBench本身不是一个模型,而是一个评估基准。其核心“架构”是一个系统化的数据生成与质量评估流水线,旨在产出高质量、强关联的音视频问答对。整体流程如图2所示,可分为三个主要阶段:

JointAVBench构建流水线

  1. 全模态描述生成阶段:输入是长视频。

    • 场景分割:首先使用PySceneDetect工具将长视频分割为语义一致的场景片段。
    • 视频描述生成:使用视觉-LLM(Qwen2.5-VL)为每个场景生成详细的视觉描述(见图10提示词),捕捉静态特征(物体、角色)和动态特征(动作、转场)。
    • 音频描述生成:这是关键创新点。为确保音频类型多样性,采用分治策略:
      • 语音转录:使用Whisper-v3进行准确的语音识别和时间戳生成。
      • 声音特质/声音事件/音乐描述:使用全模态LLM(Qwen2.5-Omni)分别生成这三类音频的描述(见图10提示词)。针对当前音频模型难以区分声音事件和音乐的局限,初始生成会同时包含两者。
    • 描述精炼:使用通用LLM(Qwen-2.5)对初始音频描述进行去幻觉、区分声音事件与音乐、与字幕对齐等清洗工作(见图11提示词)。
  2. 问答对生成阶段:

    • 根据预定义的15个任务模板和要求,将生成的视觉、语音、声音特质、声音事件、音乐等模态描述作为输入,使用通用LLM(Qwen-2.5)生成问题-答案-解释三元组。
    • 为严格控制模态关联,生成特定任务的问答对时,只输入该任务规定的场景和模态描述。例如,“说话人空间定位(SPL)”任务只输入单个场景的视频描述和声音特质描述。
    • 为“多场景”和“全场景”任务,会输入多个连续或全部场景的描述,并使用特定提示词(图16)验证生成的问题是否确实依赖于跨场景信息。
  3. 质量控制阶段:

    • 通用检查:对所有生成的问答对进行模态依赖检查、格式检查、内容逻辑检查和推测性检查(图13)。
    • 特定检查:根据任务类型进行针对性检查,如序列顺序检查、歧义性检查、声音事件来源检查、音乐信息检查、声音特质依赖检查(图14,图15)。
    • 干扰项生成:对通过检查的问答对,生成三个具有迷惑性的错误选项。
    • 人工验证:最后,由专业标注人员根据答案正确性、信息正确性、模态依赖性和问题难度进行评分,过滤掉不合格数据。最终保留了2853个高质量多选题。

该流水线的“架构”优势在于其模块化、可控制和自动化,能大规模生产出满足严格学术评估要求的、非对称模态依赖的测试数据。

💡 核心创新点

  1. 首个系统化、多维度的音视频联合推理评估框架:提出了涵盖5种认知维度、4种音频类型、3种场景复杂度的三维分类法,定义了15个细粒度任务(见表2)。这超越了以往基准零散或单一维度的评估,提供了对模型能力更全面、更精细的“体检报告”。
  2. 严格的音频-视频关联标准:与许多现有基准(见表1)不同,JointAVBench在数据构建层面就通过模态分离输入和特定检查,确保每个问题都必须同时依赖视觉和特定类型的音频信息才能回答。表6显示其自动评估的关联度(93.5%)与人类评估(94.5%)高度一致,且远高于WorldSense(62.9%)等基准。
  3. 高效的半自动数据生成与质控流水线:设计并实现了一个融合多种先进LLM的三阶段流水线(图2),能够从原始视频出发,自动/半自动地生成大规模、高保真的联合推理问答对。该流水线通过分治生成、严格提示和多层级检查,有效平衡了生成效率、数据质量与人工成本,为构建复杂多模态评估集提供了可复用的范式。
  4. 揭示当前模型的系统性缺陷:通过大规模、多模型对比实验,不仅给出了“当前最优模型准确率仅62.6%”的结论,更通过细粒度分析发现了具体弱点:(1) 对抽象音频信息(语音内容、声音特质)的联合理解远弱于具象音频(声音事件、音乐);(2) 跨场景推理能力严重不足;(3) 全模态融合并非在所有任务上都优于单模态(如情感、空间任务)。这些发现为后续模型改进提供了明确靶点。

🔬 细节详述

  • 训练数据:未说明。本论文是基准评测工作,未训练新模型。
  • 损失函数:未说明。
  • 训练策略:未说明。
  • 关键超参数:未说明。论文评估的是现有模型,未设计新架构。
  • 训练硬件:未说明(评测实验在NVIDIA H-100 GPUs上进行)。
  • 推理细节:对于被评估的模型,论文统一设置:开源模型使用7B参数规模,视频输入统一为32帧,仅输入问题文本,不提供额外上下文。对于Gemini系列模型,使用了其官方推荐的API参数(温度1.0, top_p=0.95等)。实验可复现性信息较充分。
  • 正则化或稳定训练技巧:未说明。

📊 实验结果

实验在JointAVBench上对三类共20个模型进行了全面评估。核心结果已总结在核心摘要部分的表3中。以下是更深入的分析:

  1. 跨模态类型性能分析(图4) 不同音频类型上的准确率
  • 结论:所有模型在“音乐”和“声音事件”相关的任务上准确率相对较高,而在“语音”和“声音特质”任务上表现明显较差。这表明当前模型在理解与视觉关联更直接、更物理性的音频信息方面较好,但在处理高度抽象、承载复杂语义(对话)和情感(语调、情绪)的音频信息方面存在严重不足。
  1. 跨场景复杂度性能分析(图5) 不同场景类型上的准确率
  • 结论:模型在“单场景”任务上通常表现最好,在“多场景”任务上性能下降显著。一个有趣的发现是,在“全场景”任务(要求综合整个视频的信息)上,部分模型的表现优于某些“多场景”任务。这暗示模型可能更擅长对视频建立全局性、粗粒度的理解,而非精确地建立跨场景片段的关联。
  1. 认知维度性能分析(图6) 不同认知维度上的准确率
  • 结论:Omni-LLMs在“时序”和“长形式”推理上优势明显,但在“情感”和“空间”任务上,其表现可能不如甚至落后于专门的单模态模型。这说明在需要高度聚焦于特定模态线索(如声音特质中的情绪、视觉中的空间布局)的任务中,当前全模态模型的融合机制可能引入了噪声或未能有效聚焦。
  1. 场景数量对性能的影响(图7) 多场景任务中场景数量与准确率关系
  • 结论:在多场景任务中,随着视频片段数量的增加(从0-20到60+),模型的平均准确率呈现明显下降趋势。这直接证明了当前模型在长距离、多跳的跨场景信息整合上存在巨大挑战。
  1. 模态融合有效性分析(表4)
    模型视觉+音频 (A+V) 准确率仅视觉 (V)仅音频 (A)A+V 优于 单模态的任务数 (No)A+V 劣于 单模态的任务数 (Nu)
    Qwen2.5-Omni56.249.352.381
    VideoLLaMA246.646.641.463
    OneLLM38.532.738.583
    video-SALMONN35.834.835.754
  • 结论:对于所有模型,联合模态(A+V)的表现优于任一单模态的任务数(No)都显著多于劣于单模态的任务数(Nu),这证实了联合推理的根本价值。同时,模型整体性能越好(如Qwen2.5-Omni),其No值越高、Nu值越低,表明更强的模型更擅长有效地融合多模态信息。

⚖️ 评分理由

  • 学术质量:5.5/7。论文的创新性体现在其系统性的评估框架构建和自动化数据生成方法上,技术路线清晰且合理。实验评估全面,对比了多种模型并进行了多角度分析,结论可信。主要不足在于,作为一篇基准评测论文,其自身技术贡献(如数据生成流水线的算法创新)深度有限,且数据来源单一可能限制基准的普适性。
  • 选题价值:1.5/2。音视频联合推理是通向更高级多模态智能的关键瓶颈,该选题非常前沿且重要。基准的发布将直接推动相关模型的发展,对于从事多模态、音频、视频理解的研究人员和工程师具有很高的参考价值。
  • 开源与复现加成:0.5/1。论文明确公开了数据集(通过项目主页),这是巨大的贡献,使得任何人都可以立即使用该基准进行评估。然而,其数据生成的具体代码、提示词模板的完整实现等未开源,限制了他人在其基础上进行扩展或改进。因此给予中等加分。

← 返回 ICLR 2026 论文分析