📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs
#基准测试 #多模态模型 #音视频 #模型评估 #模型比较
🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #音视频 #模型评估
学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Jack Hong(小红书)
- 通讯作者:Shilin Yan(小红书)
- 作者列表:Jack Hong(小红书)、Shilin Yan†(小红书)、Jiayin Cai(小红书)、Xiaolong Jiang(小红书)、Yao Hu(小红书)、Weidi Xie‡(上海交通大学)
💡 毒舌点评
这篇论文的价值在于它像一盆冷水,明确指出了当前多模态大模型在“听懂并看懂真实世界”这件事上还差得很远(最佳开源模型约25%,最强商用模型仅65.1%),而音频模态是普遍短板。不过,其评估形式局限于多选题,可能无法完全评估模型生成式理解和复杂推理的真实水平。
🔗 开源详情
- 代码:论文提供了项目主页链接(https://jaaackhongggg.github.io/WorldSense),但未明确提及评估代码或数据处理脚本的开源仓库。
- 模型权重:未提及。本文为评估基准,未提出新模型。
- 数据集:已公开。WorldSense数据集可通过项目主页获取,采用CC BY-NC-SA 4.0许可证。
- Demo:论文中未提及在线演示。
- 复现材料:论文提供了详细的评估提示词模板(附录A.4)、标注协议描述(3.3节和附录A.2)以及模型评估设置说明(4.1节和附录A.3),为复现评估结果提供了充分信息。
- 论文中引用的开源项目:主要引用了作为数据源的FineVideo和MusicAVQA数据集,以及用于数据质量控制的Qwen2-VL、VideoLLaMA2和OneLLM等模型。
- 论文中未提及开源计划:评估代码、质量控制自动化脚本。
📌 核心摘要
- 问题:现有针对多模态大语言模型的评估基准大多忽略音频模态,或仅处理弱耦合的音视频信息,无法全面评估模型在真实世界中同时理解和推理视觉与听觉信息的能力。
- 方法核心:提出了WorldSense,首个专注于评估多模态视频理解中音视频模态强耦合能力的基准。该基准包含1,662个音视频同步视频,设计了3,172个多选问答对,覆盖8大领域、67个子类和26种任务。
- 新在哪里:与已有基准相比,WorldSense的创新在于:(i) 强调音视频模态的强耦合性,回答问题必须同时依赖两者;(ii) 覆盖真实世界多样化场景和音频类型(语音、环境声、音乐);(iii) 采用高质量人工标注和严格的多重质量控制流程。
- 主要实验结果:实验评估了多种主流多模态模型。结果显示,最佳开源多模态视频模型准确率仅为54.0%(Qwen3-Omni),而多数开源音视频模型表现接近随机猜测(约25%)。最强商用模型Gemini 2.5 Pro准确率也仅为65.1%。消融实验表明,加入原始音频相比仅用字幕能带来更大性能提升。
- 实际意义:该基准为评估和推动多模态模型向更鲁棒、更接近人类的真实世界理解能力发展提供了重要平台,并揭示了当前模型在音频理解、跨模态融合和复杂推理方面的关键不足。
- 主要局限性:基准采用多选题形式,在一定程度上限制了对模型生成式能力和开放性推理的评估;此外,尽管覆盖广泛,但视频和问题的分布可能仍无法完全代表所有真实世界场景。
🏗️ 模型架构
本文的核心贡献是提出了一个评估基准(Benchmark),而非一个新的模型。因此,其“架构”指的是基准的设计框架。该框架主要由两部分构成:数据构建流水线和评估范式。
- 数据构建流水线:
- 视频收集与筛选:主要从FineVideo和MusicAVQA数据集中收集初始视频,然后经过三阶段系统过滤:(1) 按预设的领域分类过滤;(2) 基于预计算的音视频相关性和动态内容指标筛选片段;(3) 人工专家审核确保质量。
- 问答对标注与质量控制:由80名专业标注员为每个视频创建需要音视频联合理解的多选问答对。质量控制采用“人工审核+MLLM自动验证”双重系统:人工审核检查问题的清晰性、多模态必要性和难度;MLLM验证则使用如Qwen2-VL等模型确保问题确实需要多模态信息,并使用Video-LLaMA2等模型检查问题是否过于简单。
图3: 数据收集与QA标注流程。(a)展示了从源视频到最终1,662个视频片段的筛选过程,强调了音视频相关性和动态内容过滤。(b)展示了从QA对生成、到人工审核、MLLM验证、修订和最终确认的完整质量控制流程。
- 评估范式:
- 输入为视频帧+原始音频(或字幕)以及多选问题。
- 模型需要处理这些多模态输入,并从选项中选择答案。
- 性能指标为准确率。评估设计了三种模态配置(仅音频、仅视频、音视频联合)以及不同音频信息形式(无音频、字幕、原始音频)的消融实验,以量化各模态的贡献和模型的多模态融合能力。
💡 核心创新点
- 首个强耦合音视频理解评估基准:首次系统性地设计了一个强调视觉与听觉模态必须协同工作才能正确回答问题的基准,填补了现有评估工具在omni-modality强交互场景下的空白。
- 大规模、高质量、多领域数据集构建:构建了包含1,662个多样化真实世界视频和3,172个经过严格质量控制的人工标注QA对的基准数据集,其领域覆盖(8大类67小类)和任务多样性(26类任务)远超以往的音视频基准(如AVQA, Music-AVQA)。
- 全面揭示现有模型的重大局限性:通过大规模评估,定量地证明了当前最先进的多模态模型(包括开源和商用)在真实世界全模态理解任务上仍存在显著差距,最强模型准确率仅为65.1%,且开源模型普遍表现不佳,为后续研究提供了清晰的改进方向和基准。
🔬 细节详述
- 训练数据:评估基准本身无需训练。其评估数据的来源是FineVideo和MusicAVQA数据集。视频筛选后保留1,662个片段,平均时长141.1秒。QA对由80名专业标注员手工创建,并通过多轮人工和自动审核。
- 损失函数:不适用(本研究为评估工作)。
- 训练策略:不适用(本研究为评估工作)。论文中提到的“训练”仅指对标注员进行为期一周、使用200个视频的标注培训。
- 关键超参数:对于被评估的模型,论文未详述其训练超参数。对于基准本身,关键参数包括:视频平均时长141.1秒,QA对平均token数37.2,字幕平均token数986.2。
- 训练硬件:未说明(评估实验在NVIDIA A100 GPU上进行)。
- 推理细节:评估采用基于匹配的方法提取模型答案。具体的评估提示词模板在附录A.4中给出,分为“视频仅输入”、“视频+字幕输入”和“视频+音频输入”三种格式。对于GPT-4o和Claude 3.5 Sonnet,均匀采样16帧;对于Gemini 1.5 Pro,直接使用API上传原始视频文件。
- 正则化或稳定训练技巧:不适用。
📊 实验结果
论文在WorldSense基准上对三类MLLMs进行了全面评估,主要结果见表2。
主要基准性能对比
| 方法 | 模型规模 | 科技 | 文化政治 | 日常生活 | 影视 | 游戏 | 体育 | 音乐 | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| 开源音视频模型 | |||||||||
| Unified-IO-2 L | 1B | 19.3 | 22.8 | 23.1 | 25.6 | 25.8 | 24.1 | 22.9 | 25.3 |
| OneLLM | 7B | 26.7 | 25.1 | 19.0 | 22.7 | 27.0 | 23.7 | 22.4 | 19.8 |
| VideoLLaMA2 | 7B | 29.4 | 25.4 | 21.8 | 24.5 | 26.2 | 24.6 | 25.5 | 27.1 |
| VITA-1.5 | 7B | 38.2 | 35.9 | 34.3 | 39.8 | 41.2 | 32.6 | 34.7 | 39.9 |
| Qwen2.5-Omni | 7B | 47.8 | 49.8 | 43.6 | 43.8 | 48.3 | 39.1 | 43.5 | 47.3 |
| video-SALMONN 2+ | 7B | 57.1 | 54.4 | 48.9 | 50.9 | 49.1 | 51.1 | 44.9 | 51.0 |
| Qwen3-Omni | 7B | 58.7 | 60.5 | 54.5 | 53.8 | 55.4 | 46.8 | 48.8 | 52.2 |
| video-SALMONN 2+ | 72B | 59.0 | 63.1 | 54.0 | 59.9 | 58.1 | 54.1 | 51.9 | 54.4 |
| 开源视频模型 | |||||||||
| LLaVA-OneVision | 7B | 38.9 | 38.9 | 36.3 | 37.6 | 37.8 | 37.9 | 36.3 | 39.1 |
| InternVL2.5 | 8B | 43.7 | 40.9 | 34.6 | 39.7 | 37.8 | 36.2 | 39.4 | 41.1 |
| LLaVA-Video | 7B | 41.6 | 38.6 | 40.6 | 42.1 | 40.4 | 39.7 | 37.0 | 40.9 |
| 商用模型 | |||||||||
| Claude 3.5 Sonnet | - | 43.7 | 31.7 | 30.6 | 36.5 | 30.7 | 31.9 | 36.6 | 33.9 |
| GPT 4o | - | 48.0 | 44.0 | 38.3 | 43.5 | 41.9 | 41.2 | 42.6 | 42.7 |
| Gemini 1.5 Pro | - | 53.7 | 47.2 | 50.3 | 50.4 | 52.4 | 46.8 | 40.2 | 42.0 |
| Gemini 2.5 Flash | - | 51.8 | 50.2 | 54.1 | 51.2 | 59.6 | 50.6 | 51.6 | 51.5 |
| Gemini 2.5 Pro | - | 64.9 | 66.0 | 65.8 | 68.1 | 69.7 | 65.7 | 63.5 | 61.3 |
图4: 不同模型在各类任务上的细粒度结果。显示了模型在音频理解、空间推理、情感相关任务上普遍表现较差。
图5: 不同模型在不同类型音频信号上的细粒度结果。显示现有模型在不同音频类型(语音、环境声、音乐)上的性能表现不一致。
关键发现:
- 整体表现不佳:最强模型(Gemini 2.5 Pro)准确率仅为65.1%,说明真实世界全模态理解极具挑战性。
- 开源模型局限:开源音视频模型中表现最好的Qwen3-Omni(54.0%)仍显著低于最强商用模型。早期的Unified-IO-2、OneLLM等模型表现接近随机猜测。
- 视频模型 vs 音视频模型:有趣的是,一些仅处理视觉信息的视频模型(如LLaVA-Video 40.2%)表现优于部分能够处理音视频的开源模型(如OneLLM 22.8%),这表明糟糕的音频融合反而可能损害性能。
消融实验关键结果
视觉信息影响(对音视频模型,表3): 加入视频帧通常能提升仅音频输入的性能。例如,Gemini 1.5 Pro从音频仅的34.6%提升至音视频的48.0%(+13.4)。但部分模型(如Unified-IO-2)加入字幕或视频后性能反而下降。
音频信息影响(对音视频模型,表4): 对于Gemini 1.5 Pro,在视频基础上,加入字幕提升至39.3%,加入原始音频则大幅提升至48.0%,表明原始音频中包含字幕无法捕捉的丰富信息(如语调、环境声)。Qwen2.5-Omni也呈现类似趋势。
音频信息影响(对视频模型,表5): 为仅处理视频的模型(如Qwen2-VL, LLaVA-OneVision)添加字幕后,性能普遍显著提升(如Qwen2-VL从32.4%到41.2%),证明了音频转录文本的价值。但论文指出,在音乐相关问题上,字幕的提升效果有限。
失败案例分析: 对Gemini 1.5 Pro的130个错误样本分析(图6)表明,主要错误类型为音频理解错误和推理错误。图7展示了两个具体案例:一个是视觉识别错误(误读时钟),另一个是音乐节奏模式理解错误。
图6: 错误类型分布。显示音频理解和推理错误是主要失败原因。
图7: 失败案例示例。展示了视觉细节识别错误和音乐节奏模式理解错误。
⚖️ 评分理由
- 学术质量:6.0/7 - 基准设计逻辑严谨(强耦合、多样化、高质量标注),实验评估全面(覆盖主流模型、多种配置、细粒度分析),能清晰揭示领域现状和问题。创新性主要体现在对评估体系的系统性构建上,而非方法论突破。技术正确性高,证据可信。
- 选题价值:1.8/2 - 选题非常前沿且关键,直指当前多模态AI发展的核心短板——真实世界鲁棒的跨模态理解。该基准对推动整个领域(包括语音、视觉、NLP社区)向更实用的多模态系统发展有重要指导意义,应用空间广阔。
- 开源与复现加成:0.5/1 - 论文明确提供了项目主页链接,数据集(WorldSense)已公开发布(CC BY-NC-SA 4.0),评估方法和提示词模板在附录中有详细说明,便于复现评估实验。但论文未提及评估代码或用于质量控制的自动化脚本的开源计划。