📄 Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search
#基准测试 #模型评估 #跨模态 #音频问答 #多模态代理
✅ 6.0/10 | 前25% | #基准测试 | #模型评估 | #跨模态 #音频问答 | arxiv
学术质量 6.0/8 | 影响力 1.8/2 | 可复现性 0.8/1 | 置信度 高
👥 作者与机构
- 第一作者:Tao Yu (中国科学院自动化研究所 CASIA,中国科学院大学 UCAS,北京人工智能研究院 BAAI)
- 通讯作者:Yan Huang (中国科学院自动化研究所 CASIA),Liang Wang (中国科学院自动化研究所 CASIA)
- 作者列表:Tao Yu (CASIA, UCAS, BAAI),Yiming Ding (CASIA),Shenghua Chai (CASIA),Minghui Zhang (CASIA),Zhongtian Luo (CASIA),Xinming Wang (CASIA, UCAS),Xinlong Chen (CASIA, UCAS),Zhaolu Kang (Peking University),Junhao Gong (Peking University),Yuxuan Zhou (Tsinghua University),Haopeng Jin (CASIA),Zhiqing Cui (CASIA),Jiabing Yang (CASIA, UCAS),YiFan Zhang (CASIA, UCAS),Hongzhu Yi (UCAS),Zheqi He (BAAI),Xi Yang (BAAI),Yan Huang (CASIA, UCAS),Liang Wang (CASIA, UCAS)
💡 毒舌点评
亮点:论文精准地识别了当前全模态评测中“被动接收多模态信息”范式的局限,定义了“音频驱动的主动全模态深度搜索”这一重要且现实的新任务,并系统性地构建了首个基准。这对于推动多模态智能体从“理解”走向“行动”具有明确的指导价值。短板:作为基准,其影响力受限于相对有限的规模(640个样本) 和对特定搜索工具、流程及提示策略的强依赖。论文声称解决了“主动搜索”的评测空白,但其核心贡献更接近于一个高度结构化的、依赖工具的评估流水线,而非对模型内在推理能力的无偏测量。实验部分缺乏与现有相关基准(如BrowseComp-VL, VideoBrowserComp)在类似模型上的直接横向对比,削弱了其挑战性定位的独特性。
📌 核心摘要
- 问题:现有全模态基准大多在多种模态信息同时提供的条件下评估模型的理解能力,忽略了从单一模态(尤其是音频)出发,主动搜索跨模态证据以解决复杂问题的能力评估。这导致了对音频作为信息检索起点的能力评估空白。
- 方法核心:论文提出了“Omni-DeepSearch”基准。该任务要求模型从一个或多个音频片段出发,推断关键线索(如实体),并通过调用文本、图像、视频搜索工具进行多跳检索和推理,最终生成简短、客观、可验证的答案。基准构建包含基于Wikipedia知识图谱的路径设计和多阶段LLM过滤流水线,以确保音频依赖性、检索必要性、视觉模态必要性(针对图像/视频任务)和答案唯一性。
- 新颖之处:核心创新在于将音频设为唯一初始模态,并强制模型主动发起跨模态搜索,而非被动处理已提供的多模态信息。这更贴近人类从声音线索出发进行信息探索的真实场景。
- 实验结果:在多个最新全模态模型上的实验显示任务极具挑战性。最强闭源模型Gemini-3-Pro的平均准确率仅为43.44%,开源模型如Mimo-V2.5仅为11.72%。消融实验表明,增加搜索预算有帮助但收益饱和,且向模型提供正确的音频实体可显著提升其性能,证实音频实体识别是关键瓶颈。具体结果见下表。
| 模型 | 检索目标模态 | 音频内容类型 | 平均准确率 |
|---|---|---|---|
| Gemini-3-Pro | 单音频文本: 57.50, 多音频文本: 40.63, 图像文本: 38.75, 视频: 36.88 | 语音: 55.00, 音乐: 46.67, 生物声: 39.17, 环境声: 36.67 | 43.44% |
| Mimo-V2.5 | 单音频文本: 15.00, 多音频文本: 9.38, 图像文本: 14.38, 视频: 8.13 | 语音: 15.83, 音乐: 6.67, 生物声: 15.83, 环境声: 11.67 | 11.72% |
| Gemini-3-Pro (提供正确实体) | 单音频文本: 62.50, 多音频文本: 43.75, 图像文本: 53.13, 视频: 40.63 | 语音: 66.67, 音乐: 62.50, 生物声: 54.17, 环境声: 25.00 | 50.00% |
| Gemini-3-Pro (搜索预算10,3) | 单音频文本: 57.50, 多音频文本: 40.63, 图像文本: 38.75, 视频: 36.88 | 语音: 55.00, 音乐: 46.67, 生物声: 39.17, 环境声: 36.67 | 43.44% |
| Gemini-3-Pro (搜索预算5,1) | 单音频文本: 43.75, 多音频文本: 22.50, 图像文本: 31.25, 视频: 18.75 | 语音: 29.17, 音乐: 29.17, 生物声: 41.67, 环境声: 25.00 | 29.06% |
- 实际意义:该基准为评估和提升“音频驱动的多模态代理”提供了标准化平台,揭示了当前模型在音频实体推理、查询构建、工具使用和跨模态验证等方面的关键瓶颈。
- 主要局限性:基准规模(640样本)有限。评测结果高度依赖于特定的搜索工具、重试预算和提示策略,泛化性存疑。评估本身依赖LLM评委,可能存在偏差。
🔗 开源详情
- 代码:https://github.com/yutao1024/Omni-DeepSearch
- 模型权重:论文中未提及模型权重链接。论文评估的模型(如Gemini-3-Pro, Qwen系列, Mimo系列)均为第三方公开或闭源模型,非本文贡献。
- 数据集:Omni-DeepSearch 数据集。获取链接:https://huggingface.co/datasets/Kirito-Lab/Omni-DeepSearch。数据集包含640个样本。
- Demo:论文中未提及在线演示链接。
- 复现材料:论文未提供完整的训练配置或模型检查点。但论文附录提供了详细的提示模板(Appendix B, C, D)和实验超参数(Appendix E),可用于复现其工具增强推理(inference)管道。代码仓库应包含相关实现。
- 论文中引用的开源项目:
- MM-DeepResearch: 论文提及了其过滤策略和推理管道。 (项目名称提及,未提供具体链接)
- GAIA: 基准测试。 GitHub
- OmniBench: 基准测试。 GitHub
- AV-Odyssey: 基准测试。 GitHub
- WebWalkerQA: 基准测试。 GitHub
- WorldSense: 基准测试。 GitHub
- Daily-Omni: 基准测试。 (项目名称提及,未提供具体链接)
- BrowseComp-VL: 基准测试。 (项目名称提及,未提供具体链接)
- OmniVideoBench: 基准测试。 (项目名称提及,未提供具体链接)
- UNO-Bench: 基准测试。 GitHub
- VideoBrowserComp: 基准测试。 (项目名称提及,未提供具体链接)
- VideoDR: 基准测试。 (项目名称提及,未提供具体链接)
- EmoOmniEval: 基准测试。 (项目名称提及,未提供具体链接)
- OmniGAIA: 基准测试。 (项目名称提及,未提供具体链接)
- MMOU: 基准测试。 (项目名称提及,未提供具体链接)
- SocialOmni: 基准测试。 (项目名称提及,未提供具体链接)
- HumanOmni-Speaker: 基准测试。 (项目名称提及,未提供具体链接)
- OmniACBench: 基准测试。 (项目名称提及,未提供具体链接)
- OMD-Bench: 基准测试。 (项目名称提及,未提供具体链接)
- Video-to-Script: 基准测试。 (项目名称提及,未提供具体链接)
- AVID: 基准测试。 GitHub
- GPT-5.4 (OpenAI模型, 闭源)
- Gemini-3-Pro (Google模型, 闭源)
- Claude-Sonnet-4.6 (Anthropic模型, 闭源)
- Qwen 系列模型 (阿里云通义千问, 开源): Qwen GitHub
- Mimo-V2系列模型 (小米 LLM Core Team, 开源): Mimo GitHub
- vLLM (用于本地部署): GitHub
🏗️ 方法概述和架构
本文的核心方法是定义并构建一个名为Omni-DeepSearch的新基准测试框架,用于系统评估多模态代理在“音频驱动的深度搜索”任务上的能力。其架构涵盖从任务定义、数据构建到模型评测的完整流水线。
1. 任务定义与设计原则:
- 功能:明确任务形式(输入:音频片段+问题 → 输出:通过工具检索推理得到的文本答案),并确立设计基准的四大核心原则。
- 实现:原则包括:1)强制音频依赖:问题必须锚定在输入音频上,无法仅凭问题文本或先验知识回答;2)难于寻找,易于验证:问题需要多步搜索推理,而答案限制为可自动比较的字符串;3)全模态检索:虽然初始模态仅为音频,但解答可能需要调用文本、图像或视频搜索工具;4)答案唯一性:每个问题基于客观证据只有一个确定的真实答案。
2. 任务分类体系:
- 功能:系统性地组织评测任务空间,确保覆盖不同难度和模态组合。
- 实现:任务沿两个正交维度划分:检索目标模态和音频内容类型。检索目标模态分为四类:1)单音频文本搜索;2)多音频文本搜索(需整合多片段线索推断共享实体);3)单音频图像文本搜索(需检索并验证图像证据);4)单音频视频搜索(需检索并推理视频时序内容)。音频内容类型分为四类:语音、环境声、音乐、动物声。二者组合产生15个细粒度任务类别。
3. 数据构建流水线:
- 功能:根据任务分类,自动生成满足设计原则的高质量样本。
- 实现:针对不同检索模态,采用不同构建策略:
- 单/多音频文本搜索任务:基于Wikipedia知识图谱构建。起始实体
e₀(或共享中介实体eₘ)与音频关联。通过图遍历生成长度k≥5(文本)或k≥5(多音频)的实体路径。为强化检索依赖性,随机选择路径中一个非起始节点绑定到近期新闻事件,增加时效性和避免模型依赖参数知识直接推理。 - 单音频图像文本搜索任务:同样基于知识图谱构建,但路径长度
k≥3,且要求最终节点eₖ必须可通过外部图像证据进行验证。 - 单音频视频搜索任务:围绕四个音频类别构建主题和查询,从YouTube筛选候选视频。应用时长、观看数、订阅数等约束确保视频质量和可追溯性。从筛选视频中提取符合要求的音频片段并生成问题。
- 单/多音频文本搜索任务:基于Wikipedia知识图谱构建。起始实体
- 数据流:实体收集 → 知识图谱路径构建 → 时效性绑定(新闻事件) → 音频质量审查 → 多阶段LLM过滤。
4. 数据过滤模块:
- 功能:确保最终样本严格满足音频依赖、检索必要、模态必要(视觉)和答案唯一原则。
- 实现:采用多阶段、自动化的LLM过滤流水线,使用GPT-5作为评判者。过滤包括四个阶段:1)联合音频-问题推理:排除无需检索即可回答的样本;2)仅问题推理:排除音频实体可从问题文本推断的样本;3)首跳实体泄露过滤:排除首跳实体
e₁可仅凭问题文本检索到的样本;4)视觉模态必要性过滤:针对图像/视频任务,排除仅用文本搜索即可回答或允许多种合理视觉答案的样本。
5. 模型评测与分析流水线:
- 功能:提供一个统一的工具增强推理流程来评估模型性能,并进行诊断分析。
- 实现:设计了一个统一的工具增强推理流水线(图1)。该流水线要求模型:1)音频理解与实体定位:从音频中识别关联的实体(单音频的
e₀或多音频的共享实体eₘ);2)多跳检索与答案推导:迭代调用文本搜索、图像搜索、视频搜索工具。对于文本/图像任务,逐步获取证据节点并综合证据生成答案;对于视频任务,先提取关键帧进行快速验证,不匹配则重试,匹配后提取更密集帧序列进行时序推理生成答案。评测指标为准确率,由三个强LLM(GPT-5.4, Gemini-3-Pro, Claude-Sonnet-4.6)进行多数投票判定。消融实验研究了搜索预算和音频实体识别的影响。
6. 架构图/流程图:
图1清晰展示了整个框架的工作流。左侧是数据构建部分,显示了任务如何从四个音频类别和四种检索设置交叉构建,并基于知识图谱路径和视频筛选产生。中间的过滤流程使用多阶段LLM检查确保数据质量。右侧是推理流程,展示了模型从音频理解开始,通过多轮调用文本、图像、视频搜索工具,逐步收集证据并最终生成答案的迭代过程。该图完整呈现了从数据准备到模型评测的闭环。
7. 专业术语解释:
- 深度搜索 (Deep Search):指需要多步骤、多轮检索和推理才能解决的开放域复杂信息检索任务。
- 全模态 (Omni-modal):指涉及文本、图像、音频、视频等多种信息模态。
- 多跳推理 (Multi-hop Reasoning):需要从一个事实出发,经过多个中间步骤(如多个检索步骤)才能到达最终答案的推理过程。
- 知识图谱路径 (Knowledge Graph Path):从一个实体节点出发,通过一系列关系连接到另一个实体节点的序列,用于构建需要多跳推理的问题。
💡 核心创新点
- 定义新任务:首次系统性地提出并定义了“音频驱动的全模态深度搜索”评测任务。此前,多模态评测要么提供所有模态,要么评估简单的音频理解,缺乏从音频出发主动进行多模态信息检索和推理的评估范式。
- 构建结构化基准:构建了首个针对该任务的标准化基准数据集,包含640个样本,覆盖检索模态和音频类型两个维度的15个细分类别,为该方向提供了统一的评测平台。
- 提出质量控制流水线:设计了一套多阶段、自动化的数据构建与过滤流水线,利用知识图谱和LLM验证,从设计上保证了样本的音频依赖性、检索必要性、视觉模态必要性(针对图像/视频任务)和答案唯一性,提高了基准的严谨性。
- 提供全面诊断分析:不仅报告总体性能,还通过消融实验和案例研究,深入分析了模型失败的关键瓶颈,如音频实体识别不准、查询生成不佳、工具调用失败、多跳检索漂移等,为未来模型改进指明了具体方向。
📊 实验结果
论文在多个最新闭源和开源全模态模型上进行了评测,主要结果如表2所示。
- 整体性能:最强模型Gemini-3-Pro的平均准确率为43.44%,表明任务极具挑战性。开源模型表现显著落后,最强的Mimo-V2.5平均准确率仅为11.72%。
- 任务类型影响:模型在“单音频文本搜索”上表现最好(Gemini-3-Pro: 57.50%),而在“视频搜索”上最差(36.88%),表明整合多模态证据和进行视觉推理难度更大。
- 音频类型影响:在语音类任务上性能最高(Gemini-3-Pro: 55.00%),在环境声和动物声上较低(36.67%, 39.17%),表明非语言声学信号的理解仍是瓶颈。
- 消融实验-搜索预算:如表3所示,增加最大搜索次数能显著提升性能(从(5,1)的29.06%到(10,3)的43.44%),但进一步增加到(15,5)后,性能增益饱和(44.06%),说明瓶颈不仅在于检索次数,更在于推理质量。
- 消融实验-音频实体:如表4所示,当向Gemini-3-Pro提供正确的音频实体时,其平均准确率从43.44%提升至50.00%,证实了音频实体识别是任务的关键环节之一。同时,Gemini-3-Pro仅推断音频实体的准确率为33.76%,低于其端到端性能,表明强模型能利用问题上下文和检索反馈在搜索过程中优化实体推断。对于较弱模型(如Mimo-V2.5),这种提升模式也存在(从11.72%到22.03%),但其实体推断准确率(12.50%)与端到端准确率(11.72%)接近,说明其瓶颈更多在于初始实体识别及后续检索推理能力全面薄弱。
🔬 细节详述
- 训练数据:基准数据集本身由作者构建。文本类任务的问题基于Wikipedia知识图谱生成,并注入近期新闻事件以增加时效性。视频类任务的音频片段从筛选后的YouTube视频中提取。所有音频均经过Gemini-3-Pro审查以确保清晰度和类别明确性。
- 数据过滤:使用GPT-5执行四阶段文本过滤,具体提示词见附录C。过滤旨在确保音频依赖性、检索必要性、视觉模态必要性和答案唯一性。
- 评估指标:主要指标为准确率。答案判断采��三个强LLM(GPT-5.4, Gemini-3-Pro, Claude-Sonnet-4.6)进行多数投票,以处理别名和格式差异。
- 评测设置:遵循一个工具增强推理基线(图1)。具体推理提示词见附录D。
- 模型超参数:对于Gemini系列、Qwen3.5-Omni等,温度设为0,最大token数为16384。开源模型Qwen3-Omni-30B-A3B和Qwen2.5-Omni在8张A100 GPU上通过vLLM部署,具体参数见附录E。Mimo-V2.5通过API访问,温度为0,最大token数为16384。
- 推理细节:模型以音频为输入,需要生成工具调用JSON格式的查询。文本和图像搜索任务最大重试次数为10,视频搜索任务为3(默认设置)。每次工具调用返回检索结果文本或视频关键帧。
- 复现信息:论文提供了数据集和代码的HuggingFace与GitHub链接(见标题下方),实验设置和提示词在附录中有详细说明,但未提及模型训练细节(因为本工作主要是评测现有模型)。
⚖️ 评分理由
创新性:2.0/3 论文明确指出了当前多模态评测在“主动搜索”范式上的空白,并提出了一个以音频为起点的任务定义。这种将音频作为驱动源,强调代理(Agent)式工具调用和多跳推理的评测角度是具有创新性和启发性的。然而,其核心贡献是构建一个基准,而非提出一个新颖的模型或算法。因此,在方法论层面的突破性有限,属于问题定义和评测体系的创新。
技术严谨性:1.7/2 基准构建的技术流程设计得相当严谨。基于知识图谱生成问题保证了多跳推理的需求,多阶段LLM过滤机制从多个角度系统地确保了数据质量。实验设置合理,消融实验的设计有助于诊断问题。然而,存在几个技术疑点:1)过滤过程高度依赖LLM(GPT-5)的判断能力,其自身可能存在的偏见或错误未被深入分析;2)评测结果与特定的搜索API、重试次数(如10次文本搜索,3次视频搜索)强相关,这削弱了基准在评估模型“核心能力”上的稳定性和泛化性。
实验充分性:1.6/2 实验覆盖了多个有代表性的最新闭源和开源全模态模型,基线选择具有时效性。消融实验设计得不错。主要不足在于:1)缺乏横向对比:未与现有的搜索基准(如BrowseComp-VL, VideoBrowserComp)在相似模型上进行对比实验,难以确定其独特挑战程度和性能水位线;2)对模型内部推理过程(如查询构建策略)的定量分析不足,失败案例分析虽深入但属定性。
清晰度:0.8/1 论文结构清晰,从问题提出、相关工作、基准构建、实验到结论逻辑连贯。任务分类体系和数据统计图有效辅助理解。主要扣分点在于部分关键细节(如数据生成和过滤的完整提示词、具体推理逻辑)在正文中被简要提及,需跳转到冗长的附录查看,对快速理解核心方法造成了一定障碍。
影响力:0.8/1 该工作对多模态智能体研究有明确的推动价值,为评估和提升音频理解、信息检索、工具使用和跨模态推理的综合能力提供了标准化平台。其影响力可能局限于“音频驱动搜索”这一相对垂直的领域,对于更广泛的多模态社区的影响力度可能有限。
可复现性:0.8/1 论文提供了数据集和代码的在线链接,公开了模型列表和超参数设置,并在附录中给出了详细的提示词和流程。未满分的原因是:1)评测依赖特定的搜索工具API,其稳定性和结果可能随时间变化;2)对于开源模型,仅给出了通用的部署超参数,未提供针对该任务微调的任何信息(因为本工作是评测而非训练);3)代码仓库的具体内容和完备性无法仅从链接得知。
🚨 局限与问题
1. 论文明确承认的局限(见附录F):
- 样本规模与多样性:640个样本可能无法完全覆盖真实世界音频搜索场景的所有多样性,尤其是高噪声、多语言或领域特定的音频。
- 检索结果的时间动态性:基于开放域资源构建,检索结果可能随时间变化,影响评测的可复现性。
- 评估方法的依赖:依赖LLM评判者进行答案匹配,尽管使用了多数投票,但仍不能完全消除评估误差。
- 评测而非训练:本基准评测的是工具增强的推理流程,性能高度依赖于所使用的搜索工具、重试预算和提示策略,而非模型本身的内在能力。
2. 审稿人发现的潜在问题:
- 数据偏见可能性:数据构建高度依赖Wikipedia知识图谱和YouTube视频,可能导致问题分布偏向于流行、可公开检索的知识,对长尾或私有领域的音频搜索能力评估不足。
- 对工具链的强依赖:评测结果与特定的搜索API、重试次数(默认设置)强相关。更换搜索工具或调整预算可能导致性能排名发生变化,这削弱了基准作为公平比较平台的稳定性。
- 对模型内部推理分析不足:失败案例分析很深入,但缺少对模型成功案例的系统性分析,例如模型如何有效生成查询、如何从错误中恢复等。
- 多跳深度固定:问题的多跳深度(文本任务
k≥5,图像任务k≥3)是固定的,未能评估模型处理不同推理链长度(如更长或更灵活跳数)的适应性。 - 音频模态处理简化:基准中音频被视为一个整体输入,未考虑更复杂的场景,如音频中包含多段不同类型声音需要分段处理,或需要与文本中的线索进行精细对齐。
- 未提供SOTA对比:论文声称任务极具挑战性,最强模型仅达43.44%,但未与现有在类似任务(如需要工具调用的多模态问答)上表现最好的模型或方法进行直接对比,使得“挑战性”的断言缺乏更全面的参照系。
- 评估基线单一:所有模型都使用相同的、固定的推理流水线(图1)进行评测。这评估的是模型适配该特定流水线的能力,而非模型自身的通用代理能力。不同的提示策略或工具调用逻辑可能产生不同结果。