Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search

📄 Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search #基准测试 #模型评估 #跨模态 #音频问答 #多模态代理 ✅ 6.0/10 | 前25% | #基准测试 | #模型评估 | #跨模态 #音频问答 | arxiv 学术质量 6.0/8 | 影响力 1.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Tao Yu (中国科学院自动化研究所 CASIA,中国科学院大学 UCAS,北京人工智能研究院 BAAI) 通讯作者:Yan Huang (中国科学院自动化研究所 CASIA),Liang Wang (中国科学院自动化研究所 CASIA) 作者列表:Tao Yu (CASIA, UCAS, BAAI),Yiming Ding (CASIA),Shenghua Chai (CASIA),Minghui Zhang (CASIA),Zhongtian Luo (CASIA),Xinming Wang (CASIA, UCAS),Xinlong Chen (CASIA, UCAS),Zhaolu Kang (Peking University),Junhao Gong (Peking University),Yuxuan Zhou (Tsinghua University),Haopeng Jin (CASIA),Zhiqing Cui (CASIA),Jiabing Yang (CASIA, UCAS),YiFan Zhang (CASIA, UCAS),Hongzhu Yi (UCAS),Zheqi He (BAAI),Xi Yang (BAAI),Yan Huang (CASIA, UCAS),Liang Wang (CASIA, UCAS) 💡 毒舌点评 亮点:论文精准地识别了当前全模态评测中“被动接收多模态信息”范式的局限,定义了“音频驱动的主动全模态深度搜索”这一重要且现实的新任务,并系统性地构建了首个基准。这对于推动多模态智能体从“理解”走向“行动”具有明确的指导价值。短板:作为基准,其影响力受限于相对有限的规模(640个样本) 和对特定搜索工具、流程及提示策略的强依赖。论文声称解决了“主动搜索”的评测空白,但其核心贡献更接近于一个高度结构化的、依赖工具的评估流水线,而非对模型内在推理能力的无偏测量。实验部分缺乏与现有相关基准(如BrowseComp-VL, VideoBrowserComp)在类似模型上的直接横向对比,削弱了其挑战性定位的独特性。 ...

2026-05-12 · 更新于 2026-05-19 · 3 min · 438 words