📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

#多模态模型 #音频场景理解 #视频描述 #基准测试

7.5/10 | 前25% | #音频场景理解 | #多模态模型 | #视频描述 #基准测试

学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Ziyang Ma(上海交通大学,南洋理工大学)
  • 通讯作者:Jin Xu(阿里巴巴通义团队),Xie Chen(上海交通大学,上海创新研究院)
  • 作者列表:
    • Ziyang Ma(上海交通大学,南洋理工大学)*
    • Ruiyang Xu(上海交通大学)*
    • Zhenghao Xing(香港中文大学)*
    • Yunfei Chu(阿里巴巴通义团队)
    • Yuxuan Wang(阿里巴巴通义团队)
    • Jinzheng He(阿里巴巴通义团队)
    • Jin Xu†(阿里巴巴通义团队)
    • Pheng-Ann Heng(香港中文大学)
    • Kai Yu(上海交通大学)
    • Junyang Lin(阿里巴巴通义团队)
    • Eng Siong Chng(南洋理工大学)
    • Xie Chen‡(上海交通大学,上海创新研究院)

💡 毒舌点评

亮点:论文针对多模态细粒度感知中“描述越详细,幻觉越多”的核心矛盾,提出了一个从“侦探”式数据生成到两阶段模型训练,再到全新填空式评估基准的完整解决方案框架,逻辑闭环非常扎实。 短板:虽然设计了智能体数据管线,但其质量上限仍受限于所调用的闭源模型(如Gemini 2.5 Pro)的能力,本质上是用更强的闭源模型给开源模型生成训练数据,创新中略带一丝“取巧”;新基准Omni-Cloze虽然高效,但其“填空”形式与自由生成任务仍有一定差距。

🔗 开源详情

  • 代码:是,提供GitHub仓库链接:https://github.com/ddlBoJack/Omni-Captioner
  • 模型权重:是,论文中提及开源Audio-Captioner和Omni-Captioner模型。
  • 数据集:是,论文中明确表示将开源由Omni-Detective管线生成的数据集。
  • Demo:论文中未提及。
  • 复现材料:充分。附录A提供了完整的训练超参数(GPU型号、batch size、学习率、训练时长等),附录B提供了Omni-Cloze数据集的详细统计和生成Prompt,附录C提供了详细的评估设置。
  • 论文中引用的开源项目:Qwen-2.5-Omni(骨干模型),VGGSound和FineVideo(部分源数据)。

📌 核心摘要

本文针对多模态大语言模型(OLMs)在进行细粒度描述时存在的“细节与幻觉共生增长”问题,从数据、模型、评估三个层面提出系统性解决方案。

  1. 问题:研究发现,当前OLMs生成的描述越详细,其中包含的正确细粒度信息与幻觉内容(错误信息)都会同步增长,这严重限制了模型在需要高精度描述场景的应用。
  2. 方法核心:提出了一种名为Omni-Detective的智能体数据生成管线。该管线模拟侦探调查过程,通过LLM智能体多轮调用OCR、ASR、MLLM等工具,迭代地从音视频数据中搜集证据并交叉验证,最终生成高细节、低幻觉的标注数据。
  3. 新方法:基于Omni-Detective生成的数据,采用两阶段课程学习策略训练模型。第一阶段冻结视觉编码器,专注对齐音频细节;第二阶段联合优化所有模态。最终训练出Audio-Captioner(纯音频)和Omni-Captioner(音视频)。此外,设计了全新的填空式评估基准Omni-Cloze,覆盖纯音频、纯视觉和音视频三种模态。
  4. 主要实验结果:Omni-Captioner在VDC基准上取得55.0%准确率的新SOTA;在video-SALMONN 2测试集上,以10.9%的幻觉率和17.8%的缺失率实现了最佳权衡(见Table 2)。Audio-Captioner在MMAU上达到70.0%准确率,媲美Gemini 2.5 Pro(见Table 3a)。在自建的Omni-Cloze基准上,Omni-Captioner总准确率56.4%,显著领先所有基线(见Table 4b)。
  5. 实际意义:为多模态模型的细粒度感知研究提供了高质量数据生成范式、更强的模型基线以及更可靠、高效的评估标准,有望推动更精准、更全面的音视频理解技术发展。
  6. 主要局限性:评估基准Omni-Cloze虽然是填空式,但最终仍依赖LLM进行答案匹配,引入了新的评估不确定性。数据生成管线的质量与效率高度依赖底层工具模型的性能,存在一定的能力天花板。

🏗️ 模型架构

论文未提供模型架构图。根据文字描述,其架构核心如下:

  • 整体流程:采用基于Qwen-2.5-Omni-7B的视觉-音频-语言多模态架构。输入为音频和视频流,经过各自的编码器提取特征,馈入大语言模型(LLM)进行联合理解与文本生成。
  • 关键组件:
    1. 音频编码器:处理原始音频信号。
    2. 视觉编码器:处理视频帧序列。
    3. 大语言模型(LLM):接收音频和视觉特征,生成细粒度描述文本。
  • 两阶段训练策略:
    1. 第一阶段(音频感知对齐):冻结视觉编码器,仅使用纯音频详细描述数据对音频编码器和LLM进行微调。动机是避免视觉模态的高信息密度淹没相对稀疏的音频线索。
    2. 第二阶段(音视频感知对齐):解冻所有组件,使用音视频详细描述数据对整个模型进行微调,使模型能捕捉并融合跨模态互补信息,生成完整、连贯的描述。
  • 数据生成核心 - Omni-Detective管线(见图3):
    1. 侦探智能体(Detective Agent):负责策划调查流程,根据当前知识库和观察结果,决定下一步查询什么信息、使用哪个工具。
    2. 工具箱(Tool Box):包含多种专用工具,如多模态大模型(MLLM)、光学字符识别(OCR)、自动语音识别(ASR)等。
    3. 观察者(Observers):与原始音频-视频流交互,根据侦探的查询调用相应工具,返回观察结果。
    4. 迭代过程:侦探与观察者进行多轮交互(最多10轮),逐步积累证据并修正错误,最终整合所有信息生成最终的详细描述。该过程旨在将细节增加与幻觉增长解耦。

💡 核心创新点

  1. 发现并形式化“细节-幻觉”共生问题:通过实证研究(如图2),定量揭示了当前多模态模型生成描述长度、细节覆盖率和幻觉率三者同步增长的现象,明确了本领域的核心挑战。
  2. 提出智能体驱动的数据生成管线(Omni-Detective):设计了一个模拟人类侦探工作模式的迭代式数据标注框架。它通过工具调用和多轮交叉验证,实现了自动化、高质量、低幻觉的音视频详细描述数据生成,解决了人工标注难以兼顾质量与规模的问题。
  3. 设计针对性的两阶段课程训练策略:第一阶段通过冻结视觉编码器强制模型关注音频细节,缓解了多模态训练中常见的信息密度不平衡问题,从而更有效地学习音频细粒度感知能力。
  4. 创建首个全模态覆盖的细粒度感知评估基准(Omni-Cloze):采用填空式多项选择评估范式,相比传统的多轮QA或指标计算,具有更高的评估稳定性、效率和可靠性,并通过“未给出”选项明确区分了遗漏和幻觉。基准覆盖纯音频、纯视觉和音视频三种场景。

🔬 细节详述

  • 训练数据:
    • 来源与规模:使用Omni-Detective管线从VGGSound2(音频)和FineVideo3(音视频)数据集中生成数据。经过质量过滤后,保留约55k个纯音频样本和15k个音视频样本用于训练。
    • 数据生成:使用了多个闭源模型作为“观察者”工具,包括Gemini 2.5 Pro/Flash、GPT-4o Audio/Transcribe以及Qwen-2.5-Omni。
  • 损失函数:未明确说明,应为标准的语言建模损失(如下一个token预测)。
  • 训练策略与超参数(见Table 6):
    • 第一阶段:8×A100 80GB GPU,batch size/GPU=2,梯度累积=4,训练8小时,2个epoch。
    • 第二阶段:8×A100 80GB GPU,batch size/GPU=1,梯度累积=2,训练38小时。
    • 优化器:AdamW,学习率调度器:线性衰减。
    • 峰值学习率:均为5e-6。
  • 关键超参数:骨干模型为Qwen-2.5-Omni-7B。训练时未使用文本提示(text prompt),这是一个关键发现。
  • 训练硬件:8张NVIDIA A100 80GB GPU。
  • 推理细节:开源模型采用贪心解码(beam size=1),无采样。Gemini 2.5 Pro使用默认的思考模式。

📊 实验结果

论文在现有详细描述基准和自建基准上进行了全面评估。

  1. 现有基准上的详细描述性能 (Table 2)
模型模态VDC准确率(↑)VDC分数(↑)video-SALMONN 2 缺失率(↓)video-SALMONN 2 幻觉率(↓)
Proprietary Models
GPT-4oV46.32.517.014.2
Gemini 1.5 ProA+V43.12.221.816.5
Open-Source Models
LLaVA-OneVision-7BV41.22.123.327.4
Qwen2.5-VL-7BV44.52.421.917.4
Qwen2.5-Omni-7BA+V39.72.226.321.7
video-SALMONN2-7BA+V46.12.510.012.9
Omni-Captioner-7BA+V55.02.717.810.9

结论:Omni-Captioner在VDC上取得SOTA,在video-SALMONN 2上实现了缺失率与幻觉率的最佳平衡。

  1. 级联评估:描述用于下游问答任务 (a) 纯音频任务 (Table 3a)
模型MMAUMMAR
Proprietary Models
Gemini 2.5 Pro70.064.1
Open-Source Models
Qwen2.5-Omni-7B65.251.8
Audio-Captioner-7B70.059.8

(b) 音视频任务 (Table 3b)

模型Video-MMEVideo-HolmesWorldSenseDaily-Omni
Proprietary Models
Gemini 2.5 Pro75.059.953.673.6
Open-Source Models
Qwen2.5-Omni-7B52.735.730.647.9
video-SALMONN 2-7B65.942.944.159.7
Omni-Captioner-7B67.148.848.267.9

结论:Audio-Captioner在音频QA上媲美或超越闭源模型;Omni-Captioner在所有音视频QA基准上均为开源模型最佳。

  1. Omni-Detective效果分析 (图6 & Table 5)
  • 图6:随着调查步数增加,细节率稳步上升,缺失率和幻觉率整体呈下降趋势。幻觉率在约5-6步后趋于收敛,表明存在工具能力的上限。
  • Table 5:直接将Omni-Detective用于Gemini 2.5 Pro的描述后处理,可提升其在MMAR和Video-MME上的下游QA性能。
  1. Omni-Cloze基准评估 (Table 4) (a) 纯音频模型
模型准确率(%) ↑
Proprietary Models
Gemini 2.5 Pro48.0
Open-Source Models
Qwen2.5-Omni-7B25.8
Audio-Captioner-7B53.2

(b) 音视频模型

模型视觉(%)↑音频(%)↑音视频(%)↑总计(%)↑
Proprietary Models
Gemini 2.5 Pro40.844.152.843.6
Open-Source Models
Qwen2.5-Omni-7B18.314.121.916.6
video-SALMONN 2-7B37.540.345.039.5
Omni-Captioner-7B57.054.562.156.4

结论:在自建的、更全面的评估基准上,所提模型大幅领先所有基线模型。

  1. 评估基准分析 (图7)
  • 图7a & 7b:Omni-Cloze的自动评估准确率与人类Elo评分相关性(r=0.91)高于VDC(r=0.86)和video-SALMONN 2(r=0.83),证明其评估更可靠、与人类偏好更一致。

⚖️ 评分理由

  • 学术质量:6.0/7:论文完整覆盖了“问题发现-数据生成-模型训练-评估构建”四个环节,形成了一个强有力的研究闭环。Omni-Detective的设计有巧思,两阶段训练有针对的解决实际问题。实验在多个公开基准和自建基准上均取得有力结果,且有充分消融和分析。扣分点在于数据生成管线重度依赖闭源模型,其普适性和可复现性存在间接依赖;同时,创新点更多是工程上的精巧组合与验证,而非基础理论或架构的突破。
  • 选题价值:1.5/2:选题直击多模态感知的核心痛点,研究方向前沿且重要。提出的框架和基准对社区有明确的推动作用,应用潜力大。扣分0.5分是因为该领域相对垂直,虽重要但并非最广泛的AI热点。
  • 开源与复现加成:+0.5/1:论文明确承诺并提供了代码、模型、数据集的链接,附录给出了详尽的超参数和Prompt模板,复现友好度高。未得满分是因为模型训练仍需一定计算资源,且管线生成数据依赖特定闭源API。

← 返回 ICLR 2026 论文分析