Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

Mon, 04 May 2026 00:00:00 +0000

📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

#多模态模型 #音频场景理解 #视频描述 #基准测试

✅ 7.5/10 | 前25% | #音频场景理解 | #多模态模型 | #视频描述 #基准测试

学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Ziyang Ma（上海交通大学，南洋理工大学）
通讯作者：Jin Xu（阿里巴巴通义团队），Xie Chen（上海交通大学，上海创新研究院）
作者列表：
- Ziyang Ma（上海交通大学，南洋理工大学）*
- Ruiyang Xu（上海交通大学）*
- Zhenghao Xing（香港中文大学）*
- Yunfei Chu（阿里巴巴通义团队）
- Yuxuan Wang（阿里巴巴通义团队）
- Jinzheng He（阿里巴巴通义团队）
- Jin Xu†（阿里巴巴通义团队）
- Pheng-Ann Heng（香港中文大学）
- Kai Yu（上海交通大学）
- Junyang Lin（阿里巴巴通义团队）
- Eng Siong Chng（南洋理工大学）
- Xie Chen‡（上海交通大学，上海创新研究院）

💡 毒舌点评

亮点：论文针对多模态细粒度感知中“描述越详细，幻觉越多”的核心矛盾，提出了一个从“侦探”式数据生成到两阶段模型训练，再到全新填空式评估基准的完整解决方案框架，逻辑闭环非常扎实。短板：虽然设计了智能体数据管线，但其质量上限仍受限于所调用的闭源模型（如Gemini 2.5 Pro）的能力，本质上是用更强的闭源模型给开源模型生成训练数据，创新中略带一丝“取巧”；新基准Omni-Cloze虽然高效，但其“填空”形式与自由生成任务仍有一定差距。

🔗 开源详情

代码：是，提供GitHub仓库链接：https://github.com/ddlBoJack/Omni-Captioner
模型权重：是，论文中提及开源Audio-Captioner和Omni-Captioner模型。
数据集：是，论文中明确表示将开源由Omni-Detective管线生成的数据集。
Demo：论文中未提及。
复现材料：充分。附录A提供了完整的训练超参数（GPU型号、batch size、学习率、训练时长等），附录B提供了Omni-Cloze数据集的详细统计和生成Prompt，附录C提供了详细的评估设置。
论文中引用的开源项目：Qwen-2.5-Omni（骨干模型），VGGSound和FineVideo（部分源数据）。

📌 核心摘要

本文针对多模态大语言模型（OLMs）在进行细粒度描述时存在的“细节与幻觉共生增长”问题，从数据、模型、评估三个层面提出系统性解决方案。

问题：研究发现，当前OLMs生成的描述越详细，其中包含的正确细粒度信息与幻觉内容（错误信息）都会同步增长，这严重限制了模型在需要高精度描述场景的应用。
方法核心：提出了一种名为Omni-Detective的智能体数据生成管线。该管线模拟侦探调查过程，通过LLM智能体多轮调用OCR、ASR、MLLM等工具，迭代地从音视频数据中搜集证据并交叉验证，最终生成高细节、低幻觉的标注数据。
新方法：基于Omni-Detective生成的数据，采用两阶段课程学习策略训练模型。第一阶段冻结视觉编码器，专注对齐音频细节；第二阶段联合优化所有模态。最终训练出Audio-Captioner（纯音频）和Omni-Captioner（音视频）。此外，设计了全新的填空式评估基准Omni-Cloze，覆盖纯音频、纯视觉和音视频三种模态。
主要实验结果：Omni-Captioner在VDC基准上取得55.0%准确率的新SOTA；在video-SALMONN 2测试集上，以10.9%的幻觉率和17.8%的缺失率实现了最佳权衡（见Table 2）。Audio-Captioner在MMAU上达到70.0%准确率，媲美Gemini 2.5 Pro（见Table 3a）。在自建的Omni-Cloze基准上，Omni-Captioner总准确率56.4%，显著领先所有基线（见Table 4b）。
实际意义：为多模态模型的细粒度感知研究提供了高质量数据生成范式、更强的模型基线以及更可靠、高效的评估标准，有望推动更精准、更全面的音视频理解技术发展。
主要局限性：评估基准Omni-Cloze虽然是填空式，但最终仍依赖LLM进行答案匹配，引入了新的评估不确定性。数据生成管线的质量与效率高度依赖底层工具模型的性能，存在一定的能力天花板。

🏗️ 模型架构

论文未提供模型架构图。根据文字描述，其架构核心如下：

整体流程：采用基于Qwen-2.5-Omni-7B的视觉-音频-语言多模态架构。输入为音频和视频流，经过各自的编码器提取特征，馈入大语言模型（LLM）进行联合理解与文本生成。
关键组件：
1. 音频编码器：处理原始音频信号。
2. 视觉编码器：处理视频帧序列。
3. 大语言模型（LLM）：接收音频和视觉特征，生成细粒度描述文本。
两阶段训练策略：
1. 第一阶段（音频感知对齐）：冻结视觉编码器，仅使用纯音频详细描述数据对音频编码器和LLM进行微调。动机是避免视觉模态的高信息密度淹没相对稀疏的音频线索。
2. 第二阶段（音视频感知对齐）：解冻所有组件，使用音视频详细描述数据对整个模型进行微调，使模型能捕捉并融合跨模态互补信息，生成完整、连贯的描述。
数据生成核心 - Omni-Detective管线（见图3）：
1. 侦探智能体（Detective Agent）：负责策划调查流程，根据当前知识库和观察结果，决定下一步查询什么信息、使用哪个工具。
2. 工具箱（Tool Box）：包含多种专用工具，如多模态大模型（MLLM）、光学字符识别（OCR）、自动语音识别（ASR）等。
3. 观察者（Observers）：与原始音频-视频流交互，根据侦探的查询调用相应工具，返回观察结果。
4. 迭代过程：侦探与观察者进行多轮交互（最多10轮），逐步积累证据并修正错误，最终整合所有信息生成最终的详细描述。该过程旨在将细节增加与幻觉增长解耦。

💡 核心创新点

发现并形式化“细节-幻觉”共生问题：通过实证研究（如图2），定量揭示了当前多模态模型生成描述长度、细节覆盖率和幻觉率三者同步增长的现象，明确了本领域的核心挑战。
提出智能体驱动的数据生成管线（Omni-Detective）：设计了一个模拟人类侦探工作模式的迭代式数据标注框架。它通过工具调用和多轮交叉验证，实现了自动化、高质量、低幻觉的音视频详细描述数据生成，解决了人工标注难以兼顾质量与规模的问题。
设计针对性的两阶段课程训练策略：第一阶段通过冻结视觉编码器强制模型关注音频细节，缓解了多模态训练中常见的信息密度不平衡问题，从而更有效地学习音频细粒度感知能力。
创建首个全模态覆盖的细粒度感知评估基准（Omni-Cloze）：采用填空式多项选择评估范式，相比传统的多轮QA或指标计算，具有更高的评估稳定性、效率和可靠性，并通过“未给出”选项明确区分了遗漏和幻觉。基准覆盖纯音频、纯视觉和音视频三种场景。

🔬 细节详述

训练数据：
- 来源与规模：使用Omni-Detective管线从VGGSound2（音频）和FineVideo3（音视频）数据集中生成数据。经过质量过滤后，保留约55k个纯音频样本和15k个音视频样本用于训练。
- 数据生成：使用了多个闭源模型作为“观察者”工具，包括Gemini 2.5 Pro/Flash、GPT-4o Audio/Transcribe以及Qwen-2.5-Omni。
损失函数：未明确说明，应为标准的语言建模损失（如下一个token预测）。
训练策略与超参数（见Table 6）：
- 第一阶段：8×A100 80GB GPU，batch size/GPU=2，梯度累积=4，训练8小时，2个epoch。
- 第二阶段：8×A100 80GB GPU，batch size/GPU=1，梯度累积=2，训练38小时。
- 优化器：AdamW，学习率调度器：线性衰减。
- 峰值学习率：均为5e-6。
关键超参数：骨干模型为Qwen-2.5-Omni-7B。训练时未使用文本提示（text prompt），这是一个关键发现。
训练硬件：8张NVIDIA A100 80GB GPU。
推理细节：开源模型采用贪心解码（beam size=1），无采样。Gemini 2.5 Pro使用默认的思考模式。

📊 实验结果

论文在现有详细描述基准和自建基准上进行了全面评估。

现有基准上的详细描述性能 (Table 2)

模型	模态	VDC准确率(↑)	VDC分数(↑)	video-SALMONN 2 缺失率(↓)	video-SALMONN 2 幻觉率(↓)
Proprietary Models
GPT-4o	V	46.3	2.5	17.0	14.2
Gemini 1.5 Pro	A+V	43.1	2.2	21.8	16.5
Open-Source Models
LLaVA-OneVision-7B	V	41.2	2.1	23.3	27.4
Qwen2.5-VL-7B	V	44.5	2.4	21.9	17.4
Qwen2.5-Omni-7B	A+V	39.7	2.2	26.3	21.7
video-SALMONN2-7B	A+V	46.1	2.5	10.0	12.9
Omni-Captioner-7B	A+V	55.0	2.7	17.8	10.9

结论：Omni-Captioner在VDC上取得SOTA，在video-SALMONN 2上实现了缺失率与幻觉率的最佳平衡。

级联评估：描述用于下游问答任务 (a) 纯音频任务 (Table 3a)

模型	MMAU	MMAR
Proprietary Models
Gemini 2.5 Pro	70.0	64.1
Open-Source Models
Qwen2.5-Omni-7B	65.2	51.8
Audio-Captioner-7B	70.0	59.8

(b) 音视频任务 (Table 3b)

模型	Video-MME	Video-Holmes	WorldSense	Daily-Omni
Proprietary Models
Gemini 2.5 Pro	75.0	59.9	53.6	73.6
Open-Source Models
Qwen2.5-Omni-7B	52.7	35.7	30.6	47.9
video-SALMONN 2-7B	65.9	42.9	44.1	59.7
Omni-Captioner-7B	67.1	48.8	48.2	67.9

结论：Audio-Captioner在音频QA上媲美或超越闭源模型；Omni-Captioner在所有音视频QA基准上均为开源模型最佳。

Omni-Detective效果分析 (图6 & Table 5)

图6：随着调查步数增加，细节率稳步上升，缺失率和幻觉率整体呈下降趋势。幻觉率在约5-6步后趋于收敛，表明存在工具能力的上限。
Table 5：直接将Omni-Detective用于Gemini 2.5 Pro的描述后处理，可提升其在MMAR和Video-MME上的下游QA性能。

Omni-Cloze基准评估 (Table 4) (a) 纯音频模型

模型	准确率(%) ↑
Proprietary Models
Gemini 2.5 Pro	48.0
Open-Source Models
Qwen2.5-Omni-7B	25.8
Audio-Captioner-7B	53.2

(b) 音视频模型

模型	视觉(%)↑	音频(%)↑	音视频(%)↑	总计(%)↑
Proprietary Models
Gemini 2.5 Pro	40.8	44.1	52.8	43.6
Open-Source Models
Qwen2.5-Omni-7B	18.3	14.1	21.9	16.6
video-SALMONN 2-7B	37.5	40.3	45.0	39.5
Omni-Captioner-7B	57.0	54.5	62.1	56.4

结论：在自建的、更全面的评估基准上，所提模型大幅领先所有基线模型。

评估基准分析 (图7)

图7a & 7b：Omni-Cloze的自动评估准确率与人类Elo评分相关性（r=0.91）高于VDC（r=0.86）和video-SALMONN 2（r=0.83），证明其评估更可靠、与人类偏好更一致。

⚖️ 评分理由

学术质量：6.0/7：论文完整覆盖了“问题发现-数据生成-模型训练-评估构建”四个环节，形成了一个强有力的研究闭环。Omni-Detective的设计有巧思，两阶段训练有针对的解决实际问题。实验在多个公开基准和自建基准上均取得有力结果，且有充分消融和分析。扣分点在于数据生成管线重度依赖闭源模型，其普适性和可复现性存在间接依赖；同时，创新点更多是工程上的精巧组合与验证，而非基础理论或架构的突破。
选题价值：1.5/2：选题直击多模态感知的核心痛点，研究方向前沿且重要。提出的框架和基准对社区有明确的推动作用，应用潜力大。扣分0.5分是因为该领域相对垂直，虽重要但并非最广泛的AI热点。
开源与复现加成：+0.5/1：论文明确承诺并提供了代码、模型、数据集的链接，附录给出了详尽的超参数和Prompt模板，复现友好度高。未得满分是因为模型训练仍需一定计算资源，且管线生成数据依赖特定闭源API。

← 返回 ICLR 2026 论文分析

视频描述 on 语音/音频论文速递