📄 OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains
#数据增强 #自监督学习 #预训练 #指令微调 #多模态模型
8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5
🔥 8.2/10 | 前50% | #数据增强 | #数据增强 | #自监督学习 #预训练 | arxiv
👥 作者与机构
Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, Ran He, Caifeng Shan。南京大学,中国科学院自动化研究所。
💡 毒舌点评
这篇论文的出发点很好,瞄准了当前音频-视觉QA数据合成中的“叙事断裂”和“浅层推理”痛点。提出的两阶段管道(实体锚定脚本+线索引导QA)在技术路线上是合理的。论文的实验部分做得相当扎实,在多个基准上展示了微调后的显著增益,且消融实验提供了有力的证据链。然而,其核心贡献更偏向于一个“数据工程”的工作包,而非具有强大理论新颖性或技术突破的方法。创新性在于精心的系统设计和组件的巧妙组合,但单个组件(如实体列表、线索挖掘)并非全新概念。最大的短板在于,其数据合成完全依赖于商用黑盒模型,这使得方法的可复现性和对数据质量的控制存在根本性隐患。论文在影响力上有所妥协,因为其核心贡献(数据集)直接服务的“音频-视觉推理”领域相对狭窄,对广大语音/音乐领域的读者直接助益有限。
📌 核心摘要
该论文旨在解决现有音频-视觉问答数据合成管线中叙事不连贯、音视关联断裂以及生成问题缺乏长时程依赖和深度跨模态推理的问题。为此,作者提出了一个自动化的数据合成引擎,包含两个核心机制:1) 实体锚定的视频脚本生成,利用一个主实体列表作为全局先验,将视频转化为包含摘要、主实体列表和分段音视描述的结构化脚本,确保跨片段的实体一致性和音视关联;2) 线索引导的问答生成,先引导大语言模型从脚本中挖掘跨片段、跨模态的线索链,再基于这些高价值线索生成问答对。基于此管道,作者构建了包含100K条自动合成问答对的指令微调数据集OmniVideo-100K,以及一个包含505个人工验证样本的测试集OmniVideo-Test。实验表明,在OmniVideo-100K上微调VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B模型,可在OmniVideo-Test上获得高达20.59%的性能提升,并在Daily-Omni、JointAVBench等多个现有基准上展现出一致的泛化增益,且未损害模型的通用视频理解能力。
🔗 开源详情
- 代码:https://github.com/MiG-NJU/OmniVideo-100K
- 模型权重:论文中未提供微调后模型的权重。实验中使用的VITA-1.5, Qwen2.5-Omni-7B, Qwen3-Omni-30B均为第三方模型。
- 数据集:OmniVideo-100K 和 OmniVideo-Test。获取链接:https://github.com/MiG-NJU/OmniVideo-100K
- Demo:未提及
- 复现材料:论文在附录B(表13)提供了详细的微调参数设置,包括最大像素数、帧率、最大帧数、训练轮数、批大小、学习率和预热比例。
🏗️ 方法概述和架构
该方法是一个分为两个主要阶段的自动化数据合成管道,旨在从原始音频-视觉视频生成高质量的指令微调数据。整体架构如论文图1所示。
第一阶段:实体锚定的视频脚本生成 (Entity-Anchored Video Scripting) 此阶段的目标是将视频转化为一个结构化的、叙事连贯的“脚本”,作为后续问答生成的基础。
- 主实体列表 (Main Entity List):在视频分割和模态解耦之前,首先使用多模态大语言模型(MLLM)识别视频中主要且活跃的实体(如人物、动物、物体)。为每个实体生成一个唯一的描述性标识符(如“金发女孩”)和一个详细特征描述。这个列表作为全局先验,指导和约束后续所有步骤,是保证叙事连贯性的核心。
- 带时间戳的音频信息处理:处理从视频中提取的音频流。使用MLLM生成带有开始和结束时间戳的语音转录,分割点基于自然停顿或语义完整性。同时,识别常见的非语音声音并提供音乐描述,所有信息都带有时间戳。
- 连贯的分段视觉叙事:首先,将视频划分为“主要片段”(目标时长15秒)作为时间骨架,分割边界优先使用语音时间戳以避免语义缺口。如果视频无语音,则整个视频作为一个片段。对于每个片段(主要片段或其进一步划分的子片段),MLLM从四个维度(环境与背景、人物与物体、动作与交互、电影手法)分析每个镜头或显著场景变化,并综合成连贯的段落。在此过程中,严格使用主实体列表中的标识符来保持跨片段的实体引用一致性。
- 音源关联 (Sound-Source Association):使用MLLM为每段语音转录识别说话者,通过联合分析视觉和音频特征来分配说话者标签。这可以处理画外说话者(如旁白)。如果说话者已在主实体列表中,则使用现有标识符;否则生成新标识符。此步骤的关键是将语音内容与对应的视觉实体(说话者)关联起来,重建音视关联。
- 集成与摘要:生成视频摘要(实体引用同样受主实体列表约束),并将所有处理过的信息(摘要、主实体列表、带时间戳的分段音视描述)集成到一个完整的音频-视觉脚本中。
第二阶段:线索引导的问答生成 (Clue-Guided QA Generation) 此阶段基于第一阶段生成的连贯脚本,生成具有长期时间跨度和跨模态依赖的问答对。
- 全局线索挖掘 (Global Clue Mining):使用大语言模型扫描完整的脚本,提取与特定音频-视觉任务(如因果推理)相关的线索。这一步要求模型显式地检索和链接分布在多个片段和模态中的信息,形成多个线索链。对于每个线索链,模型提供相关的片段时间戳和对音视协同作用的逻辑描述。这个过程将模型对复杂叙事的隐性理解转化为显式的、逐步的推理链。
- 局部聚焦生成 (Locally Focused Generation):在识别出高价值线索链后,进入问答生成阶段。利用上一步骤得到的逻辑描述和片段时间戳作为上下文提示,引导模型在构建问答时聚焦于关键片段。这种方法过滤了完整脚本中的无关内容,降低了模型的认知负荷。最重要的是,由于生成锚定在预先验证过的线索上,该策略有助于确保生成的问答对满足长期时间跨度和音视协同的要求。
数据集构建与细节:
- 任务分类:定义了十个音频-视觉问答任务,分为三个认知层次:对齐(细粒度感知、场景变换检测)、理解(上下文理解、比较、情感分析、事件序列排序、总结)、推理(因果推理、未来预测、假设推理)。
- 视频收集与筛选:从在线平台收集视频,基于OmniVideoBench的分类扩展搜索关键词池以确保多样性。筛选分辨率低于480p的低质量视频,仅保留英文视频。并使用
video-subtitle-extractor工具过滤掉含有硬编码字幕的视频,防止模型依赖屏幕文字。 - 生成模型:使用Gemini-2.5-Pro和Gemini-3-Pro。对于基础的对齐和上下文理解任务,由于查询常针对短片段内的局部事件,直接提示模型在单次传递中挖掘线索和生成问答,而非使用完整的多步骤策略。
- 数据集规模:训练集OmniVideo-100K包含来自5214个视频的100K个自动生成问答对,开放问题与多选题比例为7:3。测试集OmniVideo-Test包含来自264个视频的505个人工验证多选题问答对,经过人工审核(事实准确性、跨模态依赖性、答案唯一性),通过率约为38.14%。


💡 核心创新点
- 提出了实体锚定的视频脚本生成机制:通过引入“主实体列表”作为全局先验,将结构化脚本生成为包含实体一致性描述和显式音视关联的统一表示。这有效解决了现有方法中分段独立处理导致的叙事不连贯(如同一实体在不同片段描述矛盾)和声音-视觉关联断裂(如语音未与说话者视觉实体关联)的问题。
- 设计了线索引导的问答生成策略:采用两阶段生成(先全局线索挖掘,再局部聚焦生成),引导模型先显式地构建跨片段、跨模态的推理链(线索),再基于这些线索生成问答。这种方法旨在生成具有明确证据链、长期时间跨度和强跨模态依赖性的问答对,而非基于局部信息的简单问答。
- 构建了高质量、大规模的音频-视觉指令微调数据集OmniVideo-100K:针对现有数据集在任务复杂度、时间跨度和推理深度上的不足,该数据集覆盖十个细粒度任务,并通过上述管道保证了问答对的质量。配套的OmniVideo-Test测试集经过人工验证,为评估提供了可靠标准。实验证明,用该数据集微调开源模型能显著提升其音频-视觉理解与推理能力,且具有良好的泛化性。
📊 实验结果
在自定义测试集OmniVideo-Test上的性能:
| 模型 | 参数量 | 整体准确率 | 提升 | 对齐 | 提升 | 理解 | 提升 | 推理 | 提升 | (0, 2]min | 提升 | (2, 5]min | 提升 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| VITA-1.5 | 8B | 40.99 | - | 28.45 | - | 43.02 | - | 48.09 | - | 44.72 | - | 39.24 | - |
| Qwen2.5-Omni | 7B | 42.77 | - | 39.66 | - | 46.51 | - | 38.17 | - | 38.51 | - | 44.77 | - |
| Qwen3-Omni | 30B | 49.70 | - | 43.10 | - | 55.04 | - | 45.04 | - | 49.07 | - | 50.00 | - |
| Ours (VITA-1.5) | 8B | 61.58 | +20.59 | 59.48 | +31.03 | 63.18 | +20.16 | 60.31 | +12.22 | 59.01 | +14.29 | 62.79 | +23.55 |
| Ours (Qwen2.5-Omni) | 7B | 60.59 | +17.82 | 62.93 | +23.27 | 62.40 | +15.89 | 54.96 | +16.79 | 54.66 | +16.15 | 63.37 | +18.60 |
| Ours (Qwen3-Omni) | 30B | 63.56 | +13.86 | 60.34 | +17.24 | 67.05 | +12.01 | 59.54 | +14.50 | 62.11 | +13.04 | 64.24 | +14.24 |
结论:微调后模型在OmniVideo-Test上所有维度均获得显著提升。现有模型在理解任务上表现相对较好,但在对齐和推理任务上仍有局限。
在现有基准上的泛化性能(以Qwen2.5-Omni为例):
| 基准 | 样本数 | 基线性能 | 微调后性能 | 提升 |
|---|---|---|---|---|
| Video-MMEshort | 900 | 75.56 | 76.33 | +0.77 |
| Daily-Omni | 1197 | 62.41 | 69.84 | +7.43 |
| OmniVideoBench | 509 | 36.54 | 39.88 | +3.34 |
| JointAVBench | 2153 | 54.44 | 60.75 | +6.31 |
| FutureOmni | 960 | 48.85 | 55.00 | +6.15 |
结论:微调后的模型在多个专用音频-视觉基准上表现出一致且显著的泛化增益。
消融实验结果:
- 线索引导 vs 直接生成:在20个视频上生成的71个QA对上���试。所有模型在Clue-Guided QA上准确率更低(更难)。微调后的Qwen2.5-Omni在Clue-Guided QA上准确率从59.15%提升至80.28%。Clue-Guided QA的平均时间跨度(144.75秒)远大于Direct QA(76.24秒)。
- 主实体列表:在20个视频上,移除实体列表后,生成的60个QA对的实体混淆错误率从23.4%升至36.7%;移除说话者标签后,音视不匹配率从10%升至20%。
- 脚本 vs 视频:在20个视频上,脚本引导生成的QA对平均时间跨度(169.45秒)大于视频引导(131.57秒)。在8-14分钟视频上,脚本生成的QA对更难(模型准确率更低),且移除单一模态后性能下降更严重,表明其跨模态依赖更强。
- 数据规模:在10K到100K的子集上微调Qwen2.5-Omni。从10K样本开始即带来显著提升,平均分在75K时达到峰值(54.32),100K时略有波动但整体验证了数据生成管线的有效性。
与现有数据集对比(Qwen2.5-Omni微调):
| 数据集 | Video-MMEshort | Daily-Omni | OmniVideoBench | JointAVBench | FutureOmni |
|---|---|---|---|---|---|
| Qwen2.5-Omni (基线) | 75.56 | 62.41 | 36.54 | 54.44 | 48.85 |
| w. AVQA | 68.11 | 55.14 | 34.38 | 50.16 | 43.65 |
| w. JavisInst-Und | 59.44 | 48.96 | 32.42 | 44.36 | 58.54 |
| w. OmniVideo-100K | 76.33 | 69.84 | 39.88 | 60.75 | 55.00 |
结论:在AVQA和JavisInst-Und上微调会导致多数基准性能下降,而在OmniVideo-100K上微调则带来一致提升,证明其数据质量更高。


🔬 细节详述
- 数据生成模型:明确使用了Gemini-2.5-Pro和Gemini-3-Pro。
- 脚本生成具体参数:目标片段时长设置为15秒。
- 消融实验规模:主实体列表、音源关联、脚本vs视频等消融实验均在20个随机采样视频上进行,每种设置生成60个QA对。
- 错误传播讨论:论文在局限性部分明确讨论了“模型坍缩”风险,即使用模型A生成的数据训练模型B可能带来的问题。
- 数据集详细统计:图2详细展示了视频类别分布(图2a)、视频长度分布(图2b,集中在1-3分钟)、以及开放问题和多选题的词数统计(图2c,开放问题答案更长)。
- 基准性能分析:论文提供了在Daily-Omni(表5)和OmniVideoBench(表6)上的性能分解。在OmniVideoBench上,微调后模型在“声音”类别上性能下降4.21%,论文将此归因于脚本生成中对非语音声音的粗粒度类别描述引入了噪声。
- 模型坍缩与一般能力保持:在Video-MME和Video-MME-v2上的实验表明,微调后模型在通用视频理解基准上性能未出现显著下降(甚至略有提升),证明专用增强未损害一般能力。
- 测试集构建细节:OmniVideo-Test包含505个QA对,经过人工审核,通过率约38.14%。审核标准包括事实准确性、跨模态依赖性、答案唯一性,剔除了仅靠单一模态即可回答或容易猜出的题目。
⚖️ 评分理由
- 创新性 (1.5/2):问题定义清晰,提出的实体锚定脚本和线索引导QA生成是针对现有数据合成痛点的有效系统设计。但核心组件(实体列表、分步生成)并非全新概念,创新更多体现在巧妙的组合与面向特定问题的工程化实现。
- 技术严谨性 (1.2/1.5):方法描述清晰,实验设计合理,消融实验(主实体列表、线索引导、脚本vs视频)逻辑链条完整,有力支持了方法的有效性。然而,数据合成完全依赖商业黑盒模型,其内部行为不可控,这构成了方法论上的根本性依赖,削弱了技术严谨性。此外,消融实验规模较小(20个视频),统计显著性受限。
- 实验充分性 (1.3/1.5):实验非常全面。在自定义测试集上验证了微调效果,并在多个现有基准上展示了泛化能力。进行了充分的消融实验(线索策略、实体列表、脚本表示、数据规模)。与AVQA、JavisInst-Und的对比实验增强了说服力。主要不足在于消融实验的样本规模偏小。
- 清晰度 (1.3/1.5):论文写作清晰,结构完整,图1很好地概述了整体流程。对数据集任务分类、生成流程和实验结果的描述易于理解。不足在于部分细节(如如何具体生成多选题选项)未充分展开。
- 影响力 (0.8/1.0):该工作的直接影响局限于音频-视觉问答的数据生成与模型微调领域。对于本分析面向的语音/音乐/音频领域读者,其贡献(构建音视数据集)的直接关联性较弱,难以直接受益。因此,对目标读者群体的影响力有限。
- 开源 (1.4/1.5):论文明确提供了代码和数据集的GitHub链接,开源了数据合成管道、OmniVideo-100K数据集和OmniVideo-Test测试集。这是非常重要的贡献,极大提升了工作的可复现性和实用价值。
- 可复现性 (1.3/1.5):由于开源了代码和数据,且提供了详细的微调参数(附录表13),复现论文中的主要实验(模型微调与评估)是可行的。但完全复现数据生成过程需要调用指定的商业API(Gemini),这引入了外部依赖和成本,构成一定障碍。
- 工程/实践价值 (0.5/1.0):对于从事音频-视觉多模态模型训练的工程师,该数据集和合成管线具有较高的直接使用价值。然而,对于更广泛的语音/音频领域的实践者,其工程价值有限。工程/实践价值分数较低主要反映了其在特定子领域外的应用局限性。
🚨 局限与问题
- 对商业模型的完全依赖:这是最根本的局限。整个数据合成管线的质量上限受限于Gemini-2.5-Pro和Gemini-3-Pro的能力与偏见。模型更新可能导致合成数据不可复现或性质改变。论文未探讨使用开源模型替代的可能性及性能影响。
- 数据生成过程的“黑盒”性与错误传播:虽然论文提到了“模型坍缩”风险,但未进行深入分析或实验。用商业模型生成的数据来微调另一个模型,其中包含的错误、偏见和幻觉如何传播和放大,是一个需要严肃对待的问题。
- 消融实验的统计显著性不足:关键消融实验(主实体列表、音源关联、脚本vs视频)仅基于20个视频,样本量较小。对于“实体混淆错误率从23.4%变到36.7%”这类结论,需要更大样本的验证才能确信其普遍性。
- 音频处理的粗糙性:论文承认对非语音声音使用粗粒度类别描述,并在OmniVideoBench的“声音”类别上导致了性能下降。这暴露了当前管线在复杂声学场景下的处理能力不足,未来需要集成更专业的音频分析模型。
- 测试集规模与多样性:OmniVideo-Test仅有505个样本,虽然经过人工验证,但作为评估新方法的基准,其规模偏小,可能影响结论的鲁棒性。其视频来源和分布的代表性也需考量。
- 未探讨数据质量的上限:论文展示了数据量的影响(表11),但未深入探讨在现有合成管线下,数据质量的理论或实际上限在哪里。例如,生成数据的推理链复杂度、事实准确率的天花板等。
- 结论的泛化性声明:论文声称“未损害模型的通用视频理解能力”,但基于的基准(Video-MME等)与音频-视觉理解能力的直接关联性有待商榷。一个在音频-视觉任务上微调的模型,其通用视觉语言能力是否真的保持,需要更全面的评估。
📷 论文图片
