📄 OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning
#语音生成 #语音识别
9.1/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5
🔥 9.1/10 | 前25% | #语音生成 | #语音识别 | arxiv
👥 作者与机构
第一作者:王家豪(南京大学) 通讯作者:刘家恒(南京大学) 共同一作:王家豪,安平,王阳海 机构:南京大学LINK团队,快手科技可灵团队
💡 毒舌点评
- 基准测试虽号称“首个”,但核心创新在于将已有的指令跟随评估范式(如IFEval)扩展到全模态视频领域,并叠加了时间定位。约束类型的划分(50种)听起来很多,但很多是既有工作的组合或简单变体(如不同的JSON格式、列表格式)。
- 发现的“格式-内容权衡”现象并非首次发现,原文引用了相关工作(Tam et al., 2024; Deng et al., 2025),本文是在多模态场景下的验证,贡献在于将其显式化并量化。
- 训练数据集OmniCap-IF-54K的构建流程虽然详细,但严重依赖闭源模型(Gemini-3-Flash)和无法复现的中间数据(ASID-Captioner-7B的输出),这削弱了方法的可复现性和独立性。
- 作者声明的局限性(LLM评估偏差、短视频限制)是合理的,但回避了更关键的问题:指令模板是否充分代表了真实用户需求?约束的难度是否平衡?以及,基准的“高复杂度”是否可能沦为对模型生成冗长或格式化文本能力的考察,而非真正的指令理解?
- 论文在实验上用力过猛,列出了大量模型(14个),但对失败案例和边界条件的分析不足。部分对比(如与HumanOmniV2-7B的对比)意义有限,因为模型规模和架构差异巨大。
📌 核心摘要
本文提出了OmniCap-IF,这是一个用于评估和提升全模态视频描述模型指令遵循能力的综合基准。该基准包含1920个样本和50种约束类型,覆盖格式、视觉、音频和跨模态内容。作者发现了一个关键现象:严格的格式约束会损害模型的跨模态推理能力(“格式-内容权衡”)。为应对此问题,他们构建了大规模指令微调数据集OmniCap-IF-54K,并基于此训练了OmniCaptioner-IF系列模型,在指令遵循和通用描述性能上均取得了提升。
🔗 开源详情
- 代码:是,提供了完整的GitHub仓库(https://github.com/NJU-LINK/OmniCap-IF),包含评估脚本、数据构建代码等。
- 模型权重:论文中未提供OmniCaptioner-IF模型权重的直接下载地址。
- 数据集:OmniCap-IF (测试集) 与 OmniCap-IF-54K (训练集)。获取链接为:https://huggingface.co/datasets/NJU-LINK/OmniCap-IF。
- 复现材料:论文提供了详细的复现信息,包括训练配置(附录I)、评估Prompt(附录F.2)、测试集构建流程(附录G)、训练集生成流程(3.5节及附录F.4)。
🏗️ 方法概述和架构
本文的方法可以分为四个核心部分:基准测试构建、评估协议设计、训练数据生成和模型微调。
OmniCap-IF 基准测试构建:
- 约束框架:设计了一个包含50种原子约束的分类体系,分为格式约束(结构如JSON、表格;风格如长度、分隔符)和内容约束(视觉、音频、音频-视觉)。每个约束都有明确定义和示例(附录B)。
- 数据收集与标注:从YouTube、TikTok、Ego4D等平台筛选出480个高质量、音频-视觉丰富的短视频。标注流程采用“自动生成-人工精炼”的两阶段范式。首先,由指令生成器(基于Gemini-3.1-pro)为每个视频生成指令-检查清单草案。然后,由专业标注员进行人工验证和修改(53.1%的样本被修改,22.7%被重写),最终形成1920个样本。此过程确保了指令的事实准确性和约束复杂度的多样性。
- 数据集统计:基准中的视频时长、内容类别、指令复杂度(约束数量)分布广泛,平均视频时长(54.6s)超过大多数现有同类基准。
评估协议:
- 双机制评估:评估分为格式评估和内容评估。格式评估采用“LLM提取+规则工具验证”的混合方法,确保对结构要求的客观判断。内容评估则分为:
- 时间定位约束:LLM从生成文本中提取时间戳,再通过程序计算时间交并比(t-IoU,阈值\(\geq 0.5\))或动态容差(\(\Delta t = \max(1.0\text{s}, \text{视频时长} \times 5\%)\))来判断准确性(附录C)。
- 多模态内容约束:采用LLM-as-a-judge的问答方式,通过二分类和多选题验证生成内容与指令要求的事实一致性,优先考察客观准确性。
- 评估指标:主要使用两个指标:约束满足率(CSR)和指令满足率(ISR)。其中,CSR = \(\frac{1}{m}\sum_{i=1}^{m}\frac{1}{n_{i}}\sum_{j=1}^{n_{i}}s_{i}^{j}\),衡量单个约束的满足程度;ISR是二元指标,当一条指令的所有\(n_i\)个约束全部满足时才计为1。报告时按格式/内容、以及内容下的视觉/音频/跨模态维度进行细分。
- 双机制评估:评估分为格式评估和内容评估。格式评估采用“LLM提取+规则工具验证”的混合方法,确保对结构要求的客观判断。内容评估则分为:
训练数据集OmniCap-IF-54K构建:
- 三阶段生成流水线:为防止数据泄露,该流水线与基准测试集完全独立。
- 高质量视频筛选:从LLaVA-Video-178K和TikTok-10M中筛选出14K个满足时长(20-120s)、分辨率(480p+)、高音频密度(使用PANNs过滤)的视频。
- 约束感知指令合成:使用ASID-Captioner-7B生成详细文本描述作为视频代理。然后,由Gemini-3-Flash根据该代理描述,从约束系统中随机采样约束生成复杂指令。此过程包含一个负约束过滤器:如果代理描述中缺少执行某约束所需的前提信息(例如缺少音画同步信息),则该约束被排除,以防幻觉。
- 解耦且感知复杂度的响应生成:由于指令复杂度增加会导致模型一次性生成准确回复的能力下降,因此采用分解策略。首先将指令分解为格式约束和内容子任务(每个子任务包含2-3个内容约束)。由Gemini-3-Flash基于视频代理,分步生成高保真的中间内容响应,然后聚合。最后,仅在最终阶段应用格式约束,将聚合内容重新格式化为符合要求的最终响应。作者在500个样本上的研究表明,这种分解聚合策略在96.3%的情况下优于直接生成。
- 三阶段生成流水线:为防止数据泄露,该流水线与基准测试集完全独立。
模型OmniCaptioner-IF训练:
- 基座模型:选择Qwen2.5-Omni-7B和3B作为基础模型。
- 微调方法:采用参数高效微调(PEFT)中的低秩自适应(LoRA)技术,应用于所有线性层。LoRA秩设为16,alpha设为32。
- 训练细节:在单节点8×H200 GPU上训练1个epoch。使用AdamW优化器,峰值学习率分别为\(2 \times 10^{-5}\)(7B)和\(3 \times 10^{-5}\)(3B)。全局批大小为16(每设备批大小1,梯度累积步数2)。采用bfloat16混合精度训练。输入视频采样率为1 FPS,最大分辨率分别为401,408像素(7B)和200,704像素(3B)。


💡 核心创新点
- 首个全模态视频描述指令跟随基准OmniCap-IF:系统定义了覆盖格式、视觉、音频、跨模态和时间定位的50种约束类型,并构建了包含1920个高质量样本的评估集。
- 解耦的评估协议:创新性地将评估分离为结构验证(格式)和语义保真度(内容),并在内容评估中区分了不同模态的约束,特别是引入了时间定位的程序化评估,提高了评估的客观性和细粒度。
- 发现“格式-内容权衡”现象:通过控制实验,实证了在跨模态推理场景中,施加更严格的格式约束(如JSON)会显著降低模型对音视频内容的正确描述能力。
- 高质量训练数据集与基线模型:构建了大规模指令微调数据集OmniCap-IF-54K,并提出了有效的解耦数据生成策略。基于此训练的OmniCaptioner-IF模型在多个指标上显著超越了基座模型,验证了方法的有效性。
📊 实验结果
论文在OmniCap-IF基准上对14个模型进行了评估,主要结果如表2所示。
表2:OmniCap-IF基准上的主要评估结果
| 模型 | Overall CSR | Overall ISR | Format CSR | Format ISR | Content CSR | Content ISR | Visual CSR | Audio CSR | AV CSR |
|---|---|---|---|---|---|---|---|---|---|
| Human | 83.29 | 35.31 | 94.83 | 84.19 | 78.23 | 40.19 | 78.38 | 80.05 | 72.43 |
| Closed-Source Large Multimodal Models | |||||||||
| Gemini-3.1-Pro | 80.65 | 25.82 | 90.45 | 78.65 | 75.02 | 32.45 | 74.15 | 77.45 | 73.40 |
| Gemini-3-Flash | 79.50 | 23.55 | 88.57 | 74.15 | 74.29 | 31.17 | 73.60 | 76.63 | 72.35 |
| MiMo-V2.5 | 76.22 | 20.50 | 86.40 | 71.81 | 70.37 | 26.75 | 69.82 | 74.73 | 67.68 |
| MiMo-V2-Omni | 74.40 | 17.21 | 80.60 | 62.04 | 70.84 | 26.43 | 70.14 | 73.51 | 68.95 |
| Open-Source Large Multimodal Models | |||||||||
| Qwen3-Omni-30B-A3B-Thinking | 71.91 | 14.27 | 84.29 | 67.34 | 64.79 | 19.90 | 65.63 | 69.08 | 61.58 |
| MiniCPM-o-4.5-9B | 64.69 | 9.27 | 78.60 | 56.04 | 56.70 | 13.07 | 59.24 | 62.64 | 51.86 |
| Qwen3-Omni-30B-A3B-Instruct | 62.65 | 7.24 | 77.37 | 54.64 | 54.19 | 10.83 | 58.13 | 59.92 | 49.31 |
| Qwen2.5-Omni-7B | 49.19 | 2.34 | 62.97 | 34.17 | 41.27 | 4.53 | 47.68 | 47.51 | 34.88 |
| MiniCPM-o-2.6-8B | 47.38 | 1.88 | 62.31 | 31.46 | 38.81 | 3.75 | 46.78 | 44.45 | 32.28 |
| Qwen2.5-Omni-3B | 40.13 | 0.78 | 52.49 | 22.97 | 33.02 | 2.14 | 41.55 | 38.16 | 26.62 |
| HumanOmniV2-7B | 32.95 | 0.60 | 32.32 | 11.04 | 33.31 | 3.19 | 42.34 | 36.38 | 28.30 |
| video-SALMONN-2-7B | 32.80 | 0.42 | 41.09 | 13.80 | 28.03 | 1.25 | 34.27 | 33.74 | 22.10 |
| ARC-Hunyuan-Video-7B | 29.74 | 0.31 | 20.27 | 5.75 | 34.71 | 4.17 | 44.51 | 37.24 | 26.62 |
| ASID-Captioner-7B | 24.52 | 0.47 | 17.50 | 4.43 | 28.56 | 2.76 | 39.49 | 32.71 | 23.64 |
| Ours | |||||||||
| OmniCaptioner-IF-7B | 70.73 | 11.46 | 90.39 | 77.92 | 59.43 | 13.59 | 58.71 | 64.71 | 55.62 |
| OmniCaptioner-IF-3B | 66.67 | 7.86 | 87.73 | 73.12 | 54.57 | 9.79 | 55.91 | 60.39 | 50.06 |
关键观察:
- 规模效应:同一系列模型中,参数量越大,性能越好。
- 模态难度:模型在纯视觉和纯音频约束上的表现普遍优于跨模态(AV)约束,表明联合推理更具挑战性。
- 格式vs内容:大多数模型在格式控制上的能力(Format CSR)强于内容遵循能力(Content CSR)。
- 人类基线:人类在格式控制上显著优于所有模型,但在内容CSR上与顶级模型仍有差距,表明当前模型在复杂推理上仍有不足。
- OmniCaptioner-IF效果:该模型在所有指标上均显著超越其基座模型(Qwen2.5-Omni),在Format CSR上甚至与Gemini-3.1-Pro(90.39% vs 90.45%)持平,证明了指令微调对格式控制的显著提升。
在其他基准上的泛化能力:
- IF-VidCap(视觉指令跟随):OmniCaptioner-IF-3B(w/o Audio)在CSR和ISR上均超过了同规模的视觉专家模型Qwen2.5-VL-Instruct-3B(表3),说明全模态指令微调增强了纯视觉能力。
- Omni-Cloze(细粒度全模态感知):OmniCaptioner-IF-7B的总准确率(25.17%)相比基座模型Qwen2.5-Omni-7B(12.90%)翻倍(表4)。
- UGC-VideoCap(问答式全模态描述):OmniCaptioner-IF-7B的平均分(72.97)与强大的闭源模型Gemini-2.5-Pro(72.60)相当(表5)。
进一步分析:
- 指令复杂度影响:随着约束数量和指令长度增加,CSR和ISR均下降(图4)。
- 格式-内容权衡:在保持内容约束不变时,提高格式约束的严格程度(从宽松的自然语言到严格的JSON),内容CSR持续下降(图5)。
- 视频参数影响:提高帧采样率(FPS)初期可提升内容CSR,但过高会导致下降;格式CSR则持续下降(图6)。
- 跨模态协同分析:将输入解耦为单模态后,发现多数开源模型的跨模态收益有限,甚至出现性能下降,表明其音视频处理仍相对独立(图7)。


⚖️ 评分理由
- 创新性 (1.6/2):工作定义了一个重要的新问题(全模态指令跟随),并提供了系统性的解决方案(基准+数据集+模型)。基准构建和评估协议设计完整。但核心组件(如约束分类、LLM评估)多为现有技术的组合与适配,原创性非颠覆性。
- 技术严谨性 (1.4/1.5):论文描述清晰,评估协议设计(如时间定位的程序化验证、内容评估的QA形式)力求客观。训练数据生成流程有消融验证(分解策略 vs 直接生成)。主要扣分点在于:1) 内容评估仍依赖LLM-as-a-judge,尽管声明了优先事实性,但主观性无法完全消除。2) 模型微调细节完整,但对超参数选择、LoRA配置的影响缺乏分析。
- 实验充分性 (1.4/1.5):实验非常全面,模型对比数量多(14个),覆盖了闭源和开源主流模型。提供了丰富的消融和分析(指令复杂度、格式影响、FPS、跨模态协同)。在多个外部基准上的泛化评估有力。轻微不足在于,分析部分多为现象描述,对失败模式的深层原因剖析不够。
- 清晰度 (0.9/1):论文结构清晰,从问题定义到方法、实验、分析一气呵成。图表丰富(如Figure 1, 5, 7),能有效辅助理解。附录提供了大量细节。但部分章节(如相关工作)略显冗长,且方法描述中一些流程(如数据生成的三阶段)可以更直观地呈现。
- 影响力 (1.2/1.5):该工作填补了全模态指令评估的空白,对推动可控全模态生成、具身智能等下游任务有明确价值。发现的“格式-内容权衡”具有普遍启示意义。然而,其影响力主要局限在视频理解与生成社区,对纯音频或音乐领域的直接贡献有限。
- 开源 (1.3/1.5):论文提供了完整的代码仓库、测试集和训练集的HuggingFace链接,这极大地促进了研究的可复现性。主要扣分点在于:1) 训练好的OmniCaptioner-IF模型权重未提供公开下载链接。2) 训练数据生成流程严重依赖无法获取的中间产物(如ASID-Captioner-7B的输出、Gemini-3-Flash生成的指令),这使得从头复现数据集变得困难。
- 可复现性 (0.8/1):得益于开源的代码和数据,本文的基准评估部分可完全复现。训练部分,虽然超参数和LoRA设置清晰,但数据生成流水线的关键组件(中间模型、中间输出)缺失,导致无法独立复现OmniCap-IF-54K数据集,从而难以完全复现OmniCaptioner-IF模型的训练。
- 工程/实践价值 (0.8/1):本文提供的评估基准、指标和工具链具有很高的实用价值,可用于衡量和推进未来模型的发展。训练数据生成策略(解耦与复杂度感知)对构建类似数据集有借鉴意义。但模型本身未开源,限制了其直接的实践应用。
🚨 局限与问题
- 评估方法的潜在偏差:虽然采用了规则校验,但内容评估的核心仍依赖LLM-as-a-judge。即使使用GPT-5-mini等强力模型,其判断仍可能受到模型固有偏见、对模糊指令解读差异的影响,论文虽计算了与人类评估的一致性(表6),但对 judge 模型在特定约束类型上可能存在的系统性偏差分析不足。
- 基准覆盖的局限性:1)视频时长:基准主要针对30-90秒的短视频,对更长视频(分钟级)中可能出现的事件密度变化、上下文依赖等问题未涉及。2)约束的真实性:部分约束(如要求描述特定的剪辑转场“J-cut”)可能过于专业,并非日常用户指令的常见组成部分,其必要性值得商榷。3)动态性:指令多为静态描述,缺乏对动态调整或交互式指令跟随的评估。
- 训练数据生成的依赖性:OmniCap-IF-54K的构建严重依赖闭源的Gemini-3-Flash和可能同样闭源的ASID-Captioner-7B。这不仅带来了可复现性问题,也意味着数据集的分布可能受限于这些特定生成模型的能力与偏见。
- 模型分析的深度不足:论文展示了OmniCaptioner-IF的性能提升,但对提升来源的分析较浅。例如,格式控制的显著提升可能源于任务更简单(低级文本模式学习),而内容提升有限是否因为高质量音视频推理数据仍不足?论文未对此进行探讨。
- 基线选择的公平性:对比模型中包含了不同规模(3B到30B+)、不同架构(如video-SALMONN-2、HumanOmniV2)和不同训练目标(专用视频描述vs通用全模态)的模型。虽然展示了全貌,但部分对比(如与30B模型对比3B模型)的公平性和启示意义有限。
📷 论文图片
