📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

#音视频 #多模态模型 #强化学习 #视频描述生成 #大语言模型

🔥 8.0/10 | 前25% | #音视频 | #强化学习 | #多模态模型 #视频描述生成

学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高

👥 作者与机构

第一作者：Xinlong Chen（快手科技 Kling 团队 / 中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院）
通讯作者：Qiang Liu（中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院）
作者列表：Xinlong Chen（快手科技 Kling 团队, 中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院），Yue Ding（中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院），Weihong Lin（快手科技 Kling 团队），Jingyun Hua（快手科技 Kling 团队），Linli Yao（北京大学），Yang Shi（北京大学），Bozhou Li（北京大学），Qiang Liu（中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院），Yuanxing Zhang（快手科技 Kling 团队），Pengfei Wan（快手科技 Kling 团队），Liang Wang（中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院）

💡 毒舌点评

这篇论文在“让视频描述听懂声音”这个点上做得扎实且系统，通过设计一套精巧的奖励函数（特别是对话F1和清单完整性）驱动GRPO训练，有效提升了音视频描述的时序对齐与事实准确性，消融实验也证明了各奖励模块的价值。其短板在于数据构建流程重度依赖Gemini-2.5-Pro，这既带来了高质量种子数据，也引入了对特定闭源模型的依赖和潜在偏差，且论文对如何将模型部署到实际场景中的效率考量（如推理延迟）着墨不多。

🔗 开源详情

代码：论文在摘要和贡献部分声明“模型将开源以促进未来研究”，并提供了项目主页链接：https://avocado-captioner.github.io/。但论文正文中未直接给出代码仓库（如GitHub）链接。
模型权重：声明将开源模型权重。
数据集：论文详细描述了训练数据的来源和规模（107K），但未提及该数据集是否会公开发布以及获取方式。
Demo：论文未提及在线演示。
复现材料：在附录C中提供了详细的训练超参数、硬件环境等信息；在附录G中展示了构建SFT数据、分解关键点、提取对话、判断准确性等所使用的完整提示词模板。这些为复现提供了重要参考。
引用的开源项目：论文基座模型为Qwen2.5-Omni。数据构建中使用了Gemini-2.5-Pro和GPT-4.1（通过API）。
开源计划总结：论文承诺开源模型，提供了部分复现细节和提示词，但未明确承诺开源代码和核心训练数据集。因此，完整的复现仍存在不确定性。

📌 核心摘要

要解决什么问题：现有视频描述模型大多“视觉中心”，忽略了对话、音乐、音效等关键音频信息，导致生成的描述无法全面反映视频内容，也缺失了音视频事件之间精确的时序对应关系。
方法核心是什么：提出AVoCaDO，一个基于Qwen2.5-Omni的音视频视频描述生成器。其核心是两阶段后训练流程：(1) AVoCaDO SFT：在一个新构建的10.7万条高质量、时序对齐的音视频描述数据集上进行监督微调；(2) AVoCaDO GRPO：使用三个定制化的奖励函数（清单奖励RC、对话奖励RD、长度正则化奖励RL）进行强化学习优化，以增强时序连贯性、对话准确性和输出稳定性。
与已有方法相比新在哪里：a) 明确提出了“音视频时序编排”的建模理念，并通过实验验证了联合生成时序对齐描述相比分离生成再拼接的优势；b) 设计了一套面向音视频描述的、互补的奖励函数体系，特别是基于编辑距离和F1分数的对话奖励，以及覆盖五大维度的清单奖励；c) 相比同期工作，其训练流程更轻量，且能处理多样化场景的视频。
主要实验结果如何：在四个音视频描述基准上，AVoCaDO显著超越了所有开源基线。例如，在UGC-VideoCap基准的平均得分上（73.2），超过了Gemini-2.5-Pro（72.6）和视频-SALMONN-2（67.2）。消融实验表明，GRPO阶段的三个奖励函数分别带来了对话F1提升、总错误率下降和重复崩溃率降低的协同增益。具体数据见下表。
实际意义是什么：能够生成更全面、时序对齐的视频描述，可直接提升基于文本的视频问答、视频检索、视频内容分析等下游任务的性能，并为视频生成（如文生视频）提供更丰富的文本输入。
主要局限性是什么：a) 高质量SFT数据构建依赖于大型商业模型（Gemini-2.5-Pro, GPT-4.1），流程成本高且引入闭源依赖；b) 模型在视频描述任务上的推理效率（如延迟）未被充分讨论和优化；c) 虽然效果好，但模型的可解释性有限，例如清单奖励中的关键点分解也依赖于GPT-4o。

主要实验结果表格

表1：音视频视频描述基准直接评估

模型	大小	模态	video-SALMONN-2测试集 (↓)	UGC-VideoCap (↑)
			Miss	Hall.
Gemini-2.5-Pro	-	A+V	18.1	13.3
Qwen2.5-Omni	7B	A+V	41.7	15.4
video-SALMONN-2	7B	A+V	21.2	17.6
Qwen3-Omni-Captioner	30B-A3B	A+V	31.0	16.6
AVoCaDO (Ours)	7B	A+V	21.1	16.2

表2：基于QA的描述质量评估
模型大小 Daily-Omni WorldSense
Gemini-2.5-Pro - 60.2 33.8
Qwen2.5-Omni 7B 13.4 8.6
video-SALMONN-2 7B 29.9 18.2
AVoCaDO (Ours) 7B 50.1 25.7

模型	大小	Daily-Omni	WorldSense
Gemini-2.5-Pro	-	60.2	33.8
Qwen2.5-Omni	7B	13.4	8.6
video-SALMONN-2	7B	29.9	18.2
AVoCaDO (Ours)	7B	50.1	25.7

表4：训练流程消融研究

模型	奖励 RD	奖励 RC	奖励 RL	video-SALMONN-2测试集 Total↓	Dlg. F1↑	RepCol(%)↓	Daily-Omni Avg.↑
Qwen2.5-Omni	–	–	–	57.1	7.1	7.1	13.4
AVoCaDO-SFT	–	–	–	41.4	74.4	3.5	48.1
AVoCaDO-GRPO	✓	–	–	41.3	76.5	2.4	49.5
AVoCaDO-GRPO	✓	✓	–	37.3	75.9	3.9	49.5
AVoCaDO-GRPO	✓	✓	✓	37.3	76.9	0.4	50.1

关键结论：AVoCaDO在音视频描述的全面性和准确性上取得了显著进步，尤其是在对话转录和音视频事件对齐方面。三个奖励函数在GRPO阶段起到了互补的关键作用：对话奖励提升对话准确性，清单奖励确保内容完整性，长度奖励抑制重复并控制输出长度。

🏗️ 模型架构

AVoCaDO的整体架构建立在Qwen2.5-Omni-7B基座模型之上。Qwen2.5-Omni本身是一个端到端的音视频理解模型，通过交错的token序列将视频帧和音频信号进行对齐，为后续的微调和强化学习提供了良好的基础。

论文的核心工作不在于修改模型主体架构，而在于设计了一套精妙的两阶段后训练流程，如图2所示。图2] (注：此处使用论文提供的图片标识“icassp-img://vjEl1PuIDE/1.png”)

阶段一：AVoCaDO SFT

数据构建：该阶段不直接输入原始视频，而是先将视频送入Gemini-2.5-Pro，分别生成视觉帧描述和音频描述（包括转录和声音描述）。然后，将这两份独立描述与原始视频再次送入Gemini-2.5-Pro，融合成一份时序对齐的联合音视频描述。最后，经过一个质量检查器（基于规则过滤和GPT-4.1评分）筛选，最终得到107K条高质量数据。
训练：使用这个数据集对Qwen2.5-Omni-7B进行标准的监督微调（SFT），目标是让模型学会生成这种结构化的联合描述。

阶段二：AVoCaDO GRPO 此阶段使用Group Relative Policy Optimization算法进行强化学习，旨在进一步优化模型生成的描述质量。其关键创新在于设计了三个互补的奖励函数，如图3所示。图3] (注：此处使用论文提供的图片标识“icassp-img://vjEl1PuIDE/2.png”)

清单奖励（RC）：将参考答案（Ground-truth caption）分解为五个维度的关键点（跨模态叙事逻辑、动态动作与交互、听觉元素、时空与摄影、静态实体描述）。对于模型生成的描述，由GPT-4.1判断是否覆盖了这些关键点，RC即为正确覆盖率。这确保了描述内容的全面性。
对话奖励（RD）：专注于转录对话的准确性。首先提取并结构化对话（发言人+内容），然后基于内容编辑距离进行序列对齐（类似于最长公共子序列问题），再结合发言人一致性的验证，最终计算对话的F1分数。这确保了对话转录的保真度。
长度正则化奖励（RL）：一个分段线性奖励，惩罚过短（<2048 tokens）或过长（>4096 tokens）的输出，旨在平衡描述的详尽性与生成的简洁性，并抑制重复崩溃现象。这确保了输出的稳定性和实用性。

最终的奖励R是三个奖励之和：R = RC + RD + RL。通过GRPO优化，模型在生成时会同时考虑内容覆盖、对话准确和输出长度，从而生成更高质量、更可靠的音视频描述。

💡 核心创新点

系统化地强调音视频时序对齐：通过先导实验（图1）量化证明了联合生成时序对齐描述相比分离生成拼接在问答任务上的巨大优势（平均准确率提升15.8%，对齐类别提升27.8%），从而明确了“音视频时序编排”这一核心建模目标。这是整个工作的动机基石。
定制化的多目标强化学习奖励函数体系：这是最核心的技术贡献。设计了清单奖励（RC）、对话奖励（RD）和长度正则化奖励（RL），分别从内容覆盖、对话准确性和输出稳定性三个关键维度对生成进行引导。特别是对话奖励（RD）结合了内容对齐和发言人验证，是一个设计精巧的评估指标。这比单一的、通用的奖励信号（如BLEU、ROUGE或简单的奖励模型）更具针对性和有效性。
高质量音视频描述数据集的构建流水线：提出了一种两阶段（分模态生成再融合）结合质量检查的半自动数据构建方法（图2）。这解决了直接生成联合描述容易遗漏信息的问题（图6），为SFT阶段提供了高质量、时序对齐的训练数据。虽然依赖商业模型，但方法本身具有参考价值。
实证验证的协同优化效果：通过详尽的消融实验（表4）清晰地展示了三个奖励函数各自及协同带来的性能提升，证明了其设计的有效性，而非简单的堆砌。

🔬 细节详述

训练数据：
- 来源：TikTok-10M (24K), ShortVideo (18K), Shot2Story (20K), FineVideo (29K), YouTube-Commons (11K), CinePile (5K)。
- 规模：最终筛选得到107K高质量音视频描述对。
- 预处理：视频按2fps采样，分辨率限制为512x28x28。由于基座模型32K上下文限制，总视频token数限制在25600个。音频编码速率为25 tokens/秒。
- 数据增强：未提及传统数据增强，其“增强”主要体现在通过Gemini模型进行复杂的数据合成。
损失函数：
- SFT阶段：标准的自回归交叉熵损失。
- GRPO阶段：使用GRPO损失函数（公式2），其中包含KL散度正则化项（β=0.04）。
训练策略：
- SFT：训练2个epoch，批大小128，学习率2e-5。
- GRPO：训练1个epoch，批大小64，学习率1e-5。每个查询采样8个响应（G=8），温度1.0。
- 优化器：未明确说明，但通常使用AdamW。
- 训练硬件：16张NVIDIA H200 GPU。
关键超参数：
- 模型大小：7B参数。
- 上下文窗口：32K tokens。
- GRPO相关：采样数G=8，KL系数β=0.04，长度奖励阈值τ1=2048, τ2=4096，对话相似度阈值γ=0.6。
推理细节：未明确说明解码策略（如beam search），但根据GRPO训练设置，温度可能为1.0。评估在NVIDIA H20 GPU上进行。

📊 实验结果

实验充分证明了AVoCaDO的优越性。

音视频描述基准直接评估（表1）：

在video-SALMONN-2测试集上，AVoCaDO的总错误率（Total）为37.3，显著低于基座模型Qwen2.5-Omni（57.1）和同期最强基线video-SALMONN-2（38.8），并与强大的Gemini-2.5-Pro（31.3）竞争。
在UGC-VideoCap基准上，AVoCaDO的平均得分（Avg.）达到73.2，超越了所有对比模型，包括商业模型Gemini-2.5-Pro（72.6）和30B参数的Qwen3-Omni-Captioner（72.5），取得了SOTA。

基于QA的描述质量评估（表2）：

在Daily-Omni基准上，AVoCaDO得分50.1，远超第二名video-SALMONN-2（29.9），与Gemini-2.5-Pro（60.2）的差距缩小到10.1分。
在WorldSense基准上，AVoCaDO得分25.7，同样显著领先于其他开源模型。

视觉单模态设置下的竞争力（表3）：

在VDC Detailed和DREAM-1K这两个视觉描述基准上，AVoCaDO（47.4 / 35.9）也优于Qwen2.5-Omni（39.7 / 31.6）和video-SALMONN-2（46.1 / 34.4），表明其视觉描述能力本身也很强。

消融实验（表4）：

SFT阶段：相比基座，将总错误率从57.1降至41.4，对话F1从7.1提升至74.4，重复崩溃率从7.1%降至3.5%，证明了高质量数据SFT的巨大作用。
GRPO阶段：
- 仅加RD：对话F1提升约2%，Daily-Omni得分提升1.4%。
- 加RD+RC：总错误率从41.3显著降至37.3。
- 加RD+RC+RL：重复崩溃率从3.9%急剧降至0.4%，同时其他指标保持或微升，证明了长度奖励对稳定性的关键作用。
一个有趣的对比是，在相同2K数据上再SFT（AVoCaDO-SFT-2K）性能无提升甚至下降，这反证了性能提升主要来自奖励函数的设计，而非数据量增加。

��性分析（图4, 8, 9）：图4展示了一个生成示例，体现了精确的音视频事件对齐和对话转录。图8和图9的对比显示，相较于video-SALMONN-2和UGC-VideoCaptioner，AVoCaDO在对话内容完整性、说话人识别、音视频时序对应和细节覆盖上均有明显优势。

图4] (注：此处使用论文提供的图片标识“icassp-img://vjEl1PuIDE/3.png”) 图8] (注：此处使用论文提供的图片标识“icassp-img://vjEl1PuIDE/7.jpg”) 图9] (注：此处使用论文提供的图片标识“icassp-img://vjEl1PuIDE/8.jpg”)

⚖️ 评分理由

学术质量（6.5/7）：论文选题明确，动机充分（音视频时序对齐至关重要）。技术方案具有创新性，特别是三个定制化奖励函数的设计，逻辑清晰且有效。实验设计全面，包含多个基准的定量比较、详尽的消融研究和定性展示，有力支撑了结论。主要扣分点在于，其核心的数据构建和奖励评估环节高度依赖闭源大模型（Gemini, GPT），这在一定程度上影响了方法的完全可复现性和中立性。此外，论文未深入探讨该方法在真实实时场景中的计算开销。
选题价值（1.5/2）：音视频联合理解是多模态AI的前沿和重点方向，具有很高的学术和应用价值。该工作直接针对“描述生成”这一基础任务进行优化，其成果可辐射至视频问答、检索、生成等多个下游任务，实用性强。扣分点在于，它不是一个全新任务的开创，而是对现有音视频多模态大模型能力的精炼和提升。
开源与复现加成（0/1）：论文明确承诺将开源模型（AVoCaDO），并提供了项目主页和部分提示词（附录G）。给出了详细的训练超参数和硬件配置。但是，没有明确提及代码、SFT数据集（107K）以及评估所用的判断模型提示词是否会公开。对于依赖这些细节才能完全复现的工作，这构成了减分项。

← 返回 ICLR 2026 论文分析

📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文