视频描述生成 on 语音/音频论文速递

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

Mon, 04 May 2026 00:00:00 +0000

📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

#多模态模型 #强化学习 #视频描述生成 #音频视觉对齐 #监督微调

🔥 8.5/10 | 前25% | #视频描述生成 | #强化学习 | #多模态模型 #音频视觉对齐

学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）
通讯作者：Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）
作者列表：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）、Yue Ding（中国科学院自动化研究所 NLPR，中国科学院大学）、Weihong Lin（快手技术 Kling 团队）、Jingyun Hua（快手技术 Kling 团队）、Linli Yao（北京大学）、Yang Shi（北京大学）、Bozhou Li（北京大学）、Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）、Yuanxing Zhang（快手技术 Kling 团队）、Pengfei Wan（快手技术 Kling 团队）、Liang Wang（中国科学院自动化研究所 NLPR，中国科学院大学）

💡 毒舌点评

亮点：论文没有满足于简单的多模态拼接，而是通过精心设计的 checklist 和 dialogue 奖励函数，将“音视频事件在时间轴上对齐”这一核心需求显式地融入了强化学习目标，这种针对具体问题定制 RL 奖励的思路比通用 GRPO 应用更有价值。短板：整个流程高度依赖强大的教师模型（如 Gemini-2.5-Pro）来构建 SFT 数据和评估奖励，这使得方法的泛用性和在资源受限场景下的可行性存疑，且可能隐含了将教师模型偏见传递给学生模型的风险。

🔗 开源详情

代码：论文明确表示“AVoCaDO will be open-sourced”，并提供了项目主页链接 (https://avocado-captioner.github.io/)。论文中未直接提供代码仓库链接，但项目主页很可能包含后续链接。
模型权重：论文声明模型将开源，但未提供具体的权重下载链接或平台。
数据集：论文详细描述了数据集的构建方法、来源和规模（107K），但未提及是否公开发布原始数据集或经过处理的描述数据集。获取构建数据集所需的原始视频相对容易（来自公开数据集），但重新生成所有描述需要访问Gemini API。
Demo：论文未提及是否提供在线演示。
复现材料：论文提供了丰富的复现细节：包括所有训练超参数（学习率、batch size等）、硬件配置、以及用于数据构建、关键点分解、奖励计算的所有Prompt（见附录图10-17）。这些信息对复现工作至关重要。
论文中引用的开源项目：依赖的开源项目主要是基础模型 Qwen2.5-Omni-7B，以及用于评估的基准测试集（如Daily-Omni, WorldSense）。构建数据时使用了TikTok-10M, Shot2Story, FineVideo等公开数据集。

📌 核心摘要

解决的问题：现有视频描述生成方法大多以视觉为中心，忽略了音频信息，或者无法生成视觉和音频事件在时间上精确对齐的描述，这限制了模型对视频内容的全面理解。
方法核心：提出了 AVoCaDO，一个由音视频时序协调驱动的描述生成模型。其核心是一个两阶段后训练流水线：第一阶段（SFT）在精心构建的 10.7 万条高质量、时序对齐的音视频描述数据集上进行监督微调；第二阶段（GRPO）利用三个专门设计的奖励函数（清单奖励、对话奖励、长度正则化奖励）进行强化学习，以进一步优化时序连贯性和描述准确性。
创新点：相比已有方法，主要新在：1) 构建了大规模、高质量的音视频对齐描述数据集；2) 提出了针对音视频描述任务特性的组合式奖励函数设计，同时关注内容完整性、对话准确性和生成稳定性；3) 证明了在通用多模态模型上通过特定后训练即可显著提升音视频描述能力。
主要实验结果：在四个音视频描述基准测试上，AVoCaDO (7B) 显著超越了所有现有开源模型，并在 UGC-VideoCap 上超越了商业模型 Gemini-2.5-Pro。关键结果如下表所示。

模型	视频-SALMONN-2测试集 (Total ↓)	UGC-VideoCap (Avg. ↑)	Daily-Omni (Avg. ↑)	WorldSense (Avg. ↑)
AVoCaDO (Ours)	37.3	73.2	50.1	25.7
video-SALMONN-2*	38.8	67.2	29.9	18.2
Qwen2.5-Omni	57.1	57.7	13.4	8.6
Gemini-2.5-Pro	31.3	72.6	60.2	33.8

实际意义：提升了视频描述模型对包含对话、音乐、环境音等复杂音视频内容的理解和描述能力，为视频理解、检索和生成等下游任务提供了更高质量的文本表示，推动了多模态大模型向更全面的视听感知发展。
主要局限性：模型性能高度依赖于大规模、高质量的监督数据构建（使用了强大的教师模型），这可能限制其在不同文化或低资源语言场景下的快速迁移。此外，奖励函数的设计虽然针对性强，但也引入了额外的计算开销和复杂度。

🏗️ 模型架构

AVoCaDO 的核心是在现有的音频视觉大语言模型 Qwen2.5-Omni-7B 基础上，通过一个精心设计的两阶段后训练流水线进行增强，使其专注于生成高质量的音视频描述。

图2：高音质、时序对齐的音视频视频描述构建流程。此图清晰地展示了用于生成SFT训练数据的两阶段策略：首先使用Gemini分别生成视频帧描述和音频描述，然后将两者融合为时序连贯的多模态描述，最后通过质量检查器进行过滤。

整体输入输出：

输入：一个视频文件（包含视觉帧和音频轨道）。
输出：一段自然语言描述，该描述需要同时、准确地反映视频中的视觉内容、音频内容（包括对话、音乐、音效）以及二者之间的时序关系。

核心组件与流程： AVoCaDO 的模型架构本身继承自 Qwen2.5-Omni，其核心创新在于后训练方法，而非底层架构设计。其增强过程主要分为两个连续阶段：

AVoCaDO SFT（监督微调）阶段：
- 目标：使模型具备生成时序对齐的音视频描述的基本能力。
- 数据驱动：使用一个新构建的、包含 10.7 万对高质量音视频描述的数据集。数据构建流程如图2所示，采用了两阶段生成策略以确保质量：先分离生成视觉描述和音频描述，再融合为时序对齐的联合描述，最后通过质量过滤。
- 训练：在此数据集上对基础模型进行全量微调。
AVoCaDO GRPO（群组相对策略优化）阶段：
- 目标：在 SFT 基础上，进一步优化描述的细节质量，特别是音视频事件的时序对齐、对话准确性，并抑制生成过程中的重复退化。
- 核心机制：采用 GRPO 算法（一种强化学习方法），关键创新在于设计了三个互补的奖励函数（如图3所示），共同引导模型优化。
- 奖励函数设计：
  - 清单奖励 ($R_C$): 基于关键点覆盖率。将真实描述分解为涵盖五个维度（跨模态叙事逻辑、动态动作、听觉元素、时空摄影、静态实体）的关键点清单，奖励模型生成的描述覆盖这些关键点的程度。
  - 对话奖励 ($R_D$): 基于对话内容的准确性和说话人识别的精确度，通过计算生成对话与真实对话的F1分数来衡量。
  - 长度正则化奖励 ($R_L$): 鼓励完整但不过长的描述，惩罚重复崩溃（repetition collapse）和极端长度。
- 训练：在 SFT 模型基础上，使用上述奖励函数在 2K 样本子集上进行 GRPO 训练。

数据流交互：输入视频经过 Qwen2.5-Omni 的视觉和音频编码器提取特征，然后送入 LLM 骨干。在 SFT 阶段，LLM 学习根据这些特征生成对齐描述。在 GRPO 阶段，LLM 被采样生成多个候选描述，每个描述根据上述三个奖励函数计算奖励值，然后通过 GRPO 算法更新模型参数，使其更倾向于生成获得高奖励的描述。

💡 核心创新点

针对音视频描述任务定制的组合式强化学习奖励函数：这是论文最核心的创新。不同于通用 RL 应用，作者针对“时序对齐”、“对话准确”、“避免重复”这三个音视频描述的关键挑战，分别设计了清单、对话、长度三个奖励，并证明它们的协同作用能显著提升模型性能（表4消融实验）。这为如何将 RL 有效应用于特定感知与生成任务提供了范例。
大规模、高质量的音视频时序对齐描述数据集构建：论文不仅使用了现有视频数据，更重要的是提出了一套可靠的数据构建流程（图2）：分离生成再融合，最后进行严格的质量筛选。这解决了音视频联合标注数据稀缺的问题，为监督微调提供了坚实基础。
两阶段后训练流水线的有效性验证：论文清晰地展示了“监督微调打基础，强化学习提细节”的流水线价值。消融实验表明，仅 SFT 能带来大幅提升，而 GRPO 在此基础上进一步精细化优化，且三个奖励函数缺一不可。这种清晰、可复现的训练策略具有重要参考意义。

🔬 细节详述

训练数据：数据集规模 107K，来源多样：TikTok-10M (24K), ShortVideo (18K), Shot2Story (20K), FineVideo (29K), YouTube-Commons (11K), CinePile (5K)。构建过程强调包含丰富的听觉元素（对话、音乐、音效）。
损失函数： SFT 阶段为标准的语言模型交叉熵损失。GRPO 阶段使用 GRPO 目标函数（公式2），其核心是最大化基于奖励计算出的优势函数，并包含 KL 散度正则化项（$\beta=0.04$）防止策略偏离过远。
训练策略：
- SFT: 2 个 epoch，batch size 128，学习率 $2 \times 10^{-5}$。
- GRPO: 1 个 epoch，batch size 64，学习率 $1 \times 10^{-5}$，每个查询采样 8 个响应（G=8），温度 1.0。
关键超参数：基础模型为 Qwen2.5-Omni-7B。视频采样率 2fps，每帧最大分辨率 512x28x28。受模型 32K 上下文限制，视频 token 数上限 25600。奖励函数阈值：$\gamma=0.6$ (对话相似度)，$\tau_1=2048$, $\tau_2=4096$ (长度奖励)。
训练硬件： 16 张 NVIDIA H200 GPU。评估使用 NVIDIA H20 GPU。
推理细节：论文未明确说明推理时的具体解码策略（如 beam search 参数），但根据描述生成任务特性，通常采用采样或 beam search。
正则化技巧： GRPO 中的 KL 散度正则化；长度奖励 $R_L$ 本身也是防止退化和过长的一种正则化。

📊 实验结果

论文在多个基准测试上进行了全面评估，包括直接评估描述质量、基于描述的问答评估以及在纯视觉设置下的评估。

主要实验结果对比（音视频描述生成）：

模型	大小	模态	video-SALMONN-2测试集 (Total ↓)	UGC-VideoCap (Avg. ↑)	Daily-Omni (Avg. ↑)	WorldSense (Avg. ↑)
AVoCaDO (Ours)	7B	A+V	37.3	73.2	50.1	25.7
video-SALMONN-2*	7B	A+V	38.8	67.2	29.9	18.2
UGC-VideoCaptioner*	3B	A+V	48.6	59.1	17.0	11.2
Qwen2.5-Omni	7B	A+V	57.1	57.7	13.4	8.6
Gemini-2.5-Pro	-	A+V	31.3	72.6	60.2	33.8

注：标的为同期工作。video-SALMONN-2测试集使用GPT-4.1作为裁判。数据来自论文表1和表2。AVoCaDO在开源模型中取得最佳，在UGC-VideoCap上超越Gemini-2.5-Pro。在QA评估任务（Daily-Omni, WorldSense）上优势显著。

消融实验结果：

模型/设置	奖励 ($R_C$, $R_D$, $R_L$)	video-SALMONN-2测试集 (Total ↓)	Daily-Omni by caption (Avg. ↑)
Qwen2.5-Omni	–	57.1	13.4
AVoCaDO-SFT	–	41.4	48.1
AVoCaDO-GRPO	✓	41.3	49.5
AVoCaDO-GRPO	✓, ✓	37.3	49.5
AVoCaDO-GRPO	✓, ✓, ✓	37.3	50.1

注：数据来自论文表4。此表清晰地展示了每个奖励函数的贡献：$R_D$提升对话质量，$R_C$降低错误率，$R_L$抑制重复崩溃（RepCol从7.1%降至0.4%）。

在纯视觉设置下的竞争性表现：在 VDC Detailed 和 DREAM-1K 这两个评估纯视觉描述的基准上，AVoCaDO 也表现出色（表3），在 VDC Detailed 子集上准确率（Acc）达到 47.4%，DREAM-1K 上 F1 分数达到 35.9%，优于 Qwen2.5-Omni 等模型。

图7：AVoCaDO-GRPO阶段训练过程中三个奖励函数的演变曲线。该图显示，清单奖励和对话奖励稳步上升并趋于收敛，长度奖励偶尔的急剧下降表明模型在处理难样本时的不稳定，但整体最小值在提升，表明生成稳定性在改善。

⚖️ 评分理由

学术质量（6.5/7）：创新点明确且有效（定制奖励函数），方法设计有扎实的动机和清晰的逻辑。实验全面，提供了直接评估和间接（QA）评估，消融实验充分验证了各组件的贡献。结果可信，超越了同期工作和部分商业模型。扣分点在于方法对大型教师模型和精心构建数据的依赖性较强，通用性有待更广泛验证。
选题价值（1.5/2）：音视频时序对齐描述是多模态理解的核心挑战之一，研究前沿且有明确的应用价值（视频理解、生成）。论文针对这一具体问题提出了系统解决方案，对领域发展有推动作用。
开源与复现加成（0.5/1）：论文承诺开源模型和代码，提供了详细的实验设置、超参数和数据构建Prompt（附录），复现指引清晰。但数据集构建依赖闭源模型Gemini，部分代码未提及，因此未给满分。

← 返回 ICLR 2026 论文分析

ICLR 2026 - 视频描述生成论文列表

Mon, 04 May 2026 00:00:00 +0000

ICLR 2026 - 视频描述生成

共 1 篇论文

← 返回 ICLR 2026 总览

排名	论文	评分	分档
🥇	AVoCaDO: An Audiovisual Video Captioner Driven by Temporal O	8.5分	前25%

📋 论文详情

🥇 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

🔥 8.5/10 | 前25% | #视频描述生成 | #强化学习 | #多模态模型 #音频视觉对齐

👥 作者与机构

第一作者：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）
通讯作者：Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）
作者列表：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）、Yue Ding（中国科学院自动化研究所 NLPR，中国科学院大学）、Weihong Lin（快手技术 Kling 团队）、Jingyun Hua（快手技术 Kling 团队）、Linli Yao（北京大学）、Yang Shi（北京大学）、Bozhou Li（北京大学）、Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）、Yuanxing Zhang（快手技术 Kling 团队）、Pengfei Wan（快手技术 Kling 团队）、Liang Wang（中国科学院自动化研究所 NLPR，中国科学院大学）

💡 毒舌点评

🔗 开源详情

代码：论文明确表示“AVoCaDO will be open-sourced”，并提供了项目主页链接 (https://avocado-captioner.github.io/)。论文中未直接提供代码仓库链接，但项目主页很可能包含后续链接。
模型权重：论文声明模型将开源，但未提供具体的权重下载链接或平台。
数据集：论文详细描述了数据集的构建方法、来源和规模（107K），但未提及是否公开发布原始数据集或经过处理的描述数据集。获取构建数据集所需的原始视频相对容易（来自公开数据集），但重新生成所有描述需要访问Gemini API。
Demo：论文未提及是否提供在线演示。
复现材料：论文提供了丰富的复现细节：包括所有训练超参数（学习率、batch size等）、硬件配置、以及用于数据构建、关键点分解、奖励计算的所有Prompt（见附录图10-17）。这些信息对复现工作至关重要。
论文中引用的开源项目：依赖的开源项目主要是基础模型 Qwen2.5-Omni-7B，以及用于评估的基准测试集（如Daily-Omni, WorldSense）。构建数据时使用了TikTok-10M, Shot2Story, FineVideo等公开数据集。

📌 核心摘要

解决的问题：现有视频描述生成方法大多以视觉为中心，忽略了音频信息，或者无法生成视觉和音频事件在时间上精确对齐的描述，这限制了模型对视频内容的全面理解。
方法核心：提出了 AVoCaDO，一个由音视频时序协调驱动的描述生成模型。其核心是一个两阶段后训练流水线：第一阶段（SFT）在精心构建的 10.7 万条高质量、时序对齐的音视频描述数据集上进行监督微调；第二阶段（GRPO）利用三个专门设计的奖励函数（清单奖励、对话奖励、长度正则化奖励）进行强化学习，以进一步优化时序连贯性和描述准确性。
创新点：相比已有方法，主要新在：1) 构建了大规模、高质量的音视频对齐描述数据集；2) 提出了针对音视频描述任务特性的组合式奖励函数设计，同时关注内容完整性、对话准确性和生成稳定性；3) 证明了在通用多模态模型上通过特定后训练即可显著提升音视频描述能力。
主要实验结果：在四个音视频描述基准测试上，AVoCaDO (7B) 显著超越了所有现有开源模型，并在 UGC-VideoCap 上超越了商业模型 Gemini-2.5-Pro。关键结果如下表所示。

模型	视频-SALMONN-2测试集 (Total ↓)	UGC-VideoCap (Avg. ↑)	Daily-Omni (Avg. ↑)	WorldSense (Avg. ↑)
AVoCaDO (Ours)	37.3	73.2	50.1	25.7
video-SALMONN-2*	38.8	67.2	29.9	18.2
Qwen2.5-Omni	57.1	57.7	13.4	8.6
Gemini-2.5-Pro	31.3	72.6	60.2	33.8

实际意义：提升了视频描述模型对包含对话、音乐、环境音等复杂音视频内容的理解和描述能力，为视频理解、检索和生成等下游任务提供了更高质量的文本表示，推动了多模态大模型向更全面的视听感知发展。
主要局限性：模型性能高度依赖于大规模、高质量的监督数据构建（使用了强大的教师模型），这可能限制其在不同文化或低资源语言场景下的快速迁移。此外，奖励函数的设计虽然针对性强，但也引入了额外的计算开销和复杂度。

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

Sat, 02 May 2026 00:00:00 +0000

📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

#音视频 #多模态模型 #强化学习 #视频描述生成 #大语言模型

🔥 8.0/10 | 前25% | #音视频 | #强化学习 | #多模态模型 #视频描述生成

学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高

👥 作者与机构

第一作者：Xinlong Chen（快手科技 Kling 团队 / 中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院）
通讯作者：Qiang Liu（中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院）
作者列表：Xinlong Chen（快手科技 Kling 团队, 中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院），Yue Ding（中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院），Weihong Lin（快手科技 Kling 团队），Jingyun Hua（快手科技 Kling 团队），Linli Yao（北京大学），Yang Shi（北京大学），Bozhou Li（北京大学），Qiang Liu（中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院），Yuanxing Zhang（快手科技 Kling 团队），Pengfei Wan（快手科技 Kling 团队），Liang Wang（中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院）

💡 毒舌点评

这篇论文在“让视频描述听懂声音”这个点上做得扎实且系统，通过设计一套精巧的奖励函数（特别是对话F1和清单完整性）驱动GRPO训练，有效提升了音视频描述的时序对齐与事实准确性，消融实验也证明了各奖励模块的价值。其短板在于数据构建流程重度依赖Gemini-2.5-Pro，这既带来了高质量种子数据，也引入了对特定闭源模型的依赖和潜在偏差，且论文对如何将模型部署到实际场景中的效率考量（如推理延迟）着墨不多。

🔗 开源详情

代码：论文在摘要和贡献部分声明“模型将开源以促进未来研究”，并提供了项目主页链接：https://avocado-captioner.github.io/。但论文正文中未直接给出代码仓库（如GitHub）链接。
模型权重：声明将开源模型权重。
数据集：论文详细描述了训练数据的来源和规模（107K），但未提及该数据集是否会公开发布以及获取方式。
Demo：论文未提及在线演示。
复现材料：在附录C中提供了详细的训练超参数、硬件环境等信息；在附录G中展示了构建SFT数据、分解关键点、提取对话、判断准确性等所使用的完整提示词模板。这些为复现提供了重要参考。
引用的开源项目：论文基座模型为Qwen2.5-Omni。数据构建中使用了Gemini-2.5-Pro和GPT-4.1（通过API）。
开源计划总结：论文承诺开源模型，提供了部分复现细节和提示词，但未明确承诺开源代码和核心训练数据集。因此，完整的复现仍存在不确定性。

📌 核心摘要

要解决什么问题：现有视频描述模型大多“视觉中心”，忽略了对话、音乐、音效等关键音频信息，导致生成的描述无法全面反映视频内容，也缺失了音视频事件之间精确的时序对应关系。
方法核心是什么：提出AVoCaDO，一个基于Qwen2.5-Omni的音视频视频描述生成器。其核心是两阶段后训练流程：(1) AVoCaDO SFT：在一个新构建的10.7万条高质量、时序对齐的音视频描述数据集上进行监督微调；(2) AVoCaDO GRPO：使用三个定制化的奖励函数（清单奖励RC、对话奖励RD、长度正则化奖励RL）进行强化学习优化，以增强时序连贯性、对话准确性和输出稳定性。
与已有方法相比新在哪里：a) 明确提出了“音视频时序编排”的建模理念，并通过实验验证了联合生成时序对齐描述相比分离生成再拼接的优势；b) 设计了一套面向音视频描述的、互补的奖励函数体系，特别是基于编辑距离和F1分数的对话奖励，以及覆盖五大维度的清单奖励；c) 相比同期工作，其训练流程更轻量，且能处理多样化场景的视频。
主要实验结果如何：在四个音视频描述基准上，AVoCaDO显著超越了所有开源基线。例如，在UGC-VideoCap基准的平均得分上（73.2），超过了Gemini-2.5-Pro（72.6）和视频-SALMONN-2（67.2）。消融实验表明，GRPO阶段的三个奖励函数分别带来了对话F1提升、总错误率下降和重复崩溃率降低的协同增益。具体数据见下表。
实际意义是什么：能够生成更全面、时序对齐的视频描述，可直接提升基于文本的视频问答、视频检索、视频内容分析等下游任务的性能，并为视频生成（如文生视频）提供更丰富的文本输入。
主要局限性是什么：a) 高质量SFT数据构建依赖于大型商业模型（Gemini-2.5-Pro, GPT-4.1），流程成本高且引入闭源依赖；b) 模型在视频描述任务上的推理效率（如延迟）未被充分讨论和优化；c) 虽然效果好，但模型的可解释性有限，例如清单奖励中的关键点分解也依赖于GPT-4o。

主要实验结果表格

表1：音视频视频描述基准直接评估

模型	大小	模态	video-SALMONN-2测试集 (↓)	UGC-VideoCap (↑)
			Miss	Hall.
Gemini-2.5-Pro	-	A+V	18.1	13.3
Qwen2.5-Omni	7B	A+V	41.7	15.4
video-SALMONN-2	7B	A+V	21.2	17.6
Qwen3-Omni-Captioner	30B-A3B	A+V	31.0	16.6
AVoCaDO (Ours)	7B	A+V	21.1	16.2

表2：基于QA的描述质量评估

模型	大小	Daily-Omni	WorldSense
Gemini-2.5-Pro	-	60.2	33.8
Qwen2.5-Omni	7B	13.4	8.6
video-SALMONN-2	7B	29.9	18.2
AVoCaDO (Ours)	7B	50.1	25.7

表4：训练流程消融研究

模型	奖励 RD	奖励 RC	奖励 RL	video-SALMONN-2测试集 Total↓	Dlg. F1↑	RepCol(%)↓	Daily-Omni Avg.↑
Qwen2.5-Omni	–	–	–	57.1	7.1	7.1	13.4
AVoCaDO-SFT	–	–	–	41.4	74.4	3.5	48.1
AVoCaDO-GRPO	✓	–	–	41.3	76.5	2.4	49.5
AVoCaDO-GRPO	✓	✓	–	37.3	75.9	3.9	49.5
AVoCaDO-GRPO	✓	✓	✓	37.3	76.9	0.4	50.1

关键结论：AVoCaDO在音视频描述的全面性和准确性上取得了显著进步，尤其是在对话转录和音视频事件对齐方面。三个奖励函数在GRPO阶段起到了互补的关键作用：对话奖励提升对话准确性，清单奖励确保内容完整性，长度奖励抑制重复并控制输出长度。

🏗️ 模型架构

AVoCaDO的整体架构建立在Qwen2.5-Omni-7B基座模型之上。Qwen2.5-Omni本身是一个端到端的音视频理解模型，通过交错的token序列将视频帧和音频信号进行对齐，为后续的微调和强化学习提供了良好的基础。

论文的核心工作不在于修改模型主体架构，而在于设计了一套精妙的两阶段后训练流程，如图2所示。图2] (注：此处使用论文提供的图片标识“icassp-img://vjEl1PuIDE/1.png”)

阶段一：AVoCaDO SFT

数据构建：该阶段不直接输入原始视频，而是先将视频送入Gemini-2.5-Pro，分别生成视觉帧描述和音频描述（包括转录和声音描述）。然后，将这两份独立描述与原始视频再次送入Gemini-2.5-Pro，融合成一份时序对齐的联合音视频描述。最后，经过一个质量检查器（基于规则过滤和GPT-4.1评分）筛选，最终得到107K条高质量数据。
训练：使用这个数据集对Qwen2.5-Omni-7B进行标准的监督微调（SFT），目标是让模型学会生成这种结构化的联合描述。

阶段二：AVoCaDO GRPO 此阶段使用Group Relative Policy Optimization算法进行强化学习，旨在进一步优化模型生成的描述质量。其关键创新在于设计了三个互补的奖励函数，如图3所示。图3] (注：此处使用论文提供的图片标识“icassp-img://vjEl1PuIDE/2.png”)

清单奖励（RC）：将参考答案（Ground-truth caption）分解为五个维度的关键点（跨模态叙事逻辑、动态动作与交互、听觉元素、时空与摄影、静态实体描述）。对于模型生成的描述，由GPT-4.1判断是否覆盖了这些关键点，RC即为正确覆盖率。这确保了描述内容的全面性。
对话奖励（RD）：专注于转录对话的准确性。首先提取并结构化对话（发言人+内容），然后基于内容编辑距离进行序列对齐（类似于最长公共子序列问题），再结合发言人一致性的验证，最终计算对话的F1分数。这确保了对话转录的保真度。
长度正则化奖励（RL）：一个分段线性奖励，惩罚过短（<2048 tokens）或过长（>4096 tokens）的输出，旨在平衡描述的详尽性与生成的简洁性，并抑制重复崩溃现象。这确保了输出的稳定性和实用性。

最终的奖励R是三个奖励之和：R = RC + RD + RL。通过GRPO优化，模型在生成时会同时考虑内容覆盖、对话准确和输出长度，从而生成更高质量、更可靠的音视频描述。

💡 核心创新点

系统化地强调音视频时序对齐：通过先导实验（图1）量化证明了联合生成时序对齐描述相比分离生成拼接在问答任务上的巨大优势（平均准确率提升15.8%，对齐类别提升27.8%），从而明确了“音视频时序编排”这一核心建模目标。这是整个工作的动机基石。
定制化的多目标强化学习奖励函数体系：这是最核心的技术贡献。设计了清单奖励（RC）、对话奖励（RD）和长度正则化奖励（RL），分别从内容覆盖、对话准确性和输出稳定性三个关键维度对生成进行引导。特别是对话奖励（RD）结合了内容对齐和发言人验证，是一个设计精巧的评估指标。这比单一的、通用的奖励信号（如BLEU、ROUGE或简单的奖励模型）更具针对性和有效性。
高质量音视频描述数据集的构建流水线：提出了一种两阶段（分模态生成再融合）结合质量检查的半自动数据构建方法（图2）。这解决了直接生成联合描述容易遗漏信息的问题（图6），为SFT阶段提供了高质量、时序对齐的训练数据。虽然依赖商业模型，但方法本身具有参考价值。
实证验证的协同优化效果：通过详尽的消融实验（表4）清晰地展示了三个奖励函数各自及协同带来的性能提升，证明了其设计的有效性，而非简单的堆砌。

🔬 细节详述

训练数据：
- 来源：TikTok-10M (24K), ShortVideo (18K), Shot2Story (20K), FineVideo (29K), YouTube-Commons (11K), CinePile (5K)。
- 规模：最终筛选得到107K高质量音视频描述对。
- 预处理：视频按2fps采样，分辨率限制为512x28x28。由于基座模型32K上下文限制，总视频token数限制在25600个。音频编码速率为25 tokens/秒。
- 数据增强：未提及传统数据增强，其“增强”主要体现在通过Gemini模型进行复杂的数据合成。
损失函数：
- SFT阶段：标准的自回归交叉熵损失。
- GRPO阶段：使用GRPO损失函数（公式2），其中包含KL散度正则化项（β=0.04）。
训练策略：
- SFT：训练2个epoch，批大小128，学习率2e-5。
- GRPO：训练1个epoch，批大小64，学习率1e-5。每个查询采样8个响应（G=8），温度1.0。
- 优化器：未明确说明，但通常使用AdamW。
- 训练硬件：16张NVIDIA H200 GPU。
关键超参数：
- 模型大小：7B参数。
- 上下文窗口：32K tokens。
- GRPO相关：采样数G=8，KL系数β=0.04，长度奖励阈值τ1=2048, τ2=4096，对话相似度阈值γ=0.6。
推理细节：未明确说明解码策略（如beam search），但根据GRPO训练设置，温度可能为1.0。评估在NVIDIA H20 GPU上进行。

📊 实验结果

实验充分证明了AVoCaDO的优越性。

音视频描述基准直接评估（表1）：

在video-SALMONN-2测试集上，AVoCaDO的总错误率（Total）为37.3，显著低于基座模型Qwen2.5-Omni（57.1）和同期最强基线video-SALMONN-2（38.8），并与强大的Gemini-2.5-Pro（31.3）竞争。
在UGC-VideoCap基准上，AVoCaDO的平均得分（Avg.）达到73.2，超越了所有对比模型，包括商业模型Gemini-2.5-Pro（72.6）和30B参数的Qwen3-Omni-Captioner（72.5），取得了SOTA。

基于QA的描述质量评估（表2）：

在Daily-Omni基准上，AVoCaDO得分50.1，远超第二名video-SALMONN-2（29.9），与Gemini-2.5-Pro（60.2）的差距缩小到10.1分。
在WorldSense基准上，AVoCaDO得分25.7，同样显著领先于其他开源模型。

视觉单模态设置下的竞争力（表3）：

在VDC Detailed和DREAM-1K这两个视觉描述基准上，AVoCaDO（47.4 / 35.9）也优于Qwen2.5-Omni（39.7 / 31.6）和video-SALMONN-2（46.1 / 34.4），表明其视觉描述能力本身也很强。

消融实验（表4）：

SFT阶段：相比基座，将总错误率从57.1降至41.4，对话F1从7.1提升至74.4，重复崩溃率从7.1%降至3.5%，证明了高质量数据SFT的巨大作用。
GRPO阶段：
- 仅加RD：对话F1提升约2%，Daily-Omni得分提升1.4%。
- 加RD+RC：总错误率从41.3显著降至37.3。
- 加RD+RC+RL：重复崩溃率从3.9%急剧降至0.4%，同时其他指标保持或微升，证明了长度奖励对稳定性的关键作用。
一个有趣的对比是，在相同2K数据上再SFT（AVoCaDO-SFT-2K）性能无提升甚至下降，这反证了性能提升主要来自奖励函数的设计，而非数据量增加。

��性分析（图4, 8, 9）：图4展示了一个生成示例，体现了精确的音视频事件对齐和对话转录。图8和图9的对比显示，相较于video-SALMONN-2和UGC-VideoCaptioner，AVoCaDO在对话内容完整性、说话人识别、音视频时序对应和细节覆盖上均有明显优势。

图4] (注：此处使用论文提供的图片标识“icassp-img://vjEl1PuIDE/3.png”) 图8] (注：此处使用论文提供的图片标识“icassp-img://vjEl1PuIDE/7.jpg”) 图9] (注：此处使用论文提供的图片标识“icassp-img://vjEl1PuIDE/8.jpg”)

⚖️ 评分理由

学术质量（6.5/7）：论文选题明确，动机充分（音视频时序对齐至关重要）。技术方案具有创新性，特别是三个定制化奖励函数的设计，逻辑清晰且有效。实验设计全面，包含多个基准的定量比较、详尽的消融研究和定性展示，有力支撑了结论。主要扣分点在于，其核心的数据构建和奖励评估环节高度依赖闭源大模型（Gemini, GPT），这在一定程度上影响了方法的完全可复现性和中立性。此外，论文未深入探讨该方法在真实实时场景中的计算开销。
选题价值（1.5/2）：音视频联合理解是多模态AI的前沿和重点方向，具有很高的学术和应用价值。该工作直接针对“描述生成”这一基础任务进行优化，其成果可辐射至视频问答、检索、生成等多个下游任务，实用性强。扣分点在于，它不是一个全新任务的开创，而是对现有音视频多模态大模型能力的精炼和提升。
开源与复现加成（0/1）：论文明确承诺将开源模型（AVoCaDO），并提供了项目主页和部分提示词（附录G）。给出了详细的训练超参数和硬件配置。但是，没有明确提及代码、SFT数据集（107K）以及评估所用的判断模型提示词是否会公开。对于依赖这些细节才能完全复现的工作，这构成了减分项。

← 返回 ICLR 2026 论文分析

视频描述生成 on 语音/音频论文速递

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

👥 作者与机构

💡 毒舌点评

🔗 开源详情

📌 核心摘要

🏗️ 模型架构

💡 核心创新点

🔬 细节详述

📊 实验结果

⚖️ 评分理由

ICLR 2026 - 视频描述生成 论文列表

ICLR 2026 - 视频描述生成

📋 论文详情

🥇 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

👥 作者与机构

💡 毒舌点评

🔗 开源详情

📌 核心摘要

🏗️ 模型架构

💡 核心创新点

🔬 细节详述

📊 实验结果

⚖️ 评分理由

ICLR 2026 - 视频描述生成论文列表