AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration #多模态模型 #强化学习 #视频描述生成 #音频视觉对齐 #监督微调 🔥 8.5/10 | 前25% | #视频描述生成 | #强化学习 | #多模态模型 #音频视觉对齐 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xinlong Chen(快手技术 Kling 团队,中国科学院自动化研究所 NLPR,中国科学院大学) 通讯作者:Qiang Liu(中国科学院自动化研究所 NLPR,中国科学院大学) 作者列表:Xinlong Chen(快手技术 Kling 团队,中国科学院自动化研究所 NLPR,中国科学院大学)、Yue Ding(中国科学院自动化研究所 NLPR,中国科学院大学)、Weihong Lin(快手技术 Kling 团队)、Jingyun Hua(快手技术 Kling 团队)、Linli Yao(北京大学)、Yang Shi(北京大学)、Bozhou Li(北京大学)、Qiang Liu(中国科学院自动化研究所 NLPR,中国科学院大学)、Yuanxing Zhang(快手技术 Kling 团队)、Pengfei Wan(快手技术 Kling 团队)、Liang Wang(中国科学院自动化研究所 NLPR,中国科学院大学) 💡 毒舌点评 亮点: 论文没有满足于简单的多模态拼接,而是通过精心设计的 checklist 和 dialogue 奖励函数,将“音视频事件在时间轴上对齐”这一核心需求显式地融入了强化学习目标,这种针对具体问题定制 RL 奖励的思路比通用 GRPO 应用更有价值。 短板: 整个流程高度依赖强大的教师模型(如 Gemini-2.5-Pro)来构建 SFT 数据和评估奖励,这使得方法的泛用性和在资源受限场景下的可行性存疑,且可能隐含了将教师模型偏见传递给学生模型的风险。 ...

2026-05-04 · 更新于 2026-05-19 · 3 min · 467 words

ICLR 2026 - 视频描述生成 论文列表

ICLR 2026 - 视频描述生成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal O 8.5分 前25% 📋 论文详情 🥇 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration 🔥 8.5/10 | 前25% | #视频描述生成 | #强化学习 | #多模态模型 #音频视觉对齐 👥 作者与机构 第一作者:Xinlong Chen(快手技术 Kling 团队,中国科学院自动化研究所 NLPR,中国科学院大学) 通讯作者:Qiang Liu(中国科学院自动化研究所 NLPR,中国科学院大学) 作者列表:Xinlong Chen(快手技术 Kling 团队,中国科学院自动化研究所 NLPR,中国科学院大学)、Yue Ding(中国科学院自动化研究所 NLPR,中国科学院大学)、Weihong Lin(快手技术 Kling 团队)、Jingyun Hua(快手技术 Kling 团队)、Linli Yao(北京大学)、Yang Shi(北京大学)、Bozhou Li(北京大学)、Qiang Liu(中国科学院自动化研究所 NLPR,中国科学院大学)、Yuanxing Zhang(快手技术 Kling 团队)、Pengfei Wan(快手技术 Kling 团队)、Liang Wang(中国科学院自动化研究所 NLPR,中国科学院大学) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-19 · 1 min · 187 words

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration #音视频 #多模态模型 #强化学习 #视频描述生成 #大语言模型 🔥 8.0/10 | 前25% | #音视频 | #强化学习 | #多模态模型 #视频描述生成 学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Xinlong Chen(快手科技 Kling 团队 / 中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院) 通讯作者:Qiang Liu(中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院) 作者列表:Xinlong Chen(快手科技 Kling 团队, 中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院),Yue Ding(中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院),Weihong Lin(快手科技 Kling 团队),Jingyun Hua(快手科技 Kling 团队),Linli Yao(北京大学),Yang Shi(北京大学),Bozhou Li(北京大学),Qiang Liu(中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院),Yuanxing Zhang(快手科技 Kling 团队),Pengfei Wan(快手科技 Kling 团队),Liang Wang(中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院) 💡 毒舌点评 这篇论文在“让视频描述听懂声音”这个点上做得扎实且系统,通过设计一套精巧的奖励函数(特别是对话F1和清单完整性)驱动GRPO训练,有效提升了音视频描述的时序对齐与事实准确性,消融实验也证明了各奖励模块的价值。其短板在于数据构建流程重度依赖Gemini-2.5-Pro,这既带来了高质量种子数据,也引入了对特定闭源模型的依赖和潜在偏差,且论文对如何将模型部署到实际场景中的效率考量(如推理延迟)着墨不多。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 346 words