AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration #多模态模型 #强化学习 #视频描述生成 #音频视觉对齐 #监督微调 🔥 8.5/10 | 前25% | #视频描述生成 | #强化学习 | #多模态模型 #音频视觉对齐 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xinlong Chen(快手技术 Kling 团队,中国科学院自动化研究所 NLPR,中国科学院大学) 通讯作者:Qiang Liu(中国科学院自动化研究所 NLPR,中国科学院大学) 作者列表:Xinlong Chen(快手技术 Kling 团队,中国科学院自动化研究所 NLPR,中国科学院大学)、Yue Ding(中国科学院自动化研究所 NLPR,中国科学院大学)、Weihong Lin(快手技术 Kling 团队)、Jingyun Hua(快手技术 Kling 团队)、Linli Yao(北京大学)、Yang Shi(北京大学)、Bozhou Li(北京大学)、Qiang Liu(中国科学院自动化研究所 NLPR,中国科学院大学)、Yuanxing Zhang(快手技术 Kling 团队)、Pengfei Wan(快手技术 Kling 团队)、Liang Wang(中国科学院自动化研究所 NLPR,中国科学院大学) 💡 毒舌点评 亮点: 论文没有满足于简单的多模态拼接,而是通过精心设计的 checklist 和 dialogue 奖励函数,将“音视频事件在时间轴上对齐”这一核心需求显式地融入了强化学习目标,这种针对具体问题定制 RL 奖励的思路比通用 GRPO 应用更有价值。 短板: 整个流程高度依赖强大的教师模型(如 Gemini-2.5-Pro)来构建 SFT 数据和评估奖励,这使得方法的泛用性和在资源受限场景下的可行性存疑,且可能隐含了将教师模型偏见传递给学生模型的风险。 ...