AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration #音视频 #多模态模型 #强化学习 #视频描述生成 #大语言模型 🔥 8.0/10 | 前25% | #音视频 | #强化学习 | #多模态模型 #视频描述生成 学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Xinlong Chen(快手科技 Kling 团队 / 中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院) 通讯作者:Qiang Liu(中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院) 作者列表:Xinlong Chen(快手科技 Kling 团队, 中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院),Yue Ding(中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院),Weihong Lin(快手科技 Kling 团队),Jingyun Hua(快手科技 Kling 团队),Linli Yao(北京大学),Yang Shi(北京大学),Bozhou Li(北京大学),Qiang Liu(中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院),Yuanxing Zhang(快手科技 Kling 团队),Pengfei Wan(快手科技 Kling 团队),Liang Wang(中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院) 💡 毒舌点评 这篇论文在“让视频描述听懂声音”这个点上做得扎实且系统,通过设计一套精巧的奖励函数(特别是对话F1和清单完整性)驱动GRPO训练,有效提升了音视频描述的时序对齐与事实准确性,消融实验也证明了各奖励模块的价值。其短板在于数据构建流程重度依赖Gemini-2.5-Pro,这既带来了高质量种子数据,也引入了对特定闭源模型的依赖和潜在偏差,且论文对如何将模型部署到实际场景中的效率考量(如推理延迟)着墨不多。 ...