视频描述生成

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration #多模态模型 #强化学习 #视频描述生成 #音频视觉对齐 #监督微调 🔥 8.5/10 | 前25% | #视频描述生成 | #强化学习 | #多模态模型 #音频视觉对齐学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）通讯作者：Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）作者列表：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）、Yue Ding（中国科学院自动化研究所 NLPR，中国科学院大学）、Weihong Lin（快手技术 Kling 团队）、Jingyun Hua（快手技术 Kling 团队）、Linli Yao（北京大学）、Yang Shi（北京大学）、Bozhou Li（北京大学）、Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）、Yuanxing Zhang（快手技术 Kling 团队）、Pengfei Wan（快手技术 Kling 团队）、Liang Wang（中国科学院自动化研究所 NLPR，中国科学院大学） 💡 毒舌点评亮点：论文没有满足于简单的多模态拼接，而是通过精心设计的 checklist 和 dialogue 奖励函数，将“音视频事件在时间轴上对齐”这一核心需求显式地融入了强化学习目标，这种针对具体问题定制 RL 奖励的思路比通用 GRPO 应用更有价值。短板：整个流程高度依赖强大的教师模型（如 Gemini-2.5-Pro）来构建 SFT 数据和评估奖励，这使得方法的泛用性和在资源受限场景下的可行性存疑，且可能隐含了将教师模型偏见传递给学生模型的风险。 ...

ICLR 2026 - 视频描述生成论文列表

ICLR 2026 - 视频描述生成共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal O 8.5分前25% 📋 论文详情 🥇 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration 🔥 8.5/10 | 前25% | #视频描述生成 | #强化学习 | #多模态模型 #音频视觉对齐 👥 作者与机构第一作者：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）通讯作者：Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）作者列表：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）、Yue Ding（中国科学院自动化研究所 NLPR，中国科学院大学）、Weihong Lin（快手技术 Kling 团队）、Jingyun Hua（快手技术 Kling 团队）、Linli Yao（北京大学）、Yang Shi（北京大学）、Bozhou Li（北京大学）、Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）、Yuanxing Zhang（快手技术 Kling 团队）、Pengfei Wan（快手技术 Kling 团队）、Liang Wang（中国科学院自动化研究所 NLPR，中国科学院大学） 💡 毒舌点评 ...

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration #音视频 #多模态模型 #强化学习 #视频描述生成 #大语言模型 🔥 8.0/10 | 前25% | #音视频 | #强化学习 | #多模态模型 #视频描述生成学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Xinlong Chen（快手科技 Kling 团队 / 中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院）通讯作者：Qiang Liu（中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院）作者列表：Xinlong Chen（快手科技 Kling 团队, 中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院），Yue Ding（中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院），Weihong Lin（快手科技 Kling 团队），Jingyun Hua（快手科技 Kling 团队），Linli Yao（北京大学），Yang Shi（北京大学），Bozhou Li（北京大学），Qiang Liu（中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院），Yuanxing Zhang（快手科技 Kling 团队），Pengfei Wan（快手科技 Kling 团队），Liang Wang（中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院） 💡 毒舌点评这篇论文在“让视频描述听懂声音”这个点上做得扎实且系统，通过设计一套精巧的奖励函数（特别是对话F1和清单完整性）驱动GRPO训练，有效提升了音视频描述的时序对齐与事实准确性，消融实验也证明了各奖励模块的价值。其短板在于数据构建流程重度依赖Gemini-2.5-Pro，这既带来了高质量种子数据，也引入了对特定闭源模型的依赖和潜在偏差，且论文对如何将模型部署到实际场景中的效率考量（如推理延迟）着墨不多。 ...