Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception
📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception #多模态模型 #音频场景理解 #视频描述 #基准测试 ✅ 7.5/10 | 前25% | #音频场景理解 | #多模态模型 | #视频描述 #基准测试 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ziyang Ma(上海交通大学,南洋理工大学) 通讯作者:Jin Xu(阿里巴巴通义团队),Xie Chen(上海交通大学,上海创新研究院) 作者列表: Ziyang Ma(上海交通大学,南洋理工大学)* Ruiyang Xu(上海交通大学)* Zhenghao Xing(香港中文大学)* Yunfei Chu(阿里巴巴通义团队) Yuxuan Wang(阿里巴巴通义团队) Jinzheng He(阿里巴巴通义团队) Jin Xu†(阿里巴巴通义团队) Pheng-Ann Heng(香港中文大学) Kai Yu(上海交通大学) Junyang Lin(阿里巴巴通义团队) Eng Siong Chng(南洋理工大学) Xie Chen‡(上海交通大学,上海创新研究院) 💡 毒舌点评 亮点:论文针对多模态细粒度感知中“描述越详细,幻觉越多”的核心矛盾,提出了一个从“侦探”式数据生成到两阶段模型训练,再到全新填空式评估基准的完整解决方案框架,逻辑闭环非常扎实。 短板:虽然设计了智能体数据管线,但其质量上限仍受限于所调用的闭源模型(如Gemini 2.5 Pro)的能力,本质上是用更强的闭源模型给开源模型生成训练数据,创新中略带一丝“取巧”;新基准Omni-Cloze虽然高效,但其“填空”形式与自由生成任务仍有一定差距。 ...