视频描述 | 语音/音乐/音频论文速递

📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception #多模态模型 #音频场景理解 #视频描述 #基准测试 ✅ 7.5/10 | 前25% | #音频场景理解 | #多模态模型 | #视频描述 #基准测试学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ziyang Ma（上海交通大学，南洋理工大学）通讯作者：Jin Xu（阿里巴巴通义团队），Xie Chen（上海交通大学，上海创新研究院）作者列表： Ziyang Ma（上海交通大学，南洋理工大学）* Ruiyang Xu（上海交通大学）* Zhenghao Xing（香港中文大学）* Yunfei Chu（阿里巴巴通义团队） Yuxuan Wang（阿里巴巴通义团队） Jinzheng He（阿里巴巴通义团队） Jin Xu†（阿里巴巴通义团队） Pheng-Ann Heng（香港中文大学） Kai Yu（上海交通大学） Junyang Lin（阿里巴巴通义团队） Eng Siong Chng（南洋理工大学） Xie Chen‡（上海交通大学，上海创新研究院） 💡 毒舌点评亮点：论文针对多模态细粒度感知中“描述越详细，幻觉越多”的核心矛盾，提出了一个从“侦探”式数据生成到两阶段模型训练，再到全新填空式评估基准的完整解决方案框架，逻辑闭环非常扎实。短板：虽然设计了智能体数据管线，但其质量上限仍受限于所调用的闭源模型（如Gemini 2.5 Pro）的能力，本质上是用更强的闭源模型给开源模型生成训练数据，创新中略带一丝“取巧”；新基准Omni-Cloze虽然高效，但其“填空”形式与自由生成任务仍有一定差距。 ...