Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception
📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception #音频场景理解 #多模态模型 #基准测试 #数据集 #开源工具 🔥 9.0/10 | 前25% | #音频场景理解 | #多模态模型 | #基准测试 #数据集 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Ziyang Ma(上海交通大学, 南洋理工大学)(论文中为共同第一作者) 通讯作者:Xie Chen(上海交通大学, 上海创智学院)(论文中为共同通讯作者) 作者列表:Ziyang Ma(上海交通大学, 南洋理工大学)、Ruiyang Xu(上海交通大学)(共同第一作者)、Zhenghao Xing(香港中文大学)(共同第一作者)、Yunfei Chu(阿里集团, Qwen团队)、Yuxuan Wang(阿里集团, Qwen团队)、Jinzheng He(阿里集团, Qwen团队)、Jin Xu†(阿里集团, Qwen团队)(项目负责人)、Pheng-Ann Heng(香港中文大学)、Kai Yu(上海交通大学)、Junyang Lin(阿里集团, Qwen团队)、Eng Siong Chng(南洋理工大学)、Xie Chen‡(上海交通大学, 上海创智学院)(共同通讯作者) 💡 毒舌点评 亮点在于提出了一个从“侦探式”数据生成、到针对性模型训练、再到闭式基准评估的完整闭环方案,直面多模态描述中“细节-幻觉”权衡这一核心矛盾,系统性强且效果显著。短板则是“多模态细粒度描述生成”本身仍是一个相对垂直和小众的任务,且模型架构本身是基于现有骨干(Qwen2.5-Omni)的微调,并非底层架构创新。 ...