ICLR 2026 - 音频场景理解 论文列表
ICLR 2026 - 音频场景理解 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omn 7.5分 前25% 📋 论文详情 🥇 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception ✅ 7.5/10 | 前25% | #音频场景理解 | #多模态模型 | #视频描述 #基准测试 👥 作者与机构 第一作者:Ziyang Ma(上海交通大学,南洋理工大学) 通讯作者:Jin Xu(阿里巴巴通义团队),Xie Chen(上海交通大学,上海创新研究院) 作者列表: Ziyang Ma(上海交通大学,南洋理工大学)* Ruiyang Xu(上海交通大学)* Zhenghao Xing(香港中文大学)* Yunfei Chu(阿里巴巴通义团队) Yuxuan Wang(阿里巴巴通义团队) Jinzheng He(阿里巴巴通义团队) Jin Xu†(阿里巴巴通义团队) Pheng-Ann Heng(香港中文大学) Kai Yu(上海交通大学) Junyang Lin(阿里巴巴通义团队) Eng Siong Chng(南洋理工大学) Xie Chen‡(上海交通大学,上海创新研究院) 💡 毒舌点评 ...