OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs
📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #模型评估 #多模态模型 #音频问答 #音视频 ✅ 7.8/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #音频问答 学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Caorui Li (南京大学, 东南大学) 通讯作者:Jiaheng Liu (南京大学) 作者列表:Caorui Li (南京大学, 东南大学), Yu Chen (南京大学, 东南大学), Yiyan Ji (南京大学), Jin Xu (阿里巴巴集团), Zhenyu Cui (东南大学), Shihao Li (南京大学), Yuanxing Zhang (快手科技), Zhenghao Song (M-A-P), Dingling Zhang (南京大学), Ying He (北京科技大学), Haoxiang Liu (北京科技大学), Yuxuan Wang (阿里巴巴集团), Qiufeng Wang (东南大学), Jiafu Tang (南京大学), Zhenhe Wu (M-A-P), Jiehui Luo (中央音乐学院), Zhiyu Pan (南京大学), Weihao Xie (华中科技大学), Chenchen Zhang (M-A-P), Zhaohui Wang (南京大学), Jiayi Tian (阿里巴巴集团), Yanghai Wang (南京大学), Zhe Cao (南京大学), Minxin Dai (南京大学), Ke Wang (M-A-P), Runzhe Wen (南京大学), Yinghao Ma (伦敦玛丽女王大学), Yaning Pan (复旦大学), Sungkyun Chang (伦敦玛丽女王大学), Termeh Taheri (伦敦玛丽女王大学), Haiwen Xia (北京大学), Christos Plachouras (伦敦玛丽女王大学), Emmanouil Benetos (伦敦玛丽女王大学), Yizhi Li (曼彻斯特大学), Ge Zhang (M-A-P), Jian Yang (M-A-P), Tianhao Peng (M-A-P), Zili Wang (M-A-P), Minghao Liu (2077AI), Junran Peng (北京科技大学), Zhaoxiang Zhang (中国科学院), Jiaheng Liu (南京大学)。 💡 毒舌点评 这篇论文的亮点在于其极其严谨和“反作弊”的基准设计理念(如强调音视频必须协同、设计原子推理链、多阶段质量过滤),为评估“真·多模态推理”设立了高标准。然而,短板在于其本质是一个“裁判”而非“运动员”——它精准地指出了当前模型的短板(音乐理解差、长视频融合弱),但并未提出任何解决这些问题的新模型或新方法,创新性停留在了评估体系的设计层面。 ...