OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs
📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #多模态模型 #跨模态 #模型评估 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #模型评估 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Caorui Li(东南大学、南京大学) 通讯作者:Jiaheng Liu(南京大学) 作者列表:Caorui Li(东南大学、南京大学)、Yu Chen(东南大学、南京大学)、Yiyan Ji(南京大学)、Jin Xu(阿里巴巴集团)、Zhenyu Cui(东南大学)、Shihao Li(南京大学)、Yuanxing Zhang(快手科技)、Zhenghao Song(M-A-P)、Dingling Zhang(南京大学)、Ying He(北京科技大学)、Haoxiang Liu(北京科技大学)、Yuxuan Wang(阿里巴巴集团)、Qiufeng Wang(东南大学)、Jiafu Tang(南京大学)、Zhenhe Wu(M-A-P)、Jiehui Luo(中央音乐学院)、Zhiyu Pan(南京大学)、Weihao Xie(华中科技大学)、Chenchen Zhang(M-A-P)、Zhaohui Wang(南京大学)、Jiayi Tian(阿里巴巴集团)、Yanghai Wang(南京大学)、Zhe Cao(南京大学)、Minxin Dai(南京大学)、Ke Wang(M-A-P)、Runzhe Wen(南京大学)、Yinghao Ma(伦敦玛丽女王大学)、Yaning Pan(复旦大学)、Sungkyun Chang(伦敦玛丽女王大学)、Termeh Taheri(伦敦玛丽女王大学)、Haiwen Xia(北京大学)、Christos Plachouras(伦敦玛丽女王大学)、Emmanouil Benetos(伦敦玛丽女王大学)、Yizhi Li(曼彻斯特大学)、Ge Zhang(M-A-P)、Jian Yang(M-A-P)、Tianhao Peng(M-A-P)、Zili Wang(M-A-P)、Minghao Liu(2077AI)、Junran Peng(北京科技大学)、Zhaoxiang Zhang(中国科学院)、Jiaheng Liu(南京大学) 💡 毒舌点评 该工作系统性地定义了评估全模态大语言模型音频-视觉协同推理能力的难题,并通过一套严谨的“人-模型”协作流程构建了一个高质量的评测集,其发现揭示了当前模型在“真正理解”音视频内容上的巨大鸿沟。然而,其核心贡献是一个评测基准(Benchmark)而非一个解决该难题的新模型,且目前数据集尚未完全公开,这限制了其即时影响力。 ...