RAIL: Rethinking Auditory Intelligence in Large Audio-Language Models with a CHC-Grounded Benchmark
📄 RAIL: Rethinking Auditory Intelligence in Large Audio-Language Models with a CHC-Grounded Benchmark #基准测试 #多模态模型 9.6/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9.6/10 | 前10% | #音频问答 | #基准测试 | #多模态模型 | arxiv 👥 作者与机构 论文作者来自多个机构,包括: 墨尔本大学(The University of Melbourne):Hongyu Jin, Siyi Wang, Yang Xiao, Jiaheng Dong, Kaiyuan Peng, Eun-Jung Holden, Ting Dang (通讯作者) 亚历山大·约安·库扎大学(Alexandru Ioan Cuza University of Iași):Georgiana Juravle 武汉大学(Wuhan University):Shihong Tan, Gongping Huang 香港大学(The University of Hong Kong):Shanquan Chen 奥克兰大学(The University of Auckland):Hong Jia 莫纳什大学(Monash University):James Bailey 💡 毒舌点评 这篇论文就像给音频AI做了一次全面的“认知体检”,而不是只看它会不会听写或分类。作者们很聪明地借用了心理学中成熟的CHC理论框架,把评估维度从简单的任务表现拆解成了感知、推理、记忆、效率、知识五大能力,这比市面上那些七拼八凑的基准要科学得多。26个模型的大规模“体检报告”确实揭示了当前LALM们的“偏科”问题:背课文(知识)还行,但真要听懂复杂场景、记住长对话、又快又好地思考,还差得远。特别是发现了推理和记忆强相关、效率跟模型大小没啥关系这些点,挺有意思。 ...