Auditory Illusion Benchmark for Large Audio Language Models
📄 Auditory Illusion Benchmark for Large Audio Language Models #模型评估 #基准测试 #音频大模型 #听觉认知 ✅ 7.0/10 | 前50% | #模型评估 | #基准测试 | #音频大模型 #听觉认知 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hayoon Kim(首尔大学音乐与音频研究组,首尔大学智能信息学系) 通讯作者:Kyogu Lee(首尔大学音乐与音频研究组,首尔大学智能信息学系,AIIS,IPAI) 作者列表:Hayoon Kim(首尔大学音乐与音频研究组,首尔大学智能信息学系)、Eunice Hong(首尔大学音乐与音频研究组,首尔大学智能信息学系)、Kyogu Lee(首尔大学音乐与音频研究组,首尔大学智能信息学系,AIIS,IPAI) 💡 毒舌点评 亮点:论文首次将认知科学中的“听觉错觉”概念系统化为评估大型音频语言模型(LALMs)的基准,方法严谨(包含对照组和人类基线),指出了模型在“感知”层面与人类的关键差距,角度新颖且具有启发性。短板:所有评估任务被压缩为简单的二选一或三选一,这种简化可能无法充分捕捉复杂听觉错觉的微妙体验和动态过程;对模型内部为何产生差异的分析停留在表面,缺乏更深入的机理解释。 📌 核心摘要 要解决什么问题:当前对大型音频语言模型(LALMs)的评估主要集中在识别准确性等客观任务上,缺乏评估其是否内化了人类特有的感知偏差(如对听觉错觉的易感性)的方法。本文旨在填补这一空白。 方法核心是什么:提出了首个听觉错觉基准(AIB),包含10种代表性听觉错觉(分为基于物理和基于物理+知识两类),涵盖音乐、声音和语音领域。将每个错觉的感知判断转化为多项选择题,并与控制刺激一起,对多款LALMs和人类被试(20名绝对音感者)进行平行测试。 与已有方法相比新在哪里:AIB是首个专门为LALMs设计的听觉错觉评估基准。与主要关注准确率或推理的现有音频基准不同,AIB的核心目标是衡量模型的“人类感知对齐度”(通过ISI等指标),即模型是否像人类一样“犯错”。 主要实验结果如何:人类被试在各类错觉上均表现出极高的易感性(ISI≈0.8-0.9)。LALMs的表现则系统性地分化:在“基音缺失”等低级声学错觉上,Qwen2-Audio表现出近人类易感性(ISI>0.9);在需要结合知识的错觉(如谢泼德音调)上,大模型(如MuLLaMa)显示出部分对齐,但整体仍弱于人类;在语音相关错觉(语音转歌曲、音素恢复)上差距最大,仅Qwen2-Audio在音素恢复上达到完美人类对齐,但所有模型在语音转歌曲上均失败。详细结果见下表。 实际意义是什么:为评估和开发更具“人感”的音频AI模型提供了新的诊断维度和工具。有助于推动模型从追求信号保真度向模拟人类认知特性发展,并为认知科学提供对比人类与机器感知的实验平台。 主要局限性是什么:评估任务被简化为固定的多项选择题,可能无法全面评估错觉感知的丰富性。许多模型在控制条件下性能也不稳定,表明其基础音频理解能力仍有不足。论文未深入探讨模型架构或训练方式导致差异的具体原因。 实验结果表格: 模型 参数量 Physics (幻觉) HLA/RA/ISI Physics (控制) HLA/RA/ISI Physics+Knowledge (幻觉) HLA/RA/ISI Physics+Knowledge (控制) HLA/RA/ISI 总体平均 HLA/RA/ISI Human - 1.000/0.000/1.000 1.000/1.000/0.000 1.000/0.000/1.000 1.000/1.000/0.000 1.000/0.000/1.000 Pengi 323M 0.677/0.323/0.355 0.333/0.389/-0.056 0.715/0.285/0.430 0.083/0.224/0.141 0.408/0.296/0.112 Audio Flamingo Chat 2.2B 0.925/0.075/0.875 0.120/0.139/-0.019 0.963/0.037/0.926 0.245/0.217/0.028 0.901/0.056/0.845 MuLLaMa 7B 0.535/0.465/0.070 0.155/0.167/-0.012 0.856/0.144/0.711 0.084/0.217/0.133 0.519/0.240/0.279 Qwen-Audio-Chat 8.4B 0.305/0.695/-0.389 0.267/0.222/0.045 0.567/0.433/0.133 0.083/0.217/0.134 -0.023/0.512/-0.535 Qwen2-Audio 8.4B 0.985/0.015/0.971 0.015/0.111/-0.096 0.744/0.256/0.489 0.083/0.217/0.134 0.633/0.183/0.450 Qwen2-Audio-Instruct 8.4B 0.182/0.818/-0.636 0.314/0.222/0.092 0.470/0.530/-0.059 0.088/0.217/0.129 -0.232/0.616/-0.848 图1展示了AIB中三个错觉刺激(基音缺失、Zwicker音调、Tartini音调)及其对照刺激的示例,以及用于查询人类和AI模型的提示格式。这直观地说明了如何将听觉错觉感知转化为可评估的任务。 ...