📄 Auditory Illusion Benchmark for Large Audio Language Models

#模型评估 #基准测试 #音频大模型 #听觉认知

7.0/10 | 前50% | #模型评估 | #基准测试 | #音频大模型 #听觉认知

学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Hayoon Kim(首尔大学音乐与音频研究组,首尔大学智能信息学系)
  • 通讯作者:Kyogu Lee(首尔大学音乐与音频研究组,首尔大学智能信息学系,AIIS,IPAI)
  • 作者列表:Hayoon Kim(首尔大学音乐与音频研究组,首尔大学智能信息学系)、Eunice Hong(首尔大学音乐与音频研究组,首尔大学智能信息学系)、Kyogu Lee(首尔大学音乐与音频研究组,首尔大学智能信息学系,AIIS,IPAI)

💡 毒舌点评

亮点:论文首次将认知科学中的“听觉错觉”概念系统化为评估大型音频语言模型(LALMs)的基准,方法严谨(包含对照组和人类基线),指出了模型在“感知”层面与人类的关键差距,角度新颖且具有启发性。短板:所有评估任务被压缩为简单的二选一或三选一,这种简化可能无法充分捕捉复杂听觉错觉的微妙体验和动态过程;对模型内部为何产生差异的分析停留在表面,缺乏更深入的机理解释。

📌 核心摘要

  1. 要解决什么问题:当前对大型音频语言模型(LALMs)的评估主要集中在识别准确性等客观任务上,缺乏评估其是否内化了人类特有的感知偏差(如对听觉错觉的易感性)的方法。本文旨在填补这一空白。
  2. 方法核心是什么:提出了首个听觉错觉基准(AIB),包含10种代表性听觉错觉(分为基于物理和基于物理+知识两类),涵盖音乐、声音和语音领域。将每个错觉的感知判断转化为多项选择题,并与控制刺激一起,对多款LALMs和人类被试(20名绝对音感者)进行平行测试。
  3. 与已有方法相比新在哪里:AIB是首个专门为LALMs设计的听觉错觉评估基准。与主要关注准确率或推理的现有音频基准不同,AIB的核心目标是衡量模型的“人类感知对齐度”(通过ISI等指标),即模型是否像人类一样“犯错”。
  4. 主要实验结果如何:人类被试在各类错觉上均表现出极高的易感性(ISI≈0.8-0.9)。LALMs的表现则系统性地分化:在“基音缺失”等低级声学错觉上,Qwen2-Audio表现出近人类易感性(ISI>0.9);在需要结合知识的错觉(如谢泼德音调)上,大模型(如MuLLaMa)显示出部分对齐,但整体仍弱于人类;在语音相关错觉(语音转歌曲、音素恢复)上差距最大,仅Qwen2-Audio在音素恢复上达到完美人类对齐,但所有模型在语音转歌曲上均失败。详细结果见下表。
  5. 实际意义是什么:为评估和开发更具“人感”的音频AI模型提供了新的诊断维度和工具。有助于推动模型从追求信号保真度向模拟人类认知特性发展,并为认知科学提供对比人类与机器感知的实验平台。
  6. 主要局限性是什么:评估任务被简化为固定的多项选择题,可能无法全面评估错觉感知的丰富性。许多模型在控制条件下性能也不稳定,表明其基础音频理解能力仍有不足。论文未深入探讨模型架构或训练方式导致差异的具体原因。

实验结果表格:

模型参数量Physics (幻觉) HLA/RA/ISIPhysics (控制) HLA/RA/ISIPhysics+Knowledge (幻觉) HLA/RA/ISIPhysics+Knowledge (控制) HLA/RA/ISI总体平均 HLA/RA/ISI
Human-1.000/0.000/1.0001.000/1.000/0.0001.000/0.000/1.0001.000/1.000/0.0001.000/0.000/1.000
Pengi323M0.677/0.323/0.3550.333/0.389/-0.0560.715/0.285/0.4300.083/0.224/0.1410.408/0.296/0.112
Audio Flamingo Chat2.2B0.925/0.075/0.8750.120/0.139/-0.0190.963/0.037/0.9260.245/0.217/0.0280.901/0.056/0.845
MuLLaMa7B0.535/0.465/0.0700.155/0.167/-0.0120.856/0.144/0.7110.084/0.217/0.1330.519/0.240/0.279
Qwen-Audio-Chat8.4B0.305/0.695/-0.3890.267/0.222/0.0450.567/0.433/0.1330.083/0.217/0.134-0.023/0.512/-0.535
Qwen2-Audio8.4B0.985/0.015/0.9710.015/0.111/-0.0960.744/0.256/0.4890.083/0.217/0.1340.633/0.183/0.450
Qwen2-Audio-Instruct8.4B0.182/0.818/-0.6360.314/0.222/0.0920.470/0.530/-0.0590.088/0.217/0.129-0.232/0.616/-0.848

图1: AIB基准示例 图1展示了AIB中三个错觉刺激(基音缺失、Zwicker音调、Tartini音调)及其对照刺激的示例,以及用于查询人类和AI模型的提示格式。这直观地说明了如何将听觉错觉感知转化为可评估的任务。

🏗️ 模型架构

本文并未提出新的模型架构,而是评估了一系列现有的大型音频语言模型(LALMs)。被评估的模型包括:

  • Pengi:一个323M参数的音频语言模型。
  • Audio Flamingo Chat:一个2.2B参数的模型,具备上下文学习和对话能力。
  • MuLLaMa:一个7B参数的音乐理解LLaMA模型。
  • Qwen-Audio-Chat / Qwen2-Audio / Qwen2-Audio-Instruct:均为8.4B参数的Qwen-Audio系列模型,其中Instruct版本经过指令微调。
  • Gemini Pro v1.5:Google的大型多模态语言模型(参数量未说明)。
  • 作为基线,还包括“随机猜测”和“最常见选择”策略。

评估流程是:将AIB中的听觉错觉刺激(已转为音频)和对应的多项选择题提示输入到每个LALM中,获取模型的文本选择答案。然后将这些答案与人类被试(20名绝对音感者)的判断结果进行分布比较,计算HLA、RA和ISI指标。论文中未提供架构图。

💡 核心创新点

  1. 提出首个听觉错觉评估基准(AIB):之前缺乏专门用于评估LALMs是否感知听觉错觉的系统化基准。AIB首次涵盖了10种代表性错觉,并按底层机制和感知领域进行了科学分类。
  2. 建立人机可比的评估范式:将主观的听觉错觉感知转化为客观的、可量化的多项选择任务,并提供了严格控制的人类基线数据,使得模型性能可以与人类进行直接、公平的比较。
  3. 揭示LALMs的感知对齐差异:通过实验发现,LALMs在感知听觉错觉方面与人类存在系统性差异。模型对低级声学特征的错觉捕捉能力相对较强,但对需要结合知识、经验和语言先验的高级错觉(尤其是语音类错觉)的易感性普遍不足,且表现受模型架构和训练方式影响显著。

🔬 细节详述

  • 训练数据:未说明。本文是评估工作,不涉及新模型的训练。评估使用的AIB数据集包含8635个错觉刺激和2890个控制刺激。
  • 损失函数:不适用。
  • 训练策略:不适用。
  • 关键超参数:未说明。仅提及了被评估模型的参数量(如323M, 7B等)。
  • 训练硬件:未说明。
  • 推理细节:未说明。论文未详述模型推理时的具体解码策略(如温度、beam size)。
  • 正则化或稳定训练技巧:不适用。
  • 人类实验细节:招募了20名具有绝对音感的参与者,在安静环境下使用耳机通过网页界面进行随机顺序试次测试,报告分类判断(如‘上’ vs ‘下’)。采用多数投票聚合响应。

📊 实验结果

主要评估在AIB的test-mini子集上进行,结果汇总于上文核心摘要部分的表格。关键发现包括:

  • 物理类错觉:人类易感性极高(ISI=1.0)。Qwen2-Audio表现最佳,达到近人类水平(ISI=0.971)。Audio Flamingo Chat也表现出色(ISI=0.875)。其他模型表现中等或较差。
  • 物理+知识类错觉:人类易感性同样极高(ISI=1.0)。Audio Flamingo Chat表现最好(ISI=0.926),MuLLaMa次之(ISI=0.711)。但Qwen2-Audio-Instruct表现出严格的物理对齐(ISI=-0.232)。
  • 总体平均:人类ISI≈1.0。模型中,Audio Flamingo Chat的平均ISI最高(0.845),表明其整体上最容易产生人类式的感知偏差。MuLLaMa(0.279)和Qwen2-Audio(0.450)次之。Qwen-Audio-Chat和Qwen2-Audio-Instruct则表现出与物理事实的紧密对齐(负ISI)。
  • 语音类错觉(细分):论文指出,人类在语音转歌曲和音素恢复上易感性极强。大多数模型在这两项上失败(ISI≈0)。唯一例外是Qwen2-Audio在音素恢复上达到完美人类对齐(ISI=1.0),但在语音转歌曲上依然失败。

图1: AIB基准示例 此图(即图1)也展示了评估使用的典型刺激和问题格式,是理解实验设计的关键。

⚖️ 评分理由

  • 学术质量:5.0/7:创新性明确(新基准、新评估维度),方法设计合理(人机对比、控制组),实验结论有数据支持。但分析深度有限,对模型表现差异的解释较为表层,且评估任务的简化可能限制了结论的普适性。
  • 选题价值:1.5/2:选题前沿且独特,将认知心理学工具引入AI评估,具有很高的启发性和跨学科价值。对于音频AI社区,这是一个评估模型“认知水平”的新方向。
  • 开源与复现加成:0.5/1:积极开源了核心资产——AIB数据集和生成刺激的代码(https://github.com/gillosae/aib),极大提升了可复现性和社区贡献度。但未提供评估脚本或模型权重。

🔗 开源详情

  • 代码:提供了生成AIB错觉刺激的开源代码仓库:https://github.com/gillosae/aib
  • 模型权重:未提及。论文评估的是已公开的模型(如Qwen2-Audio, MuLLaMa等),未提出或开源新的模型权重。
  • 数据集:是,已公开。论文声明AIB基准数据集已通过上述GitHub仓库公开发布。
  • Demo:未提及。
  • 复现材料:提供了数据集和刺激生成代码,复现评估结果需要访问被评估的模型及其权重(这些通常是公开的)。论文未提供详细的评估脚本或配置文件。
  • 论文中引用的开源项目:引用了多个被评估模型的开源项目,如Pengi、Audio Flamingo、MuLLaMa、Qwen-Audio等。

← 返回 ICASSP 2026 论文分析