听觉认知 | 语音/音乐/音频论文速递

📄 Auditory Illusion Benchmark for Large Audio Language Models #模型评估 #基准测试 #音频大模型 #听觉认知 ✅ 7.0/10 | 前50% | #模型评估 | #基准测试 | #音频大模型 #听觉认知学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hayoon Kim（首尔大学音乐与音频研究组，首尔大学智能信息学系）通讯作者：Kyogu Lee（首尔大学音乐与音频研究组，首尔大学智能信息学系，AIIS，IPAI）作者列表：Hayoon Kim（首尔大学音乐与音频研究组，首尔大学智能信息学系）、Eunice Hong（首尔大学音乐与音频研究组，首尔大学智能信息学系）、Kyogu Lee（首尔大学音乐与音频研究组，首尔大学智能信息学系，AIIS，IPAI） 💡 毒舌点评亮点：论文首次将认知科学中的“听觉错觉”概念系统化为评估大型音频语言模型（LALMs）的基准，方法严谨（包含对照组和人类基线），指出了模型在“感知”层面与人类的关键差距，角度新颖且具有启发性。短板：所有评估任务被压缩为简单的二选一或三选一，这种简化可能无法充分捕捉复杂听觉错觉的微妙体验和动态过程；对模型内部为何产生差异的分析停留在表面，缺乏更深入的机理解释。 🔗 开源详情代码：提供了生成AIB错觉刺激的开源代码仓库：https://github.com/gillosae/aib。模型权重：未提及。论文评估的是已公开的模型（如Qwen2-Audio, MuLLaMa等），未提出或开源新的模型权重。数据集：是，已公开。论文声明AIB基准数据集已通过上述GitHub仓库公开发布。 Demo：未提及。复现材料：提供了数据集和刺激生成代码，复现评估结果需要访问被评估的模型及其权重（这些通常是公开的）。论文未提供详细的评估脚本或配置文件。论文中引用的开源项目：引用了多个被评估模型的开源项目，如Pengi、Audio Flamingo、MuLLaMa、Qwen-Audio等。 📌 核心摘要要解决什么问题：当前对大型音频语言模型（LALMs）的评估主要集中在识别准确性等客观任务上，缺乏评估其是否内化了人类特有的感知偏差（如对听觉错觉的易感性）的方法。本文旨在填补这一空白。方法核心是什么：提出了首个听觉错觉基准（AIB），包含10种代表性听觉错觉（分为基于物理和基于物理+知识两类），涵盖音乐、声音和语音领域。将每个错觉的感知判断转化为多项选择题，并与控制刺激一起，对多款LALMs和人类被试（20名绝对音感者）进行平行测试。与已有方法相比新在哪里：AIB是首个专门为LALMs设计的听觉错觉评估基准。与主要关注准确率或推理的现有音频基准不同，AIB的核心目标是衡量模型的“人类感知对齐度”（通过ISI等指标），即模型是否像人类一样“犯错”。主要实验结果如何：人类被试在各类错觉上均表现出极高的易感性（ISI≈0.8-0.9）。LALMs的表现则系统性地分化：在“基音缺失”等低级声学错觉上，Qwen2-Audio表现出近人类易感性（ISI>0.9）；在需要结合知识的错觉（如谢泼德音调）上，大模型（如MuLLaMa）显示出部分对齐，但整体仍弱于人类；在语音相关错觉（语音转歌曲、音素恢复）上差距最大，仅Qwen2-Audio在音素恢复上达到完美人类对齐，但所有模型在语音转歌曲上均失败。详细结果见下表。实际意义是什么：为评估和开发更具“人感”的音频AI模型提供了新的诊断维度和工具。有助于推动模型从追求信号保真度向模拟人类认知特性发展，并为认知科学提供对比人类与机器感知的实验平台。主要局限性是什么：评估任务被简化为固定的多项选择题，可能无法全面评估错觉感知的丰富性。许多模型在控制条件下性能也不稳定，表明其基础音频理解能力仍有不足。论文未深入探讨模型架构或训练方式导致差异的具体原因。实验结果表格：模型参数量 Physics (幻觉) HLA/RA/ISI Physics (控制) HLA/RA/ISI Physics+Knowledge (幻觉) HLA/RA/ISI Physics+Knowledge (控制) HLA/RA/ISI 总体平均 HLA/RA/ISI Human - 1.000/0.000/1.000 1.000/1.000/0.000 1.000/0.000/1.000 1.000/1.000/0.000 1.000/0.000/1.000 Pengi 323M 0.677/0.323/0.355 0.333/0.389/-0.056 0.715/0.285/0.430 0.083/0.224/0.141 0.408/0.296/0.112 Audio Flamingo Chat 2.2B 0.925/0.075/0.875 0.120/0.139/-0.019 0.963/0.037/0.926 0.245/0.217/0.028 0.901/0.056/0.845 MuLLaMa 7B 0.535/0.465/0.070 0.155/0.167/-0.012 0.856/0.144/0.711 0.084/0.217/0.133 0.519/0.240/0.279 Qwen-Audio-Chat 8.4B 0.305/0.695/-0.389 0.267/0.222/0.045 0.567/0.433/0.133 0.083/0.217/0.134 -0.023/0.512/-0.535 Qwen2-Audio 8.4B 0.985/0.015/0.971 0.015/0.111/-0.096 0.744/0.256/0.489 0.083/0.217/0.134 0.633/0.183/0.450 Qwen2-Audio-Instruct 8.4B 0.182/0.818/-0.636 0.314/0.222/0.092 0.470/0.530/-0.059 0.088/0.217/0.129 -0.232/0.616/-0.848 图1展示了AIB中三个错觉刺激（基音缺失、Zwicker音调、Tartini音调）及其对照刺激的示例，以及用于查询人类和AI模型的提示格式。这直观地说明了如何将听觉错觉感知转化为可评估的任务。 ...