The Muse Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMs
📄 The Muse Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMs #音乐理解 #基准测试 #音频大模型 #模型评估 🔥 8.5/10 | 前25% | #音乐理解 | #基准测试 | #音频大模型 #模型评估 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Brandon James Carone(纽约大学心理学系,音乐与音频研究实验室) 通讯作者:未说明 作者列表:Brandon James Carone(纽约大学心理学系,音乐与音频研究实验室)、Iran R. Roman(伦敦玛丽女王大学电子电气工程与计算机科学学院,多模态AI中心)、Pablo Ripollés(纽约大学心理学系,音乐与音频研究实验室) 💡 毒舌点评 亮点在于它像一把精准的手术刀,切开了当前音频大模型“音乐理解”的华丽外衣,暴露出它们在真正的音乐关系推理(如转调、节拍感知)面前脆弱不堪的内核。短板则是论文止步于“诊断”而未开出“药方”——它证明了现有范式和提示技巧的局限,但对于如何从根本上构建具备音乐不变性表示的模型,讨论略显不足。 🔗 开源详情 代码:提供了论文中提到的GitHub仓库链接(github.com/brandoncarone/MUSE_music_benchmark),用于评估脚本和任务描述。 模型权重:论文中未提及提供新模型权重,评估的是现有公开模型(Gemini, Qwen, Audio Flamingo 3)。 数据集: 200段音乐刺激已公开,提供了Airtable链接。 人类被试实验数据已公开,提供了OSF存储库链接,并设置了只读访问权限。 Demo:论文中未提及在线演示。 复现材料:提供了刺激制作工具和参数(Logic Pro X,具体设备型号和插件)、完整的评估方法(提示策略、few-shot示例、系统指令的摘要在表A中)以及人类实验的详细流程。 论文中引用的开源项目:评估的模型均为外部开源或公开API项目(Gemini 2.5, Qwen2.5-Omni, Audio Flamingo 3)。使用了PsychoPy进行人类实验。 📌 核心摘要 解决的问题:现有针对音频大语言模型的评测多集中于表层分类任务,无法有效评估其对音乐深层结构(如音高不变性、调性层级、节奏分组)的感知和关系推理能力。 方法核心:构建了名为“MUSE”的音乐理解与结构评估基准,包含10项任务,分为“初级”(基础感知与不变性)和“高级”(需要音乐理论知识的推理)两个层级,并系统性地评估了四个SOTA模型(Gemini Pro/Flash, Qwen2.5-Omni, Audio Flamingo 3)在“独立”和“思维链(CoT)”提示下的表现,同时与200名人类被试进行对比。 新在哪里:与现有基准不同,MUSE的任务设计深深植根于音乐认知科学,旨在探测模型是否真正理解了音乐的“结构”而非仅仅“标签”。它首次对多个前沿模型在关系推理任务上进行了系统性的、与人类对标的横向比较。 主要实验结果:模型表现方差极大,且普遍存在严重缺陷。例如,在旋律形状识别任务中,Qwen2.5-Omni的准确率仅为23.33%,低于25%的随机水平(见表2)。最强模型Gemini Pro在初级任务上接近人类专家(如怪音检测100%),但在高级推理任务(如节拍识别46.67%)上远低于人类专家(73.30%)。CoT提示策略效果不稳定,常带来性能下降。 实际意义:MUSE为评估和推动具备真正音乐理解能力的AI系统提供了一个关键的诊断工具和基准。它明确指出,提升模型能力可能需要从架构和训练范式上突破,而不仅仅是缩放规模或优化提示。 主要局限性:基准测试本身无法指明解决路径。论文揭示了差距,但对于如何设计能学习音乐不变表示的模型,提出的建设性方案有限。此外,人类“专家”样本量较小(N=6),可能影响对比的统计效力。 🏗️ 模型架构 本文并非提出一个新的模型架构,而是对现有音频大语言模型进行系统性评测的框架论文。因此,其核心“架构”是评测系统本身。评测流程如下: ...