ICASSP 2026 - 音乐理解 论文列表

ICASSP 2026 - 音乐理解 共 11 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Toward Robust And Efficient Beat Tracking Via Beat-Aware Att 8.5分 前25% 🥈 The Muse Benchmark: Probing Music Perception and Auditory Re 8.5分 前25% 🥉 Towards Effective Negation Modeling in Joint Audio-Text Mode 7.5分 前25% 4. Joint Estimation of Piano Dynamics and Metrical Structure wi 7.5分 前25% 5. Beat and Downbeat Detection: A Reformulated Approach 7.5分 前25% 6. TinyMU: A Compact Audio-Language Model for Music Understandi 7.5分 前25% 7. MIDI-LLaMA: An Instruction-Following Multimodal LLM for Symb 7.5分 前10% 8. Interpretable Music Harmonic Analysis Through Multilinear Mi 7.5分 前25% 9. Exploring How Audio Effects Alter Emotion with Foundation Mo 7.0分 前50% 10. A Bayesian Approach to Singing Skill Evaluation Using Semito 7.0分 前25% 11. Rethinking Music Captioning with Music Metadata LLMS 7.0分 前25% 📋 论文详情 🥇 Toward Robust And Efficient Beat Tracking Via Beat-Aware Attention 🔥 8.5/10 | 前25% | #音乐理解 | #注意力机制 | #端到端 #鲁棒性 ...

2026-04-29 · 更新于 2026-06-12 · 7 min · 1392 words

Interpretable Music Harmonic Analysis Through Multilinear Mixture of Experts

📄 Interpretable Music Harmonic Analysis Through Multilinear Mixture of Experts #音乐理解 #混合专家模型 #模型评估 #音乐信息检索 #数据集 ✅ 7.5/10 | 前25% | #音乐理解 | #混合专家模型 | #模型评估 #音乐信息检索 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Thanasis Triantafyllou(雅典大学信息与电信系) 通讯作者:未说明(论文未明确指定) 作者列表: Thanasis Triantafyllou(雅典大学信息与电信系) Mihalis A. Nicolaou(塞浦路斯大学,塞浦路斯研究所) Yannis Panagakis(雅典大学信息与电信系,Archimedes, Athena R.C.) 💡 毒舌点评 亮点在于首次将内在可解释架构(µMoE) 引入罗马数字分析任务,让模型决策变得对音乐学家“透明”,专家激活模式确实呈现出符合理论的五度圈和V-I关系。短板是性能相比基准模型RNBERT有1-2个点的下降,且实验局限于单一任务和特定数据集,未能充分展示该架构在其他音乐分析任务或更大规模模型上的潜力和鲁棒性。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/TomusD/muMoE-RNBERT 模型权重:论文中未提及是否公开µMoE-RNBERT的预训练模型权重。 数据集:论文使用的数据集由多个公开集合(如TAVERN, When in Rome等)组成,但未提供统一的下载链接或具体的预处理脚本。原始数据集需从各自来源获取。 Demo:论文中未提及在线演示。 复现材料:论文详细描述了训练策略、超参数、硬件环境、数据预处理和增强方法,为���现提供了充分的必要信息。 依赖的开源项目:明确依赖并基于MusicBERT模型进行微调。实现使用PyTorch框架。张量分解和µMoE的具体实现参考了论文[13](Oldfield et al., NeurIPS 2024)的方法。 📌 核心摘要 问题:现有基于Transformer的罗马数字分析(RNA)模型(如RNBERT)虽然性能先进,但缺乏可解释性,无法向音乐学家解释其分析背后的音乐理论依据,限制了其在学术研究中的应用价值。 核心方法:提出µMoE-RNBERT,通过用多线性混合专家(µMoE)层替换RNBERT中前馈网络(MLP)的线性层,构建第一个内在可解释的深度RNA系统。不同的专家子网络能够学习并专门处理不同的和声模式。 创新之处:是首个为RNA任务设计的内在可解释深度学习系统。不同于事后解释,其可解释性源于模型架构本身。该方法在保持与原始RNBERT几乎相同参数量(~26.7M)和计算成本的前提下,引入了专家专业化机制。 实验结果:在相同数据集和评估协议下,µMoE-RNBERT取得了与基准RNBERT可比但略低的性能。具体而言,整体罗马数字准确度(RN Accuracy)在74.6%-74.9%之间(基准为76.2%),在关键、质量、音级等子任务上也略有差距。但定性分析表明,专家激活显著遵循音乐理论,例如,不同专家专注于特定调性及其中的V-I进行,并呈现出五度圈的邻近调性模式。 实际意义:为音乐信息检索(MIR)和计算音乐学研究提供了一个可解释的AI工具。音乐学家可以观察并验证模型分析所依据的内部“音乐规则”,从而增进对模型行为的信任,并可能从中发现新的音乐结构洞见。 主要局限性:a) 性能相比当前最优基线有轻微损失;b) 可解释性分析主要基于可视化和统计观察,缺乏更系统的量化评估框架;c) 该方法的有效性尚未在其他音乐理解任务(如旋律生成、节奏分析)上得到验证。 🏗️ 模型架构 µMoE-RNBERT的整体架构基于RNBERT,其核心改动是将标准MLP层替换为µMoE层。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 225 words

Investigating Modality Contribution in Audio LLMs for Music

📄 Investigating Modality Contribution in Audio LLMs for Music #音频大模型 #模型评估 #可解释AI #音乐理解 #多模态模型 ✅ 6.5/10 | 前50% | #模型评估 | #可解释AI | #音频大模型 #音乐理解 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Giovana Morais(纽约大学音乐与音频研究实验室) 通讯作者:未说明 作者列表:Giovana Morais(纽约大学音乐与音频研究实验室)、Magdalena Fuentes(纽约大学音乐与音频研究实验室,Integrated Design & Media) 💡 毒舌点评 亮点:首次将严谨的博弈论可解释性工具(MM-SHAP)引入音频大模型分析,量化了音频与文本模态的“功劳簿”,为“模型到底听没听”这个玄学问题提供了硬核分析框架。 短板:整个研究建立在一个被后续工作指出“测试的是LLM推理而非音频感知”的基准(MuChoMusic)上,这好比用一把可能不准的尺子去精确测量,结论的可靠性打了折扣;同时,分析结论停留在“音频贡献低”的现象描述,未能深入揭示音频信息在模型内部是如何被利用或“遗忘”的机制。 🔗 开源详情 代码:提供了代码仓库链接:https://github.com/giovana-morais/2025_investigating_mmshap。 模型权重:论文中未提及提供新的模型权重。分析使用了公开模型Qwen-Audio-Chat和MU-LLaMA。 数据集:分析使用公开的MuChoMusic基准数据集。 Demo:论文提到提供了交互式图表演示页面,但未给出具体链接。 复现材料:论文中提供了代码和基于公开模型与数据的分析框架,但缺乏详细的训练/评估超参数配置文件和分步指南。 引用的开源项目:依赖shap库进行Shapley值计算;依赖Qwen-Audio和MU-LLaMA的官方代码库。 📌 核心摘要 问题:音频大语言模型(Audio LLMs)声称能理解音频,但近期基准测试表明其性能可能过度依赖文本推理,音频模态是否被有效利用存疑。 方法核心:将MM-SHAP(一种基于Shapley值、与性能无关的度量)适配到音频领域,通过掩码音频波形和文本令牌来量化计算每个模态对模型输出的贡献度(A-SHAP, T-SHAP)。 新方法与创新点:首次将MM-SHAP框架应用于音频大模型,提出了针对音频的动态掩码策略,并将分析扩展到生成式任务(通过衡量答案token的对数变化)。 主要实验结果:在MuChoMusic基准上对比了Qwen-Audio和MU-LLaMA。发现性能更好的Qwen-Audio反而更依赖文本(A-SHAP约0.23),而MU-LLaMA模态利用更均衡(A-SHAP约0.50)。定性分析显示,即使整体音频贡献低,模型也能在特定token(如“铃声”)上正确定位相关音频片段。 模型 实验设置 准确率 A-SHAP MU-LLaMA MC-PI 0.30 0.50 ± 0.02 MC-NPI 0.32 0.47 ± 0.02 QwenAudio MC-PI 0.44 0.23 ± 0.02 MC-NPI 0.47 0.21 ± 0.02 表1:两个模型在不同实验设置下的准确率和平均音频模态贡献度(A-SHAP)。 MM-SHAP计算过程示意图 图1:MM-SHAP计算流程示意图。通过掩码所有可能的输入组合(近似为随机排列),并计算基础答案(未掩码推理)的对数变化来平均得到Shapley值。 定性分析示例 图2:QwenAudio定性分析示例。展示了对于输出token“bell”,输入文本和音频各区域的Shapley值贡献,绝对值高的区域(深色)对应模型认为重要的特征。 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 151 words

Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-Task Multi-Scale Network

📄 Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-Task Multi-Scale Network #音乐理解 #多任务学习 #时频分析 #端到端 ✅ 7.5/10 | 前25% | #音乐理解 | #多任务学习 | #时频分析 #端到端 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhanhong He(The University of Western Australia, Perth, Australia) 通讯作者:未说明(根据署名顺序,可能是Defeng (David) Huang或Roberto Togneri,但论文未明确指出) 作者列表:Zhanhong He(The University of Western Australia)、Hanyu Meng(The University of New South Wales)、Defeng (David) Huang(The University of Western Australia)、Roberto Togneri(The University of Western Australia) 💡 毒舌点评 亮点:将Bark尺度特征与多任务学习框架巧妙结合,把模型参数量从千万级压缩到50万,在保持竞争力的同时大幅提升了实用性,这种“螺蛳壳里做道场”的工程优化思维值得肯定。 短板:研究完全局限于肖邦玛祖卡这一特定音乐风格和单一数据集(MazurkaBL),其结论能否泛化到其他乐器、风格乃至更复杂的管弦乐场景,存疑。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 531 words

MIDI-LLaMA: An Instruction-Following Multimodal LLM for Symbolic Music Understanding

📄 MIDI-LLaMA: An Instruction-Following Multimodal LLM for Symbolic Music Understanding #音乐理解 #多模态模型 #大语言模型 #指令微调 ✅ 7.5/10 | 前10% | #音乐理解 | #多模态模型 | #大语言模型 #指令微调 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Meng Yang(SensiLab, Monash University, Australia) 通讯作者:未说明 作者列表:Meng Yang(SensiLab, Monash University, Australia)、Jon McCormack(SensiLab, Monash University, Australia)、Maria Teresa Llano(University of Sussex, Brighton, United Kingdom)、Wanchao Su(SensiLab, Monash University, Australia)、Chao Lei(School of Computing and Information Systems, The University of Melbourne, Australia) 💡 毒舌点评 亮点:这篇工作精准地切中了音乐AI领域的一个关键缺口——如何让大语言模型真正“读懂”结构化的MIDI数据,而非将其降级为文本片段,其提出的自动化标注管道也极具实用价值。短板:评估完全依赖于单一的古典钢琴数据集(GiantMIDI-Piano),模型在流行、爵士、电子音乐或复杂多声部管弦乐MIDI上的表现是个未知数,这大大限制了其宣称的“通用”价值。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 245 words

MuseTok: Symbolic Music Tokenization for Generation and Semantic Understanding

📄 MuseTok: Symbolic Music Tokenization for Generation and Semantic Understanding #音乐生成 #音乐理解 #预训练 #数据集 🔥 8.5/10 | 前25% | #音乐生成 | #预训练 | #音乐理解 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Jingyue Huang(University of California San Diego, USA) 通讯作者:未说明 作者列表:Jingyue Huang(University of California San Diego, USA)、Zachary Novack(University of California San Diego, USA)、Phillip Long(University of California San Diego, USA)、Yupeng Hou(University of California San Diego, USA)、Ke Chen(University of California San Diego, USA)、Taylor Berg-Kirkpatrick(University of California San Diego, USA)、Julian McAuley(University of California San Diego, USA) 💡 毒舌点评 本文首次尝试为符号音乐构建一个“通用”的离散表示学习框架,并通过生成和多个语义理解任务进行了验证,这种“一体两面”的评估视角比多数只关注单一任务的工作更为全面。然而,其在核心的旋律提取任务上表现远低于专用模型(81.92% vs. 92.62%),暴露了当前“通用”表示在捕获细粒度、关键音乐结构上的根本局限,说明“通用”与“专用”之间的鸿沟依然显著。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 319 words

Rethinking Music Captioning with Music Metadata LLMS

📄 Rethinking Music Captioning with Music Metadata LLMS #音乐理解 #多模态模型 #大语言模型 #数据集 ✅ 7.0/10 | 前25% | #音乐理解 | #多模态模型 | #大语言模型 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Irmak Bukey(卡内基梅隆大学,工作在Adobe Research实习期间完成) 通讯作者:未说明 作者列表:Irmak Bukey(卡内基梅隆大学 / Adobe Research实习)、Zhepei Wang(Adobe Research)、Chris Donahue(卡内基梅隆大学)、Nicholas J. Bryan(Adobe Research) 💡 毒舌点评 亮点在于巧妙地将结构化元数据作为“中间表示”,解耦了音乐理解与文本生成,带来了训练效率和风格灵活性的双重提升,这个思路比端到端黑箱训练更可解释、更可控。短板是实验对比的基线强度存疑(用相同元数据合成的caption训练端到端模型),且严重缺乏开源信息,对于想跟进复现的研究者极不友好。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:核心训练集为未公开的内部授权数据集。评估使用了公开的MusicCaps和Song Describer数据集。 Demo:未提及。 复现材料:论文未提供完整的训练细节(如优化器、学习率、batch size等)、配置文件或检查点信息。附录说明缺失。 引用的开源项目:论文引用了Gemma3-1B-it [29]、DAC [30]、Sentence-BERT [32] 等开源模型/工具,但未说明是否依赖其他未列出的开源代码库。 总结:论文中未提及开源计划。 📌 核心摘要 问题:训练音乐描述(Music Captioning)模型需要高质量、自然语言的描述数据,这类数据稀缺且获取成本高。相比之下,结构化元数据(如流派、情绪等)更易获得。现有方法常用LLM将元数据合成为描述用于训练,但这会固定风格并混淆事实与表达。 方法核心:提出“音乐元数据LLM”两阶段方法。第一阶段:微调一个预训练LLM(Gemma3-1B-it),使其能从音频(和可选的部分元数据)中预测出完整的结构化元数据(JSON格式)。第二阶段:在推理时,使用同一个预训练的文本LLM,通过精心设计的提示,将预测出的元数据转换成自然语言描述。 新颖性:与直接训练“音频->描述”的端到端模型不同,本方法引入了结构化元数据作为中间层,实现了理解与生成的解耦。这带来了三个关键优势:(a) 训练更高效(仅需约46%的GPU时间);(b) 可在推理后通过修改提示灵活调整输出描述的风格和细节;(c) 能够执行“元数据填充”任务,即利用音频和部分已知元数据补全缺失字段。 主要实验结果:在元数据预测和描述生成任务上,本方法性能与端到端基线相当(表1,表2)。关键优势体现在:(a) 通过优化提示(如加入1-shot样例),描述质量可无须重新训练提升超过20%(表3);(b) 当提供部分元数据时,元数据预测性能平均提升21%,最高达33%(表4)。具体关键数据见下方表格。 表1:元数据预测性能(SBERT相似度) 模型 流派 情绪 乐器 关键词 平均 MC描述器 0.556 0.673 0.677 0.614 0.630 SD描述器 0.562 0.687 0.676 0.618 0.636 元数据(本方法) 0.548 0.711 0.675 0.566 0.625 表2:描述生成评估(SBERT相似度) 风格 模型 MusicCaps Song Describer 平均 匹配 描述器 0.478 0.468 0.407 匹配 元数据(本方法) 0.443 0.454 0.392 交叉 描述器 0.441 0.469 0.405 交叉 元数据(本方法) 0.439 0.462 0.395 表3:不同提示对描述性能的影响(综合平均) 方法 SBERT-Sim BM25 长度 POS 平均 描述器(基线) 0.473 0.141 0.208 0.765 0.396 元数据(本方法) 0.449 0.156 0.185 0.735 0.381 元数据 + 较短提示 0.457 0.132 0.243 0.741 0.393 元数据 + 固定1-shot 0.475 0.125 0.366 0.741 0.426 元数据 + 元数据1-shot 0.483 0.181 0.369 0.733 0.442 表4:部分元数据填充性能(SBERT分数,%表示可用字段比例) 模型 % 流派 情绪 乐器 关键词 Gemma3-1b 50% 0.504 0.666 0.657 0.543 Ours 0% 0.548 0.711 0.675 0.566 Ours 25% 0.638 0.743 0.754 0.618 Ours 50% 0.679 0.765 0.780 0.645 Ours 75% 0.715 0.789 0.807 0.671 Ours 100% 0.731 0.798 0.817 0.686 实际意义:提供了一种更灵活、高效且可解释的音乐描述方案。其元数据填充能力对整理大型音乐库、补全不完整标签极具价值;风格后定制能力使其能适应不同应用场景的输出需求。 主要局限性:模型训练依赖一个未公开的内部授权音乐数据集,影响了可复现性和外部验证。与基线对比时,由于基线模型使用了同一套元数据合成的训练数据,这可能削弱了方法优越性的证明力度。此外,论文未公开代码、模型或详细超参数,完全不可复现。 🏗️ 模型架构 本文提出的“音乐元数据LLM”采用两阶段解耦架构: ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 470 words

SAUNA: Song-Level Audio & User-Listening Data Neural Alignment

📄 SAUNA: Song-Level Audio & User-Listening Data Neural Alignment #音乐信息检索 #预训练 #迁移学习 #音乐理解 ✅ 7.0/10 | 前25% | #音乐信息检索 | #预训练 | #迁移学习 #音乐理解 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Morgan Buisson(Spotify;Nantes Université, École Centrale Nantes, CNRS, LS2N, UMR 6004, Nantes, France) 通讯作者:未说明 作者列表:Morgan Buisson(Spotify;Nantes Université, École Centrale Nantes, CNRS, LS2N, UMR 6004, Nantes, France)、Juan José Bosch(Spotify)、Daniel Stoller(Spotify) 💡 毒舌点评 论文巧妙地将大规模用户划动行为数据转化为“参与度曲线”,为音频模型提供了行为监督信号,这个想法很聪明。然而,模型架构本身(CNN + TCN)是音乐处理领域的常见方案,创新更多在于数据构建和任务应用上;此外,虽然论文提供了Spotify内部方法作为基线,但核心代码与模型的不开源,使得其可复现性大打折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:训练数据为Spotify私有用户行为数据,未公开。评测使用的Harmonix数据集是公开基准。 Demo:未提及。 复现材料:论文提供了模型架构的关键描述(如通道数、池化方式)、训练超参数(学习率、warmup步数、优化器、训练步数、硬件)和损失函数,但未提供完整配置、检查点或详细附录。 论文中引用的开源项目:在结构分析任务对比中引用了LinkSeg [19]。 📌 核心摘要 要解决的问题:音乐信息检索(MIR)任务,如预览生成、结构分析,依赖于识别歌曲中吸引听众的时刻,但现有监督信号(如人工标注、启发式规则)成本高、主观性强或有限。 方法核心:提出SAUNA模型,使用大规模匿名化用户流媒体划动行为数据构建“覆盖曲线”(Coverage Curve)作为监督信号,训练一个CNN-TCN神经网络直接从音频log-Mel频谱图预测该曲线(1Hz分辨率),曲线的峰值对应预览起点。 与已有方法相比新在哪里:区别于依赖预定义启发式(如副歌检测)、情感关键点或小规模标注数据的方法,SAUNA直接从大规模、隐式的用户真实消费行为中学习“参与度”的音频表征,使其更具普适性,且能捕捉非重复性的吸引点。 主要实验结果: 预览生成:在主观听测中,SAUNA预览在“参与度”和“代表性”评分上与Spotify内部方法、基于用户覆盖曲线的理想方法持平,显著优于副歌检测和随机采样方法。 结构属性:SAUNA生成的预览有92%包含一个估计的结构边界,仅次于副歌检测方法(96%),且预览倾向于在段落转换前4-6秒开始,偏好“主歌→副歌”的过渡。 迁移学习:在Harmonix数据集的音乐结构分析任务上,以SAUNA预训练权重初始化的模型,在所有指标(如边界检测HR3F、段落分类准确率)上均显著优于从随机初始化训练的模型。 关键对比数据(结构分析任务,见论文表1): 指标 SAUNA预训练 随机初始化 LinkSeg [19] HR.5F 0.572 ±0.013 0.552 ±0.017 0.568 HR3F 0.747 ±0.013 0.696 ±0.024 0.717 PFC 0.697 ±0.022 0.655 ±0.027 0.771 V 0.687 ±0.021 0.639 ±0.025 - Acc 0.707 ±0.018 0.661 ±0.029 0.742 实际意义:证明了用行为数据监督学习到的音频表示是通用且有效的,可同时服务于音乐预览生成和结构分析,为MIR任务提供了一种新的、可扩展的预训练范式。 主要局限性:依赖特定流媒体平台的行为数据,可能继承算法偏差并忽略文化差异;评估时使用的行为信号本身可能与结构边界不完全对齐;主观测试样本量(16人)相对较小;1Hz的预测分辨率较为粗糙。 🏗️ 模型架构 SAUNA模型采用标准的CNN-TCN架构,用于处理音频并输出时序预测。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 216 words

The Muse Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMs

📄 The Muse Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMs #音乐理解 #基准测试 #音频大模型 #模型评估 🔥 8.5/10 | 前25% | #音乐理解 | #基准测试 | #音频大模型 #模型评估 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Brandon James Carone(纽约大学心理学系,音乐与音频研究实验室) 通讯作者:未说明 作者列表:Brandon James Carone(纽约大学心理学系,音乐与音频研究实验室)、Iran R. Roman(伦敦玛丽女王大学电子电气工程与计算机科学学院,多模态AI中心)、Pablo Ripollés(纽约大学心理学系,音乐与音频研究实验室) 💡 毒舌点评 亮点在于它像一把精准的手术刀,切开了当前音频大模型“音乐理解”的华丽外衣,暴露出它们在真正的音乐关系推理(如转调、节拍感知)面前脆弱不堪的内核。短板则是论文止步于“诊断”而未开出“药方”——它证明了现有范式和提示技巧的局限,但对于如何从根本上构建具备音乐不变性表示的模型,讨论略显不足。 🔗 开源详情 代码:提供了论文中提到的GitHub仓库链接(github.com/brandoncarone/MUSE_music_benchmark),用于评估脚本和任务描述。 模型权重:论文中未提及提供新模型权重,评估的是现有公开模型(Gemini, Qwen, Audio Flamingo 3)。 数据集: 200段音乐刺激已公开,提供了Airtable链接。 人类被试实验数据已公开,提供了OSF存储库链接,并设置了只读访问权限。 Demo:论文中未提及在线演示。 复现材料:提供了刺激制作工具和参数(Logic Pro X,具体设备型号和插件)、完整的评估方法(提示策略、few-shot示例、系统指令的摘要在表A中)以及人类实验的详细流程。 论文中引用的开源项目:评估的模型均为外部开源或公开API项目(Gemini 2.5, Qwen2.5-Omni, Audio Flamingo 3)。使用了PsychoPy进行人类实验。 📌 核心摘要 解决的问题:现有针对音频大语言模型的评测多集中于表层分类任务,无法有效评估其对音乐深层结构(如音高不变性、调性层级、节奏分组)的感知和关系推理能力。 方法核心:构建了名为“MUSE”的音乐理解与结构评估基准,包含10项任务,分为“初级”(基础感知与不变性)和“高级”(需要音乐理论知识的推理)两个层级,并系统性地评估了四个SOTA模型(Gemini Pro/Flash, Qwen2.5-Omni, Audio Flamingo 3)在“独立”和“思维链(CoT)”提示下的表现,同时与200名人类被试进行对比。 新在哪里:与现有基准不同,MUSE的任务设计深深植根于音乐认知科学,旨在探测模型是否真正理解了音乐的“结构”而非仅仅“标签”。它首次对多个前沿模型在关系推理任务上进行了系统性的、与人类对标的横向比较。 主要实验结果:模型表现方差极大,且普遍存在严重缺陷。例如,在旋律形状识别任务中,Qwen2.5-Omni的准确率仅为23.33%,低于25%的随机水平(见表2)。最强模型Gemini Pro在初级任务上接近人类专家(如怪音检测100%),但在高级推理任务(如节拍识别46.67%)上远低于人类专家(73.30%)。CoT提示策略效果不稳定,常带来性能下降。 实际意义:MUSE为评估和推动具备真正音乐理解能力的AI系统提供了一个关键的诊断工具和基准。它明确指出,提升模型能力可能需要从架构和训练范式上突破,而不仅仅是缩放规模或优化提示。 主要局限性:基准测试本身无法指明解决路径。论文揭示了差距,但对于如何设计能学习音乐不变表示的模型,提出的建设性方案有限。此外,人类“专家”样本量较小(N=6),可能影响对比的统计效力。 🏗️ 模型架构 本文并非提出一个新的模型架构,而是对现有音频大语言模型进行系统性评测的框架论文。因此,其核心“架构”是评测系统本身。评测流程如下: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 307 words

TinyMU: A Compact Audio-Language Model for Music Understanding

📄 TinyMU: A Compact Audio-Language Model for Music Understanding #音乐理解 #多模态模型 #自监督学习 #数据集 #音频问答 ✅ 7.5/10 | 前25% | #音乐理解 | #多模态模型 | #自监督学习 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xiquan Li(LTCI, Télécom Paris, Institut Polytechnique de Paris;上海交通大学) 通讯作者:未说明(论文未明确标注通讯作者) 作者列表:Xiquan Li(LTCI, Télécom Paris, Institut Polytechnique de Paris;上海交通大学),Aurian Quelennec(LTCI, Télécom Paris, Institut Polytechnique de Paris),Slim Essid(LTCI, Télécom Paris, Institut Polytechnique de Paris;NVIDIA) 💡 毒舌点评 本文最大的亮点在于系统性地探索了如何“经济高效”地训练音乐语言模型,不仅提供了229M参数的紧凑模型,还贡献了配套的高质量数据集MusicSkills-3.5M,并通过大量消融研究(编码器、微调策略、数据构成)给出了清晰的设计指南。但短板同样明显:论文将主要精力用于证明“以小博大”在性能数字上的可行性,却缺乏对真实边缘设备部署的推理速度、功耗等实际约束的验证,使得“Compact”一词的实践意义打了折扣;此外,实验部分主要对标通用的音频-语言大模型,在与传统音乐信息检索(MIR)基线方法的深入对比上有所欠缺,削弱了其在专业音乐领域的说服力。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 304 words