音乐理解 | 语音/音乐/音频论文速递

Music Flamingo: Scaling Music Understanding in Audio Language Models

📄 Music Flamingo: Scaling Music Understanding in Audio Language Models #音乐理解 #强化学习 #数据集 🔥 8.5/10 | 前25% | #音乐理解 | #强化学习 | #数据集学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 +0.5 | 置信度高 👥 作者与机构第一作者：Sreyan Ghosh (NVIDIA, USA; University of Maryland, College Park, USA) 与 Arushi Goel (NVIDIA, USA) 共同第一作者通讯作者：未明确指定，但提供了联系邮箱 sreyang@umd.edu, arushig@nvidia.com 作者列表：Sreyan Ghosh (NVIDIA, University of Maryland), Arushi Goel (NVIDIA), Lasha Koroshinadze (University of Maryland), Sang-gil Lee (NVIDIA), Zhifeng Kong (NVIDIA), Joao Felipe Santos (NVIDIA), Ramani Duraiswami (University of Maryland), Dinesh Manocha (University of Maryland), Wei Ping (NVIDIA), Mohammad Shoeybi (NVIDIA), Bryan Catanzaro (NVIDIA) 💡 毒舌点评本文档堪称“音乐理解大模型”的系统性工程手册，从数据构建、模型增强到推理训练全流程拉满，最终在多个榜单刷出SOTA，证明了其有效性。然而，其核心创新更多是针对垂直领域（音乐）的“特化”与“整合”（构建新数据集、改进训练流程），在基础模型架构或训练原理上并未提出颠覆性的新思想，更像是为特定应用打造的“精装套件”，而非一个通用的方法论突破。 ...

Audio Effect Estimation with DNN-Based Prediction and Search Algorithm

📄 Audio Effect Estimation with DNN-Based Prediction and Search Algorithm #音乐理解 #音频分类 #深度学习 #黑盒优化 #音频处理 🔥 8.0/10 | 前25% | #音乐理解 | #深度学习 | #音频分类 #黑盒优化 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度中 👥 作者与机构第一作者：Youichi Okita 通讯作者：未说明作者列表：Youichi Okita、Haruhiro Katayose（所属机构论文中未明确提供，仅通过arXiv作者页可查到与京都大学的关联，但根据指令禁止基于外部信息猜测，故仅列出姓名）。 💡 毒舌点评亮点：论文没有陷入单纯“炼丹”堆叠模型，而是聪明地借鉴了人类专家“先猜后试”的思路，构建了“预测+搜索”的混合框架，尤其对干信号的估计为后续搜索奠定了良好基础，这在音频效果估计领域是一个系统且有洞察力的工程设计。短板：实验验证局限于三种简单的吉他效果器和短链组合，真实音乐制作中效果器种类、参数范围、链式复杂程度和信号非线性可能远超此范围，论文在结论中虽提及此局限，但未能进一步探讨框架在更复杂场景下的普适性，使得其实用价值打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的模型权重。数据集：论文描述了数据生成方法，并提到了所使用的原始数据集名称，但未提供生成的湿信号数据集或访问方式。 Demo：论文提供了一个在线演示链接：https://okitayouichi.github.io/afx-pred-sch-demo/。复现材料：论文提供了详细的训练参数、损失函数、数据生成流程等描述，为复现提供了较好的文本指南。但缺少可直接运行的代码和配置文件。论文中引用的开源项目：使用了pedalboard库用于音频效果处理，以及Optuna库用于黑盒优化算法实现。 📌 核心摘要要解决什么问题：从已经应用了音频效果（“湿信号”）的音频中，反向推断出所使用的效果器类型、参数配置以及原始音频（“干信号”）。方法核心是什么：提出了一种两阶段混合方法。第一阶段（预测）：利用深度神经网络（DNN）初步估计干信号以及效果器类型或完整配置。第二阶段（搜索）：以预测的干信号为基础，通过黑盒优化算法（如CMA-ES）调整效果器参数，使得重新合成的湿信号与原始湿信号的相似度最大化，从而修正和优化第一阶段的预测结果。与已有方法相比新在哪里：整合了传统数据驱动的预测方法和基于重建的搜索方法。预测方法速度快但可能不准，搜索方法精度高但依赖良好的初始值。本文方法通过在预测阶段同时估计干信号，为搜索阶段提供了可靠的起点和评估依据，克服了两类方法单独使用的局限。主要实验结果如何：在自建的吉他效果链数据集上，该混合方法在湿信号重建质量（SI-SDR）上显著优于纯预测方法（Bypass-Config-Iter）。例如，使用“预测类型组合+搜索顺序和参数”策略时，SI-SDR从基线的18.18 dB提升至23.07 dB。在效果链类型分类任务中，该策略的F1分数（0.958）也优于其他策略。实际意义是什么：该方法可以辅助音乐制作人和音频工程师从现有作品中学习和复现特定的声音设计技巧，降低专业门槛；也可用于音频分析、版权检测（如识别特征性效果器组合）等场景。主要局限性：研究局限于少数几种（3种）简单的吉他效果器（合唱、失真、混响）和长度最多3个效果的链，未涵盖更多效果类型（如延迟、均衡器、压缩器）、更长或更复杂的链以及不同乐器信号，现实适用性有待验证。 🏗️ 模型架构论文的核心是预测-搜索两阶段框架。预测阶段的模型架构主要参考了SunAFXiNet [13]。 ...

A Bayesian Approach to Singing Skill Evaluation Using Semitone Pitch Histogram and MCMC-Based Generated Quantities

📄 A Bayesian Approach to Singing Skill Evaluation Using Semitone Pitch Histogram and MCMC-Based Generated Quantities #音乐理解 #贝叶斯建模 #信号处理 #模型评估 #少样本 ✅ 7.0/10 | 前25% | #音乐理解 | #贝叶斯建模 | #信号处理 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Tomoyasu Nakano（日本产业技术综合研究所，AIST）通讯作者：未说明作者列表：Tomoyasu Nakano（日本产业技术综合研究所，AIST）、Masataka Goto（日本产业技术综合研究所，AIST） 💡 毒舌点评亮点：论文将统计建模的严谨性引入了一个通常由深度学习主导的“歌唱评估”领域，利用贝叶斯概率输出和PHC指标，为“音准好不好”这个问题提供了带有不确定性的量化答案，而非一个冰冷的分数，这种视角在可解释性和用户反馈设计上很有价值。短板：模型假设过于简化，将颤音和音符过渡“均匀”地混在一起，导致音准指标（π, pδ）本质上是“稳定音高比例”的一个嘈杂估计；且实验仅在单一内部数据集上进行，缺乏与传统机器学习或深度学习方法的直接性能对比，说服力有限。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用内部数据集，论文未提及公开获取方式。 Demo：未提及。复现材料：论文详细描述了模型公式、先验分布、MCMC采样设置（预热、采样数、链数、收敛标准），以及评估指标（pδ, PHC）的计算方法，提供了较高的理论复现性。依赖的开源项目：CmdStanPy (https://mc-stan.org/cmdstanpy/)，Stan (https://mc-stan.org/)。论文中未提及开源计划。 📌 核心摘要问题：现有自动歌唱技能评估方法要么依赖手工特征，要么依赖大规模数据集训练模型输出单一标量分数（如排名/评级），难以从单次演唱中提供可解释的、概率性的技能指标，且对引入新任务不友好。方法核心：提出一种基于贝叶斯建模的方法。以“半音音高直方图”（将基频F0转换为半音并以±0.5半音为窗口折叠）作为表示，构建了一个由截断正态分布和均匀分布组成的混合模型来对其进行建模。使用汉密尔顿蒙特卡洛（HMC）/No-U-Turn Sampler (NUTS) 从模型后验中采样。新意：与依赖点估计或判别式学习的方法不同，该方法通过MCMC后验采样生成“生成量”（generated quantities），如参数π（稳定音高成分权重）和σ（分布宽度），并进一步计算“假设正确概率（PHC）”。这允许进行概率性的、考虑不确定性的技能比较和阈值判断，且对小样本数据友好。主要实验结果：在包含140首日文流行歌曲的内部数据集上进行验证。表1显示，模型参数（σ, π, pδ）在87%-96%的演唱中达到收敛标准。图3的散点图显示，生成的指标（π, pδ=0.10, pδ=0.25）与人工标注的综合音准分数呈现正相关（EAP相关系数分别为0.34, 0.44, 0.42），σ则呈现负相关（-0.30）。实际意义：为歌唱技能评估提供了一种可解释、概率化、无需大规模数据的新范式，可用于个性化反馈（如指出哪些段落音准更稳定）和交互设计。该框架可扩展至其他音频特征。主要局限性：模型仅部分捕捉音准相关技巧，未显式建模颤音和音符过渡等重要成分，仅将其视为“非稳定”噪声的一部分；实验未与任何现有SOTA歌唱评估方法进行性能对比；数据集规模较小且未公开。 🏗️ 模型架构论文未提供系统架构图。其核心是一个用于建模半音音高直方图的贝叶斯混合模型。流程如下： ...

Beat and Downbeat Detection: A Reformulated Approach

📄 Beat and Downbeat Detection: A Reformulated Approach #音乐理解 #端到端模型 #相位建模 #回归任务 ✅ 7.5/10 | 前25% | #音乐理解 | #端到端模型 | #相位建模 #回归任务学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：James Bolt (Queen Mary University of London, School of Electronic Engineering and Computer Science) 通讯作者：James Bolt (同上，根据邮箱j.g.bolt@qmul.ac.uk判断) 作者列表：James Bolt (Queen Mary University of London, School of Electronic Engineering and Computer Science), Johan Pauwels (Queen Mary University of London, School of Electronic Engineering and Computer Science), George Fazekas (Queen Mary University of London, School of Electronic Engineering and Computer Science) 💡 毒舌点评亮点在于大胆地用相位差矩阵（PDM）和回归损失彻底绕开了困扰该领域多年的类别不平衡问题，思路清奇；短板则是实验对比过于“单挑”BeatThis，缺乏与其他主流方法（如基于Transformer或不同损失函数的模型）的横向对比，说服力打了折扣。 ...

Controllable Embedding Transformation for Mood-Guided Music Retrieval

📄 Controllable Embedding Transformation for Mood-Guided Music Retrieval #音乐检索 #音乐理解 #对比学习 #嵌入变换 ✅ 7.5/10 | 前25% | #音乐检索 | #对比学习 | #音乐理解 #嵌入变换学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Julia Wilkins（SiriusXM-Pandora, USA；New York University, New York, USA）通讯作者：未说明（论文中未明确标注通讯作者）作者列表： Julia Wilkins（SiriusXM-Pandora, USA；New York University, New York, USA） Jaehun Kim（SiriusXM-Pandora, USA） Matthew E. P. Davies（SiriusXM-Pandora, USA） Juan Pablo Bello（New York University, New York, USA） Matthew C. McCallum（SiriusXM-Pandora, USA） 💡 毒舌点评论文精准地抓住了音乐推荐系统从“千人千面”到“一键微调”的体验升级需求，并设计了一个工程上可行的嵌入变换框架，其“相似但不同情绪”的检索范式非常直观且实用。然而，整个方法高度依赖于高质量的MULE预训练嵌入和标签，在嵌入空间本身质量不高的情况下效果必然大打折扣，且“情绪”这一高度主观的属性用四个离散标签来定义和变换，其颗粒度和泛化能力值得怀疑。 ...

Do Foundational Audio Encoders Understand Music Structure?

📄 Do Foundational Audio Encoders Understand Music Structure? #音乐信息检索 #音乐理解 #预训练 #自监督学习 #模型比较 ✅ 7.0/10 | 前25% | #音乐信息检索 | #模型比较 | #音乐理解 #预训练学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Keisuke Toyama (索尼集团公司，日本) 通讯作者：未说明（论文中作者列表按顺序排列，但未明确标注通讯作者）作者列表： Keisuke Toyama (索尼集团公司，日本，共同第一作者) Zhi Zhong (索尼集团公司，日本，共同第一作者) Akira Takahashi (索尼集团公司，日本) Shusuke Takahashi (索尼集团公司，日本) Yuki Mitsufuji (索尼集团公司，日本；索尼AI，美国) 💡 毒舌点评这篇论文的亮点在于其“工具书”式的系统性与清晰度，为迷茫于众多音频基础模型的音乐结构分析研究者提供了一份可信赖的导航图，尤其是关于掩码语言建模与长形式音乐训练数据的结论颇具指导性。短板则在于其探索边界止步于“比较”，未能进一步将发现的“最佳实践”（如MLM+长上下文）整合成一个更强健的端到端模型，使得结论稍显“观察有余，建设不足”。 🔗 开源详情代码：提供了代码仓库链接：https://github.com/sony/MSA-bench。模型权重：论文中未提及是否公开所评估的FAE的模型权重。这些权重需从各FAE原项目的开源仓库获取。数据集：评估使用了公开的Harmonix数据集。各FAE的预训练数据部分公开（如FMA, MSD, AudioSet），部分为私有（如MERT的160k小时音乐数据）。 Demo：论文中未提及在线演示。复现材料：提供了详细的实验设置（数据集划分、训练超参数、后处理方法）和评估代码，复现基础实验可行性高。引用的开源项目：论文引用了大量开源工具和模型，如mir_eval（评估库）、MusicFM、MERT、AudioMAE、PANNs、EnCodec、CLAP等。 📌 核心摘要本文旨在回答一个核心问题：当前主流的基础音频编码器（FAE）是否真正理解音乐的结构？为此，作者系统性地评估了11种不同类型的FAE（涵盖自监督学习、监督学习、跨模态学习等）在音乐结构分析（MSA）任务上的表现。研究发现，采用掩码语言建模（MLM）在长形式音乐数据上进行自监督预训练的模型（如MusicFM）表现最为出色，尤其在长上下文建模和捕捉语义特征方面优势明显。实验在Harmonix数据集上进行，以简单的线性探测后端评估FAE特征，结果显示MusicFM在边界检测（HR3F达63.91%）和功能预测（ACC达68.13%）上均达到最优。研究证明了FAE的预训练范式与训练数据选择对下游结构理解任务至关重要，并建议社区可重新审视基于此类FAE的生成模型评估指标。局限性在于仅使用了简单的线性后端，且未探索自回归模型等其他范式。 ...

Exploring How Audio Effects Alter Emotion with Foundation Models

📄 Exploring How Audio Effects Alter Emotion with Foundation Models #音乐理解 #情感计算 #音频大模型 #模型评估 #预训练 ✅ 7.0/10 | 前50% | #音乐理解 | #预训练 | #情感计算 #音频大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Stelios Katsis（stelioskatsis12@gmail.com）通讯作者：未说明（论文提供了多位作者的邮箱，但未明确指定通讯作者）作者列表：Stelios Katsis（雅典国立技术大学），Vassilis Lyberatos（雅典国立技术大学），Spyridon Kantarelis（雅典国立技术大学），Edmund Dervakos（雅典国立技术大学），Giorgos Stamou（雅典国立技术大学） 💡 毒舌点评亮点在于研究设计的系统性和全面性，将音频效果的影响拆解为性能、预测、嵌入和真实场景四个层面进行剖析，堪称“模型听觉效应”领域的标准化审计流程。短板则是“浅层分类器探针”方法略显保守，更像是用一个简单模型去“问”复杂模型“你看到了什么”，难以挖掘基础模型内部更深层、更复杂的非线性表征变化。 🔗 开源详情代码：提供代码仓库链接：https://github.com/stelioskt/audioFX。论文明确声明代码、分析细节和完整实验结果均已公开。模型权重：未提及公开任何经过微调的模型权重或探针模型权重。数据集：论文使用的数据集（EMOPIA, DEAM, witheFlow）均为已公开的学术数据集。 Demo：未提及提供在线演示。复现材料：论文中提及GitHub仓库包含“完整实验结果”，但未详细说明是否包含训练脚本、环境配置文件（如requirements.txt）、预训练模型下载指南或详细的复现步骤文档。论文中引用的开源项目：主要引用了pedalboard库（用于应用音频效果），以及三个基础模型（MERT, CLAP, Qwen2-Audio）对应的官方开源实现。 📌 核心摘要问题：音乐制作中常用的音频效果（如混响、失真、调制）会如何系统性地影响人类（或AI）对音乐情感的感知？这一系统性联系尚存研究空白。方法核心：采用三个音频/音乐基础模型（MERT, CLAP, Qwen2-Audio）作为特征提取器，冻结其参数，后接可解释的浅层分类器（XGBoost）进行情感预测。通过施加不同程度的音频效果，探测模型性能、预测结果和嵌入空间的变化。新意：首次大规模、系统性地利用多种基础模型，结合控制实验（六种效果、多强度）与真实场景（艺术家效果链），探究音频效果对模型情感感知的“黑箱”影响，填补了从信号处理到情感计算链路中的关键一环。主要实验结果：如表1所示，随着效果强度增加，模型性能普遍下降。失真（Distortion）和相位器（Phaser）影响最大，例如在witheFlow数据集上，CLAP模型的F1分数因高强度失真下降了0.488。如图1所示，高失真会一致增加“愤怒”预测、减少“平静”预测。嵌入空间分析（图2）显示，CLAP和Qwen的嵌入随效果变化产生大位移，而MERT相对稳定。真实场景效果链（图3）引发更大、更连贯的嵌入偏移。实际意义：为音乐制作人、情感计算研究者提供了关于不同音频效果“情感倾向”的实证参考，并揭示了不同基础模型在音频鲁棒性和情感表征上的差异。主要局限性：研究仅针对三个特定基础模型，结论的普适性有待验证；嵌入空间分析主要依赖UMAP可视化，缺乏更定量的度量；所训练的浅层探针可能无法完全捕捉基础模型的全部复杂性。 🏗️ 模型架构本论文并非提出一个新的端到端架构，而是构建了一个探测性研究框架。其整体流程如下： ...

ICASSP 2026 - 音乐理解论文列表

ICASSP 2026 - 音乐理解共 11 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Toward Robust And Efficient Beat Tracking Via Beat-Aware Att 8.5分前25% 🥈 The Muse Benchmark: Probing Music Perception and Auditory Re 8.5分前25% 🥉 Towards Effective Negation Modeling in Joint Audio-Text Mode 7.5分前25% 4. Joint Estimation of Piano Dynamics and Metrical Structure wi 7.5分前25% 5. Beat and Downbeat Detection: A Reformulated Approach 7.5分前25% 6. TinyMU: A Compact Audio-Language Model for Music Understandi 7.5分前25% 7. MIDI-LLaMA: An Instruction-Following Multimodal LLM for Symb 7.5分前10% 8. Interpretable Music Harmonic Analysis Through Multilinear Mi 7.5分前25% 9. Exploring How Audio Effects Alter Emotion with Foundation Mo 7.0分前50% 10. A Bayesian Approach to Singing Skill Evaluation Using Semito 7.0分前25% 11. Rethinking Music Captioning with Music Metadata LLMS 7.0分前25% 📋 论文详情 🥇 Toward Robust And Efficient Beat Tracking Via Beat-Aware Attention 🔥 8.5/10 | 前25% | #音乐理解 | #注意力机制 | #端到端 #鲁棒性 ...

Interpretable Music Harmonic Analysis Through Multilinear Mixture of Experts

📄 Interpretable Music Harmonic Analysis Through Multilinear Mixture of Experts #音乐理解 #混合专家模型 #模型评估 #音乐信息检索 #数据集 ✅ 7.5/10 | 前25% | #音乐理解 | #混合专家模型 | #模型评估 #音乐信息检索学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Thanasis Triantafyllou（雅典大学信息与电信系）通讯作者：未说明（论文未明确指定）作者列表： Thanasis Triantafyllou（雅典大学信息与电信系） Mihalis A. Nicolaou（塞浦路斯大学，塞浦路斯研究所） Yannis Panagakis（雅典大学信息与电信系，Archimedes, Athena R.C.） 💡 毒舌点评亮点在于首次将内在可解释架构（µMoE）引入罗马数字分析任务，让模型决策变得对音乐学家“透明”，专家激活模式确实呈现出符合理论的五度圈和V-I关系。短板是性能相比基准模型RNBERT有1-2个点的下降，且实验局限于单一任务和特定数据集，未能充分展示该架构在其他音乐分析任务或更大规模模型上的潜力和鲁棒性。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/TomusD/muMoE-RNBERT 模型权重：论文中未提及是否公开µMoE-RNBERT的预训练模型权重。数据集：论文使用的数据集由多个公开集合（如TAVERN, When in Rome等）组成，但未提供统一的下载链接或具体的预处理脚本。原始数据集需从各自来源获取。 Demo：论文中未提及在线演示。复现材料：论文详细描述了训练策略、超参数、硬件环境、数据预处理和增强方法，为��现提供了充分的必要信息。依赖的开源项目：明确依赖并基于MusicBERT模型进行微调。实现使用PyTorch框架。张量分解和µMoE的具体实现参考了论文[13]（Oldfield et al., NeurIPS 2024）的方法。 📌 核心摘要问题：现有基于Transformer的罗马数字分析（RNA）模型（如RNBERT）虽然性能先进，但缺乏可解释性，无法向音乐学家解释其分析背后的音乐理论依据，限制了其在学术研究中的应用价值。核心方法：提出µMoE-RNBERT，通过用多线性混合专家（µMoE）层替换RNBERT中前馈网络（MLP）的线性层，构建第一个内在可解释的深度RNA系统。不同的专家子网络能够学习并专门处理不同的和声模式。创新之处：是首个为RNA任务设计的内在可解释深度学习系统。不同于事后解释，其可解释性源于模型架构本身。该方法在保持与原始RNBERT几乎相同参数量（~26.7M）和计算成本的前提下，引入了专家专业化机制。实验结果：在相同数据集和评估协议下，µMoE-RNBERT取得了与基准RNBERT可比但略低的性能。具体而言，整体罗马数字准确度（RN Accuracy）在74.6%-74.9%之间（基准为76.2%），在关键、质量、音级等子任务上也略有差距。但定性分析表明，专家激活显著遵循音乐理论，例如，不同专家专注于特定调性及其中的V-I进行，并呈现出五度圈的邻近调性模式。实际意义：为音乐信息检索（MIR）和计算音乐学研究提供了一个可解释的AI工具。音乐学家可以观察并验证模型分析所依据的内部“音乐规则”，从而增进对模型行为的信任，并可能从中发现新的音乐结构洞见。主要局限性：a) 性能相比当前最优基线有轻微损失；b) 可解释性分析主要基于可视化和统计观察，缺乏更系统的量化评估框架；c) 该方法的有效性尚未在其他音乐理解任务（如旋律生成、节奏分析）上得到验证。 🏗️ 模型架构 µMoE-RNBERT的整体架构基于RNBERT，其核心改动是将标准MLP层替换为µMoE层。 ...

Investigating Modality Contribution in Audio LLMs for Music

📄 Investigating Modality Contribution in Audio LLMs for Music #音频大模型 #模型评估 #可解释AI #音乐理解 #多模态模型 ✅ 6.5/10 | 前50% | #模型评估 | #可解释AI | #音频大模型 #音乐理解学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Giovana Morais（纽约大学音乐与音频研究实验室）通讯作者：未说明作者列表：Giovana Morais（纽约大学音乐与音频研究实验室）、Magdalena Fuentes（纽约大学音乐与音频研究实验室，Integrated Design & Media） 💡 毒舌点评亮点：首次将严谨的博弈论可解释性工具（MM-SHAP）引入音频大模型分析，量化了音频与文本模态的“功劳簿”，为“模型到底听没听”这个玄学问题提供了硬核分析框架。短板：整个研究建立在一个被后续工作指出“测试的是LLM推理而非音频感知”的基准（MuChoMusic）上，这好比用一把可能不准的尺子去精确测量，结论的可靠性打了折扣；同时，分析结论停留在“音频贡献低”的现象描述，未能深入揭示音频信息在模型内部是如何被利用或“遗忘”的机制。 🔗 开源详情代码：提供了代码仓库链接：https://github.com/giovana-morais/2025_investigating_mmshap。模型权重：论文中未提及提供新的模型权重。分析使用了公开模型Qwen-Audio-Chat和MU-LLaMA。数据集：分析使用公开的MuChoMusic基准数据集。 Demo：论文提到提供了交互式图表演示页面，但未给出具体链接。复现材料：论文中提供了代码和基于公开模型与数据的分析框架，但缺乏详细的训练/评估超参数配置文件和分步指南。引用的开源项目：依赖shap库进行Shapley值计算；依赖Qwen-Audio和MU-LLaMA的官方代码库。 📌 核心摘要问题：音频大语言模型（Audio LLMs）声称能理解音频，但近期基准测试表明其性能可能过度依赖文本推理，音频模态是否被有效利用存疑。方法核心：将MM-SHAP（一种基于Shapley值、与性能无关的度量）适配到音频领域，通过掩码音频波形和文本令牌来量化计算每个模态对模型输出的贡献度（A-SHAP, T-SHAP）。新方法与创新点：首次将MM-SHAP框架应用于音频大模型，提出了针对音频的动态掩码策略，并将分析扩展到生成式任务（通过衡量答案token的对数变化）。主要实验结果：在MuChoMusic基准上对比了Qwen-Audio和MU-LLaMA。发现性能更好的Qwen-Audio反而更依赖文本（A-SHAP约0.23），而MU-LLaMA模态利用更均衡（A-SHAP约0.50）。定性分析显示，即使整体音频贡献低，模型也能在特定token（如“铃声”）上正确定位相关音频片段。模型实验设置准确率 A-SHAP MU-LLaMA MC-PI 0.30 0.50 ± 0.02 MC-NPI 0.32 0.47 ± 0.02 QwenAudio MC-PI 0.44 0.23 ± 0.02 MC-NPI 0.47 0.21 ± 0.02 表1：两个模型在不同实验设置下的准确率和平均音频模态贡献度（A-SHAP）。 MM-SHAP计算过程示意图图1：MM-SHAP计算流程示意图。通过掩码所有可能的输入组合（近似为随机排列），并计算基础答案（未掩码推理）的对数变化来平均得到Shapley值。定性分析示例图2：QwenAudio定性分析示例。展示了对于输出token“bell”，输入文本和音频各区域的Shapley值贡献，绝对值高的区域（深色）对应模型认为重要的特征。 ...