📄 Investigating Modality Contribution in Audio LLMs for Music

#音频大模型 #模型评估 #可解释AI #音乐理解 #多模态模型

6.5/10 | 前50% | #模型评估 | #可解释AI | #音频大模型 #音乐理解

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Giovana Morais(纽约大学音乐与音频研究实验室)
  • 通讯作者:未说明
  • 作者列表:Giovana Morais(纽约大学音乐与音频研究实验室)、Magdalena Fuentes(纽约大学音乐与音频研究实验室,Integrated Design & Media)

💡 毒舌点评

亮点:首次将严谨的博弈论可解释性工具(MM-SHAP)引入音频大模型分析,量化了音频与文本模态的“功劳簿”,为“模型到底听没听”这个玄学问题提供了硬核分析框架。 短板:整个研究建立在一个被后续工作指出“测试的是LLM推理而非音频感知”的基准(MuChoMusic)上,这好比用一把可能不准的尺子去精确测量,结论的可靠性打了折扣;同时,分析结论停留在“音频贡献低”的现象描述,未能深入揭示音频信息在模型内部是如何被利用或“遗忘”的机制。

📌 核心摘要

  1. 问题:音频大语言模型(Audio LLMs)声称能理解音频,但近期基准测试表明其性能可能过度依赖文本推理,音频模态是否被有效利用存疑。
  2. 方法核心:将MM-SHAP(一种基于Shapley值、与性能无关的度量)适配到音频领域,通过掩码音频波形和文本令牌来量化计算每个模态对模型输出的贡献度(A-SHAP, T-SHAP)。
  3. 新方法与创新点:首次将MM-SHAP框架应用于音频大模型,提出了针对音频的动态掩码策略,并将分析扩展到生成式任务(通过衡量答案token的对数变化)。
  4. 主要实验结果:在MuChoMusic基准上对比了Qwen-Audio和MU-LLaMA。发现性能更好的Qwen-Audio反而更依赖文本(A-SHAP约0.23),而MU-LLaMA模态利用更均衡(A-SHAP约0.50)。定性分析显示,即使整体音频贡献低,模型也能在特定token(如“铃声”)上正确定位相关音频片段。
模型实验设置准确率A-SHAP
MU-LLaMAMC-PI0.300.50 ± 0.02
MC-NPI0.320.47 ± 0.02
QwenAudioMC-PI0.440.23 ± 0.02
MC-NPI0.470.21 ± 0.02

表1:两个模型在不同实验设置下的准确率和平均音频模态贡献度(A-SHAP)。 MM-SHAP计算过程示意图 图1:MM-SHAP计算流程示意图。通过掩码所有可能的输入组合(近似为随机排列),并计算基础答案(未掩码推理)的对数变化来平均得到Shapley值。 定性分析示例 图2:QwenAudio定性分析示例。展示了对于输出token“bell”,输入文本和音频各区域的Shapley值贡献,绝对值高的区域(深色)对应模型认为重要的特征。

  1. 实际意义:揭示了当前音频大模型在音乐问答任务上可能存在“模态坍缩”现象,即过度依赖文本推理。警示社区在评估模型时需设计更可靠的基准,并为模型可解释性研究提供了方法范式。
  2. 主要局限性:分析高度依赖MuChoMusic基准,而该基准的多选题设计可能已被证明无法充分测试音频感知能力;MM-SHAP方法的掩码窗口大小等设计选择对结果有影响,且难以提供模型内部机制的深层解释。

🏗️ 模型架构

本文研究的并非一个新提出的模型架构,而是分析方法。其分析的对象是两个已有的音频大语言模型:

  1. Qwen-Audio:基于Whisper-large-v2(音频编码器)和Qwen-7B(语言模型)构建,通过适配器连接。音频重采样至16kHz。
  2. MU-LLaMA:基于MERT-v1-330M(音频编码器)和LLaMA 2 7B(语言模型)构建,通过适配器连接。音频重采样至24kHz。

论文的核心是提出的分析框架架构,如图1所示:

  • 输入:包含音频波形和文本(问题+选项)的多模态输入。
  • 掩码模块:对音频波形,动态计算窗口大小并零值化;对文本,将特定令牌替换为[MASK]
  • 模型推理:将掩码后的音频和文本输入待分析的Audio LLM。
  • Shapley值计算:对所有掩码组合(通过随机排列近似),计算模型输出(针对基准答案token的对数)的变化量,并根据公式(1)近似每个特征(音频窗口/文本令牌)的Shapley值。
  • 模态贡献聚合:根据公式(2),分别将音频特征和文本特征的Shapley值绝对值求和,得到模态总贡献Φ_A和Φ_T。
  • 归一化:根据公式(3)计算A-SHAP和T-SHAP,得到模态贡献比例。

💡 核心创新点

  1. 将MM-SHAP适配至音频领域:首次将这一基于Shapley值的多模态贡献分析框架应用于音频大模型,提出了针对音频波形的动态掩码策略,填补了该领域的分析工具空白。
  2. 针对生成式任务的分析方法:改进了原始MM-SHAP,使其适用于LLM的生成任务。不是计算类别概率,而是通过累加所有输出token对数的变化来衡量整体贡献。
  3. 揭示Audio LLMs模态利用不平衡现象:通过定量分析,直接证明了在主流音乐问答基准上,性能更好的模型(Qwen-Audio)显著更依赖文本模态,挑战了“性能越好则多模态融合越好”的直觉。
  4. 定性分析展示音频的“局部有效性”:发现即使全局A-SHAP值低,模型在回答特定问题(如识别“铃声”)时,其Shapley值在时间轴上仍能精确定位到相关音频事件,表明音频信息未被完全忽略。

🔬 细节详述

  • 训练数据:实验所用的测试基准是MuChoMusic,论文指出其实验仅使用了其中的MusicCaps音轨子集(约71%)。模型训练数据在模型介绍部分简要提及(Qwen-Audio使用大规模数据,MU-LLaMA使用MusicQA),但本论文未对模型进行训练或微调,仅进行推理分析。
  • 损失函数:未说明。本论文不涉及模型训练。
  • 训练策略:未说明。
  • 关键超参数:PermutationSHAP近似采样数m=10(来自shap库默认值)。音频掩码窗口大小动态设置,使得音频窗口数等于文本令牌数(n_A = n_T)。例如,10秒音频+100个文本令牌时,窗口约100ms。
  • 训练硬件:未说明。
  • 推理细节:使用Qwen-Audio-Chat和MU-LLaMA进行推理。设置了两种实验条件:MC-PI(带上下文示例)和MC-NPI(不带上下文示例)。系统提示词为默认值。
  • 正则化或稳定训练技巧:未说明。

📊 实验结果

主要实验在MuChoMusic基准的MusicCaps子集上进行,对比了两个模型在两种文本长度设置下的准确率与音频模态贡献度(A-SHAP)。核心结果已列于上述表1。关键结论如下:

  1. 准确率与模态贡献负相关:Qwen-Audio准确率更高(0.44/0.47),但A-SHAP更低(约0.23);MU-LLaMA准确率较低(0.30/0.32),但A-SHAP接近0.5(均衡)。
  2. 文本长度影响:减少文本指令(MC-NPI)对两个模型的准确率有轻微提升,但对A-SHAP影响不大,表明文本量不是导致音频贡献低的主要原因。
  3. 任务类型影响:论文补充实验显示,当任务从多选问答(A-SHAP约0.23)变为音频描述时,Qwen-Audio的A-SHAP显著提升至0.73,说明任务形式强烈影响模态利用。
  4. 定性分析:如图2所示,对于生成“bell”这个token,模型对输入文本中的“bell”相关词和音频中对应铃声出现的时间段赋予了较高的Shapley值,验证了模型能进行细粒度的音频-文本关联。

⚖️ 评分理由

  • 学术质量:5.5/7:创新性:首次将MM-SHAP应用于音频大模型,方法适配有新意。技术正确性:框架应用正确,但方法本身(Shapley值近似、掩码策略)存在固有局限性。实验充分性:实验仅针对一个基准和两个模型,消融实验(如任务类型变化)有但有限。证据可信度:核心发现依赖于一个被引文[27]质疑的基准,削弱了结论的普遍性。定性分析为定量结果提供了补充证据。
  • 选题价值:1.5/2:前沿性:直击当前多模态大模型研究的核心问题(模态融合真实性)。潜在影响:可能推动社区重新审视Audio LLM的评估标准和设计。实际应用:为模型开发者和评估者提供了诊断工具。读者相关性:对音频/语音和多模态模型研究者有较高参考价值。
  • 开源与复现加成:-0.5/1:论文提供了代码仓库(GitHub),有助于复现分析过程。但未提供任何模型权重,实验仅能使用已有公开模型进行。报告的超参数(如m=10)和设置较简略,复现完整分析需要自行准备数据和环境,有一定门槛。

🔗 开源详情

  • 代码:提供了代码仓库链接:https://github.com/giovana-morais/2025_investigating_mmshap
  • 模型权重:论文中未提及提供新的模型权重。分析使用了公开模型Qwen-Audio-Chat和MU-LLaMA。
  • 数据集:分析使用公开的MuChoMusic基准数据集。
  • Demo:论文提到提供了交互式图表演示页面,但未给出具体链接。
  • 复现材料:论文中提供了代码和基于公开模型与数据的分析框架,但缺乏详细的训练/评估超参数配置文件和分步指南。
  • 引用的开源项目:依赖shap库进行Shapley值计算;依赖Qwen-Audio和MU-LLaMA的官方代码库。

← 返回 ICASSP 2026 论文分析