📄 MambAdapter: Lightweight Mamba-Based Adapters for Parameter-Efficient Transfer Learning in Speech and Audio

#语音识别 #音频分类 #参数高效微调

8.9/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5

🔥 8.9/10 | 前25% | #语音识别 | #参数高效微调 | #音频分类 | arxiv

👥 作者与机构

Hussain Ali Cappellazzo, Salman Sami Hussain Ali, Umberto Cappellazzo, Mirco Ravanelli. 机构:1Université de Montréal, Canada; 2Imperial College London, UK; 3Concordia University, Canada; 4Mila – Quebec AI Institute, Canada.

💡 毒舌点评

这篇论文的工作扎实,想法直接,结果也不错,像一个精心完成的工程应用。主要问题在于“思想深度”和“普适性声明”之间存在鸿沟。将Mamba塞进适配器这个想法确实新颖,但论文对其理论优势的论述停留在相当直觉的层面(“SSM可压缩,低秩也压缩,所以匹配”),缺乏更形式化的分析。消融研究只验证了“有没有”,没探讨“为什么”和“怎么放更好”。实验虽然全面,但全部局限于语音/音频领域,作者却暗示这可能是一种通用的PETL新范式,这种跳跃稍显大胆。最让人不爽的是,对Mamba最核心的“选择性”机制在适配任务中学到了什么,几乎只字未提。对于一篇声称结合两种强大模型的工作,这种“黑箱”式的处理不够令人满意。总之,是一篇不错的系统性应用论文,但离开创一个新子领域的理论奠基之作还有距离。

📌 核心摘要

本文针对语音和音频基础模型(AST, Whisper)微调成本高的问题,提出了一种名为MambAdapter的参数高效迁移学习(PETL)方法。该方法将擅长线性时序建模的Mamba模块插入到低秩瓶颈适配器中,并利用跨层参数共享来控制参数量。在四个音频分类任务和五个低/中资源语言的语音识别任务上的实验表明,MambAdapter在可训练参数量远少于Conformer适配器等强基线的情况下,能够达到匹配甚至更优的性能。论文通过详尽的消融研究验证了Mamba块、缩放因子和参数共享的有效性,并分析了其性能-效率权衡。

🔗 开源详情

  • 代码:https://github.com/salman-ha/MambAdapter
  • 模型权重:论文中未提供适配后模型权重的具体下载链接。预训练模型(AST, Whisper)需从原始项目获取。
  • 数据集:论文中未提及所用数据集(ESC-50, UrbanSound8K, GSC, FSC, Common Voice 13)的具体下载链接。
  • Demo:论文中未提及在线演示链接。
  • 复现材料:论文中提及所有实验的完整超参数列表可随代码获取。未提供其他具体的训练配置、检查点或附录材料。
  • 论文中引用的开源项目:

🏗️ 方法概述和架构

MambAdapter的架构设计旨在将Mamba的状态空间模型(SSM)能力高效地注入到Transformer骨干网络中。其核心是一个可插入Transformer层中的轻量级适配器模块。根据图1,标准适配器被插入到Transformer块的FFN或注意力层之后,而MambAdapter的内部结构展示了其具体设计。

一个MambAdapter模块的运算流程如下:给定输入特征 \(X \in \mathbb{R}^{b \times l \times d}\),首先通过一个下投影矩阵 \(W_{down} \in \mathbb{R}^{d \times r}\) 进行线性变换,将其映射到低维的瓶颈空间,得到 $ \hat{X} W_{down} \in \mathbb{R}^{b \times l \times r}\(,其中 \)r \ll d$ 是瓶颈维度。这个低维表示随后被送入一个Mamba块。Mamba块是MambAdapter的核心创新组件,它是一个轻量级的、基于选择性状态空间模型的序列处理模块。根据论文描述,每个Mamba块包含一个可学习的局部卷积(用于捕捉短程交互)、一个选择性状态空间更新机制(通过使状态转移参数A、B、C依赖于输入来动态捕捉长程依赖),以及一个扩展因子(expand)来控制中间表示的宽度。Mamba块对输入的低维序列进行处理,输出同样维度的时序增强特征。接着,该特征通过一个可学习的缩放因子 \(\alpha\)(初始化为0.1)进行加权。然后,通过共享的(即所有适配器层复用同一对)上投影矩阵 \(W_{up} \in \mathbb{R}^{r \times d}\) 将特征映射回原始维度。最终,适配器的输出与原始Transformer模块 \(F(\hat{X})\) 的输出通过残差连接相加,得到最终输出 \(X_{out}\)。这一过程由公式(3) \(X_{out} = \alpha \cdot Mamba(\hat{X}W_{down})W_{up} + F(\hat{X})\) 完整描述。

关键设计动机与机制:

  1. Mamba在低秩空间建模:论文认为,SSM将时序信息压缩到紧凑的隐藏状态 \(h_t \in \mathbb{R}^{N}\)(\(N \ll d\)),这与适配器的低秩瓶颈(\(r \ll d\))在压缩信息的理念上是匹配的。Mamba块在 \(r\) 维的子空间内操作,以极低的额外参数开销(约 \(3 \cdot expand \cdot r^2\))为每个适配器层引入强大的时序建模能力,弥补了参数共享可能带来的单层表达力下降。
  2. 参数共享以提升效率:为了在引入Mamba块后仍能严格控制总参数量,MambAdapter在所有注入的适配器层之间共享线性投影矩阵 \(W_{down}\) 和 \(W_{up}\)。这使得投影部分的参数开销从 \(2drl\) 降至 \(2dr\)(\(l\) 为适配器层数),是实现高参数效率的关键。
  3. 可学习缩放因子 \(\alpha\):提供了一种轻量级的、可学习的逐层适应能力,允许模型调节Mamba路径与原始Transformer路径贡献的相对重要性。
  4. 并行插入策略:论文在实验部分说明,所有适配器均采用并行插入(即适配器输出与原始模块输出相加,而非顺序替换),并基于内部消融研究表明此策略优于顺序插入。

图1

图2

💡 核心创新点

  1. 首次将Mamba作为PETL组件集成:据作者声称,这是第一篇探索将Mamba选择性状态空间模型作为参数高效适配器组件,应用于语音和音频Transformer骨干网络进行迁移学习的工作。
  2. 轻量级且高效的架构融合:设计了将Mamba块嵌入低秩瓶颈、并结合跨层参数共享的MambAdapter架构,在显著提升序列建模能力的同时,将可训练参数量控制在极低水平(例如,在AST分类任务中仅为0.06M-0.11M)。
  3. 系统性的实验与消融验证:在多个标准音频分类和低/中资源多语言ASR任务上进行了广泛评估,并通过消融研究量化了Mamba块、缩放因子和参数共享各自的贡献,以及Mamba超参数(核大小,状态维度,扩展因子)的影响。
  4. 深入的性能-效率分析:提供了不同参数预算下的性能缩放曲线(Figure 2)和详细的推理延迟与显存开销对比(Table 4),为方法在实际部署中的适用性提供了实用参考。

📊 实验结果

论文在两大类任务上验证了MambAdapter的有效性。

  1. 音频与语音分类任务:使用AST作为骨干模型,在四个数据集上评估。主要与Bottleneck适配器、Conformer适配器和LoRA进行比较。 Table 1: Accuracies on audio and speech classification tasks. Methods marked with ∗ are taken from [cappellazzo2024parameterefficienttransferlearningaudio]. Higher is better.
    MethodPar (M)ESCUS8KGSCFSCAvg
    FFT∗8587.4884.3197.3193.2990.07
    BitFit∗0.1286.0582.1785.5163.8579.40
    DPT∗0.2786.5283.6789.1868.6081.99
    Pref-T∗0.2682.9381.3983.4655.7575.88
    LoRA0.2686.4581.8993.6176.0084.49
    Pfeiffer Adapters
    Bottleneck0.2586.3180.6990.6672.5882.56
    Conformer0.2787.2882.0494.4796.4990.07
    MambAdapter0.0687.2882.5194.1294.9889.72
    Houlsby Adapters
    Bottleneck0.4987.1580.5891.3076.6783.92
    Conformer0.5484.9882.4194.9196.4689.69
    MambAdapter0.1187.5581.7194.2795.8589.85

关键发现:

  • 在Pfeiffer配置下,MambAdapter以不到Conformer 25%的参数量(0.06M vs 0.27M),达到了接近的平均精度(89.72% vs 90.07%)。
  • 在Houlsby配置下,MambAdapter以仅约20%的参数量(0.11M vs 0.54M)取得了最高的平均精度(89.85%),超越所有基线。
  1. 自动语音识别任务:使用Whisper(仅适配编码器)在Common Voice 13的五个低/中资源语言上评估。 Table 2: Word Error Rates (WER%) for speech recognition tasks. Lower is better.
    MethodPar (M)ABCKBEOKABRWAvg
    FFT24146.846.218.253.061.745.18
    LoRA1.262.457.027.067.872.357.3
    Bottleneck1.254.550.522.260.465.850.7
    Conformer1.459.755.625.167.371.055.7
    MambAdapter1.153.250.222.358.864.949.9

关键发现:

  • MambAdapter取得了最佳的平均WER(49.9%),显著优于Conformer(55.7%)和LoRA(57.3%),参数量也最少(1.1M)。
  • 与全参数微调(FFT)相比,PETL方法将可训练参数量从241M降至约1.2M(约0.5%),但性能差距可缩小至约4.7% WER。
  1. 其他分析:
  • 参数缩放(Figure 2):在低参数预算(<500k)下,MambAdapter明显优于Conformer和Bottleneck;高参数预算下Conformer略占优。
  • 架构消融(Table 3):移除Mamba块导致性能大幅下降(尤其在FSC上),证实了其核心作用;参数共享在带来高效率的同时,性能损失很小。
  • Mamba超参数消融(Figure 3):在CKB和EO数据集上,增大expand因子能带来约1%的WER改善;状态维度\(d_{state}\)在20-40范围内最佳;核大小增大带来轻微性能下降。
  • 延迟与显存(Table 4):所有适配器显存增加可忽略。MambAdapter在短序列/小批量的流式场景下延迟略高,但在长序列/大批量的离线场景下延迟与Conformer相当。

图3

⚖️ 评分理由

  • 创新性 (1.6/2):将Mamba这一新兴的高效序列模型与参数高效适配器结合,思路新颖且针对语音/音频长序列特性合理。首次将其作为PETL组件的声称成立。但结合的理论深度有限,更多是架构上的工程性融合。
  • 技术严谨性 (1.2/1.5):方法描述清晰,公式定义明确。消融实验系统,验证了各组件贡献。但Mamba与适配器结合的理论分析仅停留在直观论述,缺乏更形式化的论证。对Mamba选择性机制在适配中如何工作的分析缺失。
  • 实验充分性 (1.3/1.5):实验设计严谨,覆盖了分类和ASR两大任务,基线比较全面(包括LoRA, Bottleneck, Conformer),并提供了详细的参数缩放和效率分析。局限性在于所有实验均在语音/音频领域,未在其他模态验证泛化性;未与其他更新的PETL方法(如DoRA)对比。
  • 清晰度 (1.3/1.5):论文整体结构清晰,图表设计较好。公式(3)与图1的连接关系清晰。但部分实验设置细节(如ASR任务中为匹配参数量而调整各方法秩的具体过程和最终参数量)在正文中描述可更详尽。
  • 影响力 (1.3/1.5):为语音和音频领域的PETL提供了一种新的、参数效率极高的选择,尤其在低资源ASR和计算受限场景下有实用价值。但对更广泛的PETL社区或Mamba应用社区的理论启发性有限。
  • 开源 (0.8/1.5):提供了代码仓库链接(https://github.com/salman-ha/MambAdapter),这很好。但未提供预训练模型权重或处理后的数据集链接,可复现性依赖于用户自行准备数据和训练,完整复现存在门槛。
  • 可复现性 (1.3/1.5):论文提供了完整的超参数列表(随代码提供),实验设置描述清晰,并报告了随机种子运行结果。开源代码的存在显著提升了可复现性。
  • 工程/实践价值 (1.2/1.5):方法设计轻量,参数效率突出,推理开销分析详实,对实际部署(特别是低资源、边缘计算场景)具有明确的参考价值。提供了不同场景下的延迟数据,体现了工程考量。

🚨 局限与问题

  1. 理论机制解释不足:论文未能深入阐明为何Mamba的选择性状态空间机制特别适合在适配器的低秩空间中建模语音特征,与将其他序列模型(如轻量级RNN或CNN)放入适配器相比,其独特优势的理论支撑不够坚实。
  2. 实验范围局限性:所有实验均在语音和音频任务上,使用了AST和Whisper两个骨干网络。结论在其他领域(如NLP、CV)或其他语音/音频模型(如Wav2Vec 2.0, HuBERT)上的普适性未知。
  3. 关键机制未深入分析:对Mamba中至关重要的“选择性”机制(即输入依赖的B、C矩阵)在音频适配任务中学到了何种特征,未进行任何可视化或分析,这限制了方法可解释性。
  4. 对比基线可更新:缺少与一些新兴的PETL方法(如DoRA)或在其他领域表现优异的适配器变体的对比。
  5. 部分实验设计可优化:在ASR任务中,为匹配参数量而为不同方法设置不同秩(如MambAdapter秩为104),虽然意图公平,但可能引入了秩这一混淆变量。更严格的控制变量实验(固定秩或固定参数量)能提供��清晰的对比。
  6. 架构探索有限:消融研究未探讨Mamba块在适配器内部的最优位置(例如,并行路径或与投影结合的其他方式),也未研究更细粒度的参数共享策略。

← 返回 2026-06-16 语音/音乐/音频论文速递