📄 Robust Deepfake Audio Detection via Multi-Level Intermediate Feature Fusion

#音频深度伪造检测 #特征融合 #自监督学习 #鲁棒性

✅ 7.5/10 | 前25% | #音频深度伪造检测 | #特征融合 | #自监督学习 #鲁棒性

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中

👥 作者与机构

第一作者：Jinpeng Zhao（中山大学计算机科学与工程学院）
通讯作者：Peijia Zheng（中山大学计算机科学与工程学院）
作者列表：Jinpeng Zhao, Jian Zhao, Yufei Zhou, Peijia Zheng†, Yusong Du（中山大学计算机科学与工程学院）

💡 毒舌点评

亮点在于，论文非常务实地通过一个轻量级（仅增加0.002%计算量）的MIFF模块，有效挖掘了现有强大骨干网络（XLSR-Mamba）中被忽视的中间层信息，实现了“小改进，大收益”。短板是，该工作本质上是将成熟的注意力机制（SE block）应用于特定模型（Mamba）的中间层特征融合，创新深度有限，更像是一个有效但非突破性的工程优化。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：使用公开的ASVspoof 2019 LA、ASVspoof 2021 LA/DF和In-The-Wild数据集，未提及新的数据集。
Demo：未提及。
复现材料：论文提供了较为详细的实验设置（数据集、增强方法、优化器、学习率、batch size等）、超参数（Mamba层数、缩减比、特征维度）和消融实验细节，为复现提供了良好基础，但未提供完整的配置文件或脚本。
论文中引用的开源项目：
1. XLSR-Mamba [7]：本文的主要基线模型。
2. XLS-R [2, 3, 6]：作为前端特征提取器。
3. Mamba [8]：作为后端骨干网络。
4. RawBoost [19]：用于数据增强。
5. Squeeze-and-Excitation Networks [17]：MIFF模块中注意力机制的灵感来源。
6. 其他对比方法（AASIST [4], Conformer [5], SLS [6]等）。

📌 核心摘要

本文针对现有深度伪造音频检测器（如XLSR-Mamba）主要依赖最终层特征、导致中间层判别性信息丢失的问题，提出了多级中间特征融合模块。该模块应用于双列双向Mamba网络的每个方向，通过引入Squeeze-and-Excitation机制，自适应地计算并加权聚合所有Mamba层的输出特征，并与最终层的残差输出融合，从而生成一个更全面、更具判别力的表征用于分类。实验表明，在ASVspoof 2021 DF和In-The-Wild数据集上，该方法分别取得了1.68%和5.66%的EER，相比基线XLSR-Mamba（1.88%和6.71%）实现了10.6%和15.6%的相对误差降低，尤其在应对自回归神经声码器生成的伪音时表现突出。该研究证明了多层次特征融合对于增强检测模型鲁棒性的有效意义。主要局限性在于方法未在更多样化的攻击类型或跨语言场景下进行验证，且依赖于特定的XLSR前端和Mamba后端组合。

🏗️ 模型架构

论文提出的检测框架（见图1）由三部分组成：预训练的XLS-R前端、双列双向Mamba后端以及新增的MIFF模块。

模型整体架构图

XLS-R前端：将输入的原始音频波形转换为一系列高维声学表征序列。
双列双向Mamba后端：该后端（DuaBiMamba）包含两个独立的Mamba列，分别沿时间正向和反向处理来自XLS-R的特征序列。
MIFF模块（多级中间特征融合）：这是论文的核心创新。MIFF模块被独立应用于正向和反向两个Mamba列。
- 输入：对于每个方向（正向/反向），输入是该方向上N层Mamba网络所有中间层的输出集合。
- 处理流程： a. 挤压（Squeeze）：对每层特征进行全局平均池化，压缩为长度为N的一维向量。 b. 激励（Excitation）：通过一个两层的瓶颈网络（带有ReLU和Sigmoid激活）生成N个层的注意力权重。 c. 加权融合：使用学习到的权重对所有层的特征进行加权求和，得到一个聚合特征。 d. 残差连接与归一化：将聚合特征与该方向最终层的输出特征（残差流）相加，然后进行层归一化，得到最终的增强表征。
分类器：将正向和反向MIFF模块的输出进行融合（如拼接或求和），再通过一个全连接层（分类器）判断语音是真实语音（Bonafide）还是伪造语音（Spoof）。

关键设计选择：MIFF模块的动机是浅层特征保留细粒度声学伪迹，深层特征捕获抽象语义，动态融合可以兼顾两者，防止信息在传播中稀释。采用SE模块进行注意力加权是一种轻量且有效的方式。

💡 核心创新点

提出MIFF模块进行多层特征自适应融合：
- 局限：XLSR-Mamba等现有方法仅使用Mamba网络最后一层的输出进行分类，忽略了中间层可能包含的丰富、互补的判别信息。
- 创新：MIFF模块显式聚合N个Mamba层的输出，并通过SE机制动态学习各层的贡献权重，实现上下文感知的加权融合。
- 收益：在几乎不增加计算开销（<0.002%）的情况下，获得了更全面的层级表征，显著提升了检测性能。
构建并验证了基于MIFF的增强型深度伪造音频检测系统：
- 局限：现有系统在面对未见过的攻击类型或复杂环境时鲁棒性不足。
- 创新：将MIFF模块集成到XLSR-Mamba框架中，形成一个完整的检测系统，并在多个高难度评估集上进行全面的实证评估。
- 收益：系统在ASVspoof 2021 DF（1.68% EER）和In-The-Wild（5.66% EER）数据集上取得了具有竞争力的结果，证明了方法的有效性。
在极具挑战性的编解码器和声码器细分条件下验证了鲁棒性：
- 局限：部分检测器在特定类型的生成伪造（如自回归神经声码器）上表现不佳。
- 创新：在表2中详细分析了在不同声码器（T, C, N, Nn, U, P）和9种编解码器条件下的表现。
- 收益：结果显示，该方法在大部分条件下优于或持平于XLSR-Mamba，尤其在检测自回归神经声码器（N）伪造时，池化EER从3.32%降至2.57%（22.5%相对提升），表明其能有效捕捉高保真生成模型的细微伪迹。

🔬 细节详述

训练数据：在ASVspoof 2019 LA数据集上进行训练和验证，包含约25,000个语音片段，来自6种TTS和VC攻击类型。
数据增强：遵循XLSR-Mamba，使用了RawBoost进行数据增强。
损失函数：论文中未明确说明损失函数的具体类型，但提到了使用“weighted cross-entropy loss”（加权交叉熵损失）。
训练策略：
- 优化器：Adam优化器。
- 学习率：1e-6。
- 权重衰减：1e-4。
- Batch Size：20。
- 音频片段长度：4秒（64,600个样本点）。
- 模型选择：在验证集上选择最佳性能的检查点进行评估。
关键超参数：
- Mamba层数（N）：12。
- SE模块中的缩减比（r）：2。
- 特征维度：对于DF和In-The-Wild数据集为256；对于LA数据集保持原始1024维（未降维）。
训练硬件：论文中未说明。
推理细节：论文中未说明具体的解码策略、温度、beam size等，因为任务为分类而非生成。
正则化技巧：使用了数据增强（RawBoost）和层归一化（LayerNorm），未提及其他特定正则化技巧。

📊 实验结果

主要评估数据集为ASVspoof 2021 LA、DF和In-The-Wild，主要评估指标为EER（等错误率）。

表1：与现有最优单系统在ASVspoof 2021评估集上的性能对比（EER%）

系统	LA	DF	In-The-Wild
XLSR+AASIST [21]	0.82	2.85	10.46
XLSR+Conformer [5]	0.97	2.58	8.42
XLSR+OCKD [24]	0.90	2.27	7.68
XLSR+conf.ensemble [12]	-	2.03	-
XLSR+SLS [6]	2.87	1.92	7.46
XLSR-Mamba [7]	0.93	1.88	6.71
Ours	0.83	1.68	5.66

注：表中“Ours”为本文方法。

关键结论：本文方法在DF数据集上取得了最优结果（1.68% EER），在LA和In-The-Wild数据集上也取得了极具竞争力的结果。与基线XLSR-Mamba相比，在三个数据集上均有提升，尤其是在In-The-Wild数据集上实现了15.6%的相对EER降低。

不同特征维度对性能的影响图2（对应论文图2）：展示了特征维度（144， 256， 512， 1024）对DF和In-The-Wild数据集EER的影响。关键结论是：特征维度为256时性能最佳。

表3：MIFF模块消融研究

配置	LA	DF	In-The-Wild
w/o SE
Mean Pooling	1.83	1.99	6.01
Max Pooling	2.32	2.69	6.53
Sum	1.50	1.96	5.98
w/ SE
+ Mean	2.27	1.98	6.03
+ Max	2.47	2.06	6.04
+ Sum (Ours)	0.83	1.68	5.66

注：“w/o SE”表示未使用SE块，仅简单聚合；“w/ SE”表示使用SE块进行加权。

关键结论：简单求和（Sum）在无SE时已是较好的聚合策略；结合SE块后，采用求和（Sum）策略取得了最优性能，显著优于平均池化和最大池化。这证实了动态SE加权与简单求和结合的有效性。

表4：双向融合机制消融研究

Forward	Backward	LA	DF	In-The-Wild
×	×	0.93	1.88	6.71
×	✓	1.28	2.02	5.93
✓	×	1.53	1.85	5.81
✓	✓	0.83	1.68	5.66

注：“✓”表示应用MIFF模块，“×”表示不应用。

关键结论：完整的双向模型（Forward ✓, Backward ✓）在所有数据集上都取得了最佳性能，显著优于无融合基线和单向变体，证明了从两个时间方向融合中间层特征对于增强鲁棒性至关重要。

⚖️ 评分理由

学术质量：6.0/7。创新性（3/7）：MIFF模块设计合理，有效，但属于对现有技术（SE网络、特征融合）在特定任务（Mamba层融合）上的成功应用，而非基础性的架构创新。技术正确性（2/2）：方法设计合理，实验验证充分，结果一致。实验充分性（2/2）：实验设计全面，包括多数据集对比、细粒度分析、详尽的消融研究，证据链完整。
选题价值：1.5/2。前沿性（0.8/1）：音频深度伪造检测是前沿领域，鲁棒性提升是持续的研究热点。潜在影响（0.7/1）：研究成果可直接应用于语音安全防护，具有明确的实用价值和商业潜力。
开源与复现加成：0.0/1。代码、模型权重、训练脚本均未公开，完全复现需要依赖论文描述和基线模型的实现，因此得分为0。

← 返回 ICASSP 2026 论文分析

📄 Robust Deepfake Audio Detection via Multi-Level Intermediate Feature Fusion#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文