Robust Deepfake Audio Detection via Multi-Level Intermediate Feature Fusion
📄 Robust Deepfake Audio Detection via Multi-Level Intermediate Feature Fusion #音频深度伪造检测 #特征融合 #自监督学习 #鲁棒性 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #特征融合 | #自监督学习 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Jinpeng Zhao(中山大学计算机科学与工程学院) 通讯作者:Peijia Zheng(中山大学计算机科学与工程学院) 作者列表:Jinpeng Zhao, Jian Zhao, Yufei Zhou, Peijia Zheng†, Yusong Du(中山大学计算机科学与工程学院) 💡 毒舌点评 亮点在于,论文非常务实地通过一个轻量级(仅增加0.002%计算量)的MIFF模块,有效挖掘了现有强大骨干网络(XLSR-Mamba)中被忽视的中间层信息,实现了“小改进,大收益”。短板是,该工作本质上是将成熟的注意力机制(SE block)应用于特定模型(Mamba)的中间层特征融合,创新深度有限,更像是一个有效但非突破性的工程优化。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用公开的ASVspoof 2019 LA、ASVspoof 2021 LA/DF和In-The-Wild数据集,未提及新的数据集。 Demo:未提及。 复现材料:论文提供了较为详细的实验设置(数据集、增强方法、优化器、学习率、batch size等)、超参数(Mamba层数、缩减比、特征维度)和消融实验细节,为复现提供了良好基础,但未提供完整的配置文件或脚本。 论文中引用的开源项目: XLSR-Mamba [7]:本文的主要基线模型。 XLS-R [2, 3, 6]:作为前端特征提取器。 Mamba [8]:作为后端骨干网络。 RawBoost [19]:用于数据增强。 Squeeze-and-Excitation Networks [17]:MIFF模块中注意力机制的灵感来源。 其他对比方法(AASIST [4], Conformer [5], SLS [6]等)。 📌 核心摘要 本文针对现有深度伪造音频检测器(如XLSR-Mamba)主要依赖最终层特征、导致中间层判别性信息丢失的问题,提出了多级中间特征融合模块。该模块应用于双列双向Mamba网络的每个方向,通过引入Squeeze-and-Excitation机制,自适应地计算并加权聚合所有Mamba层的输出特征,并与最终层的残差输出融合,从而生成一个更全面、更具判别力的表征用于分类。实验表明,在ASVspoof 2021 DF和In-The-Wild数据集上,该方法分别取得了1.68%和5.66%的EER,相比基线XLSR-Mamba(1.88%和6.71%)实现了10.6%和15.6%的相对误差降低,尤其在应对自回归神经声码器生成的伪音时表现突出。该研究证明了多层次特征融合对于增强检测模型鲁棒性的有效意义。主要局限性在于方法未在更多样化的攻击类型或跨语言场景下进行验证,且依赖于特定的XLSR前端和Mamba后端组合。 ...