Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectional Modeling for Speech Spoofing Detection
📄 Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectional Modeling for Speech Spoofing Detection #语音伪造检测 #注意力机制 #状态空间模型 #端到端 #预训练 ✅ 7.0/10 | 前25% | #语音伪造检测 | #注意力机制 | #状态空间模型 #端到端 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Minjiao Yang(北京邮电大学网络空间安全学院) 通讯作者:Kangfeng Zheng(北京邮电大学网络空间安全学院,姓名后带星号*) 作者列表:Minjiao Yang(北京邮电大学网络空间安全学院)、Kangfeng Zheng(北京邮电大学网络空间安全学院)、Jujie Wang(北京邮电大学网络空间安全学院)、Xiaoyu Zhang(北京邮电大学网络空间安全学院)、Yaru Zhao(国际关系学院) 💡 毒舌点评 这篇论文在Mamba日益火热的语音防伪赛道上,为BiMamba-ST模型量身打造了一个结构精巧、消融实验扎实的融合模块,实验结果在多个公开基准上取得了稳定的提升,尤其是端到端方案在In-the-Wild数据集上的相对EER下降31%,显示了不错的泛化能力。然而,核心创新主要集中在对已有骨干网络输出端的信息整合方式,而非提出全新的检测范式或发现更本质的伪造痕迹,且缺乏代码和模型开源,限制了其在社区内被快速验证和应用的可能性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了公开的ASVspoof 2019/2021系列数据集和In-the-Wild数据集,但论文本身未公开额外数据集。 Demo:未提供在线演示。 复现材料:论文给出了较为详细的训练细节、超参数设置(学习率、批大小、优化器、训练轮数)、损失函数权重、数据增强算法选择以及硬件信息(单卡A800)。部分超参数(如Sinc卷积的具体参数、SE-Res2Net的内部结构)引用了先前工作[17, 19],但未在附录中完整复述。 论文中引用的开源项目:论文引用了多个开源项目或其官方实现作为基线进行对比,如RawBMamba [19], BiCrossMamba-ST [14], AASIST [6], SE-Rawformer [9], XLSR-Mamba [10]等。 总体开源情况:论文中未提及开源计划(代码、模型)。 📌 核心摘要 这篇论文针对语音伪造检测任务中,需要同时建模时频域、短时与长时依赖关系的挑战,提出了一种名为“三重注意力融合”(Tri-Attention Fusion)的模块。该方法以BiMamba-ST(一种双向Mamba的时频双分支骨干网络)的输出为基础,通过三个子模块逐步整合信息:局部域注意力(LDA)在通道维度自适应融合前向和反向扫描得到的特征;跨域注意力(CDA)通过通道Gram矩阵在共享通道空间内实现时域与频域特征的交互;全局表示池化(GRP)将序列特征聚合为固定维度的嵌入。该模块被集成到端到端和预训练(XLSR)两种前端中进行评估。实验结果在ASVspoof 2019 LA、2021 LA、2021 DF以及In-the-Wild四个数据集上,均取得了与现有最佳方法持平或超越的性能。例如,在端到端前端下,其在In-the-Wild数据集上的EER为33.48%,相比基线RawBMamba(48.53%)有31%的相对下降。该工作的核心意义在于证明了一个设计良好的渐进式融合模块能显著提升Mamba类模型在复杂伪造检测任务中的特征建模能力。主要局限性在于其创新是模块级的,且未开源代码与模型,复现依赖论文中的细节描述。 ...