Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing
📄 Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing #音频深度伪造检测 #图神经网络 #自监督学习 #动态卷积 🔥 8.5/10 | 前10% | #音频深度伪造检测 | #图神经网络 | #自监督学习 #动态卷积 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yingdong Li(中山大学计算机学院) 通讯作者:Kun Zeng(中山大学计算机学院, zengkun2@mail.sysu.edu.cn) 作者列表:Yingdong Li(中山大学计算机学院)、Chengxin Chen(中国移动互联网公司,中国移动通信集团公司)、Dong Chen(中山大学计算机学院)、Nanli Zeng(中国移动互联网公司,中国移动通信集团公司)、Kun Zeng(中山大学计算机学院) 💡 毒舌点评 亮点在于将动态卷积与物理视角的多视图频谱分析相结合,并为强大的AASIST图网络框架增加了巧妙的局部信息聚合机制(LVM和SRM),技术融合顺畅且针对性强。短板是双分支前端(SSL + 频谱)不可避免地带来了计算开销,论文未对模型效率(如参数量、推理速度)进行分析或讨论,这在实际部署中可能是一个考量点。 📌 核心摘要 问题:针对日益多样的语音深度伪造技术,现有音频反欺骗方法在模型复杂度和鲁棒性之间难以取得平衡,且固定的特征提取方式难以自适应地捕获不同尺度的伪造痕迹。 方法核心:提出一个双分支前端与增强图网络后端相结合的模型。前端包含自监督(SSL)分支和新设计的频谱分析分支。频谱分支采用“对称性引导内核选择(SKS)”块,通过物理视角(时间/频谱对称性)分析生成上下文图,动态加权不同尺度的卷积核。后端在AASIST框架上新增了“局部变化主节点(LVM)”和“稀疏残差主节点(SRM)”,以建模精细的局部伪造模式。 创新点:(i) 利用频谱对称性指导动态卷积,自适应捕获多尺度伪造伪影;(ii) 采用残差式快捷连接简化前端特征融合,无需复杂融合模块;(iii) 增强图神经网络后端,引入LVM和SRM节点以聚合局部判别信息。 实验结果:在ASVspoof 2019 LA和中文伪造语音数据集(CFSD)上取得了当前最优性能,EER分别为0.08%和0.10%,min t-DCF为0.0024。消融实验证实了每个提出组件的有效性。 实际意义:该模型能有效、鲁棒地检测合成与伪造语音,可增强语音生物识别等系统的安全性,对抵御日益逼真的语音伪造攻击具有重要价值。 主要局限性:未分析模型的计算效率(参数量、FLOPs、推理延迟),可能限制其在资源受限场景的应用;双分支架构对SSL预训练模型的依赖性较强。 🏗️ 模型架构 模型整体架构为双分支前端 + 增强图网络后端,具体流程如下: ...