Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection
📄 Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection #音频深度伪造检测 #迁移学习 #自监督学习 #端到端 🔥 8.0/10 | 前10% | #音频深度伪造检测 | #迁移学习 #自监督学习 | #迁移学习 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jianqiao Cui(清华大学自动化系) 通讯作者:未说明(论文中星号标注了Bingyao Yu为通讯作者,但需根据星号原文确认,此处依据“*Corresponding author”和“∗”对应Bingyao Yu) 作者列表:Jianqiao Cui(清华大学自动化系, 长三角研究院),Bingyao Yu(清华大学自动化系),Shun Qin(清华大学长三角研究院) 💡 毒舌点评 本文提出的“离散语义标签与连续声学特征融合”思路新颖,且实验证明HAT模块对跨数据集鲁棒性提升显著。然而,其核心性能高度依赖于第三方模型GLM-4-Voice生成的语义标签质量,且所有实验均基于英语数据集,对跨语言泛化和实时攻击的鲁棒性未做验证,实际部署还需考量计算开销。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:论文中未提及公开其微调后的模型权重。 数据集:使用了公开的CodecFake和ASVspoof2021数据集,论文中未提及数据获取方式的特殊说明。 Demo:论文中未提及提供在线演示。 复现材料:论文提供了模型架构图(图1)、关键超参数设置(学习率、batch size、优化器、训练轮数等)和模型配置(冻结层策略、HRC参数),这些信息有助于复现。 论文中引用的开源项目: Whisper(OpenAI):作为核心骨干网络。 GLM-4-Voice(THUDM):用于生成离散语义标签。 CodecFake、ASVspoof2021:作为评估基准数据集。 📌 核心摘要 该论文旨在解决当前基于神经编解码器的语音合成技术生成的深度伪造音频难以被现有检测方法有效识别的问题。其核心方法是将预训练的Whisper模型用于音频深度伪造检测,并引入两个关键模块:1)混合音频标记(HAT),将来自GLM-4-Voice的离散语义标签与Whisper编码器的连续声学特征进行融合,以捕捉语义与声学之间的不一致;2)分层残差连接(HRC),通过自适应地选择和整合Whisper编码器不同层次的输出特征,来保留多层次的伪造线索。与已有的单模态声学特征方法或简单的特征加权和方法相比,该方法能更有效地利用语义信息并保留关键的层次特征。在ASVspoof2021 DF、LA和CodecFake验证集上的实验表明,其最佳模型(Wsp with HAT&HRC)取得了0.67%的平均等错误率(EER),相较于强基线模型(如XLS-R)的EER降低了高达46%。具体实验数据如下: ...