EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection
📄 EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection #音频深度伪造检测 #多模态模型 #对比学习 #语音情感识别 #鲁棒性 ✅ 7.2/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #对比学习 #语音情感识别 | arxiv 学术质量 6.3/8 | 影响力 0.6/1 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Aritra Marik(达姆施塔特工业大学, ELIZA) 通讯作者:论文未明确标注通讯作者,但提供了三位作者的邮箱。 作者列表:Aritra Marik(达姆施塔特工业大学, ELIZA)、Marcel Klemt(达姆施塔特工业大学, hessian.AI)、Anna Rohrbach(达姆施塔特工业大学, hessian.AI) 💡 毒舌点评 论文的核心价值在于系统性地将“情感一致性”作为深度伪造检测的高阶语义信号,并设计了专用模块(EmoForensics)进行建模。然而,其“增强”效果高度依赖于强基线(SIMBA),且EmoForensics独立性能(在FakeAVCeleb上AUC 82.10%,在DeepSpeak v2上仅65.38%)与其声称的“互补性”角色存在巨大落差,这引发对其作为独立检测线索可靠性的根本质疑。在DeepSpeak v2数据集上的无效性也被轻描淡写地归因于数据集特性,缺乏深入分析。 📌 核心摘要 要解决什么问题:随着生成式AI快速发展,深度伪造技术不断更新,现有检测模型难以泛化至训练时未见过的伪造类型,这是当前深度伪造检测研究面临的主要挑战。 方法核心是什么:本文提出 Emo-Boost 框架,旨在通过引入高层语义线索——情感(Emotion)来提升现有基于低级特征的多模态检测器的跨操纵泛化能力。核心是设计了一个名为 EmoForensics 的情感感知检测器,它利用冻结的预训练情感识别模型提取音频和视觉情感表征,并通过时序 Transformer 建模模态内情感一致性,通过对比学习建模模态间情感一致性。Emo-Boost 通过简单的后期特征乘法融合,将 EmoForensics 的表征与现有多模态检测器(如 SIMBA)的表征相结合。 与已有方法相比新在哪里:相比于主要关注像素级、频谱级伪影或跨模态对齐(如音素-视位匹配)的现有方法,本文首次系统性地将“情感一致性”作为一种高阶、稳定的伪造信号,并显式地设计了针对情感表征的跨模态和时序建模模块。此外,与先前情感检测工作相比,本文强调了使用冻结的预训练模型来应对伪造数据导致的情感识别模型分布偏移问题。 主要实验结果如何:在 FakeAVCeleb 数据集的留一法(跨操纵)评估中,Emo-Boosted SIMBA 的平均 AUC 达到了 95.30%,相比基线 SIMBA(93.17%)提升了 2.13%。在 DeepSpeak v2 上,Emo-Boosted SIMBA(95.26%)与 SIMBA(95.30%)性能相当。消融实验证明,EmoForensics 中的时序 Transformer 和对比学习模块对性能有积极贡献。论文还通过稳定性分析(图4)显示,EmoForensics 在不同伪造类型上的性能波动(面积 12.50)小于 SIMBA(面积 32.98)。 模型 FakeAVCeleb (平均 AUC) DeepSpeak v2 (平均 AUC) SIMBA [19] 93.17 95.30 Emo-Boosted SIMBA 95.30 95.26 AVFF [34] 86.11 93.75 AVAD [12] 80.89 50.48 实际意义是什么:该工作为深度伪造检测提供了一个新的视角,即利用高阶语义信息作为补充线索,有助于提升检测器面对未知新伪造技术的鲁棒性,对内容安全审核领域有潜在应用价值。 主要局限性是什么:EmoForensics 作为独立检测器的性能较弱;在数据集 DeepSpeak v2 上未观察到明显的性能提升,作者归因于该数据集情感表达不够自然;融合策略(特征乘法)的理论依据和有效性分析不足;未探讨情感特征在不同伪造攻击下的失效模式。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及具体模型权重获取链接。 数据集:论文中使用了 FakeAVCeleb 和 DeepSpeak v2 数据集。论文中未提及具体获取链接或开源协议。 Demo:论文中未提及。 复现材料:论文中提供了详细的实现细节、训练配置和超参数设置(见 Section 4 Implementation Details)。论文中未提及模型检查点获取方式。 论文中引用的开源项目: POSTER (视觉情绪编码器): https://github.com/justinjohn0306/POSTER emotion2vec (音频情绪编码器): https://huggingface.co/lenagong/emotion2vec_finetuned SIMBA (用于Emo-Boost的基线多模态检测器): https://github.com/yzyou/SIMBA XceptionNet, LipForensics, AVAD, AVFF 等其他项目:论文中仅提及名称,未提供具体链接。 🏗️ 方法概述和架构 Figure 2: Overview of our proposed framework, Emo-Boost, and the emotion-based deepfake detection network, EmoForensics. ...