Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study
📄 Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study #音频深度伪造检测 #多模态模型 #监督微调 #跨模态 ✅ 7.0/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #监督微调 #跨模态 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Songjun Cao(腾讯优图实验室) (注:论文中注明与Yuqi Li贡献均等) 通讯作者:未说明 作者列表:Songjun Cao¹, Yuqi Li¹, ², Yunpeng Luo¹, Jianjun Yin², Long Ma¹ (¹ 腾讯优图实验室, ² 复旦大学) 💡 毒舌点评 亮点:将“音视频深度伪造检测”巧妙地重塑为“多模态问答任务”,利用现成的顶级多模态大模型(Qwen 2.5 Omni)作为骨架,通过两阶段微调迅速达到了领域内顶尖水平,证明了LMM在多媒体取证中的巨大潜力。 短板:作为一篇方法论论文,其核心创新(SFT LMM)对基础模型架构的依赖性极强,且未提供任何开源资源(代码、模型、训练脚本),使得“复现即正义”的学术圈同仁难以验证和跟进,更像是一个概念验证(Pilot Study)。 📌 核心摘要 要解决的问题:现代生成模型制造的音视频深度伪造内容日益逼真,现有的多模态检测器多为任务特定的小模型,存在泛化能力弱、跨域性能差的问题。 方法核心:提出AV-LMMDetect,首次将监督微调的大型多模态模型(基于Qwen 2.5 Omni)用于端到端的音视频深度伪造检测。方法将检测任务重新定义为一个二元分类问答:“这个视频是真实的还是伪造的?”。训练采用两阶段策略:第一阶段通过LoRA对语言模型部分进行轻量级对齐;第二阶段解冻视觉和音频编码器进行全量微调,以最大化跨模态协同效应。 与已有方法相比新在哪里:不同于传统的小型任务特定模型(如CNN/Transformer流水线)或仅处理单模态的音频LLM,本工作首次证明了经过SFT的通用大型多模态模型(LMM)能够作为统一的检测器,直接处理原始的音视频流,并展现出更强的跨模态推理和泛化能力。 主要实验结果:在FakeAVCeleb数据集上,AV-LMMDetect取得了98.02%的准确率和99.2%的AUC,与当前SOTA方法AVFF(98.6%准确率)性能相当。在更具挑战性的多语言MAVOS-DD数据集上,该方法在“开放集完整”场景下达到了85.09%的准确率和0.96的mAP,显著优于所有对比方法,树立了新的SOTA。消融实验表明,两阶段训练策略缺一不可。 实际意义:为多媒体安全领域提供了一种新的、基于大模型基座的通用检测范式,有望提升检测器对未知生成模型和跨语言场景的泛化能力,维护媒体内容的真实性。 主要局限性:该方法完全依赖于特定的基座大模型(Qwen 2.5 Omni),其性能受限于该模型的能力边界;训练过程可能计算成本较高;论文未提供开源实现,限制了成果的快速验证与应用。 🏗️ 模型架构 AV-LMMDetect的整体架构直接建立在已有的大型多模态模型Qwen 2.5 Omni之上。其核心思路是将音视频深度伪造检测重新表述为一个视觉问答(VQA)任务。 ...