📄 Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study

#音频深度伪造检测 #多模态模型 #监督微调 #跨模态

7.0/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #监督微调 #跨模态

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Songjun Cao(腾讯优图实验室) (注:论文中注明与Yuqi Li贡献均等)
  • 通讯作者:未说明
  • 作者列表:Songjun Cao¹, Yuqi Li¹, ², Yunpeng Luo¹, Jianjun Yin², Long Ma¹ (¹ 腾讯优图实验室, ² 复旦大学)

💡 毒舌点评

亮点:将“音视频深度伪造检测”巧妙地重塑为“多模态问答任务”,利用现成的顶级多模态大模型(Qwen 2.5 Omni)作为骨架,通过两阶段微调迅速达到了领域内顶尖水平,证明了LMM在多媒体取证中的巨大潜力。
短板:作为一篇方法论论文,其核心创新(SFT LMM)对基础模型架构的依赖性极强,且未提供任何开源资源(代码、模型、训练脚本),使得“复现即正义”的学术圈同仁难以验证和跟进,更像是一个概念验证(Pilot Study)。

📌 核心摘要

  1. 要解决的问题:现代生成模型制造的音视频深度伪造内容日益逼真,现有的多模态检测器多为任务特定的小模型,存在泛化能力弱、跨域性能差的问题。
  2. 方法核心:提出AV-LMMDetect,首次将监督微调的大型多模态模型(基于Qwen 2.5 Omni)用于端到端的音视频深度伪造检测。方法将检测任务重新定义为一个二元分类问答:“这个视频是真实的还是伪造的?”。训练采用两阶段策略:第一阶段通过LoRA对语言模型部分进行轻量级对齐;第二阶段解冻视觉和音频编码器进行全量微调,以最大化跨模态协同效应。
  3. 与已有方法相比新在哪里:不同于传统的小型任务特定模型(如CNN/Transformer流水线)或仅处理单模态的音频LLM,本工作首次证明了经过SFT的通用大型多模态模型(LMM)能够作为统一的检测器,直接处理原始的音视频流,并展现出更强的跨模态推理和泛化能力。
  4. 主要实验结果:在FakeAVCeleb数据集上,AV-LMMDetect取得了98.02%的准确率和99.2%的AUC,与当前SOTA方法AVFF(98.6%准确率)性能相当。在更具挑战性的多语言MAVOS-DD数据集上,该方法在“开放集完整”场景下达到了85.09%的准确率和0.96的mAP,显著优于所有对比方法,树立了新的SOTA。消融实验表明,两阶段训练策略缺一不可。
  5. 实际意义:为多媒体安全领域提供了一种新的、基于大模型基座的通用检测范式,有望提升检测器对未知生成模型和跨语言场景的泛化能力,维护媒体内容的真实性。
  6. 主要局限性:该方法完全依赖于特定的基座大模型(Qwen 2.5 Omni),其性能受限于该模型的能力边界;训练过程可能计算成本较高;论文未提供开源实现,限制了成果的快速验证与应用。

🏗️ 模型架构

AV-LMMDetect的整体架构直接建立在已有的大型多模态模型Qwen 2.5 Omni之上。其核心思路是将音视频深度伪造检测重新表述为一个视觉问答(VQA)任务。

整体输入输出流程:

  1. 输入:一段包含音频和视频(主要是人脸区域)的视频文件。
  2. 提示:向模型提供固定的文本提示:“Given the video, please assess if it’s Real or Fake?”。
  3. 处理:模型的视觉编码器处理视频帧,音频编码器处理音轨,生成视觉和音频的隐向量表征。这些表征与文本提示一起被送入语言模型(Omni Thinker)。
  4. 输出:语言模型(Omni Talker)根据多模态输入和提示,生成一个文本回答,仅限“Real”或“Fake”两个词。
  5. 决策:通过提取“Real”和“Fake”对应词表概率,进行二元分类。

主要组件与交互:

  • 视觉编码器 (Vision Encoder):负责提取视频的视觉特征。在第一阶段被冻结,第二阶段被解冻并参与微调。
  • 音频编码器 (Audio Encoder):负责提取音频的声学特征。处理策略与视觉编码器相同。
  • 语言模型 (Omni Thinker):接收来自两个编码器的隐向量(Vision Hidden, Audio Hidden)和文本嵌入(Text Token),进行跨模态融合与推理。其核心参数在第一阶段通过LoRA进行微调。
  • 解码器 (Omni Talker):基于语言模型的输出,生成最终的文本答案。
  • 两阶段微调流程(参考论文图2):
    • Stage 1 (LoRA Alignment):冻结视觉和音频编码器。仅对语言模型部分应用LoRA(Low-Rank Adaptation),进行轻量级微调,使模型的语言能力适应“Real/Fake”二分类任务。
    • Stage 2 (Full Fine-tuning):解冻视觉编码器和音频编码器。对包括编码器在内的所有模态参数进行全量微调,旨在让模型学习任务特定的多模态表征,更好地捕捉音视频间的不一致线索。

架构图1 图2:AV-LMMDetect的两阶段训练概览。第一阶段通过LoRA对齐,第二阶段进行音视频编码器全量微调。

架构图2 图1:与基座模型Qwen 2.5 Omni的性能对比示意图。展示了未微调的基座模型无法确定答案,而微调后的AV-LMMDetect正确识别为“Fake”。

💡 核心创新点

  1. 首次将SFT大型多模态模型(LMM)用于端到端音视频深度伪造检测:

    • 局限:此前方法要么是小型任务专用模型,要么是仅处理单模态(如音频)的大语言模型(如ALLM4ADD)。
    • 创新:证明了通用LMM(如Qwen 2.5 Omni)经过适当的监督微调后,能够作为一个强大的、统一的音视频伪造检测器。
    • 收益:在两个基准数据集上取得了有竞争力的结果,并在MAVOS-DD上达到SOTA,展示了LMM在该任务上的潜力。
  2. 将检测任务重新定义为受约束的问答任务:

    • 局限:传统方法通常输出连续的实数分数或特征向量,需要设计复杂的分类头或阈值。
    • 创新:直接利用语言模型的生成能力,将其限制在“Real”和“Fake”两个离散的token上进行分类。
    • 收益:简化了模型输出端的设计,并自然地利用了预训练语言模型的语义理解能力。
  3. 高效的“LoRA对齐 + 全量微调”两阶段训练策略:

    • 局限:直接全量微调庞大的LMM计算成本高,且可能导致模型遗忘原有知识。
    • 创新:先冻结强大的视觉/音频编码器,仅用LoRA高效微调语言模型部分,完成任务适配;再解冻编码器进行全量微调,深度挖掘跨模态线索。
    • 收益:平衡了训练效率与模型性能,消融实验证明了该策略的必要性和有效性。

🔬 细节详述

  • 训练数据:
    • FakeAVCeleb:英文音视频深度伪造数据集,使用70%进行微调,30%进行评估。
    • MAVOS-DD:多语言数据集(8种语言),包含250+小时真实/伪造视频。论文中未说明其用于训练的具体划分,但主要将其作为测试集评估泛化能力。数据增强未提及。
  • 损失函数:采用标准的语言建模损失(Language Modeling Loss)公式(1),最小化在微调数据集D_ft上模型预测序列的负对数似然。损失函数未提供额外权重。
  • 训练策略:论文未明确说明具体的学习率、优化器(如AdamW)、batch size、训练轮数、warmup策略、学习率调度器等详细超参数。(未说明)
  • 关键超参数:基础模型为Qwen 2.5 Omni,但论文未明确其具体版本(如参数量)、隐藏维度等。(未说明)
  • 训练硬件:论文中未提及使用的GPU型号、数量及训练时长。(未说明)
  • 推理细节:解码策略为贪心解码(因仅选择“Real”和“Fake”两个token中概率较高的一个)。温度、beam size等参数未提及。推理时直接比较P(Real)P(Fake)的logits进行分类。
  • 正则化技巧:第一阶段使用LoRA可视为一种参数高效正则化,防止大规模微调带来的灾难性遗忘。其他未提及。

📊 实验结果

主要对比实验:FakeAVCeleb数据集

方法模态AUC (%)Acc (%)
MesoNet [1]V60.957.3
Capsule [2]V70.968.8
Xception [3]V70.567.9
LipForensics [4]V82.480.2
Multiple-Attention [5]V79.377.6
SLADD [6]V72.170.5
AVN-J [7]A-V77.673.2
Emotion Don’t Lie [8]A-V79.878.1
AVFakeNet [9]A-V83.478.4
VFD [10]A-V86.181.5
AVoiD-DF [11]A-V89.283.7
AVFF [12]A-V99.198.6
AV-LMMDetect (Ours)A-V99.298.02

结论:在FakeAVCeleb(域内评估)上,AV-LMMDetect(99.2% AUC, 98.02% Acc)与当前SOTA方法AVFF(99.1% AUC, 98.6% Acc)性能持平,显著优于所有其他音视频及视觉方法。

主要对比实验:MAVOS-DD数据集 (Open-set full 场景)

方法微调In-domain (Acc)Open-set model (Acc)Open-set language (Acc)Open-set full (Acc)
AVFF [12]52.4522.5859.4635.34
Qwen 2.5 Omni [13]49.2520.8455.5032.26
AVFF [12]86.9375.3484.2677.68
MRDF [17]84.2778.3282.1578.87
TALL [18]78.0766.2073.2567.42
AV-LMMDetect (Ours)92.9287.9185.5885.09

结论:在MAVOS-DD的四个评测场景中,AV-LMMDetect在三个场景(In-domain, Open-set model, Open-set full)取得了最佳准确率。尤其在最具挑战性的Open-set full(同时开放模型和语言)场景下,准确率高达85.09%,大幅领先其他方法(次优为78.87%),展示了卓越的泛化能力。

消融实验 (MAVOS-DD Open-set full)

训练策略mAPAUCAcc (%)
Zero-shot0.610.4132.26
Stage 1 only0.820.6673.40
Stage 2 only0.860.8380.61
Stage 1 + Stage 2 (Ours)0.960.9285.09

结论:两阶段训练策略效果显著。仅进行LoRA对齐(Stage 1)即可将准确率从32.26%提升至73.40%;仅进行全量微调(Stage 2)可达80.61%;而组合两者(Ours)可达到最佳的85.09%,验证了策略的有效性。

混淆矩阵分析 (MAVOS-DD Open-set full) 混淆矩阵 图3:各方法在MAVOS-DD Open-set full场景下的混淆矩阵。 结论:AV-LMMDetect在该场景下的假阴性率最低(14.9%),即对伪造视频的检测能力最强;同时假阳性率也较低(7.5%),表明其区分真实和伪造视频的能力最为均衡和鲁棒。

⚖️ 评分理由

  • 学术质量:6.0/7:创新性在于成功地将SFT LMM范式引入音视频深度伪造检测这一具体任务,方法设计合理(两阶段训练、QA范式)。实验在多个数据集和复杂场景下进行,与大量基线进行了充分对比,并包含了必要的消融研究,结果可信且有力地支持了论点。扣分点在于核���方法的原创性(应用现有模型)有限,且部分关键训练细节缺失。
  • 选题价值:1.5/2:选题高度相关且重要,针对多媒体安全领域的核心挑战——深度伪造的跨模态检测。使用最前沿的大模型技术来解决这一实际问题,具有明确的应用前景和学术影响力。
  • 开源与复现加成:-0.5/1:尽管使用了公开数据集和基线,但论文未提供任何关于AV-LMMDetect本身的可复现信息(代码、模型、配置)。这严重阻碍了同行验证和后续研究,是重大缺陷。

🔗 开源详情

  • 代码:论文中未提及代码仓库链接。
  • 模型权重:未提及是否公开微调后的AV-LMMDetect模型权重。
  • 数据集:论文使用了公开数据集FakeAVCeleb和MAVOS-DD,并给出了引用和部分划分信息(如FakeAVCeleb使用70%/30%划分)。
  • Demo:未提及在线演示。
  • 复现材料:未提供训练细节、配置、检查点或附录说明。
  • 引用的开源项目:论文中明确引用了Qwen 2.5 Omni作为基座模型,以及MAVOS-DD、FakeAVCeleb等数据集。
  • 开源计划:论文中未提及开源计划。

← 返回 ICASSP 2026 论文分析