📄 Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study

#音频深度伪造检测 #多模态模型 #监督微调 #跨模态

✅ 7.0/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #监督微调 #跨模态

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高

👥 作者与机构

第一作者：Songjun Cao（腾讯优图实验室）（注：论文中注明与Yuqi Li贡献均等）
通讯作者：未说明
作者列表：Songjun Cao¹, Yuqi Li¹, ², Yunpeng Luo¹, Jianjun Yin², Long Ma¹ （¹ 腾讯优图实验室， ² 复旦大学）

💡 毒舌点评

亮点：将“音视频深度伪造检测”巧妙地重塑为“多模态问答任务”，利用现成的顶级多模态大模型（Qwen 2.5 Omni）作为骨架，通过两阶段微调迅速达到了领域内顶尖水平，证明了LMM在多媒体取证中的巨大潜力。
短板：作为一篇方法论论文，其核心创新（SFT LMM）对基础模型架构的依赖性极强，且未提供任何开源资源（代码、模型、训练脚本），使得“复现即正义”的学术圈同仁难以验证和跟进，更像是一个概念验证（Pilot Study）。

🔗 开源详情

代码：论文中未提及代码仓库链接。
模型权重：未提及是否公开微调后的AV-LMMDetect模型权重。
数据集：论文使用了公开数据集FakeAVCeleb和MAVOS-DD，并给出了引用和部分划分信息（如FakeAVCeleb使用70%/30%划分）。
Demo：未提及在线演示。
复现材料：未提供训练细节、配置、检查点或附录说明。
引用的开源项目：论文中明确引用了Qwen 2.5 Omni作为基座模型，以及MAVOS-DD、FakeAVCeleb等数据集。
开源计划：论文中未提及开源计划。

📌 核心摘要

要解决的问题：现代生成模型制造的音视频深度伪造内容日益逼真，现有的多模态检测器多为任务特定的小模型，存在泛化能力弱、跨域性能差的问题。
方法核心：提出AV-LMMDetect，首次将监督微调的大型多模态模型（基于Qwen 2.5 Omni）用于端到端的音视频深度伪造检测。方法将检测任务重新定义为一个二元分类问答：“这个视频是真实的还是伪造的？”。训练采用两阶段策略：第一阶段通过LoRA对语言模型部分进行轻量级对齐；第二阶段解冻视觉和音频编码器进行全量微调，以最大化跨模态协同效应。
与已有方法相比新在哪里：不同于传统的小型任务特定模型（如CNN/Transformer流水线）或仅处理单模态的音频LLM，本工作首次证明了经过SFT的通用大型多模态模型（LMM）能够作为统一的检测器，直接处理原始的音视频流，并展现出更强的跨模态推理和泛化能力。
主要实验结果：在FakeAVCeleb数据集上，AV-LMMDetect取得了98.02%的准确率和99.2%的AUC，与当前SOTA方法AVFF（98.6%准确率）性能相当。在更具挑战性的多语言MAVOS-DD数据集上，该方法在“开放集完整”场景下达到了85.09%的准确率和0.96的mAP，显著优于所有对比方法，树立了新的SOTA。消融实验表明，两阶段训练策略缺一不可。
实际意义：为多媒体安全领域提供了一种新的、基于大模型基座的通用检测范式，有望提升检测器对未知生成模型和跨语言场景的泛化能力，维护媒体内容的真实性。
主要局限性：该方法完全依赖于特定的基座大模型（Qwen 2.5 Omni），其性能受限于该模型的能力边界；训练过程可能计算成本较高；论文未提供开源实现，限制了成果的快速验证与应用。

🏗️ 模型架构

AV-LMMDetect的整体架构直接建立在已有的大型多模态模型Qwen 2.5 Omni之上。其核心思路是将音视频深度伪造检测重新表述为一个视觉问答（VQA）任务。

整体输入输出流程：

输入：一段包含音频和视频（主要是人脸区域）的视频文件。
提示：向模型提供固定的文本提示：“Given the video, please assess if it’s Real or Fake?”。
处理：模型的视觉编码器处理视频帧，音频编码器处理音轨，生成视觉和音频的隐向量表征。这些表征与文本提示一起被送入语言模型（Omni Thinker）。
输出：语言模型（Omni Talker）根据多模态输入和提示，生成一个文本回答，仅限“Real”或“Fake”两个词。
决策：通过提取“Real”和“Fake”对应词表概率，进行二元分类。

主要组件与交互：

视觉编码器 (Vision Encoder)：负责提取视频的视觉特征。在第一阶段被冻结，第二阶段被解冻并参与微调。
音频编码器 (Audio Encoder)：负责提取音频的声学特征。处理策略与视觉编码器相同。
语言模型 (Omni Thinker)：接收来自两个编码器的隐向量（Vision Hidden, Audio Hidden）和文本嵌入（Text Token），进行跨模态融合与推理。其核心参数在第一阶段通过LoRA进行微调。
解码器 (Omni Talker)：基于语言模型的输出，生成最终的文本答案。
两阶段微调流程（参考论文图2）：
- Stage 1 (LoRA Alignment)：冻结视觉和音频编码器。仅对语言模型部分应用LoRA（Low-Rank Adaptation），进行轻量级微调，使模型的语言能力适应“Real/Fake”二分类任务。
- Stage 2 (Full Fine-tuning)：解冻视觉编码器和音频编码器。对包括编码器在内的所有模态参数进行全量微调，旨在让模型学习任务特定的多模态表征，更好地捕捉音视频间的不一致线索。

架构图1 图2：AV-LMMDetect的两阶段训练概览。第一阶段通过LoRA对齐，第二阶段进行音视频编码器全量微调。

架构图2 图1：与基座模型Qwen 2.5 Omni的性能对比示意图。展示了未微调的基座模型无法确定答案，而微调后的AV-LMMDetect正确识别为“Fake”。

💡 核心创新点

首次将SFT大型多模态模型（LMM）用于端到端音视频深度伪造检测：
- 局限：此前方法要么是小型任务专用模型，要么是仅处理单模态（如音频）的大语言模型（如ALLM4ADD）。
- 创新：证明了通用LMM（如Qwen 2.5 Omni）经过适当的监督微调后，能够作为一个强大的、统一的音视频伪造检测器。
- 收益：在两个基准数据集上取得了有竞争力的结果，并在MAVOS-DD上达到SOTA，展示了LMM在该任务上的潜力。
将检测任务重新定义为受约束的问答任务：
- 局限：传统方法通常输出连续的实数分数或特征向量，需要设计复杂的分类头或阈值。
- 创新：直接利用语言模型的生成能力，将其限制在“Real”和“Fake”两个离散的token上进行分类。
- 收益：简化了模型输出端的设计，并自然地利用了预训练语言模型的语义理解能力。
高效的“LoRA对齐 + 全量微调”两阶段训练策略：
- 局限：直接全量微调庞大的LMM计算成本高，且可能导致模型遗忘原有知识。
- 创新：先冻结强大的视觉/音频编码器，仅用LoRA高效微调语言模型部分，完成任务适配；再解冻编码器进行全量微调，深度挖掘跨模态线索。
- 收益：平衡了训练效率与模型性能，消融实验证明了该策略的必要性和有效性。

🔬 细节详述

训练数据：
- FakeAVCeleb：英文音视频深度伪造数据集，使用70%进行微调，30%进行评估。
- MAVOS-DD：多语言数据集（8种语言），包含250+小时真实/伪造视频。论文中未说明其用于训练的具体划分，但主要将其作为测试集评估泛化能力。数据增强未提及。
损失函数：采用标准的语言建模损失（Language Modeling Loss）公式(1)，最小化在微调数据集D_ft上模型预测序列的负对数似然。损失函数未提供额外权重。
训练策略：论文未明确说明具体的学习率、优化器（如AdamW）、batch size、训练轮数、warmup策略、学习率调度器等详细超参数。（未说明）
关键超参数：基础模型为Qwen 2.5 Omni，但论文未明确其具体版本（如参数量）、隐藏维度等。（未说明）
训练硬件：论文中未提及使用的GPU型号、数量及训练时长。（未说明）
推理细节：解码策略为贪心解码（因仅选择“Real”和“Fake”两个token中概率较高的一个）。温度、beam size等参数未提及。推理时直接比较P(Real)和P(Fake)的logits进行分类。
正则化技巧：第一阶段使用LoRA可视为一种参数高效正则化，防止大规模微调带来的灾难性遗忘。其他未提及。

📊 实验结果

主要对比实验：FakeAVCeleb数据集

方法	模态	AUC (%)	Acc (%)
MesoNet [1]	V	60.9	57.3
Capsule [2]	V	70.9	68.8
Xception [3]	V	70.5	67.9
LipForensics [4]	V	82.4	80.2
Multiple-Attention [5]	V	79.3	77.6
SLADD [6]	V	72.1	70.5
AVN-J [7]	A-V	77.6	73.2
Emotion Don’t Lie [8]	A-V	79.8	78.1
AVFakeNet [9]	A-V	83.4	78.4
VFD [10]	A-V	86.1	81.5
AVoiD-DF [11]	A-V	89.2	83.7
AVFF [12]	A-V	99.1	98.6
AV-LMMDetect (Ours)	A-V	99.2	98.02

结论：在FakeAVCeleb（域内评估）上，AV-LMMDetect（99.2% AUC, 98.02% Acc）与当前SOTA方法AVFF（99.1% AUC, 98.6% Acc）性能持平，显著优于所有其他音视频及视觉方法。

主要对比实验：MAVOS-DD数据集 (Open-set full 场景)

方法	微调	In-domain (Acc)	Open-set model (Acc)	Open-set language (Acc)	Open-set full (Acc)
AVFF [12]	✗	52.45	22.58	59.46	35.34
Qwen 2.5 Omni [13]	✗	49.25	20.84	55.50	32.26
AVFF [12]	✓	86.93	75.34	84.26	77.68
MRDF [17]	✓	84.27	78.32	82.15	78.87
TALL [18]	✓	78.07	66.20	73.25	67.42
AV-LMMDetect (Ours)	✓	92.92	87.91	85.58	85.09

结论：在MAVOS-DD的四个评测场景中，AV-LMMDetect在三个场景（In-domain, Open-set model, Open-set full）取得了最佳准确率。尤其在最具挑战性的Open-set full（同时开放模型和语言）场景下，准确率高达85.09%，大幅领先其他方法（次优为78.87%），展示了卓越的泛化能力。

消融实验 (MAVOS-DD Open-set full)

训练策略	mAP	AUC	Acc (%)
Zero-shot	0.61	0.41	32.26
Stage 1 only	0.82	0.66	73.40
Stage 2 only	0.86	0.83	80.61
Stage 1 + Stage 2 (Ours)	0.96	0.92	85.09

结论：两阶段训练策略效果显著。仅进行LoRA对齐（Stage 1）即可将准确率从32.26%提升至73.40%；仅进行全量微调（Stage 2）可达80.61%；而组合两者（Ours）可达到最佳的85.09%，验证了策略的有效性。

混淆矩阵分析 (MAVOS-DD Open-set full) 图3：各方法在MAVOS-DD Open-set full场景下的混淆矩阵。结论：AV-LMMDetect在该场景下的假阴性率最低（14.9%），即对伪造视频的检测能力最强；同时假阳性率也较低（7.5%），表明其区分真实和伪造视频的能力最为均衡和鲁棒。

⚖️ 评分理由

学术质量：6.0/7：创新性在于成功地将SFT LMM范式引入音视频深度伪造检测这一具体任务，方法设计合理（两阶段训练、QA范式）。实验在多个数据集和复杂场景下进行，与大量基线进行了充分对比，并包含了必要的消融研究，结果可信且有力地支持了论点。扣分点在于核��方法的原创性（应用现有模型）有限，且部分关键训练细节缺失。
选题价值：1.5/2：选题高度相关且重要，针对多媒体安全领域的核心挑战——深度伪造的跨模态检测。使用最前沿的大模型技术来解决这一实际问题，具有明确的应用前景和学术影响力。
开源与复现加成：-0.5/1：尽管使用了公开数据集和基线，但论文未提供任何关于AV-LMMDetect本身的可复现信息（代码、模型、配置）。这严重阻碍了同行验证和后续研究，是重大缺陷。

← 返回 ICASSP 2026 论文分析

📄 Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文