📄 Tell me Habibi, is it Real or Fake?

#音视频深度伪造检测 #数据集 #多语言 #零样本

🔥 8.5/10 | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本

学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高

👥 作者与机构

  • 第一作者:Kartik Kuckreja (MBZUAI)
  • 通讯作者:未明确标注,但通讯邮箱主要为 kartik.kuckreja@mbzuai.ac.aeparul@monash.edu
  • 作者列表:Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University)

💡 毒舌点评

亮点:该论文精准地击中了当前深度伪造检测领域的一个重大盲点——对多语言,尤其是像阿拉伯语这样广泛使用“代码切换”的语言场景的忽视,并为此构建了迄今规模最大、最复杂的专用数据集,为社区提供了极具价值的“练兵场”。短板:论文的重点在于“提出问题”和“提供工具”,而在于“解决问题”(即提出更先进的检测模型)方面着墨较少,其提出的检测方法仅为现有模型的基准测试。数据集生成依赖于GPT-4.1-mini等模型,其指令跟随的局限性可能导致部分“语义+翻译”模式的伪造文本语义变化不足,作者也承认了这一点。

🔗 开源详情

  • 代码:论文中未提及具体的代码仓库链接,但声明“Data-generation code and evaluation scripts will be made public”。
  • 模型权重:论文中未提及公开生成管道所用的TTS和唇形同步模型的具体权重链接,这些模型均为第三方已发表模型。
  • 数据集:论文明确声明“The dataset is public.”,并提供了访问需要签署的EULA协议图示。
  • Demo:未提及。
  • 复现材料:论文提供了生成管道的详细描述、文本篡改的提示示例(附录A.6)、数据分布图表、以及评估协议。但超参数、具体配置文件等未在文中给出。
  • 论文中引用的开源项目:XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, Whisper, YOLO-v5, wav2vec2, Jais-3B, Qwen-2.5-7B等。

📌 核心摘要

这篇论文旨在解决深度伪造检测研究中对多语言,特别是阿拉伯语-英语“代码切换”(在同一次话语中混合使用两种语言)场景严重忽视的问题。为解决此问题,论文提出了一个全新的核心贡献:构建并开源了首个大规模的阿拉伯语-英语音视频深度伪造数据集 ArEnAV。该数据集包含约38.7万个视频(超过765小时),通过一个创新的生成管道创建,该管道整合了多个文本转语音(TTS)和唇形同步模型,并利用GPT-4.1-mini进行8种不同规则的文本篡改,以模拟真实世界的代码切换和方言变体。与现有的多语言数据集(如PolyGlotFake)相比,ArEnAV首次专注于并显式生成“句内代码切换”的伪造内容。实验表明,当前最先进的深度伪造检测模型在ArEnAV上的性能出现断崖式下跌(例如,BA-TFD+模型的AP@0.5从AV-1M上的44.42%降至3.74%),甚至人类参与者的检测准确率也仅为60%,这证明了该数据集的挑战性和新场景的真实性。该工作的实际意义在于为开发更鲁棒、适用于全球多语言环境的深度伪造检测系统提供了必需的基准资源。主要局限性包括:数据生成管线依赖现有ASR和LLM,可能导致转录噪声和语义变化不足;数据集目前仅覆盖阿拉伯语和英语两种语言。

🏗️ 模型架构

论文的核心并非提出一个全新的检测模型,而是设计并实现了一个复杂的数据生成管道,用于创建ArEnAV数据集。该管道的架构如图所示,主要分为三个阶段:

  1. 数据收集与预处理:基于YouTube视频,进行场景分割、人脸检测与跟踪,并使用Whisper-v2进行语音识别获得转录文本,再用多语言wav2vec2模型进行强制对齐,获取词级时间戳。

ArEnAV数据生成管道示意图

图1:ArEnAV数据集生成管道示意图。a) 展示了从原始视频提取音视频、文本,到使用GPT-4.1-mini进行代码切换文本篡改,再到语音合成和人脸唇形同步生成的全流程。

  1. 转录文本篡改:使用GPT-4.1-mini,通过少样本提示,根据8种预定义规则对原始转录进行修改。这些规则分为三大类操作:仅改变语义改变语义+改变阿拉伯方言改变语义+翻译成英语,旨在生成多样化的伪造文本。

  2. 音视频合成:

    • 音频生成:采用四种组合策略生成合成语音:a) XTTS-v2;b) XTTS-v2 + OpenVoice-v2(说话人转换);c) Fairseq阿拉伯语TTS + OpenVoice-v2;d) GPT-TTS + OpenVoice-v2。生成后使用Whisper-Turbo进行验证。
    • 视觉生成:采用两种基于扩散模型的唇形同步方法:Diff2Lip和LatentSync,根据篡改后的音频重新生成嘴唇运动区域的视频帧。

关键设计选择在于将语言现象(代码切换、方言变体) 与伪造操作(替换、插入、删除) 结合,并通过多种生成模型组合来提高多样性和真实性。

💡 核心创新点

  1. 首个聚焦代码切换的音视频深度伪造数据集:提出了ArEnAV,专门针对阿拉伯语-英语句内代码切换场景。现有数据集(如AV-1M, FakeAVCeleb)均未涉及此现象,这是对深度伪造数据生态的重要补充。
  2. 复杂且可控的文本篡改管线:设计了8种文本修改模式,并利用LLM(GPT-4.1-mini)实现自动化、多样化的语义与语言变体替换,确保了伪造内容在文本层面的合理性和挑战性。
  3. 多技术融合的生成管道:集成了4种TTS模型和2种唇形同步模型,以模拟真实世界中可能遇到的不同质量和类型的伪造内容,提高了数据集的覆盖范围和难度。
  4. 全面的基准测试与揭示的新挑战:不仅对现有SOTA模型进行了广泛测试,还通过用户研究揭示了人类在检测此类伪造内容时的困难(尤其是当伪造发生在英语单词时),证明了该数据集带来的新挑战。

🔬 细节详述

  • 训练数据:数据来源为YouTube视频(通过VisPer的阿拉伯语子集获取)。预处理包括场景检测分割视频、使用Yolov5进行人脸检测与跟踪。数据增强方面,在真实和伪造视频上应用了15种视觉滤镜(如高斯模糊、椒盐噪声)和10种音频扰动(如时间拉伸、随机响度)以模拟真实世界条件。
  • 损失函数:论文未提及生成管道中TTS和唇形同步模型的具体训练损失函数。这些模型(如XTTS, Diff2Lip)均为已发表的预训练模型。
  • 训练策略:对于基准测试中的检测模型(如BA-TFD),论文提到了其训练细节:在ArEnAV上进行微调时,对帧进行子采样以消除类别不平衡。具体学习率、优化器等超参数未说明。
  • 关键超参数:未说明生成管道中GPT-4.1-mini的提示超参数(如temperature),也未说明TTS和唇形同步模型的具体配置参数。
  • 训练硬件:生成ArEnAV数据集总耗时约800个GPU小时(使用NVIDIA RTX-6000 GPU)。此外,使用了价值200美元的OpenAI API额度。
  • 推理细节:对于检测模型的评估,视频级预测通过帧级预测的最大投票法聚合。零样本评估时,使用VideoLLaMA2等模型并提示其输出伪造概率分数。
  • 正则化或稳定训练技巧:未说明。

📊 实验结果

论文对ArEnAV进行了全面的基准测试,包括时序定位和检测两个任务。

时序定位结果(测试集):

集合模型模态AP@0.5AP@0.95AR@50AR@10
全集BA-TFD+ (AV-1M预训练)AV3.740.0130.751.83
全集BA-TFD (AV-1M预训练)AV2.420.0122.301.67
全集XceptionV22.500.5819.1319.13
子集V (无音频伪造)BA-TFD+ (AV-1M预训练)AV5.650.0231.092.05
子集A (无视觉伪造)BA-TFD+ (AV-1M预训练)AV4.350.0028.352.00
结论:与在LAV-DF或AV-1M上的性能相比,所有模型在ArEnAV上的AP@0.5大幅下降超过35%,证明了该数据集的极高难度。

检测结果(测试集):

预训练数据方法模态完整集 AUC完整集 Acc.子集V AUC子集A AUC
零样本ASVSpoof-19XLSR-MambaA39.1952.7752.7352.50
AV-1MBA-TFDAV61.7326.0066.4259.36
AV-1M & ArEnAV (微调)BA-TFDAV75.9144.3177.6472.21
AV-1M & ArEnAV (微调)BA-TFD+AV79.9727.4484.2072.89
结论:在AV-1M上预训练的模型性能不佳,经过ArEnAV微调后性能显著提升,BA-TFD+在完整集上达到82% AUC(论文提及),但仍存在提升空间。

跨数据集检测比较(% AUC):

方法ArEnAVDFDCFF++CelebDF
Face-X-Ray55.5680.9298.5280.58
LipForensics49.7673.5097.1082.40
LAA-Net50.0486.9499.96-
结论:在FF++, DFDC等数据集上训练的SOTA模型,在ArEnAV上性能接近随机猜测(~50% AUC),表明它们无法泛化到多语言代码切换场景。

用户研究结果: 人类参与者对ArEnAV视频的检测准确率仅为60.00%,AP@0.5为0.79。主要分类理由是“语音不清晰”(36.5%)和“音视频不匹配”(25.1%)。当伪造发生在英语单词时,85%的用户未能识别。

⚖️ 评分理由

  • 学术质量:6.5/7:论文的核心工作(数据集构建)在设计、规模和严谨性上非常出色。实验部分全面且有说服力,清晰地展示了问题的严重性和数据集的有效性。扣分点在于没有提出新的检测模型,且部分生成细节(如LLM提示参数)未公开。
  • 选题价值:1.8/2:选题极具前瞻性和必要性,直指多语言全球化背景下深度伪造检测的关键短板,为社区提供了急需的研究资源,应用潜力大。
  • 开源与复现加成:0.8/1:承诺公开数据集是最大亮点。但代码、模型权重的开源计划不够具体,评估脚本的复现信息也未详细说明,因此给予部分加分。


← 返回 ICLR 2026 论文分析