📄 Tell me Habibi, is it Real or Fake?
#音视频深度伪造检测 #数据集 #多语言 #零样本
🔥 8.5/10 | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本
学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高
👥 作者与机构
- 第一作者:Kartik Kuckreja (MBZUAI)
- 通讯作者:未明确标注,但通讯邮箱主要为 kartik.kuckreja@mbzuai.ac.ae 和 parul@monash.edu
- 作者列表:Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University)
💡 毒舌点评
亮点:该论文精准地击中了当前深度伪造检测领域的一个重大盲点——对多语言,尤其是像阿拉伯语这样广泛使用“代码切换”的语言场景的忽视,并为此构建了迄今规模最大、最复杂的专用数据集,为社区提供了极具价值的“练兵场”。短板:论文的重点在于“提出问题”和“提供工具”,而在于“解决问题”(即提出更先进的检测模型)方面着墨较少,其提出的检测方法仅为现有模型的基准测试。数据集生成依赖于GPT-4.1-mini等模型,其指令跟随的局限性可能导致部分“语义+翻译”模式的伪造文本语义变化不足,作者也承认了这一点。
🔗 开源详情
- 代码:论文中未提及具体的代码仓库链接,但声明“Data-generation code and evaluation scripts will be made public”。
- 模型权重:论文中未提及公开生成管道所用的TTS和唇形同步模型的具体权重链接,这些模型均为第三方已发表模型。
- 数据集:论文明确声明“The dataset is public.”,并提供了访问需要签署的EULA协议图示。
- Demo:未提及。
- 复现材料:论文提供了生成管道的详细描述、文本篡改的提示示例(附录A.6)、数据分布图表、以及评估协议。但超参数、具体配置文件等未在文中给出。
- 论文中引用的开源项目:XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, Whisper, YOLO-v5, wav2vec2, Jais-3B, Qwen-2.5-7B等。
📌 核心摘要
这篇论文旨在解决深度伪造检测研究中对多语言,特别是阿拉伯语-英语“代码切换”(在同一次话语中混合使用两种语言)场景严重忽视的问题。为解决此问题,论文提出了一个全新的核心贡献:构建并开源了首个大规模的阿拉伯语-英语音视频深度伪造数据集 ArEnAV。该数据集包含约38.7万个视频(超过765小时),通过一个创新的生成管道创建,该管道整合了多个文本转语音(TTS)和唇形同步模型,并利用GPT-4.1-mini进行8种不同规则的文本篡改,以模拟真实世界的代码切换和方言变体。与现有的多语言数据集(如PolyGlotFake)相比,ArEnAV首次专注于并显式生成“句内代码切换”的伪造内容。实验表明,当前最先进的深度伪造检测模型在ArEnAV上的性能出现断崖式下跌(例如,BA-TFD+模型的AP@0.5从AV-1M上的44.42%降至3.74%),甚至人类参与者的检测准确率也仅为60%,这证明了该数据集的挑战性和新场景的真实性。该工作的实际意义在于为开发更鲁棒、适用于全球多语言环境的深度伪造检测系统提供了必需的基准资源。主要局限性包括:数据生成管线依赖现有ASR和LLM,可能导致转录噪声和语义变化不足;数据集目前仅覆盖阿拉伯语和英语两种语言。
🏗️ 模型架构
论文的核心并非提出一个全新的检测模型,而是设计并实现了一个复杂的数据生成管道,用于创建ArEnAV数据集。该管道的架构如图所示,主要分为三个阶段:
- 数据收集与预处理:基于YouTube视频,进行场景分割、人脸检测与跟踪,并使用Whisper-v2进行语音识别获得转录文本,再用多语言wav2vec2模型进行强制对齐,获取词级时间戳。

图1:ArEnAV数据集生成管道示意图。a) 展示了从原始视频提取音视频、文本,到使用GPT-4.1-mini进行代码切换文本篡改,再到语音合成和人脸唇形同步生成的全流程。
转录文本篡改:使用GPT-4.1-mini,通过少样本提示,根据8种预定义规则对原始转录进行修改。这些规则分为三大类操作:
仅改变语义、改变语义+改变阿拉伯方言、改变语义+翻译成英语,旨在生成多样化的伪造文本。音视频合成:
- 音频生成:采用四种组合策略生成合成语音:a) XTTS-v2;b) XTTS-v2 + OpenVoice-v2(说话人转换);c) Fairseq阿拉伯语TTS + OpenVoice-v2;d) GPT-TTS + OpenVoice-v2。生成后使用Whisper-Turbo进行验证。
- 视觉生成:采用两种基于扩散模型的唇形同步方法:Diff2Lip和LatentSync,根据篡改后的音频重新生成嘴唇运动区域的视频帧。
关键设计选择在于将语言现象(代码切换、方言变体) 与伪造操作(替换、插入、删除) 结合,并通过多种生成模型组合来提高多样性和真实性。
💡 核心创新点
- 首个聚焦代码切换的音视频深度伪造数据集:提出了ArEnAV,专门针对阿拉伯语-英语句内代码切换场景。现有数据集(如AV-1M, FakeAVCeleb)均未涉及此现象,这是对深度伪造数据生态的重要补充。
- 复杂且可控的文本篡改管线:设计了8种文本修改模式,并利用LLM(GPT-4.1-mini)实现自动化、多样化的语义与语言变体替换,确保了伪造内容在文本层面的合理性和挑战性。
- 多技术融合的生成管道:集成了4种TTS模型和2种唇形同步模型,以模拟真实世界中可能遇到的不同质量和类型的伪造内容,提高了数据集的覆盖范围和难度。
- 全面的基准测试与揭示的新挑战:不仅对现有SOTA模型进行了广泛测试,还通过用户研究揭示了人类在检测此类伪造内容时的困难(尤其是当伪造发生在英语单词时),证明了该数据集带来的新挑战。
🔬 细节详述
- 训练数据:数据来源为YouTube视频(通过VisPer的阿拉伯语子集获取)。预处理包括场景检测分割视频、使用Yolov5进行人脸检测与跟踪。数据增强方面,在真实和伪造视频上应用了15种视觉滤镜(如高斯模糊、椒盐噪声)和10种音频扰动(如时间拉伸、随机响度)以模拟真实世界条件。
- 损失函数:论文未提及生成管道中TTS和唇形同步模型的具体训练损失函数。这些模型(如XTTS, Diff2Lip)均为已发表的预训练模型。
- 训练策略:对于基准测试中的检测模型(如BA-TFD),论文提到了其训练细节:在ArEnAV上进行微调时,对帧进行子采样以消除类别不平衡。具体学习率、优化器等超参数未说明。
- 关键超参数:未说明生成管道中GPT-4.1-mini的提示超参数(如temperature),也未说明TTS和唇形同步模型的具体配置参数。
- 训练硬件:生成ArEnAV数据集总耗时约800个GPU小时(使用NVIDIA RTX-6000 GPU)。此外,使用了价值200美元的OpenAI API额度。
- 推理细节:对于检测模型的评估,视频级预测通过帧级预测的最大投票法聚合。零样本评估时,使用VideoLLaMA2等模型并提示其输出伪造概率分数。
- 正则化或稳定训练技巧:未说明。
📊 实验结果
论文对ArEnAV进行了全面的基准测试,包括时序定位和检测两个任务。
时序定位结果(测试集):
| 集合 | 模型 | 模态 | AP@0.5 | AP@0.95 | AR@50 | AR@10 |
|---|---|---|---|---|---|---|
| 全集 | BA-TFD+ (AV-1M预训练) | AV | 3.74 | 0.01 | 30.75 | 1.83 |
| 全集 | BA-TFD (AV-1M预训练) | AV | 2.42 | 0.01 | 22.30 | 1.67 |
| 全集 | Xception | V | 22.50 | 0.58 | 19.13 | 19.13 |
| 子集V (无音频伪造) | BA-TFD+ (AV-1M预训练) | AV | 5.65 | 0.02 | 31.09 | 2.05 |
| 子集A (无视觉伪造) | BA-TFD+ (AV-1M预训练) | AV | 4.35 | 0.00 | 28.35 | 2.00 |
| 结论:与在LAV-DF或AV-1M上的性能相比,所有模型在ArEnAV上的AP@0.5大幅下降超过35%,证明了该数据集的极高难度。 |
检测结果(测试集):
| 预训练数据 | 方法 | 模态 | 完整集 AUC | 完整集 Acc. | 子集V AUC | 子集A AUC |
|---|---|---|---|---|---|---|
| 零样本ASVSpoof-19 | XLSR-Mamba | A | 39.19 | 52.77 | 52.73 | 52.50 |
| AV-1M | BA-TFD | AV | 61.73 | 26.00 | 66.42 | 59.36 |
| AV-1M & ArEnAV (微调) | BA-TFD | AV | 75.91 | 44.31 | 77.64 | 72.21 |
| AV-1M & ArEnAV (微调) | BA-TFD+ | AV | 79.97 | 27.44 | 84.20 | 72.89 |
| 结论:在AV-1M上预训练的模型性能不佳,经过ArEnAV微调后性能显著提升,BA-TFD+在完整集上达到82% AUC(论文提及),但仍存在提升空间。 |
跨数据集检测比较(% AUC):
| 方法 | ArEnAV | DFDC | FF++ | CelebDF |
|---|---|---|---|---|
| Face-X-Ray | 55.56 | 80.92 | 98.52 | 80.58 |
| LipForensics | 49.76 | 73.50 | 97.10 | 82.40 |
| LAA-Net | 50.04 | 86.94 | 99.96 | - |
| 结论:在FF++, DFDC等数据集上训练的SOTA模型,在ArEnAV上性能接近随机猜测(~50% AUC),表明它们无法泛化到多语言代码切换场景。 |
用户研究结果: 人类参与者对ArEnAV视频的检测准确率仅为60.00%,AP@0.5为0.79。主要分类理由是“语音不清晰”(36.5%)和“音视频不匹配”(25.1%)。当伪造发生在英语单词时,85%的用户未能识别。
⚖️ 评分理由
- 学术质量:6.5/7:论文的核心工作(数据集构建)在设计、规模和严谨性上非常出色。实验部分全面且有说服力,清晰地展示了问题的严重性和数据集的有效性。扣分点在于没有提出新的检测模型,且部分生成细节(如LLM提示参数)未公开。
- 选题价值:1.8/2:选题极具前瞻性和必要性,直指多语言全球化背景下深度伪造检测的关键短板,为社区提供了急需的研究资源,应用潜力大。
- 开源与复现加成:0.8/1:承诺公开数据集是最大亮点。但代码、模型权重的开源计划不够具体,评估脚本的复现信息也未详细说明,因此给予部分加分。