📄 Tell me Habibi, is it Real or Fake?

#音视频深度伪造检测 #数据集 #多语言 #零样本

🔥 8.5/10 | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本

学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高

👥 作者与机构

第一作者：Kartik Kuckreja (MBZUAI)
通讯作者：未明确标注，但通讯邮箱主要为 kartik.kuckreja@mbzuai.ac.ae 和 parul@monash.edu
作者列表：Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University)

💡 毒舌点评

亮点：该论文精准地击中了当前深度伪造检测领域的一个重大盲点——对多语言，尤其是像阿拉伯语这样广泛使用“代码切换”的语言场景的忽视，并为此构建了迄今规模最大、最复杂的专用数据集，为社区提供了极具价值的“练兵场”。短板：论文的重点在于“提出问题”和“提供工具”，而在于“解决问题”（即提出更先进的检测模型）方面着墨较少，其提出的检测方法仅为现有模型的基准测试。数据集生成依赖于GPT-4.1-mini等模型，其指令跟随的局限性可能导致部分“语义+翻译”模式的伪造文本语义变化不足，作者也承认了这一点。

🔗 开源详情

代码：论文中未提及具体的代码仓库链接，但声明“Data-generation code and evaluation scripts will be made public”。
模型权重：论文中未提及公开生成管道所用的TTS和唇形同步模型的具体权重链接，这些模型均为第三方已发表模型。
数据集：论文明确声明“The dataset is public.”，并提供了访问需要签署的EULA协议图示。
Demo：未提及。
复现材料：论文提供了生成管道的详细描述、文本篡改的提示示例（附录A.6）、数据分布图表、以及评估协议。但超参数、具体配置文件等未在文中给出。
论文中引用的开源项目：XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, Whisper, YOLO-v5, wav2vec2, Jais-3B, Qwen-2.5-7B等。

📌 核心摘要

这篇论文旨在解决深度伪造检测研究中对多语言，特别是阿拉伯语-英语“代码切换”（在同一次话语中混合使用两种语言）场景严重忽视的问题。为解决此问题，论文提出了一个全新的核心贡献：构建并开源了首个大规模的阿拉伯语-英语音视频深度伪造数据集 ArEnAV。该数据集包含约38.7万个视频（超过765小时），通过一个创新的生成管道创建，该管道整合了多个文本转语音（TTS）和唇形同步模型，并利用GPT-4.1-mini进行8种不同规则的文本篡改，以模拟真实世界的代码切换和方言变体。与现有的多语言数据集（如PolyGlotFake）相比，ArEnAV首次专注于并显式生成“句内代码切换”的伪造内容。实验表明，当前最先进的深度伪造检测模型在ArEnAV上的性能出现断崖式下跌（例如，BA-TFD+模型的AP@0.5从AV-1M上的44.42%降至3.74%），甚至人类参与者的检测准确率也仅为60%，这证明了该数据集的挑战性和新场景的真实性。该工作的实际意义在于为开发更鲁棒、适用于全球多语言环境的深度伪造检测系统提供了必需的基准资源。主要局限性包括：数据生成管线依赖现有ASR和LLM，可能导致转录噪声和语义变化不足；数据集目前仅覆盖阿拉伯语和英语两种语言。

🏗️ 模型架构

论文的核心并非提出一个全新的检测模型，而是设计并实现了一个复杂的数据生成管道，用于创建ArEnAV数据集。该管道的架构如图所示，主要分为三个阶段：

数据收集与预处理：基于YouTube视频，进行场景分割、人脸检测与跟踪，并使用Whisper-v2进行语音识别获得转录文本，再用多语言wav2vec2模型进行强制对齐，获取词级时间戳。

ArEnAV数据生成管道示意图

图1：ArEnAV数据集生成管道示意图。a) 展示了从原始视频提取音视频、文本，到使用GPT-4.1-mini进行代码切换文本篡改，再到语音合成和人脸唇形同步生成的全流程。

转录文本篡改：使用GPT-4.1-mini，通过少样本提示，根据8种预定义规则对原始转录进行修改。这些规则分为三大类操作：仅改变语义、改变语义+改变阿拉伯方言、改变语义+翻译成英语，旨在生成多样化的伪造文本。
音视频合成：
- 音频生成：采用四种组合策略生成合成语音：a) XTTS-v2；b) XTTS-v2 + OpenVoice-v2（说话人转换）；c) Fairseq阿拉伯语TTS + OpenVoice-v2；d) GPT-TTS + OpenVoice-v2。生成后使用Whisper-Turbo进行验证。
- 视觉生成：采用两种基于扩散模型的唇形同步方法：Diff2Lip和LatentSync，根据篡改后的音频重新生成嘴唇运动区域的视频帧。

关键设计选择在于将语言现象（代码切换、方言变体）与伪造操作（替换、插入、删除）结合，并通过多种生成模型组合来提高多样性和真实性。

💡 核心创新点

首个聚焦代码切换的音视频深度伪造数据集：提出了ArEnAV，专门针对阿拉伯语-英语句内代码切换场景。现有数据集（如AV-1M, FakeAVCeleb）均未涉及此现象，这是对深度伪造数据生态的重要补充。
复杂且可控的文本篡改管线：设计了8种文本修改模式，并利用LLM（GPT-4.1-mini）实现自动化、多样化的语义与语言变体替换，确保了伪造内容在文本层面的合理性和挑战性。
多技术融合的生成管道：集成了4种TTS模型和2种唇形同步模型，以模拟真实世界中可能遇到的不同质量和类型的伪造内容，提高了数据集的覆盖范围和难度。
全面的基准测试与揭示的新挑战：不仅对现有SOTA模型进行了广泛测试，还通过用户研究揭示了人类在检测此类伪造内容时的困难（尤其是当伪造发生在英语单词时），证明了该数据集带来的新挑战。

🔬 细节详述

训练数据：数据来源为YouTube视频（通过VisPer的阿拉伯语子集获取）。预处理包括场景检测分割视频、使用Yolov5进行人脸检测与跟踪。数据增强方面，在真实和伪造视频上应用了15种视觉滤镜（如高斯模糊、椒盐噪声）和10种音频扰动（如时间拉伸、随机响度）以模拟真实世界条件。
损失函数：论文未提及生成管道中TTS和唇形同步模型的具体训练损失函数。这些模型（如XTTS, Diff2Lip）均为已发表的预训练模型。
训练策略：对于基准测试中的检测模型（如BA-TFD），论文提到了其训练细节：在ArEnAV上进行微调时，对帧进行子采样以消除类别不平衡。具体学习率、优化器等超参数未说明。
关键超参数：未说明生成管道中GPT-4.1-mini的提示超参数（如temperature），也未说明TTS和唇形同步模型的具体配置参数。
训练硬件：生成ArEnAV数据集总耗时约800个GPU小时（使用NVIDIA RTX-6000 GPU）。此外，使用了价值200美元的OpenAI API额度。
推理细节：对于检测模型的评估，视频级预测通过帧级预测的最大投票法聚合。零样本评估时，使用VideoLLaMA2等模型并提示其输出伪造概率分数。
正则化或稳定训练技巧：未说明。

📊 实验结果

论文对ArEnAV进行了全面的基准测试，包括时序定位和检测两个任务。

时序定位结果（测试集）：

集合	模型	模态	AP@0.5	AP@0.95	AR@50	AR@10
全集	BA-TFD+ (AV-1M预训练)	AV	3.74	0.01	30.75	1.83
全集	BA-TFD (AV-1M预训练)	AV	2.42	0.01	22.30	1.67
全集	Xception	V	22.50	0.58	19.13	19.13
子集V (无音频伪造)	BA-TFD+ (AV-1M预训练)	AV	5.65	0.02	31.09	2.05
子集A (无视觉伪造)	BA-TFD+ (AV-1M预训练)	AV	4.35	0.00	28.35	2.00
结论：与在LAV-DF或AV-1M上的性能相比，所有模型在ArEnAV上的AP@0.5大幅下降超过35%，证明了该数据集的极高难度。

检测结果（测试集）：

预训练数据	方法	模态	完整集 AUC	完整集 Acc.	子集V AUC	子集A AUC
零样本ASVSpoof-19	XLSR-Mamba	A	39.19	52.77	52.73	52.50
AV-1M	BA-TFD	AV	61.73	26.00	66.42	59.36
AV-1M & ArEnAV (微调)	BA-TFD	AV	75.91	44.31	77.64	72.21
AV-1M & ArEnAV (微调)	BA-TFD+	AV	79.97	27.44	84.20	72.89
结论：在AV-1M上预训练的模型性能不佳，经过ArEnAV微调后性能显著提升，BA-TFD+在完整集上达到82% AUC（论文提及），但仍存在提升空间。

跨数据集检测比较（% AUC）：

方法	ArEnAV	DFDC	FF++	CelebDF
Face-X-Ray	55.56	80.92	98.52	80.58
LipForensics	49.76	73.50	97.10	82.40
LAA-Net	50.04	86.94	99.96	-
结论：在FF++, DFDC等数据集上训练的SOTA模型，在ArEnAV上性能接近随机猜测（~50% AUC），表明它们无法泛化到多语言代码切换场景。

用户研究结果：人类参与者对ArEnAV视频的检测准确率仅为60.00%，AP@0.5为0.79。主要分类理由是“语音不清晰”（36.5%）和“音视频不匹配”（25.1%）。当伪造发生在英语单词时，85%的用户未能识别。

⚖️ 评分理由

学术质量：6.5/7：论文的核心工作（数据集构建）在设计、规模和严谨性上非常出色。实验部分全面且有说服力，清晰地展示了问题的严重性和数据集的有效性。扣分点在于没有提出新的检测模型，且部分生成细节（如LLM提示参数）未公开。
选题价值：1.8/2：选题极具前瞻性和必要性，直指多语言全球化背景下深度伪造检测的关键短板，为社区提供了急需的研究资源，应用潜力大。
开源与复现加成：0.8/1：承诺公开数据集是最大亮点。但代码、模型权重的开源计划不够具体，评估脚本的复现信息也未详细说明，因此给予部分加分。

← 返回 ICLR 2026 论文分析

📄 Tell me Habibi, is it Real or Fake?#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文