📄 Tell me Habibi, is it Real or Fake?
#音频深度伪造检测 #数据集 #多语言 #语音克隆 #音视频
🔥 8.0/10 | 前25% | #音频深度伪造检测 | #数据集 | #多语言 #语音克隆
学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Kartik Kuckreja (MBZUAI)
- 通讯作者:未说明
- 作者列表:Kartik Kuckreja (MBZUAI), Parul Gupta (Monash University), Injy Hamed (MBZUAI), Thamar Solorio (MBZUAI), Muhammad Haris Khan (MBZUAI), Abhinav Dhall (Monash University)
💡 毒舌点评
这篇论文精准地抓住了现有深度伪造检测数据集在多语言(尤其是阿拉伯语-英语语码转换)场景下的巨大空白,并提供了一个规模空前的数据集(387k视频),填补了这一重要缺口。然而,其数据生成管道高度依赖多个前沿但复杂的TTS/唇同步模型组合以及GPT-4的文本编辑,虽然保证了多样性,但也使得“伪造”样本的生成过程本身成为一个“黑盒”集成,其质量的上限和下限都极大程度地受限于这些商业/开源模型的能力,而非论文提出的统一框架。
🔗 开源详情
- 代码:论文中未提及代码仓库链接。
- 模型权重:未提及。
- 数据集:论文明确表示将公开数据集,并提供了获取所需的EULA表单(图7)。访问需通过机构IRB批准和签署EULA。
- Demo:未提及在线演示。
- 复现材料:论文提供了数据生成管道的详细描述、关键工具(Whisper-v2, GPT-4.1-mini, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync)以及评估脚本的开源承诺。附录中提供了详细的文本操作提示(图6)、数据分布、扰动列表和身份重叠分析等复现相关信息。
- 论文中引用的开源项目:Whisper, wav2vec 2.0, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, XLSR-Mamba, Jais-3B, Qwen2.5等。
📌 核心摘要
- 问题:现有的深度伪造检测研究主要针对单语内容,忽略了全球普遍存在的多语言,特别是阿拉伯语-英语语码转换(CSW)场景下的检测挑战。
- 方法核心:提出了ArEnAV,首个大规模阿拉伯-英语音视频深度伪造数据集,并设计了一个三阶段数据生成流程:利用GPT-4.1-mini进行受控的文本(语码转换)操纵,使用4种TTS和2种唇同步模型组合生成伪造的音频和视频。
- 创新点:数据集首次系统性地包含了句内语码转换、方言变体和纯阿拉伯语内容;生成流程专门针对阿拉伯语-英语混合内容设计;提供了多维度的基准测试,包括与现有单语/多语言数据集的对比、SOTA模型评估及用户研究。
- 主要实验结果:
- 数据集对比:ArEnAV是目前最大的多语言音视频深度伪造数据集(387k视频,765小时),远超PolyGlotFake(15k)和Illusion(1.37M但非重点CSW)。伪造片段更长,检测更难。
- 检测性能:现有SOTA模型(如BA-TFD+)在ArEnAV上性能大幅下降。在测试集上,BA-TFD+(AV-1M预训练)的AP@0.5仅为3.74,而微调后AUC可达79.97%。
- 跨数据集泛化:在DFDC, FF++, CelebDF上表现良好的模型(如Face-X-Ray, LipForensics),在ArEnAV上AUC接近随机猜测(~50%)。
- 用户研究:人类参与者的检测准确率仅为60.00%,定位精度(AP@0.5)仅0.79,证明该任务极具挑战性。85%的失败案例发生在语码转换中的英语单词部分。
- 实际意义:为构建更具鲁棒性、能应对真实世界多语言语码转换场景的深度伪造检测模型提供了关键资源和基准,推动了该领域向全球化、多样化方向发展。
- 主要局限性:生成管道复杂,依赖外部模型(Whisper, GPT-4, TTS,唇同步模型),其质量和特性直接影响数据集质量;“含义+翻译”模式下,LLM有时未能充分改变语义;数据集目前仅限于阿拉伯语和英语。
🏗️ 模型架构
本文的主要贡献是数据集而非一个新的检测模型架构。论文的核心是ArEnAV数据生成管道,其架构如图1所示:
整个流程分为三个主要阶段:
- 输入处理与转录操纵:输入的YouTube视频被处理,提取音频、面部和文本。使用GPT-4.1-mini,通过少样本提示(Few-shot Prompts)对转录文本进行受控的语码转换操纵。操纵规则如表2所示,包括“仅改变含义”、“改变含义+方言”、“改变含义+翻译”等多种模式,确保编辑的多样性。
- 音频生成:根据编辑后的转录文本,生成新的音频。管道集成了四种TTS克隆策略以应对阿拉伯语和英语混合内容:XTTS-v2、XTTS-v2+OpenVoice-v2、Fairseq Arabic TTS+OpenVoice-v2、GPT-TTS+OpenVoice-v2。生成的音频会通过Whisper-Turbo进行验证,确保与目标转录匹配。
- 视频生成(唇同步):基于新生成的音频和原始视频帧,使用两种基于扩散的唇同步模型(Diff2Lip和LatentSync)生成伪造的视频帧,实现唇形与语音的同步。
💡 核心创新点
- 首个大规模阿拉伯-英语语码转换音视频深度伪造数据集 (ArEnAV):填补了现有数据集在多语言、特别是句内语码转换和阿拉伯方言多样性方面的空白。数据集规模(387k视频)和多样性(涵盖MSA、埃及、黎凡特、海湾方言)是前所未有的。
- 面向语码转换的数据生成管道:专门设计了一套流程,利用LLM进行可控的语码转换文本编辑,并结合多种针对阿拉伯语-英语的TTS和唇同步技术,系统性地生成逼真的、包含语言混合的伪造内容。
- 全面且具挑战性的基准评估:不仅提供了数据集,还在两个核心任务(音频-视觉时序定位、深度伪造检测)上对多种SOTA模型进行了广泛评估。通过跨数据集对比和用户研究,有力证明了ArEnAV数据集的高难度以及现有方法在该场景下的失效。
🔬 细节详述
- 训练数据:源数据来自VisPer数据集的阿拉伯语训练子集(公共YouTube视频)。经过场景分割、人脸检测、ASR(Whisper-v2)转录、强制对齐(wav2vec2)等预处理。最终数据集包含96,768个真实视频和290,304个伪造视频。
- 数据增强:为模拟真实世界,对真实和伪造视频都添加了随机的视觉扰动(15种,如椒盐噪声、相机抖动)和音频扰动(10种,如时间拉伸、随机音量和音高变化)。每个视频随机应用1-3种视觉扰动和1-2种音频扰动。
- 评估指标:
- 时序定位:平均精度(AP@0.5, AP@0.75等)、平均召回率(AR@50, AR@10等)。
- 深度伪造检测:视频级准确率(Acc.)、AUC。
- 音频质量:说话人编码器余弦相似度(SECS)、信噪比(SNR)、Fréchet音频距离(FAD)。
- 视频质量:峰值信噪比(PSNR)、结构相似性(SSIM)、Fréchet inception距离(FID)。
- 训练硬件:生成数据集总共消耗约800 GPU小时(NVIDIA RTX-6000 GPU)。
📊 实验结果
论文提供了详尽的对比实验,关键数据如下:
表1:深度伪造数据集对比(摘选关键列)
| 数据集 | 年份 | 操纵模态 | 方法 | 总视频数 | 多语言 | 语码转换 |
|---|---|---|---|---|---|---|
| DFDC | 2020 | AV | FS | 128,154 | ✗ | ✗ |
| FakeAVCeleb | 2021 | AV | RE/FS | 25,500+ | ✗ | ✗ |
| PolyGlotFake | 2024 | AV | RE/TTS/VC | 15,238 | ✓ | ✗ |
| Illusion | 2025 | AV | FS/RE/TTS | 1,376,371 | ✓ | ✗ |
| ArEnAV (Ours) | 2025 | AV | RE/TTS/VC | 387,072 | ✓ | ✓ |
表3:音频质量对比
| 数据集 | 语言 | SECS↑ | SNR(dB)↑ | FAD↓ |
|---|---|---|---|---|
| FakeAVCeleb | English | 0.543 | 2.16 | 6.598 |
| AV-Deepfake1M | English | 0.991 | 9.39 | 0.088 |
| ArEnAV | Arabic, English | 0.990 | 7.65 | 0.140 |
表4:视觉质量对比
| 数据集 | PSNR(dB)↑ | SSIM↑ | FID↓ |
|---|---|---|---|
| AV-Deepfake1M | 39.49 | 0.977 | 0.49 |
| ArEnAV | 37.70 | 0.971 | 0.68 |
表10:深度伪造检测结果(测试集,AUC%)
| 方法 | 预训练数据 | 全集 | 子集V (仅音频伪造) | 子集A (仅视频伪造) |
|---|---|---|---|---|
| XLSR-Mamba (零样本) | ASVSpoof-19 | 39.19 | 52.73 | 42.59 |
| BA-TFD+ (零样本) | AV-1M | 60.96 | 64.49 | 59.44 |
| BA-TFD (微调) | AV-1M & ArEnAV | 75.91 | 77.64 | 72.21 |
| BA-TFD+ (微调) | AV-1M & ArEnAV | 79.97 | 84.20 | 72.89 |
表11b:跨数据集检测性能对比(AUC%)
| 方法 | ArEnAV | DFDC | FF++ | CelebDF |
|---|---|---|---|---|
| Capsule-v2 | 49.15 | – | 93.11 | – |
| Face-X-Ray | 55.56 | 80.92 | 98.52 | 80.58 |
| LipForensics | 49.76 | 73.50 | 97.10 | 82.40 |
| LAA-Net | 50.04 | 86.94 | 99.96 | – |
图3:转录文本质量评估

- 图a (蕴含度):显示了不同操作模式下,真实与伪造文本之间的双向蕴含质量均值分布。大部分样本得分低于0.5,表明成功注入了语义变化。
- 图b (困惑度):使用Jais-3B和Qwen-2.5-7B计算真实与伪造文本的困惑度。两者差距很小,表明伪造文本在语义被改变的同时,依然保持了语言流畅性和自然性。
图4 & 5:BA-TFD+定性分析

- 图4展示了模型在伪造样本上的预测。模型有时能正确识别类别并部分覆盖真实伪造区域(a),但定位往往不精确(b),甚至完全错误(c, d)。
- 图5揭示了主要挑战:模型频繁将包含自然语码转换(阿拉伯语-英语切换)的真实视频误判为伪造(a-d),这表明模型难以区分自然的语言转换和合成的不一致性。
⚖️ 评分理由
- 学术质量:5.5/7:论文动机明确,技术流程清晰,实验全面,数据质量评估充分。核心创新是提出了一个填补空白的大规模数据集及其生成方法,这本身具有重要价值。然而,生成管道高度依赖多个现有前沿模型的组合与商业API,其新颖性更多体现在系统集成与面向特定语言场景的定制化上,而非提出根本性的新算法或架构。部分“含义+翻译”操作的效果受限,是一个小扣分点。
- 选题价值:2.0/2:选题极具前沿性和现实意义。多语言语码转换是全球化背景下的关键场景,而现有检测系统对此严重不足。ArEnAV直接针对这一关键缺口,其潜在影响广泛,对学术界和工业界(尤其是面向阿拉伯市场的应用)都有很强的吸引力。
- 开源与复现加成:0.5/1:论文承诺公开数据集,这是巨大的贡献。然而,数据生成管道的完整复现极其复杂,需要访问多个商业(GPT-4 API)和开源模型,且具体配置(如提示词、模型版本)虽在附录提供,但整体“复现”仍非易事。检测模型的复现相对容易,但核心价值在于数据集。