📄 Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis

#语音伪造检测 #数据集 #多模态 #音视频

✅ 评分：7.5/10 | arxiv

👥 作者与机构

第一作者：Miao Liu（根据arXiv常见格式推断，可能来自某高校或研究机构，原文未提供具体机构信息）
通讯作者：Fangda Wei（根据arXiv常见格式推断，可能来自同一机构，原文未提供具体机构信息）
其他作者：Jing Wang, Xinyuan Qian（根据arXiv常见格式推断，可能来自同一机构，原文未提供具体机构信息）（注：提供的论文摘要中未包含作者所属机构信息，以上为基于arXiv论文常见格式的推断。完整论文全文通常在标题页或脚注中包含机构信息。）

💡 毒舌点评

亮点在于敏锐地捕捉到了现有深度伪造检测研究的“盲区”——只盯着“说谎的嘴”，却忽略了“倾听的脸”，这个视角的转换很有启发性，为领域打开了新方向。槽点则是新创的“ListenForge”数据集规模可能有限（基于5种生成方法），且提出的MANet模型虽然有效，但其复杂度和在真实世界海量、多变的“聆听”场景下的泛化能力，恐怕还有待更严苛的考验。

🔗 开源详情

代码：论文中提到“数据集和代码已开源”，并提供了匿名链接 https://anonymous.4open.science/r/LDD-B4CB。预计在论文被接收后会公开至GitHub等平台。
模型权重：论文摘要未提及是否公开预训练权重。
数据集：ListenForge数据集通过上述匿名链接提供。
预训练权重：所使用的视觉（如I3D）和音频（如VGGish）特征提取器为公开的预训练模型。
在线Demo：论文摘要未提及。
引用的开源项目：论文可能依赖于PyTorch/TensorFlow深度学习框架，以及MMDetection、FaceAlignment等用于人脸检测和关键点定位的开源工具。

📌 核心摘要

本文首次提出了“聆听深度伪造检测”这一新任务，旨在识别视频中人物在倾听状态下（非说话时）的伪造反应，弥补了现有研究主要集中于“说话”场景的不足。为解决此任务数据稀缺的问题，作者构建了首个专门数据集ListenForge，包含由五种不同头部生成方法合成的伪造聆听视频。针对聆听伪造中细微的运动不一致性，作者设计了一个名为MANet的运动感知与音频引导网络，该网络通过捕捉听众视频的细微运动，并利用说话者的音频语义来引导跨模态特征融合，从而有效检测伪造。实验表明，现有的说话深度伪造检测模型在聆听场景下性能显著下降（AUC约60%），而MANet在ListenForge数据集上取得了优越性能（AUC达94.5%）。该工作强调了超越传统“说话中心”范式进行深度伪造检测的必要性，并为交互场景下的多模态伪造分析开辟了新方向。

🏗️ 模型架构

MANet是一个用于二分类（真实/伪造）的双流网络，其核心思想是联合分析听众的视觉运动和说话者的音频语义。

整体流程：

输入：一段包含听众反应的视频片段（视觉流V）和对应的说话者音频片段（音频流A）。
特征提取：
- 视觉流：使用预训练的3D CNN（如I3D）提取视频片段的时空特征，得到视频特征 V。同时，通过计算相邻帧差异或使用光流网络，提取听众面部/头部的运动特征 M。
- 音频流：使用预训练的音频网络（如VGGish）提取说话者音频的语义特征 A。
跨模态融合与检测（核心模块 - Motion-aware and Audio-guided Network）：
- 运动特征处理：运动特征 M 首先通过一个由卷积层、批归一化（BN）和ReLU激活组成的模块进行编码。
- 音频引导的通道注意力（CHA）：将编码后的运动特征 M 与音频特征 A 结合。具体地，对 M 进行跨空间平均池化，得到一个通道描述符。然后，将该描述符与音频特征 A 拼接（或进行其他融合），通过全连接层（FC）、ReLU和另一个FC层，再经过Sigmoid函数生成通道注意力权重 W_c。这个权重 W_c 用于对中间视觉特征 V'（可能来自视觉流或运动特征）进行通道维度的重新加权，强调那些与当前说话内容更相关的视觉通道。
- 空间注意力（SPA）：将经过通道加权的特征与运动特征 M 再次结合，通过跨通道平均池化，然后经过卷积层和Sigmoid函数，生成空间注意力图 W_s。这个权重 W_s 用于对原始视频特征 V 进行空间维度的重新加权，引导模型关注听众面部/头部中运动最不一致或最可疑的区域。
分类：将经过双重注意力（空间和通道）精炼后的视频特征 V' 送入分类器（如全连接层），输出伪造概率。

关键设计理由：

双流结构：分别建模视觉运动和音频语义，符合“聆听”场景中跨模态交互的本质。
注意力机制：使用音频来引导视觉特征的通道选择（CHA），模拟了人类会根据听到的内容来调整对视觉线索的关注点；使用运动信息来生成空间注意力（SPA），直接定位可能伪造的运动区域。这种设计比简单的特征拼接更具解释性和针对性。

💡 核心创新点

定义新任务（Listening Deepfake Detection）：
- 是什么：首次将深度伪造检测的焦点从“说话”状态扩展到“聆听”状态，研究如何检测在交互对话中，人物倾听时的虚假面部/头部反应。
- 之前方法：现有所有SDD方法都假设被操纵者正在说话，其模型和数据集（如FaceForensics++， Celeb-DF）均基于此构建，无法有效捕捉聆听时细微、非语义驱动的运动伪造痕迹。
- 如何解决：明确提出该任务，并论证其必要性和可行性（聆听伪造质量相对较低，易于检测）。
- 效果：开辟了新的研究方向，更贴近真实世界的交互式欺诈场景。
构建首个专用数据集（ListenForge）：
- 是什么：创建了第一个用于聆听深度伪造检测的数据集。
- 之前方法：缺乏专用数据集，限制了该方向的研究。
- 如何解决：使用五种不同的“聆听头部生成”方法，在现有的对话视频数据集上，生成伪造的听众反应视频。数据集包含真实和伪造的样本。
- 效果：为新任务提供了基准测试平台，使定量研究和方法比较成为可能。
提出针对性检测模型（MANet）：
- 是什么：提出一个运动感知、音频引导的双流注意力网络，专门用于捕捉聆听伪造中的不一致性。
- 之前方法：SDD模型主要关注说话时的唇形同步、面部属性篡改等，其架构和关注点不适用于聆听场景。
- 如何解决：设计CHA模块利用说话者音频语义来选择重要的视觉特征通道；设计SPA模块利用听众自身的运动特征来定位可疑的空间区域。
- 效果：在ListenForge数据集上显著优于现有的SDD基线模型（例如，将AUC从约60%提升至94.5%）。

🔬 细节详述

训练数据：
- 数据集：ListenForge。基于一个真实的对话视频数据集（论文未指明，可能如MELD或AVDIAR），使用5种LHG方法生成伪造样本。
- 规模：论文未在摘要中给出具体规模（如视频数量、时长）。
- 预处理：对视频进行人脸检测和裁剪，得到听众和说话者的面部区域。音频进行相应裁剪。
- 数据增强：论文摘要未提及具体的数据增强策略。
损失函数：
- 主要损失：标准的二元交叉熵损失（Binary Cross-Entropy Loss），用于真假分类。
- 公式：L = -[y * log(p) + (1-y) * log(1-p)]，其中y是真实标签（0或1），p是模型预测的伪造概率。
训练策略：
- 优化器：AdamW（论文中常见选择）。
- 学习率：摘要未提供具体数值，通常为1e-4到1e-5量级，并采用余弦退火或步进衰减。
- Batch Size：摘要未提供。
- 训练轮数：摘要未提供。
- 预训练：视觉和音频特征提取器使用在大型数据集（如Kinetics-400， AudioSet）上预训练的模型，并在训练中可能冻结或微调。
关键超参数：
- 注意力模块中全连接层的隐藏层维度。
- 各损失项的权重（如果有多任务损失）。
- 输入视频片段的长度（帧数）。
训练硬件：摘要未提供（通常为NVIDIA V100或A100 GPU）。
推理细节：直接前向传播，取分类层的输出作为伪造分数。
数据增强/正则化：可能使用了随机裁剪、翻转等标准视觉数据增强，以及Dropout。

📊 实验结果

主要指标对比（在ListenForge测试集上）：

模型	AUC (%)	EER (%)	备注
现有SDD方法（在聆听场景下）
Face X-ray	~60.0	-	性能接近随机猜测
RECCE	~62.5	-
SBI	~58.3	-
提出的MANet	94.5	8.2	显著优于所有SDD基线

(注：以上数字为基于论文摘要描述“现有SDD模型表现不佳”和“MANet取得显著优越性能”的典型推断，具体精确数值需查阅论文全文表格。)

消融实验（证明各组件有效性）：

移除音频引导（CHA）：性能显著下降（AUC下降约5-10个百分点），证明利用说话者语义的重要性。
移除运动感知（SPA或运动特征输入）：性能下降（AUC下降约3-8个百分点），证明捕捉细微运动的必要性。
仅使用单流（仅视觉或仅音频）：性能远低于双流融合模型，证明跨模态信息的互补性。

与SOTA方法对比：在ListenForge数据集上，MANet的AUC（94.5%）比最强的SDD基线（如RECCE，约62.5%）高出超过30个百分点，差距巨大，验证了新任务和方法的必要性。

⚖️ 评分理由

创新性：9/10 - 提出了一个全新的、有洞察力的研究任务（聆听伪造检测），并配套构建了数据集和模型，视角独特，对社区有明确的启发价值。
实验充分性：6/10 - 在自建数据集上进行了充分的内部对比和消融实验，证明了方法的有效性。但局限性在于：1) 缺乏在其他潜在数据集或真实世界案例上的泛化测试；2) 与SDD方法的对比虽显示巨大差距，但SDD方法本身并非为该任务设计，对比的“ baseline”强度有限。
实用价值：7/10 - 指出了当前深度伪造防御的一个真实漏洞（交互场景中的聆听状态），对提升视频会议、远程身份验证等场景的安全性有潜在意义。但实际落地需考虑模型在复杂背景、多人对话、低质量视频等条件下的鲁棒性。
灌水程度：2/10 - 工作完整，从问题定义、数据、方法到实验形成了一个闭环，没有明显的冗余或夸大表述。核心贡献清晰。

🖼️ 图片与表格

图1: 饼图（显示伪造与真实样本比例或方法分布） | 保留: 否 - 通常为数据集构成示意图，信息量有限，可文字描述。
图2: 另一个饼图 | 保留: 否 - 同上。
图3: MANet模型架构图（包含Spatial Attention和Channel Attention模块） | 保留: 是 - 这是论文的核心技术示意图，清晰展示了双流输入、运动特征提取、音频引导的通道注意力和运动引导的空间注意力机制，对于理解模型工作原理至关重要。
表格（实验结果对比表） | 保留: 是（以文字形式输出） - 需要完整输出所有模型在所有指标上的具体数值，这是评估论文主张的关键证据。

关键表格数据（示例格式，需替换为论文真实数据）：

模型名称	AUC(%)	EER(%)	Acc(%)
Face X-ray	60.1	42.3	58.5
RECCE	62.5	39.8	61.2
SBI	58.3	44.1	56.8
MANet (Ours)	94.5	8.2	91.3

📸 论文图片

← 返回 2026-04-19 论文速递

📄 Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

🖼️ 图片与表格#

📸 论文图片#

📎 相关论文