📄 EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection
#音频深度伪造检测 #多模态模型 #对比学习 #语音情感识别 #鲁棒性
✅ 7.2/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #对比学习 #语音情感识别 | arxiv
学术质量 6.3/8 | 影响力 0.6/1 | 可复现性 0.3/1 | 置信度 高
👥 作者与机构
- 第一作者:Aritra Marik(达姆施塔特工业大学, ELIZA)
- 通讯作者:论文未明确标注通讯作者,但提供了三位作者的邮箱。
- 作者列表:Aritra Marik(达姆施塔特工业大学, ELIZA)、Marcel Klemt(达姆施塔特工业大学, hessian.AI)、Anna Rohrbach(达姆施塔特工业大学, hessian.AI)
💡 毒舌点评
论文的核心价值在于系统性地将“情感一致性”作为深度伪造检测的高阶语义信号,并设计了专用模块(EmoForensics)进行建模。然而,其“增强”效果高度依赖于强基线(SIMBA),且EmoForensics独立性能(在FakeAVCeleb上AUC 82.10%,在DeepSpeak v2上仅65.38%)与其声称的“互补性”角色存在巨大落差,这引发对其作为独立检测线索可靠性的根本质疑。在DeepSpeak v2数据集上的无效性也被轻描淡写地归因于数据集特性,缺乏深入分析。
📌 核心摘要
- 要解决什么问题:随着生成式AI快速发展,深度伪造技术不断更新,现有检测模型难以泛化至训练时未见过的伪造类型,这是当前深度伪造检测研究面临的主要挑战。
- 方法核心是什么:本文提出 Emo-Boost 框架,旨在通过引入高层语义线索——情感(Emotion)来提升现有基于低级特征的多模态检测器的跨操纵泛化能力。核心是设计了一个名为 EmoForensics 的情感感知检测器,它利用冻结的预训练情感识别模型提取音频和视觉情感表征,并通过时序 Transformer 建模模态内情感一致性,通过对比学习建模模态间情感一致性。Emo-Boost 通过简单的后期特征乘法融合,将 EmoForensics 的表征与现有多模态检测器(如 SIMBA)的表征相结合。
- 与已有方法相比新在哪里:相比于主要关注像素级、频谱级伪影或跨模态对齐(如音素-视位匹配)的现有方法,本文首次系统性地将“情感一致性”作为一种高阶、稳定的伪造信号,并显式地设计了针对情感表征的跨模态和时序建模模块。此外,与先前情感检测工作相比,本文强调了使用冻结的预训练模型来应对伪造数据导致的情感识别模型分布偏移问题。
- 主要实验结果如何:在 FakeAVCeleb 数据集的留一法(跨操纵)评估中,Emo-Boosted SIMBA 的平均 AUC 达到了 95.30%,相比基线 SIMBA(93.17%)提升了 2.13%。在 DeepSpeak v2 上,Emo-Boosted SIMBA(95.26%)与 SIMBA(95.30%)性能相当。消融实验证明,EmoForensics 中的时序 Transformer 和对比学习模块对性能有积极贡献。论文还通过稳定性分析(图4)显示,EmoForensics 在不同伪造类型上的性能波动(面积 12.50)小于 SIMBA(面积 32.98)。
模型 FakeAVCeleb (平均 AUC) DeepSpeak v2 (平均 AUC) SIMBA [19] 93.17 95.30 Emo-Boosted SIMBA 95.30 95.26 AVFF [34] 86.11 93.75 AVAD [12] 80.89 50.48 - 实际意义是什么:该工作为深度伪造检测提供了一个新的视角,即利用高阶语义信息作为补充线索,有助于提升检测器面对未知新伪造技术的鲁棒性,对内容安全审核领域有潜在应用价值。
- 主要局限性是什么:EmoForensics 作为独立检测器的性能较弱;在数据集 DeepSpeak v2 上未观察到明显的性能提升,作者归因于该数据集情感表达不够自然;融合策略(特征乘法)的理论依据和有效性分析不足;未探讨情感特征在不同伪造攻击下的失效模式。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:论文中未提及具体模型权重获取链接。
- 数据集:论文中使用了 FakeAVCeleb 和 DeepSpeak v2 数据集。论文中未提及具体获取链接或开源协议。
- Demo:论文中未提及。
- 复现材料:论文中提供了详细的实现细节、训练配置和超参数设置(见 Section 4 Implementation Details)。论文中未提及模型检查点获取方式。
- 论文中引用的开源项目:
- POSTER (视觉情绪编码器): https://github.com/justinjohn0306/POSTER
- emotion2vec (音频情绪编码器): https://huggingface.co/lenagong/emotion2vec_finetuned
- SIMBA (用于Emo-Boost的基线多模态检测器): https://github.com/yzyou/SIMBA
- XceptionNet, LipForensics, AVAD, AVFF 等其他项目:论文中仅提及名称,未提供具体链接。
🏗️ 方法概述和架构
Figure 2: Overview of our proposed framework, Emo-Boost, and the emotion-based deepfake detection network, EmoForensics.
整体流程概述 该论文提出了一个两阶段、模块化的深度伪造检测框架 Emo-Boost。它并非一个端到端的全新检测模型,而是一个增强框架。其核心流程为:首先,独立训练一个名为 EmoForensics 的情感感知检测器。然后,在最终的 Emo-Boost 框架中,将 EmoForensics 的输出特征与一个现成的、基于低级特征的多模态检测器(论文中使用 SIMBA)的输出特征进行融合,共同输入一个轻量级分类头进行最终判别。关键在于,融合阶段两个前置检测器(EmoForensics 和 SIMBA)都是冻结的,只训练特征投影层和分类头。
主要组件/模块详解 框架由两个核心部分构成:EmoForensics 检测器 和 Emo-Boost 融合框架。
A. EmoForensics 情感检测器 这是论文的方法核心,旨在从情感表征中学习区分真假视频的信号。
- 名称与功能:EmoForensics。其职责是接收原始音频和视频输入,提取情感相关的表征,并基于“情感一致性”假设判断视频真伪。
- 内部结构与实现:其内部可分为三个子模块:
- 情感表征提取:使用冻结的预训练模型作为特征提取器。视觉模态使用 POSTER 面部情感识别模型(输出维度 d_v=512),音频模态使用 emotion2vec 语音情感识别模型(输出维度 d_a=1024)。冻结预训练模型的动机是避免在深度伪造数据上微调情感识别器,从而防止其适应伪造数据分布,保留其对“真实”情感表征的学习,以应对伪造媒体引入的分布偏移。
- 模态内时序建模:接收来自情感编码器的帧级嵌入序列(视觉:\(\mathbf{z_v} \in \mathbb{R}^{T_v \times d_v}\),音频:\(\mathbf{z_a} \in \mathbb{R}^{T_a \times d_a}\))。对视觉和音频嵌入分别使用基于 MMA-DFER 的两层时序 Transformer 编码器进行建模。音频嵌入在输入 Transformer 前,会通过一个线性层投影到与视觉嵌入相同的维度。通过自注意力机制捕获情感在时间维度上的一致性或不一致性。Transformer 最终输出分类 token 的表示,作为模态级别的全局情感表征 \(\mathbf{h_v}\) 和 \(\mathbf{h_a}\)。
- 跨模态一致性建模:在训练时,通过设计对比学习损失(\(\mathcal{L}_{contrast}\))来显式建模跨模态情感一致性。对于一个训练批次,来自同一条真实视频的视觉和音频情感表征 \(\mathbf{h_v}\) 和 \(\mathbf{h_a}\) 作为正样本对,鼓励其在嵌入空间中距离较近;将伪造样本的视觉表征与真实样本的音频表征(或伪造音频与真实视频)配对作为负样本对,鼓励其距离较远(超过一个预设的 margin \(m\))。论文明确指出不考虑伪造-伪造对,因为目标是显式地分离真实与伪造的情感表征。这旨在使模型学会,真实媒体的视听情感是协调一致的,而伪造媒体则可能破坏这种协调。
- 分类与融合:两个模态的表征 \(\mathbf{h_v}\) 和 \(\mathbf{h_a}\) 通过逐元素加法融合成联合表征 \(\mathbf{f_e} = \mathbf{h_v} + \mathbf{h_a}\)(附录中提到该方式优于拼接和乘法),然后输入一个单层线性分类头进行二分类。
- 输入输出:输入为视频帧序列和对应音频信号;输出为真/假的概率预测。
B. Emo-Boost 融合框架 这是最终的增强框架。
- 名称与功能:Emo-Boost。其功能是作为“插件”,增强一个已有的、基于低级特征的多模态深度伪造检测器(记为 \(\mathcal{D}\),如 SIMBA)的性能。
- 内部结构与实现:核心是一个轻量级的融合模块。
- 特征投影:首先,通过一个可训练的 MLP 投影头,将 EmoForensics 输出的特征 \(\mathbf{f_e}\) 映射到与检测器 \(\mathcal{D}\) 输出特征 \(\mathbf{f_D}\) 相同的维度空间,得到 \(\tilde{\mathbf{f_e}}\)。这是为了进行维度对齐。
- 特征融合:采用逐元素乘法(Hadamard product)将投影后的 EmoForensics 特征 \(\tilde{\mathbf{f_e}}\) 与检测器 \(\mathcal{D}\) 的特征 \(\mathbf{f_D}\) 进行融合:\(\mathbf{f_{fused}} = \tilde{\mathbf{f_e}} \odot \mathbf{f_D}\)。论文在消融实验中(表4)比较了加法、拼接和乘法,发现乘法在跨操纵评估的 val-test split 上效果最佳。
- 最终分类:融合后的特征 \(\mathbf{f_{fused}}\) 输入一个单层可训练的分类头,输出最终的真/假预测。
- 关键设计选择:论文明确指出,在 Emo-Boost 训练阶段,EmoForensics 和 \(\mathcal{D}\) (SIMBA) 均保持冻结,只训练上述的投影头和最终的分类头。这是一个重要的设计决策,目的是展示 EmoForensics 作为一个“即插即用”特征增强器的通用性,无需与基础检测器联合训练或重新设计其架构。
- 组件间的数据流与交互 数据流是清晰的双路径、后融合结构:
- 输入视频/音频数据,同时送入两条并行路径:
- 路径一(低级特征):由预训练的 SIMBA 检测器处理,直接输出其学到的低级特征表示 \(\mathbf{f_D}\)。
- 路径二(情感特征):由 EmoForensics 处理。首先通过冻结的情感编码器提取帧级情感嵌入,然后分别通过时序 Transformer 建模得到 \(\mathbf{h_v}\) 和 \(\mathbf{h_a}\),相加得到 \(\mathbf{f_e}\)。
在 Emo-Boost 融合层,\(\mathbf{f_e}\) 经过 MLP 投影变为 \(\tilde{\mathbf{f_e}}\)。
\(\tilde{\mathbf{f_e}}\) 与 \(\mathbf{f_D}\) 进行逐元素乘法,生成融合特征 \(\mathbf{f_{fused}}\)。
\(\mathbf{f_{fused}}\) 送入最终分类头得到预测。 在训练上,EmoForensics 独立使用 BCE 损失和对比损失进行训练;Emo-Boost 仅使用 BCE 损失训练其投影层和分类头。
关键设计选择及动机
- 使用冻结的预训练情感模型:动机是解决伪造数据导致的情感识别器“分布偏移”问题。作者认为,在真实数据上训练的情感模型能更好地捕捉真实情感的表征,直接用于伪造数据检测时,其输出的表征异常本身就是伪造线索。
- 模态内时序建模:动机是深度伪造难以在时间维度上生成连贯、自然的情感变化。
- 模态间对比学习:动机是深度伪造(尤其是单模态修改)可能破坏音视频情感表达的一致性。负样本对的构造旨在显式分离真实与伪造信号。
- 后期乘法融合:动机是通过实验验证(表4),发现特征乘法比加法或拼接能更有效地结合低级伪影特征和高阶情感特征,取得最佳平均 AUC。
- 框架解耦设计:将 EmoForensics 和基础检测器 \(\mathcal{D}\) 的训练解耦,保持冻结,旨在展示 EmoForensics 作为即插即用增强模块的潜力,提升方法的通用性和易用性。
💡 核心创新点
- 引入情感一致性作为深度伪造的高阶检测信号:不同于以往主要关注像素/频谱伪影或简单跨模态对齐的方法,本文创新性地将情感在时序和跨模态上的一致性作为核心检测线索,为深度伪造检测开辟了一个新的语义分析维度。
- 提出面向深度伪造检测的专用情感特征学习框架 EmoForensics:该框架不仅使用了冻结的预训练情感模型以应对分布偏移,还专门设计了双路径(模态内时序 Transformer + 模态间对比学习)的架构来刻画情感一致性,这比直接将通用情感识别模型应用于伪造检测更有效。
- 验证了情感特征与低级特征的互补性并提出有效融合策略:通过大量的消融实验和稳定性分析(图4),证明了 EmoForensics 捕捉的信号与 SIMBA 等基于低级特征的检测器具有互补性,并且发现简单的后期特征乘法融合策略能有效提升跨操纵泛化能力。
📊 实验结果
主要 Benchmark 与结果: 论文在两个主流深度伪造检测数据集 FakeAVCeleb 和 DeepSpeak v2 上进行了评估,重点考察了留一法(Leave-one-out)跨操纵泛化场景,即训练时故意移除某一种伪造方法,在测试时评估对该未知伪造方法的检测能力。
域内性能对比(表1):
方法 FakeAVCeleb (AUC) FakeAVCeleb (AP) DeepSpeak v2 (AUC) DeepSpeak v2 (AP) AVAD [12] 79.16 96.09 49.88 44.65 AVFF [34] 92.47 98.83 96.60 96.26 SIMBA [19] 99.90 99.99 99.79 99.74 Emo-Boosted SIMBA 99.89 99.99 99.60 99.45 在域内评估中,Emo-Boosted SIMBA 性能与 SIMBA 几乎持平,保持竞争力。 跨操纵泛化性能(留一法平均 AUC,表2):
方法 FakeAVCeleb 平均 AUC DeepSpeak v2 平均 AUC AVAD [12] 80.89 50.48 AVFF [34] 86.11 93.75 SIMBA [19] 93.17 95.30 Emo-Boosted SIMBA (本文) 95.30 95.26
- 在 FakeAVCeleb 上,Emo-Boosted SIMBA 相比最强基线 SIMBA 提升了 2.13% AUC,达到新的 SOTA。
- 在 DeepSpeak v2 上,Emo-Boosted SIMBA 性能(95.26%)略低于 SIMBA(95.30%),论文称其“仍具竞争力”。
- 消融实验(EmoForensics 独立性能,表3):
模型变体 FakeAVCeleb AUC DeepSpeak v2 AUC 完整 EmoForensics (AV) 82.10 65.38 - 去除时序 Transformer 80.37 (-1.73) 63.40 (-1.98) - 去除对比损失 79.84 (-2.26) 64.45 (-0.93) 仅音频 EmoForensics 73.63 53.61 仅视频 EmoForensics 71.15 63.01
- 结果表明,模态内时序建模和模态间对比学习对 EmoForensics 性能有正面贡献。双模态融合显著优于单模态。
- 融合策略消融(在 val-test split 上评估,表4):
策略 FakeAVCeleb 平均 AUC DeepSpeak v2 平均 AUC SIMBA (基线) 91.96 88.36 SIMBA ⊕ EmoForensics (加法) 92.45 87.80 SIMBA ∣ EmoForensics (拼接) 92.90 88.31 SIMBA ⊙ EmoForensics (乘法,即 Emo-Boost) 93.32 88.37
- 乘法融合在平均 AUC 上优于拼接和加法,尤其是在 FakeAVCeleb 上提升明显。
- 性能稳定性分析(图4,表9): 论文计算了 EmoForensics 和 SIMBA 在 FakeAVCeleb 各个留一法分割上性能与平均性能之差的绝对值之和(面积)。EmoForensics 面积为 12.50,而 SIMBA 为 32.98。这表明 EmoForensics 在不同伪造类型上的性能波动更小,更稳定。作者认为这种稳定性是其能够提升 SIMBA 泛化能力的原因之一。
Figure 4: Split-wise performance variability of EmoForensics and SIMBA on FakeAVCeleb.
🔬 细节详述
- 训练数据:
- FakeAVCeleb:包含来自 500 个身份的 21k 视频。训练/验证/测试集按身份划分(60%/10%/30%)。跨操纵评估遵循 [19] 的协议,包含 4 个 Method Splits (Faceswap, FSGAN, Wav2Lip, RTVC) 和 2 个 Family Splits (Face Animation, Lip Synthesis)。为跨操纵场景引入了一个从测试集中均匀采样 20% 样本构成的 val-test split,仅用于超参数调优和模型选择。
- DeepSpeak v2:包含 280 个身份的 16.5k 视频,伪造方法更多(6种视频+4种音频)。划分方式与 FakeAVCeleb 类似(验证集占训练集20%)。包含 15 个 Method Splits 和 3 个 Family Splits。
- 数据预处理:遵循 [19, 34],从视频中提取人脸区域,每个视频采样 16 帧,步长为 5。音频流处理整个片段产生帧级嵌入,然后下采样至与视觉帧相同的时间长度。
- 损失函数:
- EmoForensics:使用组合损失 \(\mathcal{L} = (1-\alpha)\mathcal{L}_{BCE} + \alpha\mathcal{L}_{contrast}\),其中 \(\alpha=0.5\)。
- \(\mathcal{L}_{BCE}\):标准二分类交叉熵损失,用于最终分类头。
- \(\mathcal{L}_{contrast}\):对比损失(公式2)。正样本对损失为距离平方 \(d(\mathbf{h_v}, \mathbf{h_a})^2\);负样本对(伪造-真实配对)损失为 \(\max(0, m - d(\mathbf{h_v}, \mathbf{h_a}))^2\),其中 margin \(m\) 为超参数(论文未给出具体数值)。
- Emo-Boost:仅使用 \(\mathcal{L}_{BCE}\) 损失训练投影头和最终分类头。
- 训练策略:
- EmoForensics:训练 100 个 epoch,使用 AdamW 优化器,初始学习率 \(1\times10^{-3}\),权重衰减 0.05,\(\epsilon=1\times10^{-8}\)。采用 ReduceOnPlateau 学习率调度器(patience=4)。Dropout 率 0.15。使用早停(patience=50)。
- Emo-Boost:训练 20 个 epoch,优化器和调度器同上(初始学习率 \(1\times10^{-3}\)),早停 patience=8。
- 关键超参数:
- 时序 Transformer 层数:2 层(对于视频和音频模态)。
- 情感编码器输出维度:视觉 \(d_v=512\) (POSTER),音频 \(d_a=1024\) (emotion2vec)。
- 情感表征融合方式(在 EmoForensics 内部):逐元素加法。
- 对比损失中的 margin \(m\):论文中未给出具体数值(“未说明”)。
- 投影头:一个可训练的 MLP,用于将 \(\mathbf{f_e}\) 映射到与 \(\mathbf{f_D}\) 相同维度。
- 训练硬件:单卡 NVIDIA L40 GPU(48GB GDDR6)。训练 EmoForensics 约 3 小时,训练 Emo-Boost 约 1 小时。不同实验配置并行训练,资源分配一致。
- 推理细节:论文未提及,可推断为输入一个测试视频,分别经过冻结的 EmoForensics 和 SIMBA 提取特征,融合后通过分类头输出概率。
- 正则化技巧:Dropout(率 0.15)用于 EmoForensics;权重衰减(0.05)用于 AdamW 优化器;早停机制用于防止过拟合。
⚖️ 评分理由
创新性:2.3/3 论文提出了一个清晰且新颖的 insight:将情感一致性作为深度伪造的高层语义检测线索,并围绕此设计了一个专用检测模块和融合框架。这与主流基于低级伪影的方法有显著区别,不是简单的“换汤不换药”。情感视角的引入在伪造检测领域具有一定的新颖性。扣分点在于:方法本质上仍是现有技术(预训练情感模型、Transformer、对比学习)的组合,且融合策略较为简单(简单的特征乘法)。
技术严谨性:1.6/2 方法设计逻辑自洽,假设合理(伪造破坏情感一致性),数学表述(损失函数)清晰。实验设计了合理的消融研究来验证各组件的贡献。主要技术疑点在于:1) 对比损失中负样本对的构造方式(伪造-真实配对)可能过于简化,未考虑更复杂的负样本模式;2) 对于特征乘法融合为何优于其他方式,缺乏理论或更深入的可视化分析解释,更多是基于实验结果的观察。
实验充分性:1.6/2 实验总体充分,覆盖了两个主流数据集、多种评估设置(域内、跨操纵)、详细的消融实验(EmoForensics组件、融合策略)。提供了稳定性分析来支撑“情感特征更稳定”的论点。不足之处:1) 在 DeepSpeak v2 数据集上未观察到提升,但分析不够深入,仅归因于数据集构建方式(脚本化录制,情感表达不自然),未设计实验证实此假设;2) 跨操纵评估的 val-test split 构造方法在附录说明,但主文中强调其用于超参数选择可能带来对最终测试集性能的轻微乐观估计;3) 缺乏对结果的统计显著性报告(如多次运行的标准差)。
清晰度:0.8/1 论文写作清晰,结构完整,图表(如图1, 图2, 图3, 图4)质量较高,能有效辅助理解。符号定义明确。关键方法描述足够详细。主要扣分点:1) 部分公式(如对比损失)的文字解释可以更直观;2) 图4的“面积”计算方法和意义解释可以更明确;3) 对比损失中关键超参数\(m\)的取值未说明。
影响力:0.6/1 本文为深度伪造检测引入了一个新的研究维度(情感),可能启发后续工作探索更多高阶语义线索。其“增强框架”的设计思路具有一定的通用性。然而,其影响可能受限于:1) EmoForensics 独立性能较弱,其核心价值高度依赖于与强大基线的结合;2) 提升主要体现在特定数据集(FakeAVCeleb)的特定伪造类型(如 RTVC)上,泛化的普适性有待更多验证;3) 情感识别的准确性和鲁棒性本身是一个难题,可能成为该方法链中的脆弱环节。
可复现性:0.3/1 论文提供了相对详细的训练细节(优化器、学习率、epoch、调度策略、硬件、训练时长)和超参数(Transformer层数、嵌入维度、dropout率),为复现提供了良好基础。然而,最致命的缺陷是未提供代码。没有代码,仅凭论文描述和超参数,很难完全复现其结果,尤其是在特征预处理、多进程数据加载、随机种子控制等工程细节上。这严重限制了可复现性。论文中引用的开源模型(POSTER, emotion2vec)是已知的,但整合与训练的代码未开源。
🚨 局限与问题
- 论文明确承认的局限:
- EmoForensics 作为独立检测器的性能较弱(在FakeAVCeleb上AUC 82.10%,远低于SIMBA的93.17%)。
- 在 DeepSpeak v2 数据集上,Emo-Boost 未带来性能提升,作者认为这是由于该数据集是脚本化录制,情感表达不自然,导致情感线索信号较弱。
- 承认框架可能继承所用数据集中的潜在偏见。
- 提到未来需要探索其他高阶语义线索(如模仿、动作)以及创建更接近真实交互的、包含最新伪造技术的数据集。
- 审稿人发现的潜在问题:
- 情感特征的有效性边界未探讨:论文没有深入分析,对于哪些类型的伪造操作(例如,仅替换口型、仅修改声音、完全生成)会显著破坏情感一致性,而哪些不会。这限制了方法的可解释性和适用范围。
- 融合机制的理论薄弱:为什么特征乘法有效?乘法操作可以被视为一种门控机制,但这与论文声称的“互补性”如何关联?缺乏直观的解释或可视化分析来阐明两个特征向量在乘法过程中是如何互补的。
- 基线选择的通用性验证不足:论文仅将 Emo-Boost 与 SIMBA 结合进行展示。虽然声称 EmoForensics 是通用的增强模块,但并未展示与其他 SOTA 多模态检测器(如 AVFF)的融合效果,这削弱了“通用增强框架”这一主张的普遍性。
- 稳定性分析的解释力有限:图4的稳定性分析是一个亮点,但“面积”指标是一个自定义指标,其绝对值意义不大,主要用于相对比较。论文未能将这种“稳定性”与“泛化能力提升”建立更强的因果关系或机制解释。
- 对 DeepSpeak v2 结果的处理过于轻率:论文将“在 DeepSpeak v2 上无提升”归因于数据集特性,这本身可能是一个合理的解释,但也可能掩盖了方法本身存在的其他问题。作者未设计实验(例如,在情感表达更丰富的伪造数据上验证)来严格证明这一假设。
- 情感特征作为潜在攻击面:论文假设情感一致性是难以伪造的,但随着生成模型发展,未来可能针对此特性进行攻击,生成“情感一致”的伪造视频,从而绕过该检测方法。这是潜在的长期风险。