📄 Disentangled Authenticity Representation for Partially Deepfake Audio Localization
#音频深度伪造检测 #对比学习 #语音伪造检测 #音频安全
✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #音频安全
学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高
👥 作者与机构
- 第一作者:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院)
- 通讯作者:论文中未明确标注通讯作者,依据学术惯例,可能为Siding Zeng或其他未列出作者。
- 作者列表:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院)。论文中仅列出此一位作者,但机构信息显示有两个隶属单位。
💡 毒舌点评
论文的亮点在于其针对特定痛点(域偏移和边界模糊)设计了一套逻辑自洽、组件协同的解决方案,消融实验也扎实地证明了各模块的有效性。然而,其核心思想——将表示解耦为“目标”与“干扰”成分——在计算机视觉等领域已不新鲜,论文的创新更多体现在如何将这一通用思想“翻译”并适配到部分伪造音频定位这个具体任务上,属于扎实的工程优化而非理论或架构上的重大突破。
📌 核心摘要
问题:部分深度伪造音频(仅少数片段被篡改)的定位面临两大挑战:训练与测试数据间的域偏移,以及真实与伪造段之间细微的过渡边界。
方法核心:提出DisAR双分支框架,将每个音频帧的特征显式解耦为“真实性特征”(捕捉伪造痕迹)和“干扰因素特征”(编码说话人、内容、环境等信息)。通过门控融合模块重建原始特征以避免信息丢失,并利用局部时间对比损失增强对篡改边界的敏感性。
创新点:与已有方法相比,新在显式地将真实性信息与干扰因素分离,而非隐式地让模型自行学习;并通过融合重构和对比损失分别保障信息完整性和提升边界精度。
主要结果:在PartialSpoof数据集上,DisAR取得了95.75%的F1分数(EER 3.51%);在ADD2023 Track 2(跨域测试)上,F1分数达到76.74%(EER 19.05%),均优于报告的基线。关键消融实验证明,移除正交损失、融合模块或对比损失均会导致性能显著下降(例如,无正交损失时F1降至68.48%)。
- 主要对比实验结果(表1):
方法 PartialSpoof F1 (%) ADD2023 Track 2 F1 (%) AGO (ICASSP’24) 94.36 71.87 DisAR (本文) 95.75 76.74 - 跨域泛化结果(表3):PartialSpoof -> ADD2023设置下,DisAR的F1分数为57.81%,远高于基线SPF(37.15%)和RSDM(34.09%)。
实际意义:提升了深度伪造音频检测在真实复杂场景(不同设备、环境、语言)下的可靠性和可解释性(通过解耦的特征)。
主要局限性:论文未讨论模型的计算开销和部署复杂度;实验仅在两个数据集上进行,其广泛适用性有待验证;未提供开源代码,限制了结果的快速复现与验证。
🏗️ 模型架构
DisAR是一个端到端的双分支框架,整体流程分为训练和推理两个阶段,其核心是特征解耦与重建。下图展示了其完整架构:

架构流程详解:
- 输入与特征提取:输入音频被分成重叠帧,每帧提取1024维的Wav2Vec2特征(
xt),这些特征保留了时序信息。 - 双分支解耦(Disentangle):共享底层参数的BiLSTM后接两个独立的投影头,将
xt映射到两个128维子空间:- 真实性分支 (Fa):输出真实性特征
at,负责捕获伪造伪影。 - 干扰因素分支 (Fn):输出干扰特征
nt,负责编码与真实性无关的说话人、语义、信道信息。 - 正交约束(Lorth):通过最小化
at与nt的余弦相似度,强制两个特征空间统计独立,确保有效解耦。
- 真实性分支 (Fa):输出真实性特征
- 门控融合与重建(Fusion):
- 门控网络 (
gt) 自适应地决定融合at和nt的比例:zt = gt ⊙ at + (1-gt) ⊙ nt。 - 解码器 (
D(·)) 从融合特征zt重建原始帧特征ŷt,通过重建损失 (Lrec) 确保信息不丢失。
- 门控网络 (
- 交叉重建(Cross-Reconstruction):将不同帧(如真实帧
i和伪造帧j)的at和nt进行交换重组,生成混合特征,再通过解码器和真实性分支。这进一步验证了真实性特征能独立于干扰因素一致地反映伪造信息。 - 局部时间对比损失(Lctr):针对每个帧及其相邻帧(包括原始和交叉重建的)的真实性特征,计算监督对比损失,拉近同类(同为真实或同为伪造)的特征,推远不同类的特征,从而增强边界处的区分度。
- 训练目标:总损失
Ltotal = Lrec + λorthLorth + λctrLctr,共同优化重建保真度、特征解耦和边界敏感性。 - 推理阶段:仅使用真实性分支
Fa提取每个帧的特征at,并通过一个轻量级阈值分类器进行帧级预测,最终得到伪造区域。
关键设计动机:
- 显式解耦:直接分离“伪造信号”与“背景噪声”,提升模型在未知干扰下的泛化能力(跨域性能)。
- 门控融合+重建:是“解耦-重构”范式的标准实践,防止解耦过程造成不可逆的信息损失。
- 局部对比损失:针对性地解决“边界模糊”问题,通过对比相邻帧的特征差异,迫使模型在边界处学习到更鲜明的表征跳跃。
💡 核心创新点
针对部分伪造音频的显式真实性-干扰因素解耦框架:
- 之前局限:现有方法多隐式学习特征,易导致真实性特征与说话人等干扰因素耦合,影响跨域泛化。
- 如何起作用:通过双分支结构和正交约束,强制模型将影响判断的因素分离到两个子空间。
- 收益:实验证明,该设计是跨域泛化性能提升的关键(消融实验中移除正交损失后F1暴跌27%+)。
结合门控融合与交叉重建的保真验证机制:
- 之前局限:单纯解耦可能丢失对原始信号有用的上下文信息。
- 如何起作用:门控融合能自适应重组信息用于重建;交叉重组(换用不同帧的干扰特征重建)则验证了解耦出的真实性特征是否真正独立、稳定。
- 收益:在保留全局信息的同时,确保了解耦出的真实性特征的纯净性,增强了特征的鲁棒性。
提升边界敏感性的局部时间对比损失:
- 之前局限:帧级分类方法对边界帧的判定容易混淆。
- 如何起作用:在特征空间中,显式地约束真实帧与相邻真实帧相似、伪造帧与相邻伪造帧相似,而真实与伪造帧不相似,从而在边界处制造特征“断崖”。
- 收益:消融实验显示,移除对比损失后,边界敏感的Recall和F1指标均有下降,证明了其对精确定位的作用。
🔬 细节详述
- 训练数据:
- 数据集:PartialSpoof(英文,基于ASVspoof2019的TTS/VC拼接)和ADD2023 Track 2(中文,含多种伪造技术和干扰)。
- 来源与规模:使用数据集官方划分,具体样本数量论文未提供。
- 预处理:将音频分割为20ms重叠帧,提取预训练Wav2Vec2模型的1024维特征。
- 数据增强:论文中未提及使用额外数据增强技术。
- 损失函数:
Lrec:原始特征与重建特征的L2损失,保证信息保留。Lorth:真实性与干扰特征余弦相似度的平方损失,权重λorth=0.5,驱动特征解耦。Lctr:局部时间监督对比损失,使用余弦相似度,温度τ=0.07,权重λctr=0.5,增强边界区分。
- 训练策略:
- 优化器:Adam。
- 学习率:
1e-4。 - Batch size:16。
- 训练轮数:最多40 epochs,使用早停。
- 调度策略:论文中未提及学习率调度。
- 关键超参数:
- BiLSTM隐藏维度:256(每向)。
- 分支投影头输出维度:128。
- 融合门控和解码器:2层MLP。
- 训练硬件:单块NVIDIA RTX 3090 GPU。训练时长未提供。
- 推理细节:使用阈值分类器对帧级真实性分数进行二值化,然后按段统计得到最终预测。
- 正则化/稳定技巧:使用了早停;通过正交约束和对比损失作为隐式的正则化手段。
📊 实验结果
主要对比实验(表1): 论文在PartialSpoof和ADD2023 Track 2两个数据集上与多种基线进行了对比,DisAR在两者上均取得了最优的F1分数。
| 方法 | PartialSpoof | ADD2023 (Track 2) | ||||||
|---|---|---|---|---|---|---|---|---|
| EER↓ | Acc↑ | Prec↑ | Rec↑ | F1↑ | EER↓ | Acc↑ | Prec↑ | |
| RSDM | 21.65 | 76.98 | 72.15 | 63.87 | 67.76 | 31.39 | 79.07 | 52.14 |
| SPF | 16.43 | 86.34 | 76.80 | 72.47 | 74.57 | 33.72 | 74.56 | 71.32 |
| AGO | 6.79 | 96.52 | 97.21 | 91.67 | 94.36 | 27.50 | 86.98 | 82.15 |
| BAM | 3.58 | – | 93.68 | 98.51 | 96.09 | – | – | – |
| DisAR | 3.51 | 97.51 | 97.16 | 94.32 | 95.75 | 19.05 | 88.21 | 82.52 |
消融实验(表2): 在PartialSpoof数据集上的消融研究清晰展示了各核心组件的贡献。移除任何模块都会导致性能下降,其中正交损失的影响最为关键。
| 模型变体 | Acc↑ | EER↓ | Prec↑ | Rec↑ | F1↑ |
|---|---|---|---|---|---|
| Full DisAR | 97.51 | 3.51 | 97.16 | 94.32 | 95.75 |
| w/o Orthogonality Loss | 67.40 | 23.15 | 67.63 | 69.27 | 68.48 |
| w/o Fusion Module | 80.80 | 18.54 | 84.30 | 78.52 | 81.29 |
| w/o Contrastive Loss | 90.98 | 8.02 | 86.36 | 89.03 | 87.68 |
跨域泛化实验(表3): 在零样本跨域测试中(训练集与测试集来自不同数据集),DisAR的优势更加明显,F1分数领先基线超过20个百分点。
| 方法 | PS →ADD2023 | ADD2023 →PS |
|---|---|---|
| EER↓ | Acc↑ | |
| SPF | 40.31 | 61.42 |
| RSDM | 42.80 | 59.88 |
| DisAR | 38.03 | 70.24 |
图表说明:论文中未提供除架构图外的其他实验结果图表(如PR曲线、t-SNE可视化等),所有关键结论均来自上述表格数据。
⚖️ 评分理由
- 学术质量:5.5/7:论文针对明确问题提出了完整且逻辑自洽的解决方案,技术路线正确,实验设计全面,包括主实验、消融实验和跨域泛化实验,数据支撑有力。扣分主要在于其核心思想(特征解耦)并非全新,创新更多体现在针对特定任务的组合与适配上,且未深入分析模型复杂度与实时性等实际部署考量。
- 选题价值:1.5/2:部分伪造音频定位是音频安全中的一个具体但重要的前沿方向。论文专注于提升该任务的泛化能力和定位精度,对相关应用和研究具有明确的推动作用。选题较为聚焦,受众相对专业。
- 开源与复现加成:0.0/1:论文未提供任何开源资源(代码、模型、数据),虽然给出了详细的训练超参数,但缺乏实现层面的细节,无法直接复现。这在一定程度上限制了工作的可验证性和影响力扩散。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:未提及公开模型权重。
- 数据集:实验使用了公开的PartialSpoof和ADD2023数据集,但论文本身未发布新数据集。
- Demo:未提及在线演示。
- 复现材料:提供了较为详细的训练配置(优化器、学习率、批量大小、损失权重、硬件),但未提供完整的训练脚本、配置文件或预训练检查点。
- 论文中引用的开源项目:引用了Wav2Vec2预训练模型(作为特征提取器)。
- 总结:论文中未提及明确的开源计划。