📄 Disentangled Authenticity Representation for Partially Deepfake Audio Localization

#音频深度伪造检测 #对比学习 #语音伪造检测 #音频安全

6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #音频安全

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高

👥 作者与机构

  • 第一作者:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院)
  • 通讯作者:论文中未明确标注通讯作者,依据学术惯例,可能为Siding Zeng或其他未列出作者。
  • 作者列表:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院)。论文中仅列出此一位作者,但机构信息显示有两个隶属单位。

💡 毒舌点评

论文的亮点在于其针对特定痛点(域偏移和边界模糊)设计了一套逻辑自洽、组件协同的解决方案,消融实验也扎实地证明了各模块的有效性。然而,其核心思想——将表示解耦为“目标”与“干扰”成分——在计算机视觉等领域已不新鲜,论文的创新更多体现在如何将这一通用思想“翻译”并适配到部分伪造音频定位这个具体任务上,属于扎实的工程优化而非理论或架构上的重大突破。

📌 核心摘要

  1. 问题:部分深度伪造音频(仅少数片段被篡改)的定位面临两大挑战:训练与测试数据间的域偏移,以及真实与伪造段之间细微的过渡边界。

  2. 方法核心:提出DisAR双分支框架,将每个音频帧的特征显式解耦为“真实性特征”(捕捉伪造痕迹)和“干扰因素特征”(编码说话人、内容、环境等信息)。通过门控融合模块重建原始特征以避免信息丢失,并利用局部时间对比损失增强对篡改边界的敏感性。

  3. 创新点:与已有方法相比,新在显式地将真实性信息与干扰因素分离,而非隐式地让模型自行学习;并通过融合重构和对比损失分别保障信息完整性和提升边界精度。

  4. 主要结果:在PartialSpoof数据集上,DisAR取得了95.75%的F1分数(EER 3.51%);在ADD2023 Track 2(跨域测试)上,F1分数达到76.74%(EER 19.05%),均优于报告的基线。关键消融实验证明,移除正交损失、融合模块或对比损失均会导致性能显著下降(例如,无正交损失时F1降至68.48%)。

    • 主要对比实验结果(表1):
    方法PartialSpoof F1 (%)ADD2023 Track 2 F1 (%)
    AGO (ICASSP’24)94.3671.87
    DisAR (本文)95.7576.74
    • 跨域泛化结果(表3):PartialSpoof -> ADD2023设置下,DisAR的F1分数为57.81%,远高于基线SPF(37.15%)和RSDM(34.09%)。
  5. 实际意义:提升了深度伪造音频检测在真实复杂场景(不同设备、环境、语言)下的可靠性和可解释性(通过解耦的特征)。

  6. 主要局限性:论文未讨论模型的计算开销和部署复杂度;实验仅在两个数据集上进行,其广泛适用性有待验证;未提供开源代码,限制了结果的快速复现与验证。

🏗️ 模型架构

DisAR是一个端到端的双分支框架,整体流程分为训练和推理两个阶段,其核心是特征解耦与重建。下图展示了其完整架构:

图1: pdf-image-page2-idx0

架构流程详解:

  1. 输入与特征提取:输入音频被分成重叠帧,每帧提取1024维的Wav2Vec2特征(xt),这些特征保留了时序信息。
  2. 双分支解耦(Disentangle):共享底层参数的BiLSTM后接两个独立的投影头,将xt映射到两个128维子空间:
    • 真实性分支 (Fa):输出真实性特征 at,负责捕获伪造伪影。
    • 干扰因素分支 (Fn):输出干扰特征 nt,负责编码与真实性无关的说话人、语义、信道信息。
    • 正交约束(Lorth):通过最小化atnt的余弦相似度,强制两个特征空间统计独立,确保有效解耦。
  3. 门控融合与重建(Fusion):
    • 门控网络 (gt) 自适应地决定融合atnt的比例:zt = gt ⊙ at + (1-gt) ⊙ nt
    • 解码器 (D(·)) 从融合特征 zt 重建原始帧特征 ŷt,通过重建损失 (Lrec) 确保信息不丢失。
  4. 交叉重建(Cross-Reconstruction):将不同帧(如真实帧i和伪造帧j)的atnt进行交换重组,生成混合特征,再通过解码器和真实性分支。这进一步验证了真实性特征能独立于干扰因素一致地反映伪造信息。
  5. 局部时间对比损失(Lctr):针对每个帧及其相邻帧(包括原始和交叉重建的)的真实性特征,计算监督对比损失,拉近同类(同为真实或同为伪造)的特征,推远不同类的特征,从而增强边界处的区分度。
  6. 训练目标:总损失 Ltotal = Lrec + λorthLorth + λctrLctr,共同优化重建保真度、特征解耦和边界敏感性。
  7. 推理阶段:仅使用真实性分支 Fa 提取每个帧的特征 at,并通过一个轻量级阈值分类器进行帧级预测,最终得到伪造区域。

关键设计动机:

  • 显式解耦:直接分离“伪造信号”与“背景噪声”,提升模型在未知干扰下的泛化能力(跨域性能)。
  • 门控融合+重建:是“解耦-重构”范式的标准实践,防止解耦过程造成不可逆的信息损失。
  • 局部对比损失:针对性地解决“边界模糊”问题,通过对比相邻帧的特征差异,迫使模型在边界处学习到更鲜明的表征跳跃。

💡 核心创新点

  1. 针对部分伪造音频的显式真实性-干扰因素解耦框架:

    • 之前局限:现有方法多隐式学习特征,易导致真实性特征与说话人等干扰因素耦合,影响跨域泛化。
    • 如何起作用:通过双分支结构和正交约束,强制模型将影响判断的因素分离到两个子空间。
    • 收益:实验证明,该设计是跨域泛化性能提升的关键(消融实验中移除正交损失后F1暴跌27%+)。
  2. 结合门控融合与交叉重建的保真验证机制:

    • 之前局限:单纯解耦可能丢失对原始信号有用的上下文信息。
    • 如何起作用:门控融合能自适应重组信息用于重建;交叉重组(换用不同帧的干扰特征重建)则验证了解耦出的真实性特征是否真正独立、稳定。
    • 收益:在保留全局信息的同时,确保了解耦出的真实性特征的纯净性,增强了特征的鲁棒性。
  3. 提升边界敏感性的局部时间对比损失:

    • 之前局限:帧级分类方法对边界帧的判定容易混淆。
    • 如何起作用:在特征空间中,显式地约束真实帧与相邻真实帧相似、伪造帧与相邻伪造帧相似,而真实与伪造帧不相似,从而在边界处制造特征“断崖”。
    • 收益:消融实验显示,移除对比损失后,边界敏感的Recall和F1指标均有下降,证明了其对精确定位的作用。

🔬 细节详述

  • 训练数据:
    • 数据集:PartialSpoof(英文,基于ASVspoof2019的TTS/VC拼接)和ADD2023 Track 2(中文,含多种伪造技术和干扰)。
    • 来源与规模:使用数据集官方划分,具体样本数量论文未提供。
    • 预处理:将音频分割为20ms重叠帧,提取预训练Wav2Vec2模型的1024维特征。
    • 数据增强:论文中未提及使用额外数据增强技术。
  • 损失函数:
    • Lrec:原始特征与重建特征的L2损失,保证信息保留。
    • Lorth:真实性与干扰特征余弦相似度的平方损失,权重λorth=0.5,驱动特征解耦。
    • Lctr:局部时间监督对比损失,使用余弦相似度,温度τ=0.07,权重λctr=0.5,增强边界区分。
  • 训练策略:
    • 优化器:Adam。
    • 学习率:1e-4
    • Batch size:16。
    • 训练轮数:最多40 epochs,使用早停。
    • 调度策略:论文中未提及学习率调度。
  • 关键超参数:
    • BiLSTM隐藏维度:256(每向)。
    • 分支投影头输出维度:128。
    • 融合门控和解码器:2层MLP。
  • 训练硬件:单块NVIDIA RTX 3090 GPU。训练时长未提供。
  • 推理细节:使用阈值分类器对帧级真实性分数进行二值化,然后按段统计得到最终预测。
  • 正则化/稳定技巧:使用了早停;通过正交约束和对比损失作为隐式的正则化手段。

📊 实验结果

主要对比实验(表1): 论文在PartialSpoof和ADD2023 Track 2两个数据集上与多种基线进行了对比,DisAR在两者上均取得了最优的F1分数。

方法PartialSpoofADD2023 (Track 2)
EER↓Acc↑Prec↑Rec↑F1↑EER↓Acc↑Prec↑
RSDM21.6576.9872.1563.8767.7631.3979.0752.14
SPF16.4386.3476.8072.4774.5733.7274.5671.32
AGO6.7996.5297.2191.6794.3627.5086.9882.15
BAM3.5893.6898.5196.09
DisAR3.5197.5197.1694.3295.7519.0588.2182.52

消融实验(表2): 在PartialSpoof数据集上的消融研究清晰展示了各核心组件的贡献。移除任何模块都会导致性能下降,其中正交损失的影响最为关键。

模型变体Acc↑EER↓Prec↑Rec↑F1↑
Full DisAR97.513.5197.1694.3295.75
w/o Orthogonality Loss67.4023.1567.6369.2768.48
w/o Fusion Module80.8018.5484.3078.5281.29
w/o Contrastive Loss90.988.0286.3689.0387.68

跨域泛化实验(表3): 在零样本跨域测试中(训练集与测试集来自不同数据集),DisAR的优势更加明显,F1分数领先基线超过20个百分点。

方法PS →ADD2023ADD2023 →PS
EER↓Acc↑
SPF40.3161.42
RSDM42.8059.88
DisAR38.0370.24

图表说明:论文中未提供除架构图外的其他实验结果图表(如PR曲线、t-SNE可视化等),所有关键结论均来自上述表格数据。

⚖️ 评分理由

  • 学术质量:5.5/7:论文针对明确问题提出了完整且逻辑自洽的解决方案,技术路线正确,实验设计全面,包括主实验、消融实验和跨域泛化实验,数据支撑有力。扣分主要在于其核心思想(特征解耦)并非全新,创新更多体现在针对特定任务的组合与适配上,且未深入分析模型复杂度与实时性等实际部署考量。
  • 选题价值:1.5/2:部分伪造音频定位是音频安全中的一个具体但重要的前沿方向。论文专注于提升该任务的泛化能力和定位精度,对相关应用和研究具有明确的推动作用。选题较为聚焦,受众相对专业。
  • 开源与复现加成:0.0/1:论文未提供任何开源资源(代码、模型、数据),虽然给出了详细的训练超参数,但缺乏实现层面的细节,无法直接复现。这在一定程度上限制了工作的可验证性和影响力扩散。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:未提及公开模型权重。
  • 数据集:实验使用了公开的PartialSpoof和ADD2023数据集,但论文本身未发布新数据集。
  • Demo:未提及在线演示。
  • 复现材料:提供了较为详细的训练配置(优化器、学习率、批量大小、损失权重、硬件),但未提供完整的训练脚本、配置文件或预训练检查点。
  • 论文中引用的开源项目:引用了Wav2Vec2预训练模型(作为特征提取器)。
  • 总结:论文中未提及明确的开源计划。

← 返回 ICASSP 2026 论文分析