📄 Disentangled Authenticity Representation for Partially Deepfake Audio Localization

#音频深度伪造检测 #对比学习 #语音伪造检测 #音频安全

✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #音频安全

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高

👥 作者与机构

第一作者：Siding Zeng（中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院）
通讯作者：论文中未明确标注通讯作者，依据学术惯例，可能为Siding Zeng或其他未列出作者。
作者列表：Siding Zeng（中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院）。论文中仅列出此一位作者，但机构信息显示有两个隶属单位。

💡 毒舌点评

论文的亮点在于其针对特定痛点（域偏移和边界模糊）设计了一套逻辑自洽、组件协同的解决方案，消融实验也扎实地证明了各模块的有效性。然而，其核心思想——将表示解耦为“目标”与“干扰”成分——在计算机视觉等领域已不新鲜，论文的创新更多体现在如何将这一通用思想“翻译”并适配到部分伪造音频定位这个具体任务上，属于扎实的工程优化而非理论或架构上的重大突破。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及公开模型权重。
数据集：实验使用了公开的PartialSpoof和ADD2023数据集，但论文本身未发布新数据集。
Demo：未提及在线演示。
复现材料：提供了较为详细的训练配置（优化器、学习率、批量大小、损失权重、硬件），但未提供完整的训练脚本、配置文件或预训练检查点。
论文中引用的开源项目：引用了Wav2Vec2预训练模型（作为特征提取器）。
总结：论文中未提及明确的开源计划。

📌 核心摘要

问题：部分深度伪造音频（仅少数片段被篡改）的定位面临两大挑战：训练与测试数据间的域偏移，以及真实与伪造段之间细微的过渡边界。
方法核心：提出DisAR双分支框架，将每个音频帧的特征显式解耦为“真实性特征”（捕捉伪造痕迹）和“干扰因素特征”（编码说话人、内容、环境等信息）。通过门控融合模块重建原始特征以避免信息丢失，并利用局部时间对比损失增强对篡改边界的敏感性。
创新点：与已有方法相比，新在显式地将真实性信息与干扰因素分离，而非隐式地让模型自行学习；并通过融合重构和对比损失分别保障信息完整性和提升边界精度。
主要结果：在PartialSpoof数据集上，DisAR取得了95.75%的F1分数（EER 3.51%）；在ADD2023 Track 2（跨域测试）上，F1分数达到76.74%（EER 19.05%），均优于报告的基线。关键消融实验证明，移除正交损失、融合模块或对比损失均会导致性能显著下降（例如，无正交损失时F1降至68.48%）。
- 主要对比实验结果（表1）：
方法 PartialSpoof F1 (%) ADD2023 Track 2 F1 (%)
AGO (ICASSP’24) 94.36 71.87
DisAR (本文) 95.75 76.74
- 跨域泛化结果（表3）：PartialSpoof -> ADD2023设置下，DisAR的F1分数为57.81%，远高于基线SPF（37.15%）和RSDM（34.09%）。
实际意义：提升了深度伪造音频检测在真实复杂场景（不同设备、环境、语言）下的可靠性和可解释性（通过解耦的特征）。
主要局限性：论文未讨论模型的计算开销和部署复杂度；实验仅在两个数据集上进行，其广泛适用性有待验证；未提供开源代码，限制了结果的快速复现与验证。

方法	PartialSpoof F1 (%)	ADD2023 Track 2 F1 (%)
AGO (ICASSP’24)	94.36	71.87
DisAR (本文)	95.75	76.74

🏗️ 模型架构

DisAR是一个端到端的双分支框架，整体流程分为训练和推理两个阶段，其核心是特征解耦与重建。下图展示了其完整架构：

图1: pdf-image-page2-idx0

架构流程详解：

输入与特征提取：输入音频被分成重叠帧，每帧提取1024维的Wav2Vec2特征（xt），这些特征保留了时序信息。
双分支解耦（Disentangle）：共享底层参数的BiLSTM后接两个独立的投影头，将xt映射到两个128维子空间：
- 真实性分支 (Fa)：输出真实性特征 at，负责捕获伪造伪影。
- 干扰因素分支 (Fn)：输出干扰特征 nt，负责编码与真实性无关的说话人、语义、信道信息。
- 正交约束（Lorth）：通过最小化at与nt的余弦相似度，强制两个特征空间统计独立，确保有效解耦。
门控融合与重建（Fusion）：
- 门控网络 (gt) 自适应地决定融合at和nt的比例：zt = gt ⊙ at + (1-gt) ⊙ nt。
- 解码器 (D(·)) 从融合特征 zt 重建原始帧特征 ŷt，通过重建损失 (Lrec) 确保信息不丢失。
交叉重建（Cross-Reconstruction）：将不同帧（如真实帧i和伪造帧j）的at和nt进行交换重组，生成混合特征，再通过解码器和真实性分支。这进一步验证了真实性特征能独立于干扰因素一致地反映伪造信息。
局部时间对比损失（Lctr）：针对每个帧及其相邻帧（包括原始和交叉重建的）的真实性特征，计算监督对比损失，拉近同类（同为真实或同为伪造）的特征，推远不同类的特征，从而增强边界处的区分度。
训练目标：总损失 Ltotal = Lrec + λorthLorth + λctrLctr，共同优化重建保真度、特征解耦和边界敏感性。
推理阶段：仅使用真实性分支 Fa 提取每个帧的特征 at，并通过一个轻量级阈值分类器进行帧级预测，最终得到伪造区域。

关键设计动机：

显式解耦：直接分离“伪造信号”与“背景噪声”，提升模型在未知干扰下的泛化能力（跨域性能）。
门控融合+重建：是“解耦-重构”范式的标准实践，防止解耦过程造成不可逆的信息损失。
局部对比损失：针对性地解决“边界模糊”问题，通过对比相邻帧的特征差异，迫使模型在边界处学习到更鲜明的表征跳跃。

💡 核心创新点

针对部分伪造音频的显式真实性-干扰因素解耦框架：
- 之前局限：现有方法多隐式学习特征，易导致真实性特征与说话人等干扰因素耦合，影响跨域泛化。
- 如何起作用：通过双分支结构和正交约束，强制模型将影响判断的因素分离到两个子空间。
- 收益：实验证明，该设计是跨域泛化性能提升的关键（消融实验中移除正交损失后F1暴跌27%+）。
结合门控融合与交叉重建的保真验证机制：
- 之前局限：单纯解耦可能丢失对原始信号有用的上下文信息。
- 如何起作用：门控融合能自适应重组信息用于重建；交叉重组（换用不同帧的干扰特征重建）则验证了解耦出的真实性特征是否真正独立、稳定。
- 收益：在保留全局信息的同时，确保了解耦出的真实性特征的纯净性，增强了特征的鲁棒性。
提升边界敏感性的局部时间对比损失：
- 之前局限：帧级分类方法对边界帧的判定容易混淆。
- 如何起作用：在特征空间中，显式地约束真实帧与相邻真实帧相似、伪造帧与相邻伪造帧相似，而真实与伪造帧不相似，从而在边界处制造特征“断崖”。
- 收益：消融实验显示，移除对比损失后，边界敏感的Recall和F1指标均有下降，证明了其对精确定位的作用。

🔬 细节详述

训练数据：
- 数据集：PartialSpoof（英文，基于ASVspoof2019的TTS/VC拼接）和ADD2023 Track 2（中文，含多种伪造技术和干扰）。
- 来源与规模：使用数据集官方划分，具体样本数量论文未提供。
- 预处理：将音频分割为20ms重叠帧，提取预训练Wav2Vec2模型的1024维特征。
- 数据增强：论文中未提及使用额外数据增强技术。
损失函数：
- Lrec：原始特征与重建特征的L2损失，保证信息保留。
- Lorth：真实性与干扰特征余弦相似度的平方损失，权重λorth=0.5，驱动特征解耦。
- Lctr：局部时间监督对比损失，使用余弦相似度，温度τ=0.07，权重λctr=0.5，增强边界区分。
训练策略：
- 优化器：Adam。
- 学习率：1e-4。
- Batch size：16。
- 训练轮数：最多40 epochs，使用早停。
- 调度策略：论文中未提及学习率调度。
关键超参数：
- BiLSTM隐藏维度：256（每向）。
- 分支投影头输出维度：128。
- 融合门控和解码器：2层MLP。
训练硬件：单块NVIDIA RTX 3090 GPU。训练时长未提供。
推理细节：使用阈值分类器对帧级真实性分数进行二值化，然后按段统计得到最终预测。
正则化/稳定技巧：使用了早停；通过正交约束和对比损失作为隐式的正则化手段。

📊 实验结果

主要对比实验（表1）：论文在PartialSpoof和ADD2023 Track 2两个数据集上与多种基线进行了对比，DisAR在两者上均取得了最优的F1分数。

方法	PartialSpoof				ADD2023 (Track 2)
	EER↓	Acc↑	Prec↑	Rec↑	F1↑	EER↓	Acc↑	Prec↑
RSDM	21.65	76.98	72.15	63.87	67.76	31.39	79.07	52.14
SPF	16.43	86.34	76.80	72.47	74.57	33.72	74.56	71.32
AGO	6.79	96.52	97.21	91.67	94.36	27.50	86.98	82.15
BAM	3.58	–	93.68	98.51	96.09	–	–	–
DisAR	3.51	97.51	97.16	94.32	95.75	19.05	88.21	82.52

消融实验（表2）：在PartialSpoof数据集上的消融研究清晰展示了各核心组件的贡献。移除任何模块都会导致性能下降，其中正交损失的影响最为关键。

模型变体	Acc↑	EER↓	Prec↑	Rec↑	F1↑
Full DisAR	97.51	3.51	97.16	94.32	95.75
w/o Orthogonality Loss	67.40	23.15	67.63	69.27	68.48
w/o Fusion Module	80.80	18.54	84.30	78.52	81.29
w/o Contrastive Loss	90.98	8.02	86.36	89.03	87.68

跨域泛化实验（表3）：在零样本跨域测试中（训练集与测试集来自不同数据集），DisAR的优势更加明显，F1分数领先基线超过20个百分点。

方法	PS →ADD2023	ADD2023 →PS
	EER↓	Acc↑
SPF	40.31	61.42
RSDM	42.80	59.88
DisAR	38.03	70.24

图表说明：论文中未提供除架构图外的其他实验结果图表（如PR曲线、t-SNE可视化等），所有关键结论均来自上述表格数据。

⚖️ 评分理由

学术质量：5.5/7：论文针对明确问题提出了完整且逻辑自洽的解决方案，技术路线正确，实验设计全面，包括主实验、消融实验和跨域泛化实验，数据支撑有力。扣分主要在于其核心思想（特征解耦）并非全新，创新更多体现在针对特定任务的组合与适配上，且未深入分析模型复杂度与实时性等实际部署考量。
选题价值：1.5/2：部分伪造音频定位是音频安全中的一个具体但重要的前沿方向。论文专注于提升该任务的泛化能力和定位精度，对相关应用和研究具有明确的推动作用。选题较为聚焦，受众相对专业。
开源与复现加成：0.0/1：论文未提供任何开源资源（代码、模型、数据），虽然给出了详细的训练超参数，但缺乏实现层面的细节，无法直接复现。这在一定程度上限制了工作的可验证性和影响力扩散。

← 返回 ICASSP 2026 论文分析

📄 Disentangled Authenticity Representation for Partially Deepfake Audio Localization#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文