📄 Deepfake Audio Detection Using Self-supervised Fusion Representations

#音频深度伪造检测 #语音伪造检测 #自监督学习 #预训练 #数据增强

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Khalid Zaman（论文中未提及具体机构）
通讯作者：未说明
作者列表：Khalid Zaman（未说明）、Qixuan Huang（未说明）、Muhammad Uzair（未说明）、Masashi Unoki（未说明）注：论文文本中未提供作者的所属机构信息。

💡 毒舌点评

论文的亮点在于敏锐地抓住了“组件级伪造”这一更贴近现实的场景，并设计了一个将语音和环境声专用编码器进行跨模态融合的框架，思路清晰且实验验证了其有效性。然而，其短板在于“对比不充分”，论文中的基线系统相对简单，缺乏与当前主流深度伪造检测模型（如纯AASIST、或使用单一更强SSL模型的方法）的直接对比，使得其性能提升的绝对说服力打了一些折扣。

🔗 开源详情

代码：https://github.com/OrgHuang/KHUM-ESDD2.git
模型权重：论文中未提及具体模型权重的托管链接（如HuggingFace/ModelScope）。论文中提到的预训练模型为XLS-R和BEATs，其权重信息需从引用的原始论文或相应平台获取。
数据集：CompSpoofV2数据集。论文中提及该数据集是为ESDD2挑战赛引入的，但未提供公开的直接下载链接，应通过挑战赛官方渠道获取。
Demo：论文中未提及
复现材料：论文中详细描述了实验设置，包括：使用PyTorch框架、在单张NVIDIA RTX 4090 GPU上运行、优化器为Adam（初始学习率1e-4）、批次大小64、训练12轮次、采用了加权多任务损失（语音和环境分支权重为1.0，原始分支权重为0.2）及排序正则化（权重0.5）、数据增强策略（多种混合方式和随机噪声注入）以及过采样方法。但论文中未明确提及是否公开完整的训练配置文件或预训练检查点。
论文中引用的开源项目：论文中引用了以下开源项目（模型/工具），但未提供其GitHub等代码仓库链接，信息来源于其引用的原始论文。
- XLS-R：预训练语音模型[20]
- BEATs：预训练环境音模型[21]
- AASIST：声学反欺骗分类器[22]
- Wav2vec 2.0：自监督学习模型[16]
- HuBERT：自监督学习模型[17]
- WavLM：自监督学习模型[18]

📌 核心摘要

这篇论文旨在解决音频深度伪造检测中的新挑战：语音和环境声音可能被独立篡改的“组件级”伪造问题。其方法核心是提出一个双分支架构，分别使用针对语音的XLS-R和针对环境声的BEATs两个预训练模型提取特征，并通过一个匹配头建模两者差异以估计原始音频，同时利用多头跨注意力机制促进两个分支的信息交互。与主要将音频视为整体的传统方法相比，该工作的创新点在于显式地建模了语音和环境声组件的独立表示及其交互，以捕捉组件间的伪造不一致性。实验在CompSpoofV2数据集上进行，所提方法在测试集上取得了70.20%的F1分数，相比基线系统（63.27%）提升了近7个百分点，环境声音的等错误率（EER）也从42.79%显著降低至18.83%，证明了其有效性。该工作的实际意义在于为更复杂的、包含多种声音成分的真实世界音频伪造检测提供了可行的解决方案。其主要局限性在于实验对比主要局限于挑战赛基线，未与领域内其他先进模型进行广泛对比，且组件间的交互机制相对直接。

🏗️ 模型架构

该模型采用双分支并行架构，处理流程如下：

输入：一段4秒的音频信号x。
特征提取：
- 语音分支：使用预训练的XLS-R模型提取语音相关特征表示 F_speech。
- 环境声分支：使用预训练的BEATs模型提取环境声相关特征表示 F_env。
表示对齐：由于两个编码器输出维度不同，使用一个线性层将F_speech投影到与F_env相同的维度，得到 F̂_speech。
跨模态交互（双向交叉注意力）：
- 以F̂_speech作为查询（Query），F_env作为键（Key）和值（Value），计算得到增强的语音表示 F_speech*。
- 以F_env作为查询，F̂_speech作为键和值，计算得到增强的环境声表示 F_env*。
- 此步骤实现了两个特征流之间的信息交换。
分类器分支：
- 将F_speech*输入一个AASIST分类器，预测语音是否被伪造的概率 P_speech。
- 将F_env*输入另一个AASIST分类器，预测环境声是否被伪造的概率 P_env。
原始类估计（匹配头）：
- 投影与池化：分别将原始的F_speech和F_env通过独立线性层投影到共享空间，然后进行时序维度的统计池化（均值、最大值、标准差、L2范数），得到固定长度的向量h_speech和h_env。
- 差异交互：将h_speech和h_env及其逐元素差|h_speech - h_env|和逐元素积h_speech ⊙ h_env拼接起来，形成融合特征z。这旨在显式建模两个流派之间的差异和相似性。
- 预测：将z通过一个前馈网络（FFN），输出原始音频的概率 P_original。
最终输出：模型同时输出三个预测值（P_speech, P_env, P_original）。

图1：提出的双分支组件级伪造检测模型架构该图清晰地展示了上述数据流：输入音频并行进入两个编码器；交叉注意力模块连接两个分支；两个AASIST分类器分别处理各自的增强表示；匹配头则从原始编码器输出通过池化和交互操作预测原始类。

💡 核心创新点

针对“组件级伪造”的检测框架：明确针对语音和环境声可被独立伪造的场景进行建模，而非将音频视为整体，这是对现有深度伪造检测问题的深化和细化，更贴合现实风险。
异构SSL编码器的融合：创新性地结合了针对语音优化的XLS-R和针对环境声优化的BEATs两个预训练模型，利用其互补性提取更全面的声学特征。
双向跨模态注意力机制：引入多头交叉注意力，允许语音和环境声特征进行双向信息交互，使得每个分支在决策时能“看到”另一个分支的上下文，以捕捉组件间的伪造不一致性。
显式的“匹配头”设计：设计了一个独立的模块，通过统计池化和算术交互（差与积）显式建模两个特征流之间的统计差异和相似性，专门用于估计音频是否为原始（未篡改）的类别。

🔬 细节详述

训练数据：使用CompSpoofV2数据集，总音频时长约283小时，每段固定4秒，包含5类（原始，语音真/环境真，语音假/环境真，语音真/环境假，语音假/环境假）。训练集175,361样本，验证集24,864样本。
数据增强：采用多种策略，包括原始混合、拼接混合、加权求和、部分混合、时移混合，并随机注入不同信噪比的高斯噪声。同时采用类别感知采样，对少数类进行过采样以平衡分布。
损失函数：采用加权多任务损失。语音和环境声分支的分类损失权重为1.0，原始类损失权重为0.2（防止其主导共享表示学习）。此外，引入一个排序正则化项（权重0.5），以强制在不对称条件下（如只有一类伪造）语音和环境声预测的一致性。
训练策略：使用Adam优化器，初始学习率1e-4，批大小64，训练12个周期，应用学习率调度器。在单块NVIDIA RTX 4090 GPU（24GB）上训练。
关键超参数：论文中未详细说明交叉注意力头数、投影维度、FFN内部结构等具体超参数。
编码器微调：在最终模型中，仅微调XLS-R和BEATs最后两层，前面层冻结。
推理细节：论文未提供具体推理策略（如解码、温度等），因为这是判别任务，直接输出分类概率。

📊 实验结果

实验在CompSpoofV2数据集的验证集、评估集和测试集上进行，主要评估指标为F1分数和各类别的等错误率（EER）。

表II：基线与提出方法在验证、评估和测试集上的性能

方法	数据集	F1-score (%)	Original EER (%)	Speech EER (%)	Env. EER (%)
基线	验证集	94.62	0.31	1.72	37.66
提出方法	验证集	94.37	0.63	6.76	10.64
基线	评估集	62.24	1.74	19.93	43.36
提出方法	评估集	70.11	2.99	31.40	16.54
基线	测试集	63.27	1.73	19.78	42.79
提出方法	测试集	70.20	2.59	32.98	18.83

关键结论：提出方法在评估集和测试集上的F1分数分别达到70.11%和70.20%，显著高于基线的62.24%和63.27%。环境声的EER从基线的~~43%大幅降低至~~17%，证明在组件级检测上的有效性。

表III：在评估集上的性能对比与消融研究

模型	时间	损失	数据增强	采样	增强类型	融合	F1-score (%)	Original EER (%)	Speech EER (%)	Env. EER (%)
基线	4小时	平均	否	无	否	无	62.24	1.74	19.93	43.36
提出方法	1小时	任务加权	混合	多数类	交叉注意力	70.11	2.99	31.40	16.54
去除匹配头	1小时11分	任务加权	混合	多数类	交叉注意力	66.07	4.01	29.43	22.74
冻结编码器	53分钟	任务加权	混合	多数类	交叉注意力	65.91	2.87	31.39	22.68
环境分支无融合	53分钟	任务加权	混合	多数类	交叉注意力	67.18	2.82	27.91	19.23

关键结论：消融实验证明，去除匹配头、冻结编码器或移除环境分支的融合都会导致F1分数下降。完整模型取得了最高的F1分数和最低的环境EER，验证了各模块的贡献。

图2：训练与验证过程图2：训练损失和验证F1曲线该图显示训练损失稳步下降，验证F1分数在训练过程中上升并趋于稳定，表明模型学习有效且未过拟合。

图3：验证集特征t-SNE可视化图3：验证集表示的t-SNE可视化该图展示了验证集样本在特征空间中的分布，不同类别（原始、不同伪造类型）的样本形成了相对分离的聚类，表明模型学习到了有区分性的表示。

图4：验证集混淆矩阵该图显示了模型在验证集各类别上的预测混淆情况。对角线值较高，表明模型在多数类别上分类准确。主要的混淆发生在“语音真/环境真”和“语音假/环境真”等相似类别之间。

⚖️ 评分理由

学术质量：5.5/7：论文针对一个新颖且实际的问题（组件级伪造），提出了一个技术上合理的解决方案（异构SSL融合+跨模态注意力）。实验设计完整，包含了必要的消融研究来验证各模块作用，结果可信。创新性主要体现在问题定义的细化和现有技术的创造性组合上，而非提出全新的理论模型。
选题价值：1.5/2：音频深度伪造检测是当前热点，而“组件级��检测是其中更深入、更贴近实际威胁的细分方向，具有明确的应用前景和前沿性，对音频安全领域的研究者和工程师有较高参考价值。
开源与复现加成：0.5/1：论文提供了核心代码仓库链接，这极大便利了复现。然而，论文正文未提供所有关键超参数和详细的训练环境配置，复现仍需依赖阅读代码，因此给予部分加成。

← 返回 2026-05-06 语音/音乐/音频论文速递

📄 Deepfake Audio Detection Using Self-supervised Fusion Representations#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文