ICASSP 2026 - 音频深度伪造检测

29 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇EchoFake: A Replay-Aware Dataset For Practical Speech Deepfa8.5分前25%
🥈Dynamic Spectrogram Analysis with Local-Aware Graph Networks8.5分前10%
🥉The Impact of Audio Watermarking on Audio Anti-Spoofing Coun8.5分前25%
4.Beyond Face Swapping: A Diffusion-Based Digital Human Benchm8.1分前25%
5.StreamMark: A Deep Learning-Based Semi-Fragile Audio Waterma8.0分前25%
6.Assessing the Impact of Speaker Identity in Speech Spoofing8.0分前25%
7.Subgraph Localization in the Subbands for Partially Spoofed8.0分前25%
8.On deepfake voice detection - It’s all in the presentation8.0分前25%
9.Dynamic Noise-Aware Multi Lora Framework Towards Real-World8.0分前25%
10.Hanui: Harnessing Distributional Discrepancies for Singing V8.0分前10%
11.Localizing Speech Deepfakes Beyond Transitions via Segment-A8.0分前25%
12.Discrete-Continuous Fusion With Adaptive Hierarchical Featur8.0分前10%
13.AVATAR: Audio-Visual Adaptive Fusion via Trained Agent Reinf7.5分前25%
14.Few-Shot Recognition of Audio Deepfake Generators using Grap7.5分前25%
15.Audio Deepfake Detection at the First Greeting: “Hi!”7.5分前25%
16.Combining SSL Speech Features, Contextual Transformers and M7.5分前25%
17.How to Label Resynthesized Audio: The Dual Role of Neural Au7.5分前25%
18.KAN We Make Models Simpler for Audio Deepfake Detection with7.5分前25%
19.Robust Deepfake Audio Detection via Multi-Level Intermediate7.5分前25%
20.AI-Generated Music Detection in Broadcast Monitoring7.0分前50%
21.Leveraging Large Multimodal Models for Audio-Video Deepfake7.0分前25%
22.A Superb-Style Benchmark of Self-Supervised Speech Models fo7.0分前25%
23.Understanding the Strengths and Weaknesses of SSL Models for7.0分前50%
24.Towards Data Drift Monitoring for Speech Deepfake Detection7.0分前25%
25.CompSpoof: A Dataset and Joint Learning Framework for Compon7.0分前25%
26.MSCT: Differential Cross-Modal Attention for Deepfake Detect6.5分前10%
27.Auxiliary Multi-Label Training For Improving the Robustness6.5分前50%
28.Audio-Visual Deepfake Generation and Detection: An Explorato6.5分前25%
29.Disentangled Authenticity Representation for Partially Deepf6.5分前25%

📋 论文详情

🥇 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection

🔥 8.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #语音伪造检测 #重放攻击

👥 作者与机构

  • 第一作者:Tong Zhang (武汉大学 网络空间安全学院)
  • 通讯作者:Yanzhen Ren (武汉大学 网络空间安全学院)
  • 作者列表:Tong Zhang (武汉大学 网络空间安全学院), Yihuan Huang (武汉大学 网络空间安全学院), Yanzhen Ren (武汉大学 网络空间安全学院; 教育部空天信息安全与可信计算重点实验室)

💡 毒舌点评

亮点:这篇论文如同为反语音欺诈领域量身打造了一套更逼真的“演习靶场”,精准戳中了现有检测模型在真实世界遭遇“物理回放”攻击时不堪一击的痛点,数据集构建的系统性和全面性值得称道。短板:它本质上是一份详尽的“战场报告”和“新式靶标”而非“新式武器”,在检测模型本身并无创新,且基线评估略显常规,距离真正解决“重放攻击”这一顽疾还有距离。

📌 核心摘要

  1. 问题:现有的音频深度伪造检测模型在实验室环境下表现良好,但在面对真实世界中常见的低成本“物理重放攻击”(即将合成语音通过扬声器播放并重新录制)时,性能会急剧下降,严重威胁其实际部署的可靠性。
  2. 方法:为了解决这一问题,作者构建了EchoFake数据集。其核心在于首次系统地将前沿的零样本文本转语音(TTS)生成的伪造语音与多样化的物理重放录音相结合。数据集包含四种音频类型:真实语音、重放真实语音、伪造语音、重放伪造语音。
  3. 创新:与已有数据集(如ASVspoof)主要关注单一攻击方式(仅合成或仅重放真实语音)不同,EchoFake的创新在于覆盖了更复杂的复合攻击场景——即“合成+重放”。同时,它采用了多种最新开源的零样本TTS模型,并在采集重放数据时系统化地变化了播放/录音设备、环境、距离等条件。
  4. 主要实验结果:
    • 使用EchoFake训练的三个基线模型(RawNet2, AASIST, Wav2Vec2)在跨数据集评估中表现出更好的泛化能力,平均EER显著低于在传统数据集上训练的模型(见表3)。
    • 模型在EchoFake封闭集评估中表现优异(如AASIST的二分类EER为0.46%),但在开放集评估中性能大幅下降(如AASIST的二分类EER升至14.88%),重放样本是主要错误来源(见表4)。
    • 消融实验证明,在训练数据中包含重放样本,能显著提升模型在重放攻击场景下的鲁棒性,而在传统基准上性能损失很小。
  5. 实际意义:EchoFake提供了一个更接近真实威胁模型的评估基准,有助于推动检测算法从实验室走向实际应用,提升对复杂欺诈攻击的防御能力。
  6. 局限性:尽管模型在EchoFake上得到提升,但在面对未见过的重放条件(开放集)时,性能仍有明显下降,表明在建模复杂信道效应和提高跨设备/环境泛化能力方面仍有挑战。论文未提出新的检测模型。

🥈 Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing

🔥 8.5/10 | 前10% | #音频深度伪造检测 | #图神经网络 | #自监督学习 #动态卷积

👥 作者与机构

  • 第一作者:Yingdong Li(中山大学计算机学院)
  • 通讯作者:Kun Zeng(中山大学计算机学院, zengkun2@mail.sysu.edu.cn
  • 作者列表:Yingdong Li(中山大学计算机学院)、Chengxin Chen(中国移动互联网公司,中国移动通信集团公司)、Dong Chen(中山大学计算机学院)、Nanli Zeng(中国移动互联网公司,中国移动通信集团公司)、Kun Zeng(中山大学计算机学院)

💡 毒舌点评

亮点在于将动态卷积与物理视角的多视图频谱分析相结合,并为强大的AASIST图网络框架增加了巧妙的局部信息聚合机制(LVM和SRM),技术融合顺畅且针对性强。短板是双分支前端(SSL + 频谱)不可避免地带来了计算开销,论文未对模型效率(如参数量、推理速度)进行分析或讨论,这在实际部署中可能是一个考量点。

📌 核心摘要

  1. 问题:针对日益多样的语音深度伪造技术,现有音频反欺骗方法在模型复杂度和鲁棒性之间难以取得平衡,且固定的特征提取方式难以自适应地捕获不同尺度的伪造痕迹。
  2. 方法核心:提出一个双分支前端与增强图网络后端相结合的模型。前端包含自监督(SSL)分支和新设计的频谱分析分支。频谱分支采用“对称性引导内核选择(SKS)”块,通过物理视角(时间/频谱对称性)分析生成上下文图,动态加权不同尺度的卷积核。后端在AASIST框架上新增了“局部变化主节点(LVM)”和“稀疏残差主节点(SRM)”,以建模精细的局部伪造模式。
  3. 创新点:(i) 利用频谱对称性指导动态卷积,自适应捕获多尺度伪造伪影;(ii) 采用残差式快捷连接简化前端特征融合,无需复杂融合模块;(iii) 增强图神经网络后端,引入LVM和SRM节点以聚合局部判别信息。
  4. 实验结果:在ASVspoof 2019 LA和中文伪造语音数据集(CFSD)上取得了当前最优性能,EER分别为0.08%和0.10%,min t-DCF为0.0024。消融实验证实了每个提出组件的有效性。
  5. 实际意义:该模型能有效、鲁棒地检测合成与伪造语音,可增强语音生物识别等系统的安全性,对抵御日益逼真的语音伪造攻击具有重要价值。
  6. 主要局限性:未分析模型的计算效率(参数量、FLOPs、推理延迟),可能限制其在资源受限场景的应用;双分支架构对SSL预训练模型的依赖性较强。

🥉 The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures

🔥 8.5/10 | 前25% | #音频深度伪造检测 | #领域适应 | #知识蒸馏 #音频水印

👥 作者与机构

  • 第一作者:Zhenshan Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心)
  • 通讯作者:Ming Li(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心, ming.li369@dukekunshan.edu.cn
  • 作者列表:Zhenshan Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心)、Xueping Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心)、Yechen Wang(OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Ming Li(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心)

💡 毒舌点评

亮点:选题填补了一个重要的认知空白——系统量化了“水印”这种合法但普遍存在的人为扰动对反欺骗系统的“无差别攻击”效果,实验设计严谨(控制水印比例、类型分布),结论可靠。提出的KPWL框架在“已知水印”适应上取得了立竿见影的效果,思路清晰实用。 短板:在“未见水印”场景下的性能反而下降,暴露了当前方法对水印特异性的过拟合,极大限制了其在真实世界(水印类型未知且多样)中的应用价值,也说明“领域适应”的本质挑战并未被彻底解决。

📌 核心摘要

  1. 问题:本文首次研究了广泛使用的音频水印技术(为版权保护设计)对语音反欺骗(深度伪造检测)系统性能的影响,发现这种影响之前被完全忽视。
  2. 方法核心:构建了包含多种手工和DNN水印的“Watermark-Spoofing”数据集,并系统评估了现有模型性能下降的程度。提出名为“知识保留水印学习”(KPWL)的适应框架,通过在冻结前端(XLSR)和分类器的情况下微调中间层,并结合对称知识蒸馏与参数锚定,使模型能适应水印引入的分布偏移。
  3. 创新:首次揭示了音频水印是反欺骗系统面临的一种新的、未被研究的领域偏移源;首次构建了用于评估和缓解此问题的专用数据集与基准;提出了首个旨在同时适应水印并保留原始域检测能力的专用框架。
  4. 实验结果:在ASVspoof 2021 LA数据集上,当75%的样本被水印时,基线模型(XLSR+SLS)的EER从3.02%上升至3.68%。KPWL模型在相同条件下将EER降至3.21%,同时在干净数据上保持3.06%(与基线3.02%接近)。然而,在“未见水印”评估中,基线模型在75%水印(LA21)下EER为9.94%,而KPWL模型恶化至11.22%。
  5. 实际意义:提醒反欺骗系统开发者需考虑水印带来的鲁棒性挑战;为构建抗水印污染的反欺骗系统提供了首个基准和初步解决方案;揭示了水印技术可能对语音安全生态产生的意外副作用。
  6. 主要局限性:KPWL框架在应对未见过的水印类型时效果不佳甚至有害,表明当前方法的适应能力局限于训练时接触过的特定水印,泛化能力有待突破。


4. Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection

🔥 8.1/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #基准测试 #扩散模型

👥 作者与机构

  • 第一作者:未说明(论文标注Jiaxin Liu†和Jia Wang†贡献相等,未明确谁为第一)
  • 通讯作者:Saihui Hou⋆, Zhaofeng He⋆
  • 作者列表:Jiaxin Liu(北京邮电大学,BUPT)、Jia Wang(北京师范大学,BNU)、Saihui Hou(未说明具体机构,可能来自BUPT或BNU)、Min Ren(滴滴出行,Didi Chuxing)、Huijia Wu(滴滴出行,Didi Chuxing)、Long Ma(未说明)、Renwang Pei(未说明)、Zhaofeng He(未说明具体机构,可能来自BUPT或BNU)

💡 毒舌点评

亮点在于构建了第一个专门为评估“扩散模型驱动的数字人”伪造而设计的大规模多模态数据集(DigiFakeAV),数据生成流程严谨,有效暴露了现有检测器的脆弱性,为领域提供了急需的试金石。短板则是提出的检测方法DigiShield虽然有效,但更像一个验证多模态融合有效性的“基线”而非一个具有颠覆性的新架构,且其在DigiFakeAV上80.1%的AUC也说明“道高一尺,魔高一丈”,真正的安全挑战远未解决。

📌 核心摘要

  1. 要解决什么问题:现有深度伪造检测数据集和技术主要针对过时的面交换方法,无法有效评估和应对由扩散模型生成的、具有高度真实性和多模态一致性的新一代数字人伪造,导致现有检测器性能在现实威胁面前大幅下降。

  2. 方法核心是什么:本文提出两个核心贡献:a) 构建DigiFakeAV,一个包含6万视频的大规模多模态数据集,由5种前沿扩散模型生成,注重多样性、场景真实性和音视频同步质量。b) 提出DigiShield检测框架,采用双流网络分别提取视觉和音频的时空特征,并通过跨模态注意力和自注意力机制进行融合,以捕获微妙的跨模态不一致性。

  3. 与已有方法相比新在哪里:a) 数据集是第一个基于扩散模型、强调多模态一致性和场景多样性的伪造检测基准。b) 检测方法显式地建模了视频与音频在时空维度上的对齐关系,旨在应对扩散伪造的高一致性挑战。

  4. 主要实验结果如何:

    • 现有9种检测器在DigiFakeAV上性能急剧下降,例如SFIConv从在DF-TIMIT上100%的AUC降至71.2%,SSVF从94.5%降至51.0%。
    • DigiShield在DigiFakeAV上达到80.1% AUC,比此前最佳方法SFIConv(71.2%)高出8.9个百分点。
    • 消融研究显示,引入音频模态和对比损失将AUC从73.6%提升至77.4%,再加入自监督自注意力进一步提升至80.1%。 关键实验结果表格如下:

    表2:各种方法在现有数据集和DigiFakeAV上的AUC分数(%)

    方法DF-TIMITFF-DFDFDCCeleb-DFFakeAVCelebDigiFakeAV (ours)
    Meso487.868.484.775.354.860.9
    MesoInception480.462.783.073.253.661.7
    Xception-c2395.994.499.772.265.372.5
    Capsule78.474.496.653.357.570.9
    HeadPose55.153.247.355.954.649.0
    F3-Net99.899.493.795.186.791.3
    Cross Efficient ViT50.455.899.195.186.780.5
    SSVF-----94.5
    SFIConv100.0100.095.996.795.893.0
    注:该表展示了现有方法在多个数据集上的性能,凸显其在DigiFakeAV上性能的普遍大幅下滑。

    表3:DigiShield与基线方法在DigiFakeAV和DF-TIMIT上的AUC分数对比

    方法DigiFakeAVDF-TIMIT-LQDF-TIMIT-HQ
    MesoInception463.880.462.7
    Capsule65.378.474.4
    Xception-c2366.195.994.4
    F3-Net66.499.899.4
    SFIConv71.2100.0100.0
    DigiShield (ours)80.1100.0100.0
    注:该表对比了本文提出的方法与之前最佳方法的性能,显示DigiShield在DigiFakeAV上的优势及在传统数据集上的强泛化性。
  5. 实际意义是什么:为学术界和工业界评估对抗最新AI生成威胁的能力提供了标准化的挑战平台(DigiFakeAV),并建立了新的检测基线(DigiShield),推动深度伪造检测技术向应对多模态、高真实性伪造的方向发展。

  6. 主要局限性是什么:a) 检测方法DigiShield虽为当前最佳,但80.1%的AUC表明在面对高质量扩散伪造时仍存在显著挑战。b) 数据集主要聚焦于语音驱动的数字人,可能未涵盖其他交互形式的扩散伪造。c) 论文未讨论检测方法在不同肤色、年龄群体上的公平性分析,尽管数据集已努力保证人口统计学平衡。


5. StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection

🔥 8.0/10 | 前25% | #音频深度伪造检测 | #端到端 | #鲁棒性 #数据集

👥 作者与机构

  • 第一作者:Zhentao Liu(EPFL, Switzerland)
  • 通讯作者:未说明
  • 作者列表:Zhentao Liu(EPFL, Switzerland)、Milos Cernak(Logitech Europe, Switzerland)

💡 毒舌点评

这篇论文巧妙地将图像领域的“半脆弱水印”概念移植到音频,并精准定义了“良性”与“恶意”操作,为应对深度伪造提供了比传统鲁棒水印更聪明的“主动告警”方案,思路值得称赞。然而,其将所有深度伪造攻击简化为“变调”这一单一操作进行模拟,失真层的设计略显“偷懒”,可能无法完全覆盖未来更复杂的合成攻击(如更自然的音色替换或内容编辑),削弱了结论的绝对说服力。

📌 核心摘要

  1. 要解决什么问题:现有的被动深度伪造音频检测方法面临泛化能力差、易被对抗攻击绕过、难以区分良性AI处理(如降噪)与恶意伪造的困境。传统鲁棒水印在伪造后仍能提取,反而无法证明音频已被篡改。

  2. 方法核心是什么:提出StreamMark,一种基于深度学习的半脆弱音频水印系统。其核心是设计一个Encoder-Distortion-Decoder架构,其中失真层包含并行的良性变换(如裁剪、加噪)和恶意变换(如变调,模拟音色/内容篡改)。通过复合损失函数训练,使水印在经历良性操作后仍可恢复,但在经历语义篡改的恶意操作后无法恢复(准确率降至随机水平)。

  3. 与已有方法相比新在哪里:首先,提出了音频水印的“半脆弱性”范式,改变了以“鲁棒性”为单一目标的传统思路。其次,采用了在STFT复数域(同时修改幅度和相位)嵌入水印的新技术,以提升不可感知性。最后,构建并开源了首个专门针对AI音频转换(包含良性与恶意)的深度伪造评估基准。

  4. 主要实验结果如何:

    • 不可感知性与鲁棒性(测试集A):StreamMark达到了较高的PESQ分数(4.20),并保持了对Opus编码等真实世界良性失真的高鲁棒性(ACC > 99.89%)。

    • 深度伪造基准(测试集B):面对VALL-E-X、FreeVC、VoiceCraft等深度伪造攻击时,水印恢复准确率(ACC)下降至约50%(随机猜测水平),体现其“脆弱性”;而在面对DeepAFX等良性风格迁移时,ACC保持在98%以上,体现其“鲁棒性”。

    • 详细数据见下表: 表1:不可感知性与鲁棒性评估(测试集A)

      方法SNR (dB)PESQSECS裁剪 (70%)MP3 (8 kbps)Opus (60 ms)
      Patchwork33.654.340.990.720.610.85
      AudioSeal25.414.300.991.000.850.57
      Timbre24.143.700.990.990.790.99
      StreamMark24.164.200.990.990.870.99

      表2:深度伪造基准评估(测试集B)

      类型模型/风格ACC (%)期望行为
      恶意 (脆弱性)VALL-E-X (TTS)51.01脆弱 (破坏)
      FreeVC (VC)49.75脆弱 (破坏)
      VoiceCraft (Editing)51.79脆弱 (破坏)
      良性 (鲁棒性)DeepAFX (Bright)100.00鲁棒 (保留)
      DeepAFX (Broadcast)98.73鲁棒 (保留)
      DeepAFX (Telephone)98.34鲁棒 (保留)
  5. 实际意义是什么:为数字音频内容提供了一种主动的、可编程的真实性验证机制。音频在源头嵌入水印后,任何意图改变其语义的篡改都会导致水印失效,从而发出警报。这对于建立可信的通信链路(如企业会议、新闻广播)和对抗日益猖獗的AI语音诈骗具有重要应用价值。

  6. 主要局限性是什么:1) 恶意变换模拟简单:仅用变调来代表所有深度伪造攻击,可能无法涵盖未来更复杂的合成技术。2) 部署前提限制:该方案要求音频源头(如麦克风、录音设备)必须预先集成StreamMark编码器,这对于现有基础设施的改造是巨大挑战。3) 安全性讨论不足:未深入探讨攻击者可能通过逆向工程或对抗样本绕过水印的潜在风险。


6. Assessing the Impact of Speaker Identity in Speech Spoofing Detection

🔥 8.0/10 | 前25% | #音频深度伪造检测 | #多任务学习 | #自监督学习 #说话人识别

👥 作者与机构

  • 第一作者:Anh-Tuan DAO(法国阿维尼翁大学计算机实验室, Laboratoire d’informatique d’Avignon)
  • 通讯作者:未说明(论文未明确标注,但联系邮箱来自Nicholas Evans)
  • 作者列表:Anh-Tuan DAO(法国阿维尼翁大学计算机实验室)、Driss Matrouf(法国阿维尼翁大学计算机实验室)、Nicholas Evans(法国EURECOM, Sophia Antipolis)

💡 毒舌点评

这篇论文的亮点在于它设计了一个巧妙的“可开关”框架(SInMT),能统一评估两种关于说话人信息的对立假设,并且实验设计扎实,在四个数据集上验证了“去除说话人信息”对检测特定高级伪造攻击(A11)的显著效果。然而,其短板在于整体创新属于对现有SSL+多任务框架的特定应用组合优化,且论文未探讨将两种模式(aware/invariant)动态融合的潜力,结论部分稍显仓促。

📌 核心摘要

  1. 要解决什么问题: 研究在基于自监督学习(SSL)的语音伪造检测系统中,说话人身份信息究竟是应该被利用还是被抑制,以及这种信息对模型性能有何具体影响。
  2. 方法核心是什么: 提出一个名为说话人不变多任务(SInMT)的统一框架。该框架使用预训练的XLSR作为特征提取器,后接两个结构相同的MHFA分类头。核心创新在于通过控制一个梯度反转层(GRL)的开启/关闭,使模型能在“说话人感知(MHFA-spk)”和“说话人不变(MHFA-IVspk)”两种模式间灵活切换。
  3. 与已有方法相比新在哪里: 以往工作多单独评估多任务学习或不变性学习,SInMT框架首次在单一SSL骨干网络中实现了二者的统一与直接对比。它允许研究者系统评估在相同数据和特征基础上,引入或抑制说话人信息带来的不同效果。
  4. 主要实验结果如何: 在四个评估集(ITW, ASVspoof 5 评估集, ASVspoof 2021 LA和DF隐藏子集)上,说话人不变模式(MHFA-IVspk) 取得了最佳的整体性能。与基线MHFA模型相比,其平均EER(等错误率)降低了17.2%(从7.41%降至6.13%)。对于最具挑战性的攻击类型A11,MHFA-IVspk实现了48%的相对EER降低(从17.02%降至8.76%)。说话人感知模式(MHFA-spk)也优于基线。
    • 主要实验结果表格(论文中Table 1):
      模型ITW EER(%)ASV5 eval EER(%)ASV21LA EER(%)ASV21DF EER(%)平均EER(%)
      AASIST7.035.5413.669.608.95
      Conformer5.693.8512.4910.408.10
      MHFA4.314.6412.148.587.41
      MHFA-spk3.765.298.678.416.53
      MHFA-IVspk3.584.988.417.576.13
  5. 实际意义是什么: 为设计更鲁棒的语音伪造检测系统提供了新的思路和实证依据。研究表明,在SSL特征基础上,主动抑制说话人特定信息可能使模型更专注于伪造痕迹本身,从而提升对高级、高仿真伪造攻击的检测能力,尤其是在跨数据集、跨说话人的场景下。
  6. 主要局限性是什么: 论文指出,虽然MHFA-IVspk整体更优,但其在“见过说话人”的闭集场景下可能不如MHFA-spk,这一点因评估集均为开集(说话人与训练集不重叠)而未能验证。此外,框架的通用性受限于其特定的特征提取器(XLSR)和后端分类器(MHFA)。

7. Subgraph Localization in the Subbands for Partially Spoofed Speech Detection

🔥 8.0/10 | 前25% | #音频深度伪造检测 | #图神经网络 | #信号处理 #时频分析

👥 作者与机构

  • 第一作者:Ji Liu (天津大学 认知计算与应用天津市重点实验室)
  • 通讯作者:Longbiao Wang (天津大学 认知计算与应用天津市重点实验室; 苏州智言信息科技有限公司)
  • 作者列表:Ji Liu (天津大学 认知计算与应用天津市重点实验室), Chenghan Lin (未说明具体机构,同属天津大学), Longbiao Wang (天津大学 认知计算与应用天津市重点实验室; 苏州智言信息科技有限公司), Kong Aik Lee (香港理工大学)

💡 毒舌点评

亮点:论文抓住了“短伪造片段在长真实语音中易被平均掉”这一实际痛点,并巧妙地将“不同伪造痕迹在不同频带显著”这一先验知识融入模型设计(子带划分),方法动机充分且直观。短板:方法本质上是子带特征提取+子图网络的模块化组合,创新性更多体现在特定任务上的工程优化,而非全新的建模范式;此外,论文未提供任何开源信息,对于后续研究的复现构成了主要障碍。

📌 核心摘要

本文针对部分伪造语音检测中,短伪造片段难以被现有基于固定聚合长度的方法准确定位的问题,提出了一种名为“子带子图定位”(SLS)的新方法。该方法包含两个核心模块:一是子带特征提取模块,利用CQT滤波器初始化线性层,从语音频谱的低、中、高频子带中提取高分辨率特征,以捕捉不同伪造算法在不同频带留下的独特痕迹;二是子图模块,对每个子带的特征序列构建图结构,并通过基于阈值的边连接来鼓励同一类别(真实或伪造)帧的特征在图中聚集,从而增强类内紧凑性,特别是改善类别边界附近的特征混淆。实验在ADD 2023挑战赛Track 2数据集上进行,结果表明,SLS方法在帧级和段级定位性能上均优于TDL等现有方法。例如,在加权BCE损失权重w-=3.9时,获得了90.31%的帧级精确率和95.69%的召回率,帧级F1分数比TDL高1.24个百分点,段级F1分数比WavLM-ResNet高2.14个百分点。该方法通过精细化建模子带信息和改善边界处特征表征,提升了伪造语音定位的准确性和鲁棒性。其主要局限性在于模型复杂度较高,且未公开实现代码与权重。


8. On deepfake voice detection - It’s all in the presentation

🔥 8.0/10 | 前25% | #音频深度伪造检测 | #数据增强 | #自监督学习 #预训练

👥 作者与机构

  • 第一作者:未说明(作者列表按字母顺序排列)
  • 通讯作者:未说明
  • 作者列表:Héctor Delgado(Microsoft)、Giorgio Ramondetti(Microsoft)、Emanuele Dalmasso(Microsoft)、Gennady Karvitsky(Microsoft)、Daniele Colibro(Microsoft)、Haydar Talib(Microsoft)

💡 毒舌点评

论文最大的亮点在于它跳出技术细节,直指领域痛点:当前研究普遍在“无菌实验室”里训练模型,却指望它们能解决“菜市场”里真实发生的诈骗,通过精心设计的实验有力地证明了“数据呈现方式”比“模型规模”更能决定实战效果。但短板也十分明显,作为一个强调“现实世界有效性”的工业界工作,却吝于公开核心代码、模型和训练细节,这极大地削弱了其主张的可复现性和社区推动潜力,让人怀疑其方法论推广的诚意。

📌 核心摘要

这篇论文指出,当前深度伪造语音检测领域的研究数据集和方法过于理想化(使用原始纯净音频),导致训练出的模型难以泛化到真实世界通过电话等信道传输的伪造语音。为解决此问题,作者提出了一个完整的“欺骗攻击序列”框架,不仅包含深度伪造语音生成,还关键性地纳入了通过扬声器播放或直接注入电话的“呈现”阶段。基于此,他们构建了包含不同“呈现”方式的新型训练数据集(Presented)和一个完全保留真实场景、未用于训练的“真实世界”测试集(Fraud Academy)。实验表明,在训练中加入“呈现”数据,能显著提升模型在真实场景下的性能:在更稳健的实验室设置中准确率提升39%,在真实世界基准上提升57%。此外,论文证明,优化数据集带来的性能提升,比使用更大、更昂贵的SOTA模型更为重要。主要的局限性是,所提出的轻量级模型在处理扬声器播放场景时性能仍有不足,且整体研究未开源核心代码与权重。


9. Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection

🔥 8.0/10 | 前25% | #音频深度伪造检测 | #领域适应 | #鲁棒性

👥 作者与机构

  • 第一作者:Woongjae Lee (Soongsil University, Seoul, Republic of Korea)
  • 通讯作者:Souhwan Jung* (Soongsil University, Seoul, Republic of Korea)
  • 作者列表:Woongjae Lee (松石大学), Hung Dinh-Xuan (松石大学), Thien-Phuc Doan (松石大学), Souhwan Jung* (松石大学)

💡 毒舌点评

这篇论文的亮点在于巧妙地将LoRA从语言模型“移植”并动态化应用于音频安全领域,通过“感知-路由-适应”的范式平衡了模型适应新噪声域与防止灾难性遗忘的矛盾,工程思路清晰。但短板在于其“动态”选择的噪声分类器本身是一个额外的误差源,且论文并未在包含未知/混合噪声的更真实场景中验证其端到端效果,离“完全鲁棒”尚有距离。

📌 核心摘要

  1. 问题:现有的音频深度伪造检测(ADD)模型在干净环境下性能优越,但在真实世界的复杂噪声和语音操纵下性能严重下降,而传统的数据增强和微调方法存在泛化性差或导致灾难性遗忘的问题。
  2. 方法核心:提出一个动态噪声感知多LoRA(DNA Multi LoRA)框架。该框架首先通过一个轻量级的噪声分类模块识别输入音频的噪声类型,然后根据分类结果动态选择一个预先训练好的、专门针对该噪声类型的LoRA适配器,将其集成到冻结的ADD模型骨干网络中进行检测。
  3. 创新点:相比于现有方法,本文创新性地结合了噪声感知与参数高效微调(LoRA)。1)实现了“一个骨干网络 + 多个轻量LoRA适配器”的模块化设计,扩展新噪声域无需重训整个模型;2)通过动态适配机制避免了顺序微调中的灾难性遗忘问题。
  4. 主要实验结果:在多个基准数据集(包括构建的噪声增强数据集和真实世界数据集)上,DNA Multi LoRA框架相比基线模型实现了平均41.4%的等错误率(EER)降低。在池化EER上,该方法(AASIST-SSL: 7.93%, ConformerTCM: 7.55%)接近全量微调的效果(约8.1%),但参数量仅为全量微调的约8.5%,并有效避免了灾难性遗忘(如图2所示,顺序微调会导致EER从约0.2%飙升至约5%)。每个噪声特定LoRA适配器在其目标域上均显著优于基线(表4),例如在D4(回声)域,AASIST-SSL的EER从10.42%降至0.92%。
  5. 实际意义:提供了一种高效、可扩展且可部署的解决方案,使ADD系统能够在不进行全面重训的情况下,动态适应多种现实世界噪声环境,提升了模型的实用性和鲁棒性。
  6. 主要局限性:框架的性能依赖于噪声分类器的准确性,且目前仅在预定义的10种噪声类别上进行了验证;对于完全未知的噪声类型或复杂混合噪声,框架的适应能力和鲁棒性尚待进一步研究。

10. Hanui: Harnessing Distributional Discrepancies for Singing Voice Deepfake Detection

🔥 8.0/10 | 前10% | #音频深度伪造检测 | #生成模型 | #自监督学习 #音频分类

👥 作者与机构

  • 第一作者:未说明(论文标题后并列列出三位作者,无明确标注)
  • 通讯作者:未说明
  • 作者列表:Seyun Um(延世大学电气电子工程系)、Doyeon Kim(延世大学电气电子工程系)、Hong-Goo Kang(延世大学电气电子工程系)

💡 毒舌点评

亮点:将自编码器在异常检测中的“分布差异”思想巧妙地迁移到深度伪造检测,通过一个简单而深刻的假设(真实声音比伪造声音更难被自编码器准确重建)驱动整个模型设计,思路清晰且有效,泛化性能突出。 短板:整个框架依赖一个精心设计且训练好的自编码器,其计算和训练开销可能高于一些单阶段的判别模型;此外,方法对“伪造声音分布更简单”这一假设的有效性,可能依赖于当前主流伪造技术的水平,面对未来更复杂、更接近真实分布的伪造方法,其优势是否会减弱尚待验证。

📌 核心摘要

  1. 要解决什么问题:现有歌唱语音深度伪造检测(SVDD)方法在面对未见过的歌手、音乐风格和语言时,泛化能力不足,性能下降明显。
  2. 方法核心是什么:提出名为Hanui的新框架,其核心思想源自异常检测:利用自编码器(AE)重建输入信号,然后通过判别器提取特征图来衡量原始信号与重建信号之间的分布差异。核心假设是:真实歌声的分布更复杂,因此其原始-重建差异大于伪造歌声的差异。
  3. 与已有方法相比新在哪里:不同于以往直接学习分类特征的方法,Hanui显式地建模并利用了真实与伪造信号在“可重建性”上的分布差异。具体创新包括:1)提出基于分布差异的SVDD新范式;2)采用两阶段训练(先训练仅用真实数据的自编码器,再训练用真实+伪造数据的检测器);3)设计了基于多频段判别器中间特征图的检测器融合策略。
  4. 主要实验结果如何:在SingFake和CtrSVDD数据集上,Hanui取得了最优的等错误率(EER)。例如,在最挑战的未见条件T04(未见歌手、语言、风格)上,Hanui的EER为21.36%,相比最强基线wav2vec2+AASIST(34.18%)绝对降低了12.82个百分点,相对降低约37.5%。消融实验证实了分布差异假设(图2)和中间层融合策略的有效性。
  5. 实际意义是什么:该方法显著提升了在真实、复杂场景下(歌手、语言、风格均未知)检测伪造歌声的鲁棒性,对于构建可靠的内容安全系统具有直接应用价值。
  6. 主要局限性是什么:1)模型训练分为两个阶段,且需要训练多个判别器和检测器模块,整体计算成本可能较高;2)对“伪造声音分布更简单”这一核心假设的验证,依赖于当前生成模型的特性,其长期有效性有待观察;3)论文中未提及模型权重是否开源,且因版权限制无法分发训练数据,这限制了完全的复现。


11. Localizing Speech Deepfakes Beyond Transitions via Segment-Aware Learning

🔥 8.0/10 | 前25% | #音频深度伪造检测 | #数据增强 | #自监督学习 #语音安全

👥 作者与机构

  • 第一作者:Yuchen Mao
  • 通讯作者:Yanmin Qian
  • 作者列表:Yuchen Mao (Auditory Cognition and Computational Acoustics Lab, MoE Key Lab of Artificial Intelligence, AI Institute, School of Computer Science, Shanghai Jiao Tong University), Wen Huang (同Yuchen Mao的单位), Yanmin Qian (上海交通大学计算机科学学院 听觉认知与��算声学实验室,教育部人工智能重点实验室,AI学院; VUI Labs)

💡 毒舌点评

亮点:论文精准地指出了现有方法过度依赖“过渡区域伪影”的“捷径学习”短板,并提出了简洁有效的“段感知学习”框架,通过位置监督和跨段混合,强制模型理解伪造内容本身,显著提升了在最具挑战性的“中间段”的检测能力和跨数据集泛化性能。短板:尽管实验充分,但对模型容量(如Conformer块的具体参数)、训练硬件和时长的描述不够详尽,且未公开模型权重,这为学术界和工业界的复现与直接应用设置了一定门槛。

📌 核心摘要

  1. 问题:现有针对部分语音伪造的检测方法过度依赖过渡区域的伪影,而忽视了伪造内容本身的特征,导致在伪造内容中间区域检测性能差,且泛化能力受限。
  2. 方法核心:提出段感知学习(SAL)框架,包含两个核心技术:(1)段位置标签(SPL):为每帧添加基于其在连续同类片段中相对位置(起、中、止、单)的监督信号;(2)跨段混合(CSM):一种数据增强方法,通过拼接不同语料的片段来生成多样化的伪造模式。
  3. 新意:与主要关注过渡区域(如BAM, AGO)的方法不同,SAL旨在让模型学习整个伪造片段的内在特征,而不仅仅是边界伪影。
  4. 主要结果:在PS数据集上,SAL(WavLM前端)达到EER 3.00%, F1 97.09%;在HAD数据集上达到EER 0.05%, F1 99.99%,均为当时最佳。在跨数据集评估(PS训练, LPS测试)中,SAL(WavLM)达到EER 36.60%, F1 56.09%,显著优于基线(如BAM的42.58% EER)。消融实验表明,SPL和CSM(尤其是2轮混合)均能带来稳定增益。
  5. 实际意义:提供了更可靠的部分语音伪造定位技术,增强了深度伪造检测系统应对复杂、隐蔽篡改的鲁棒性,对语音内容安全具有重要价值。
  6. 主要局限性:论文未提供预训练模型权重;部分训练细节(如具体GPU型号、总训练时长)未说明;泛化性验证虽包含跨数据集,但测试场景(语言、伪造方法)仍有限。


12. Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection

🔥 8.0/10 | 前10% | #音频深度伪造检测 | #迁移学习 #自监督学习 | #迁移学习 #自监督学习

👥 作者与机构

  • 第一作者:Jianqiao Cui(清华大学自动化系)
  • 通讯作者:未说明(论文中星号标注了Bingyao Yu为通讯作者,但需根据星号原文确认,此处依据“*Corresponding author”和“∗”对应Bingyao Yu)
  • 作者列表:Jianqiao Cui(清华大学自动化系, 长三角研究院),Bingyao Yu(清华大学自动化系),Shun Qin(清华大学长三角研究院)

💡 毒舌点评

本文提出的“离散语义标签与连续声学特征融合”思路新颖,且实验证明HAT模块对跨数据集鲁棒性提升显著。然而,其核心性能高度依赖于第三方模型GLM-4-Voice生成的语义标签质量,且所有实验均基于英语数据集,对跨语言泛化和实时攻击的鲁棒性未做验证,实际部署还需考量计算开销。

📌 核心摘要

该论文旨在解决当前基于神经编解码器的语音合成技术生成的深度伪造音频难以被现有检测方法有效识别的问题。其核心方法是将预训练的Whisper模型用于音频深度伪造检测,并引入两个关键模块:1)混合音频标记(HAT),将来自GLM-4-Voice的离散语义标签与Whisper编码器的连续声学特征进行融合,以捕捉语义与声学之间的不一致;2)分层残差连接(HRC),通过自适应地选择和整合Whisper编码器不同层次的输出特征,来保留多层次的伪造线索。与已有的单模态声学特征方法或简单的特征加权和方法相比,该方法能更有效地利用语义信息并保留关键的层次特征。在ASVspoof2021 DF、LA和CodecFake验证集上的实验表明,其最佳模型(Wsp with HAT&HRC)取得了0.67%的平均等错误率(EER),相较于强基线模型(如XLS-R)的EER降低了高达46%。具体实验数据如下:

表1:关键消融实验结果(在CodecFake验证集上)

模型配置EER (%)准确率 (%)
Whisper-small-prompt (Wsp)0.8899.10
Wsp with weighted sum2.5697.31
Wsp with HRC0.6599.34

表2:关键消融实验结果(在CodecFake验证集上)

模型配置EER (%)准确率 (%)
Whisper-tiny-prompt (Wtp)1.1198.78
Whisper-tiny + HAT (WtHat)1.0198.79
Whisper-base-prompt (Wbp)0.9698.99
Whisper-base + HAT (WbHat)0.8299.16
Whisper-small-prompt (Wsp)0.8899.13
Whisper-small + HAT (WsHat)0.7499.25

表3:与最先进方法的性能对比(EER %)

模型DFLACodec Val平均值
XLS-R [20]2.093.882.432.80
XLS-53 & LLGF [21]5.447.185.866.16
WavLM & MFA [23]2.565.082.993.54
Whisper-small-prompt (Wsp)1.011.830.881.24
Wsp with HAT&HRC0.580.940.490.67

该研究的实际意义在于为对抗日益逼真的音频深度伪造攻击提供了一种高性能的检测框架。主要局限性在于,其评估完全基于英语语音数据集,模型对非英语语音、方言或极低资源语言下的检测能力未经验证,且对实时流式处理或计算资源受限的场景适用性未做探讨。


13. AVATAR: Audio-Visual Adaptive Fusion via Trained Agent Reinforcement for Multimodal Deepfake Detection

7.5/10 | 前25% | #音频深度伪造检测 | #强化学习 | #多模态模型 #鲁棒性

👥 作者与机构

  • 第一作者:Ebad Shabbir(DSEU-OKHLA, New Delhi, India)
  • 通讯作者:Jiechao Gao(Stanford University, Stanford, CA, USA)
  • 作者列表:Ebad Shabbir(DSEU-OKHLA, New Delhi, India),Pushkar Arora(DSEU-OKHLA, New Delhi, India),Rakshita Saksaina(DSEU-OKHLA, New Delhi, India),Tiange Xie(Institute of Information Engineering, Chinese Academy of Sciences, Beijing, China),Jiechao Gao(Stanford University, Stanford, CA, USA)

💡 毒舌点评

本文巧妙地将强化学习(PPO)引入多模态融合权重的动态决策,思路新颖且在小规模实验上取得了令人瞩目的性能提升,证明了“让模型自己决定信哪个”的可行性。然而,其所有实验仅基于1000个片段的微小数据集进行,这就像在沙盘里赢得了一场战争,其结论能否推广到真实世界的海量、复杂数据洪流中,要打一个大大的问号,极大地限制了工作的说服力。

📌 核心摘要

本文针对多模态深度伪造检测中固定融合策略无法适应音频和视频信号质量动态变化的问题,提出了AVATAR框架。其核心是采用近端策略优化(PPO)强化学习智能体,根据当前输入的音视频特征及其可靠性指标(如特征模态、模态间余弦相似度),动态学习并输出一个自适应的融合权重α,用于组合音频和视频的表示,而不是采用固定的拼接、平均或注意力机制。该框架无需重新训练特征提取骨干网络。与早期、晚期、交叉注意力等固定融合基线相比,AVATAR在LAV-DF数据集的一个子集(1000个片段)上实现了最优的分类性能(ROC AUC=0.945)。鲁棒性实验表明,在面对高斯噪声、特征维度丢弃等嵌入层破坏时,AVATAR的性能下降最小(平均下降-0.005 AUC),显著优于其他静态融合方法。该工作的实际意义在于为处理现实世界中质量不均衡的多模态伪造内容提供了一种更鲁棒的融合范式。主要局限性在于验证所用的数据集规模非常小,其在大规模和更广泛伪造类型上的泛化能力尚未得到证明。


14. Few-Shot Recognition of Audio Deepfake Generators using Graph-Based Prototype Adaptation

7.5/10 | 前25% | #音频深度伪造检测 | #图神经网络 | #少样本学习 #音频取证

👥 作者与机构

  • 第一作者:Yupeng Tan (广西大学计算机、电子信息学院,广西人工智能学院)
  • 通讯作者:Wei Xie (广西大学计算机、电子信息学院,广西人工智能学院)
  • 作者列表:Yupeng Tan (广西大学计算机、电子信息学院,广西人工智能学院),Wei Xie (广西大学计算机、电子信息学院,广西人工智能学院)

💡 毒舌点评

本文巧妙地将图神经网络与转导学习范式结合,用于解决少样本音频深度伪造生成器识别中因数据稀缺导致的原型估计偏差问题,技术路线完整且实验结果显著优于基线。然而,其核心思想——利用无标签数据(查询集)的结构信息来优化有标签数据的原型表示——在少样本学习领域并非首创(如标签传播等),创新深度有限,且论文未提供任何开源代码或模型权重,对后续研究的可复现性构成障碍。

📌 核心摘要

  1. 问题:在音频取证中,识别深伪造音频的具体生成器类型至关重要,但新兴生成器的有标签样本极少,传统少样本方法因数据稀疏导致原型估计偏差大、特征区分度低。
  2. 方法:提出基于图的原型适应框架。在每个少样本任务中,将支持集和查询集样本构建成一个联合图(基于样本间距离的稀疏连接),通过图适应模块进行信息传播和特征精炼,再估计更可靠的原型进行分类。
  3. 创新:1)采用转导学习范式,联合利用有标签和支持样本构建任务特定图;2)设计图适应模块,通过图卷积网络精炼特征并校准原型,缓解原型偏差;3)在元测试阶段引入对比损失进行自适应。
  4. 实验:在ASVspoof2019 LA和MLAAD数据集上的5-way设置中,GPA方法在所有shot数下均取得最优准确率,例如在ASV2019LA上5-shot相比最强基线提升3.17%,10-shot提升6.12%,20-shot提升8.28%。消融实验验证了各组件的必要性。
  5. 意义:为应对新出现的音频深伪造威胁提供了一种有效的少样本识别方案,增强了音频取证系统对未知生成器的适应能力。
  6. 局限性:方法依赖预训练的CLAP编码器和特定的图构建策略,计算复杂度随样本数增加;实验仅在两个数据集上进行,对更多样化生成器和真实场景的泛化能力有待验证。

15. Audio Deepfake Detection at the First Greeting: “Hi!”

7.5/10 | 前25% | #音频深度伪造检测 | #时频分析 | #端到端 #鲁棒性

👥 作者与机构

  • 第一作者:Haohan Shi(拉夫堡大学伦敦分校数字技术研究所)
  • 通讯作者:Yunxiao Zhang(埃克塞特大学计算机科学系)
  • 作者列表:Haohan Shi(拉夫堡大学伦敦分校数字技术研究所)、Xiyu Shi(拉夫堡大学伦敦分校数字技术研究所)、Safak Dogan(拉夫堡大学伦敦分校数字技术研究所)、Tianjin Huang(埃克塞特大学计算机科学系)、Yunxiao Zhang(埃克塞特大学计算机科学系)

💡 毒舌点评

这篇论文精准地切入了音频伪造检测中一个极具现实意义的细分场景——“第一句话”检测,并为此设计了针对性的轻量化框架,实验对比充分且结果显著,工程化考量(效率、部署)也值得肯定。不过,其核心模块(PCEM, FCEM)的命名虽显“豪华”,但内部算子(如卷积、池化、GELU)的组合更像是一个精心调优的“乐高”拼装,原创的理论洞察稍显薄弱,更像是一个扎实的工程优化案例。

📌 核心摘要

本文旨在解决在真实世界通信降质(如编解码、丢包)条件下,对超短音频(0.5-2秒)进行深度伪造检测的挑战,典型场景是通话开头的“Hi”。作者提出了S-MGAA框架,这是对MGAA的轻量化扩展。其核心方法包括两个新模块:像素-通道增强模块(PCEM)和频率补偿增强模块(FCEM),前者从时频像素和通道维度增强伪造线索的显著性,后者通过多尺度频率分析来补偿时间信息的不足。与已有方法相比,本文首次联合关注了超短输入和通信降质鲁棒性两个方面,并设计了轻量高效的模型。主要实验结果表明:在ADD-C测试集上,S-MGAA-MFCC在0.5秒输入下的平均等错误率(EER)为3.44%,相比次优基线(RawGAT-ST)的4.52%降低了23.89%;在所有时长和降质条件下均取得最优或次优性能;同时,模型在实时因子(RTF)、浮点运算量(GFLOPs)和训练时间上展现出显著优势。该研究为实时部署在资源受限设备(如智能手机)上的早期语音欺骗检测提供了可行方案。主要局限性在于,实验评估均在合成降质数据集上进行,未在真实部署的实时通信系统中验证其端到端性能。

实验结果表格(Table 1):

模型0.5s Avg. EER (%)1.0s Avg. EER (%)1.5s Avg. EER (%)2.0s Avg. EER (%)
MGAA-MFCC5.442.881.700.99
RawGAT-ST4.522.741.751.02
S-MGAA-MFCC3.441.500.750.36

实验结果表格(Table 2):

输入特征平均EER相对改善率
LFCC+51.60%
CQCC+42.85%
MFCC+51.55%

实验图表: 图2:不同输入时长下基线模型的平均EER变化趋势 图2展示了所有基线模型在输入时长从4秒缩短至0.5秒时,平均EER普遍出现显著上升,凸显了现有方法在超短音频上的性能脆弱性,为本文工作的必要性提供了佐证。

图3:效率对比雷达图 图3通过雷达图对比了S-MGAA(绿色区域)与主要基线模型在参数量、计算量、实时因子和训练时间等效率指标上的表现,直观表明S-MGAA在保持高性能的同时,具有更优的计算效率和部署友好性。


16. Combining SSL Speech Features, Contextual Transformers and Mamba Models for Realistic Audio Spoofing Detection

7.5/10 | 前25% | #音频深度伪造检测 | #状态空间模型 | #预训练 #自监督学习

👥 作者与机构

  • 第一作者:Luis Buera(Microsoft)
  • 通讯作者:未说明(论文作者列表未明确区分第一/通讯作者,但通讯邮箱为microsoft.com)
  • 作者列表:Luis Buera(Microsoft),Héctor Delgado(Microsoft),Daniele Colibro(Microsoft),Antonio Miguel(University of Zaragoza, Spain)

💡 毒舌点评

亮点:论文构建的“真实世界”评测基准极具说服力,明确区分了注入和播放两种攻击呈现方式,并评估了模型在不同通话时长下的性能,这为学术研究与工业落地之间架设了更实际的桥梁。
短板:提出的“ResNet-CoT-Mamba”更像是一个高效的成功模型组装案例,其核心组件如Audio Mamba、Hymba集成方式的原创性有限,更多是对现有技术的巧妙组合与验证。

📌 核心摘要

  1. 问题:传统音频伪造检测模型在实验室条件下效果良好,但在面对真实通话场景(如电话客服中心)中的注入和播放攻击时,性能会下降,且现有研究对攻击呈现方式关注不足。
  2. 方法核心:提出“ResNet-CoT-Mamba”架构。首先使用预训练的wav2vec 2.0提取语音特征,然后通过由残差网络(ResNet)和上下文Transformer(CoT)组成的模块捕获短时相关性,最后用Mamba状态空间模型(SSM)捕获长程依赖关系。论文探索了多种Mamba集成方式,包括单向、双向、Hymba(Transformer与Mamba并行)和双路径结构。
  3. 创新点:1) 构建了包含注入、播放和真实通话中心场景的全面评测基准;2) 提出将Transformer(CoT)与Mamba在检测任务中进行多种方式的组合,特别是首次将Hymba架构引入该领域。
  4. 实验结果:在提出的基准测试中,最佳模型(Dual+Hymba+u (6))相比强基线LGF,在EER和MDR上分别实现了52.6%和56.3%的相对改进。在“真实世界”数据集上,该模型在播放攻击场景的MDR上显著优于基线。关键数据见下表:
    模型Pool EER(%)Avg. MDR(%)Pool MDR(%)播放攻击MDR(%)
    LGF (基线)7.2719.9023.8439.72
    Dual+Hymba+u (6)3.2810.588.15未在表中直接给出
    Dual+Hymba+u (4)3.7712.529.5931.05
  5. 实际意义:该工作推动了音频伪造检测从实验室走向真实应用,为电话客服、金融通话等场景提供了更可靠的防御模型。
  6. 主要局限性:1) 模型架构的创新主要体现在组合方式上,而非基础模块的原创设计;2) 论文未开源代码、模型权重或测试数据集,影响了可复现性;3) 训练数据包含未公开的私有数据集(如Realworld, Augmented),尽管公开部分足够验证核心结论。

17. How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection

7.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #模型评估 #语音合成

👥 作者与机构

  • 第一作者:Yixuan Xiao (斯图加特大学自然语言处理研究所)
  • 通讯作者:未说明(论文未明确指出)
  • 作者列表:Yixuan Xiao (斯图加特大学自然语言处理研究所)、Florian Lux (AppTek GmbH)、Alejandro Pérez-González-de-Martos (AppTek GmbH)、Ngoc Thang Vu (斯图加特大学自然语言处理研究所)

💡 毒舌点评

论文精准地抓住了“编解码器重合成音频既像好人又像坏人”这个痛点,并用一套严谨的实验给出了“看它心是为压缩而跳还是为合成而跳”的诊断思路,实用性拉满。不过,作者似乎更满足于揭示“病症”和提出“用药建议”,而对如何从根源上(即检测器架构层面)提升对这类模糊样本的鲁棒性,着墨甚少。

📌 核心摘要

本文针对音频深度伪造检测领域中神经音频编解码器(NAC)的双重角色问题展开研究。NAC既可用于音频压缩传输(产生编解码器重合成音频CoRS),又可作为语音合成系统的声码器(产生编解码器语音合成音频CoSG)。这使得训练检测器时面临困境:CoRS应标注为真实还是伪造?为解决此问题,本文构建了一个基于ASVspoof 5协议的扩展数据集CodecDeepfakeDetection,包含多种TTS系统(Llasa, MARS5等)和NACs(EnCodec, Mimi, DAC等)。核心创新在于系统性地评估了将CoRS标注为“真实”或“伪造”对不同检测器(X-AASIST, LWBN)性能的影响。实验发现,标注策略的有效性取决于NAC的设计目标:对于以压缩为导向的NAC(如EnCodec, DAC),将其重合成音频标注为伪造会导致检测器过度学习编解码器伪影,从而错误拒绝经该NAC压缩的真实音频;而对于以合成为导向的NAC(如Mimi),将其标注为伪造更有效。主要实验结果表明,未使用NAC数据增强的基线模型在面对混合了CoRS的测试集时,等错误率(EER)高达约40%,而采用合适的增强策略(对部分NAC作为真实数据)可将其显著降低约8-11个百分点。本文的实际意义在于为构建对编解码器技术演变更鲁棒的检测系统提供了明确的数据标注指南。主要局限性在于研究主要集中于分析和提供见解,而非提出一个全新的、能统一处理此类模糊性的检测模型。

关键实验数据表:不同标注策略对检测性能(EER)的影响(部分)

模型训练策略NAC增强类型T-CoSG (EER)T-CoRS (EER)All (EER)
X-AASIST无NAC增强 (Base)-10.67%22.06%20.35%
X-AASISTCoRS标注为真实EnCodec10.30%14.96%13.23%
Mimi10.00%11.29%11.79%
DAC10.50%13.37%12.37%
X-AASISTCoRS标注为伪造EnCodec10.30%26.79%25.08%
Mimi10.00%25.42%23.72%
DAC10.33%28.50%26.47%
LWBN无NAC增强 (Base)-10.00%20.65%19.35%
LWBNCoRS标注为真实EnCodec8.53%13.42%12.48%
Mimi8.20%9.32%9.60%
DAC9.13%11.80%10.85%
LWBNCoRS标注为伪造EnCodec10.00%27.10%25.16%
Mimi10.00%25.46%23.50%
DAC9.53%27.68%25.80%
注:表格展示了当使用特定NAC进行增强时,相对于基线(Base)模型的性能变化。T-CoSG为仅真实音频+伪造音频的测试集,T-CoRS为重合成真实音频+伪造音频的测试集。数值为绝对EER。


18. KAN We Make Models Simpler for Audio Deepfake Detection with Kolmogorov–Arnold Networks?

7.5/10 | 前25% | #音频深度伪造检测 | #自监督学习 | #KAN

👥 作者与机构

  • 第一作者:Hoan My Tran (Univ Rennes, CNRS, IRISA, Lannion, France)
  • 通讯作者:David Guennec (Univ Rennes, CNRS, IRISA, Lannion, France), Aghilas Sini (Univ Le Mans, LIUM, Le Mans, France)
  • 作者列表:Hoan My Tran†, Aghilas Sini∗, David Guennec†, Arnaud Delhay†, Damien Lolive‡, Pierre-François Marteau‡
    • †: Univ Rennes, CNRS, IRISA, Lannion, France
    • ∗: Univ Le Mans, LIUM, Le Mans, France
    • ‡: Univ Bretagne Sud, CNRS, IRISA, Vannes, France

💡 毒舌点评

亮点:这篇论文的核心价值在于其“反常识”的结论——在强大的预训练模型(XLS-R)面前,复杂的下游分类器可能是不必要的,一个简单的全连接层(甚至只有2K参数)就能达到极具竞争力的性能,这为轻量化部署提供了重要思路。短板:虽然论文展示了KAN在平均EER上的优势,但其提升在部分数据集(如FoR)上并不一致,且论文缺乏对“为何KAN能更有效利用高维SSL特征”这一核心机制的深入理论或可视化分析,更像是一次成功的实验观察而非深刻的机理解释。

📌 核心摘要

这篇论文旨在探索一种极简化的音频深度伪造检测架构,以解决当前方法模型复杂、参数量大的问题。方法核心是利用强大的自监督学习模型XLS-R提取高维语音特征,并直接将其输入到一个简单的后端分类器(全连接层或KAN层)进行真伪判断,跳过了传统的降维步骤。与已有方法(如使用Conformer、Mamba等复杂后端)相比,本文的新颖之处在于证明了在特征足够强大时,极简后端即可取得优异性能。主要实验结果表明,在ASVspoof等多个数据集上,仅使用22.54K参数的KAN后端(平均EER为1.07%)能取得与使用数百万参数复杂模型相当甚至更优的性能(表3)。实际意义在于,该工作为构建轻量、高效、易于部署的音频深度伪造检测系统指明了方向。其主要局限性在于,尽管KAN在平均指标上占优,但在某些特定数据集(如FoR)上性能不及全连接层,且论文未能深入揭示KAN性能优势的内在原理。


19. Robust Deepfake Audio Detection via Multi-Level Intermediate Feature Fusion

7.5/10 | 前25% | #音频深度伪造检测 | #特征融合 | #自监督学习 #鲁棒性

👥 作者与机构

  • 第一作者:Jinpeng Zhao(中山大学计算机科学与工程学院)
  • 通讯作者:Peijia Zheng(中山大学计算机科学与工程学院)
  • 作者列表:Jinpeng Zhao, Jian Zhao, Yufei Zhou, Peijia Zheng†, Yusong Du(中山大学计算机科学与工程学院)

💡 毒舌点评

亮点在于,论文非常务实地通过一个轻量级(仅增加0.002%计算量)的MIFF模块,有效挖掘了现有强大骨干网络(XLSR-Mamba)中被忽视的中间层信息,实现了“小改进,大收益”。短板是,该工作本质上是将成熟的注意力机制(SE block)应用于特定模型(Mamba)的中间层特征融合,创新深度有限,更像是一个有效但非突破性的工程优化。

📌 核心摘要

本文针对现有深度伪造音频检测器(如XLSR-Mamba)主要依赖最终层特征、导致中间层判别性信息丢失的问题,提出了多级中间特征融合模块。该模块应用于双列双向Mamba网络的每个方向,通过引入Squeeze-and-Excitation机制,自适应地计算并加权聚合所有Mamba层的输出特征,并与最终层的残差输出融合,从而生成一个更全面、更具判别力的表征用于分类。实验表明,在ASVspoof 2021 DF和In-The-Wild数据集上,该方法分别取得了1.68%和5.66%的EER,相比基线XLSR-Mamba(1.88%和6.71%)实现了10.6%和15.6%的相对误差降低,尤其在应对自回归神经声码器生成的伪音时表现突出。该研究证明了多层次特征融合对于增强检测模型鲁棒性的有效意义。主要局限性在于方法未在更多样化的攻击类型或跨语言场景下进行验证,且依赖于特定的XLSR前端和Mamba后端组合。


20. AI-Generated Music Detection in Broadcast Monitoring

7.0/10 | 前50% | #音频深度伪造检测 | #数据集 | #鲁棒性 #工业应用

👥 作者与机构

  • 第一作者:David López-Ayala (Music Technology Group, Universitat Pompeu Fabra, Barcelona, Spain)
  • 通讯作者:未明确标注(根据邮箱顺序,第一作者与Martin Rocamora并列,推测Martin Rocamora可能为通讯作者,但论文未明确声明)
  • 作者列表:David López-Ayala (Music Technology Group, Universitat Pompeu Fabra)、Asier Cabello (BMAT Licensing S.L.)、Pablo Zinemanas (BMAT Licensing S.L.)、Emilio Molina (BMAT Licensing S.L.)、Martin Rocamora (Music Technology Group, Universitat Pompeu Fabra)

💡 毒舌点评

亮点:本文最大的价值在于其“问题意识”——它没有停留在实验室的完美条件下自嗨,而是直指工业界(广播监测)的真实痛点,并通过精心设计的AI-OpenBMAT数据集和系统的消融实验,量化证明了现有“明星模型”在复杂声学环境下的脆弱性,为该领域指明了亟需突破的方向。短板:论文止步于“诊断”和“展示问题”,并没有提出任何新的“药方”(新的检测模型或算法)。作为一篇方法论文,其贡献更偏向数据工程和基准测试,技术深度略显不足,使得最终结论虽扎实但冲击力有限。

📌 核心摘要

  1. 要解决什么问题:现有的AI生成音乐检测器主要在干净、完整的流媒体音乐上训练和验证,但在广播监测场景下(音乐为短片段且常被前景语音掩蔽)性能会严重下降。
  2. 方法核心是什么:构建了一个名为AI-OpenBMAT的新型数据集。该数据集基于真实电视广播的音频结构(来自OpenBMAT),将人类创作的音乐与其AI生成的延续版本(使用Suno v3.5)进行风格匹配配对,并按照真实的时长分布和信噪比(音乐与语音)进行混合,模拟出54.9小时的广播音频片段。
  3. 与已有方法相比新在哪里:这是首个专门为广播场景下的AI生成音乐检测任务设计的数据集。其创新点在于:1)数据构建基于真实广播音频的统计特征(片段长度、相对响度);2)使用“延续生成”方式确保人类与AI音乐对的风格高度匹配,控制变量;3)实验设计系统性地隔离并测试了语音掩蔽(SNR)和音频短时长这两个广播场景的关键挑战。
  4. 主要实验结果如何:实验表明,在流媒体场景下表现优异的模型(如SPECTTTRA和CNN)在广播条件下性能大幅下降。例如,在低信噪比(如背景音乐)下,所有模型的F1分数均低于60%。在完整的AI-OpenBMAT广播场景评估中,最佳模型(SPECTTTRA-γ)的总体F1分数仅为61.1%,而CNN基线仅为27.6%。具体结果见下表:
模型Overall F1Per-class F1 (bg)Per-class F1 (bgvl)Per-class F1 (fg)Per-class F1 (music)Per-class F1 (similar)
SpectTTTra-α57.654.347.084.488.561.7
SpectTTTra-β54.344.236.478.083.950.3
SpectTTTra-γ61.146.933.284.488.955.8
CNN27.613.433363.113.6
  1. 实际意义是什么:为AI音乐检测领域的研究者和工业界提供了一个更贴近现实的基准和数据集,揭示了现有技术的瓶颈,并推动开发对短时长和语音掩蔽更鲁棒的新检测算法,以满足广播版权监测等工业需求。
  2. 主要局限性是什么:论文的核心贡献是数据集和评估,而非新的检测模型。因此,它没有提供解决所发现问题的方案。此外,AI音乐生成源仅限于Suno v3.5,数据集的泛化性可能受限于生成模型的技术代际。


21. Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study

7.0/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #监督微调 #跨模态

👥 作者与机构

  • 第一作者:Songjun Cao(腾讯优图实验室) (注:论文中注明与Yuqi Li贡献均等)
  • 通讯作者:未说明
  • 作者列表:Songjun Cao¹, Yuqi Li¹, ², Yunpeng Luo¹, Jianjun Yin², Long Ma¹ (¹ 腾讯优图实验室, ² 复旦大学)

💡 毒舌点评

亮点:将“音视频深度伪造检测”巧妙地重塑为“多模态问答任务”,利用现成的顶级多模态大模型(Qwen 2.5 Omni)作为骨架,通过两阶段微调迅速达到了领域内顶尖水平,证明了LMM在多媒体取证中的巨大潜力。
短板:作为一篇方法论论文,其核心创新(SFT LMM)对基础模型架构的依赖性极强,且未提供任何开源资源(代码、模型、训练脚本),使得“复现即正义”的学术圈同仁难以验证和跟进,更像是一个概念验证(Pilot Study)。

📌 核心摘要

  1. 要解决的问题:现代生成模型制造的音视频深度伪造内容日益逼真,现有的多模态检测器多为任务特定的小模型,存在泛化能力弱、跨域性能差的问题。
  2. 方法核心:提出AV-LMMDetect,首次将监督微调的大型多模态模型(基于Qwen 2.5 Omni)用于端到端的音视频深度伪造检测。方法将检测任务重新定义为一个二元分类问答:“这个视频是真实的还是伪造的?”。训练采用两阶段策略:第一阶段通过LoRA对语言模型部分进行轻量级对齐;第二阶段解冻视觉和音频编码器进行全量微调,以最大化跨模态协同效应。
  3. 与已有方法相比新在哪里:不同于传统的小型任务特定模型(如CNN/Transformer流水线)或仅处理单模态的音频LLM,本工作首次证明了经过SFT的通用大型多模态模型(LMM)能够作为统一的检测器,直接处理原始的音视频流,并展现出更强的跨模态推理和泛化能力。
  4. 主要实验结果:在FakeAVCeleb数据集上,AV-LMMDetect取得了98.02%的准确率和99.2%的AUC,与当前SOTA方法AVFF(98.6%准确率)性能相当。在更具挑战性的多语言MAVOS-DD数据集上,该方法在“开放集完整”场景下达到了85.09%的准确率和0.96的mAP,显著优于所有对比方法,树立了新的SOTA。消融实验表明,两阶段训练策略缺一不可。
  5. 实际意义:为多媒体安全领域提供了一种新的、基于大模型基座的通用检测范式,有望提升检测器对未知生成模型和跨语言场景的泛化能力,维护媒体内容的真实性。
  6. 主要局限性:该方法完全依赖于特定的基座大模型(Qwen 2.5 Omni),其性能受限于该模型的能力边界;训练过程可能计算成本较高;论文未提供开源实现,限制了成果的快速验证与应用。

22. A Superb-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection

7.0/10 | 前25% | #音频深度伪造检测 | #自监督学习 | #基准测试 #模型评估

👥 作者与机构

  • 第一作者:未说明(论文按顺序列出作者,未明确指定第一作者)
  • 通讯作者:未说明(论文中未明确标注通讯作者)
  • 作者列表:Hashim Ali, Nithin Sai Adupa, Surya Subramani, Hafiz Malik(均来自University of Michigan, Electrical and Computer Engineering)

💡 毒舌点评

本文最大的价值在于“填空”——在音频深度伪造检测这个安全关键领域,终于有了一个像SUPERB那样标准化的评测框架,让不同研究能放在同一擂台上比较,这本身就是一个重要的贡献。但短板也同样明显:它本质上是一个“评测员”而非“创新者”,提出的Spooof-SUPERB协议是现有技术的整合而非新方法的突破,且未开源代码或模型,大大削弱了其作为基准的实践影响力。

📌 核心摘要

这篇论文旨在解决音频深度伪造检测领域缺乏统一评估标准、导致研究结果难以比较的问题。其核心方法是提出一个名为“Spoof-SUPERB”的SUPERB式基准,该基准采用固定的下游任务设置(冻结SSL前端+加权层聚合+简单分类器),在ASVspoof 2019训练集上训练,并在包括ASVspoof 2019、2021、DeepfakeEval 2024、In-the-Wild、Famous Figures和ASVSpoofLD在内的8个数据集上进行跨域评估。与以往碎片化的研究相比,这是首个系统性地评估20个涵盖生成式、判别式和混合式架构的自监督学习模型的标准化基准。主要实验结果显示,大规模判别式SSL模型(如XLS-R、UniSpeech-SAT、WavLM Large)在平均EER上显著优于生成式模型和FBANK基线(例如XLS-R为17.4%,而FBANK为46.5%),并在噪声、混响和编解码器退化条件下表现出更强的鲁棒性。本文的实际意义是为社区提供了一个可复现的基线和实用的模型选择指南。主要局限性在于,固定的下游协议(训练数据选择、简单后端)可能限制了对模型潜力的挖掘,且未公开代码和模型权重。

表2. Equal Error Rate (EER, %) of SSL models across evaluation datasets.

ModelASV19 LAASV21 LAASV21 DFASV5 EvalIn-the-WildDFEval 2024Famous Fig.ASVspoofLDMean EER
FBANK42.82843.15544.78949.83848.39347.11348.42747.67246.527
APC10.07516.33522.27633.31136.88942.66258.40234.34531.787
VQ-APC12.15518.87220.21730.58134.86052.17358.54431.79932.400
NPC15.24317.61925.23937.86840.98649.84351.97929.75833.567
Mockingjay15.43019.79825.31240.21735.84849.80040.97556.03335.427
Mockingjay-960h13.80125.52522.58437.86652.38752.13049.95359.28339.191
TERA9.11226.57217.25435.65639.89454.25149.28257.56536.198
DeCoAR 2.07.62812.35218.99029.57135.02949.80054.45222.12628.743
wav2vec8.81215.50014.76130.69142.23953.89551.04836.26331.651
wav2vec 2.0 Base4.66111.45210.04618.69840.94556.98151.92132.89128.449
wav2vec 2.0 Large7.69518.88711.61719.95640.46155.76444.40130.41328.649
HuBERT Base4.86712.56213.38723.99027.27653.74753.74917.77225.919
HuBERT Large2.78810.04911.99621.25221.03952.99148.44013.14622.712
MR-HuBERT2.4789.07411.63523.05623.79949.69652.72011.64523.006
XLS-R1.98514.0964.31414.39420.07345.39229.5989.42017.409
UniSpeech-SAT1.9618.8187.44314.99616.79149.80046.6019.55719.496
Data2Vec7.69511.87716.51126.77329.24950.80853.09216.41826.678
WAVLABLM3.63115.3809.84721.11523.40252.53052.66015.50024.258
WavLM Large2.27311.63611.52717.54924.33149.69635.36712.08920.558
SSAST11.69324.93522.90931.18647.11340.18436.88521.52329.553
MAE-AST-FRAME7.68519.55417.00127.29543.64547.97435.21419.97827.293

表3. Average EER (%) across all codec conditions (ASV5 Eval). Representative models from each category

ModelAvg. Codec EER
FBANK (Baseline)49.8
APC (Generative)33.3
XLS-R (Discriminative)13.5
UniSpeech-SAT (Discriminative)14.0
WavLM Large (Discriminative)18.1
SSAST (Hybrid)28.8

23. Understanding the Strengths and Weaknesses of SSL Models for Audio Deepfake Model Attribution

7.0/10 | 前50% | #音频深度伪造检测 | #自监督学习 | #语音合成

👥 作者与机构

  • 第一作者:Gabriel Pîrlogeanu(POLITEHNICA Bucharest大学,Speech and Dialogue Research Laboratory)
  • 通讯作者:未说明(论文未明确指定通讯作者)
  • 作者列表:Gabriel Pîrlogeanu(POLITEHNICA Bucharest大学,Speech and Dialogue Research Laboratory)、Adriana Stan(POLITEHNICA Bucharest大学 Speech and Dialogue Research Laboratory 及 Technical University of Cluj-Napoca Communications Department)、Horia Cucu(POLITEHNICA Bucharest大学,Speech and Dialogue Research Laboratory)

💡 毒舌点评

亮点在于其严谨的控制变量实验设计,像“实验室”一样剖析了SSL特征在音频归因任务中的敏感点,尤其是“零初始化检查点”的验证为“模型架构指纹”的存在提供了有趣证据;短板是研究停留在对已有方法的分析与验证,未提出更强的归因模型或更鲁棒的特征,且对更复杂的实际场景(如多说话人、商业系统)测试不足,结论的普适性有待验证。

📌 核心摘要

  1. 要解决什么问题:现有音频深度伪造检测研究多聚焦于二分类(真/假),而用于法律问责的“模型归因”(识别生成该音频的具体系统/模型)更具挑战性,尤其是当生成模型更新、重训练时,归因系统的鲁棒性尚不明确。
  2. 方法核心是什么:作者系统性地利用自监督学习(SSL)模型(wav2vec2-xls-r-2b 和 w2v-bert-2.0)提取音频特征,并搭配简单的kNN分类器,构建了一个轻量级的归因系统。通过严格控制变量(模型检查点、文本提示、声码器、说话人身份),对四个主流TTS架构(FastPitch, VITS, Grad-TTS, Matcha-TTS)进行受控实验,以剖析SSL特征的归因能力及其弱点。
  3. 与已有方法相比新在哪里:与以往利用复杂DNN分类器或未控制变量的归因研究不同,本文的核心创新在于实验设计的系统性:1) 从头训练并保存多个阶段的模型检查点;2) 显式隔离并操控文本、声码器、说话人等关键变量;3) 首次对比分析了两个不同SSL模型在归因任务上的互补特性;4) 探索了模型随机初始化对归因的影响。
  4. 主要实验结果如何:实验结果表明:a) 在域内(ID)任务中,架构级归因非常准确(F10.98),但检查点级归因较难(F10.5);b) 文本提示对检查点归因影响显著;c) 声码器匹配对归因至关重要,跨声码器归因性能骤降;d) 说话人微调会严重干扰归因,其中w2v-bert-2.0因预训练数据更多而更鲁棒;e) 未训练的“零初始化”模型输出噪声,但能被完美归类到各自架构类别。关键数据见表1。

表1:不同条件下模型归因的宏F1分数(关键部分)

实验条件查询集检查点提示词划分声码器类型wav2vec2-xls-r-2b (检查点/架构)w2v-bert-2.0 (检查点/架构)
1. 基线 (域内)PT+9个检查点不相交默认0.519 / 0.9760.450 / 0.983
5. 依赖文本提示PT+9个检查点混合默认0.432 / 0.9730.367 / 0.978
6. 依赖声码器 (同)PT+9个检查点不相交统一0.504 / 0.9410.436 / 0.943
7. 依赖声码器 (异)PT+9个检查点不相交混合n/a / 0.634n/a / 0.551
9. OOD (仅PT归因)微调模型不相交默认n/a / 0.361n/a / 0.657
11. 零初始化 (ID)零初始化不相交默认0.874 / 1.0000.859 / 1.000
12. 零初始化归因PT+9PT+9个检查点不相交默认n/a / 0.100n/a / 0.100

(表1数据来自论文Table 1,展示了多个关键实验的结果对比。)

  1. 实际意义是什么:本研究为基于SSL的音频深度伪造归因系统提供了重要的鲁棒性指南:a) 架构级归因可靠;b) 检查点级归因易受内容、声码器、说话人变化影响;c) 部署时需考虑文本和声码器的多样性;d) 不同SSL模型可互补。这有助于设计更可靠的数字取证工具。
  2. 主要局限性是什么:a) 实验局限于四种TTS架构和一个单说话人数据集(LJSpeech),未测试多说话人、零样本克隆、多实现等更复杂场景;b) 声码器变化实验(表1行7)结论不明确;c) 仅分析了特征层面,未提出提升归因鲁棒性的新方法;d) 对“零初始化”实验的解释(模型未见过噪声数据)略显牵强。

24. Towards Data Drift Monitoring for Speech Deepfake Detection in the Context of MLOps

7.0/10 | 前25% | #音频深度伪造检测 | #数据漂移监控 | #模型微调 #MLOps

👥 作者与机构

  • 第一作者:Xin Wang(日本国立信息学研究所)
  • 通讯作者:未说明
  • 作者列表:Xin Wang(日本国立信息学研究所),Wanying Ge(日本国立信息学研究所),Junichi Yamagishi(日本国立信息学研究所)

💡 毒舌点评

这篇论文的亮点在于其工程视角的前瞻性:它脱离了传统的“训练-测试”静态评估循环,首次在MLOps框架下系统性地探讨了语音伪造检测器面临的数据漂移问题,实验设计严谨且覆盖了多种检测器与距离度量。然而,其核心方法(用分布距离监控漂移、用新数据微调)本质上是对机器学习运维通用范式的直接应用,并未在漂移检测算法本身提出原创性贡献,创新高度有限。

📌 核心摘要

  1. 要解决什么问题:传统的静态语音深度伪造检测模型部署在云端后,面对不断涌现的新文本到语音(TTS)攻击,性能会下降。需要一种机制来自动监控新数据与原始训练/参考数据的分布差异(漂移),并据此更新模型。
  2. 方法核心是什么:从MLOps角度出发,提出两步框架:(1) 监控:利用检测器(如SSL模型)提取的音频嵌入特征,通过计算测试数据与参考数据在多个维度上的分布距离(如Wasserstein-1距离、K-S检验)来量化漂移;(2) 更新:当检测到显著漂移时,使用类似的新攻击数据对检测器进行微调,以减少漂移并恢复性能。
  3. 与已有方法相比新在哪里:与以往集中在提升检测准确率的实验室研究不同,本文首次将“数据漂移”概念引入语音伪造检测领域,并将其置于MLOps的运维闭环中进行研究。它关注的是模型上线后如何维持性能的可持续性问题。
  4. 主要实验结果如何:在玩具数据集和大规模MLAAD数据集上的实验证明:
    • 监控有效性:较新的TTS攻击确实导致更高的漂移值(如图2、3所示)。例如,在MLAAD数据集上,v7版本(最新)的TTS系统产生的漂移值显著高于v2版本(早期)。
    • 更新有效性:使用新攻击数据进行微调可以减少漂移。如图3(a)所示,使用8小时的v7数据微调后,XSLR2b检测器在v7测试集上的漂移值明显下降。同时,检测错误率(EER)也随之降低。表2显示,当用8小时v7数据微调后,XSLR2b在v7测试集上的EER从6.42%降至0.57%。
    • 关键发现:使用与新攻击相似的数据(如用v6数据微调)对未见过的更新攻击(如v7)也有积极效果;但使用过时的数据(如v2)对新攻击的改善有限。
  5. 实际意义是什么:为语音伪造检测系统在真实云服务中的长期可靠运行提供了一套可行的监控与自适应更新框架,有助于应对持续演化的伪造技术,保障系统安全。
  6. 主要局限性是什么:论文中未明确提及。潜在局限包括:计算分布距离和频繁微调可能带来的运维开销;微调步骤依赖于对新攻击数据的获取与标注,这在实际场景中可能具有挑战性;实验未评估对真实语音数据误报率的影响。

25. CompSpoof: A Dataset and Joint Learning Framework for Component-Level Audio Anti-Spoofing Countermeasures

7.0/10 | 前25% | #音频深度伪造检测 | #语音分离 | #多任务学习 #数据集

👥 作者与机构

  • 第一作者:Xueping Zhang(苏州昆山杜克大学,多模态智能系统苏州市重点实验室;数字创新研究中心)
  • 通讯作者:Ming Li(苏州昆山杜克大学,多模态智能系统苏州市重点实验室;数字创新研究中心)
  • 作者列表:
    • Xueping Zhang(苏州昆山杜克大学,多模态智能系统苏州市重点实验室;数字创新研究中心)
    • Yechen Wang(OfSpectrum, Inc., Los Angeles, USA)
    • Linxi Li(OfSpectrum, Inc., Los Angeles, USA)
    • Liwei Jin(OfSpectrum, Inc., Los Angeles, USA)
    • Ming Li(苏州昆山杜克大学,多模态智能系统苏州市重点实验室;数字创新研究中心)

💡 毒舌点评

亮点:敏锐地捕捉并定义了“成分级伪造”这一更隐蔽的攻击新范式,并为此构建了首个配套数据集和完整的端到端解决方案,框架设计逻辑自洽。 短板:提出的数据集规模较小(2500条),且环境声伪造检测效果显著弱于语音伪造检测,说明所提的“专用环境声反欺骗模型”(直接复用XLSR-AASIST)可能并不完全适配,成为系统性能短板。

📌 核心摘要

  1. 问题:现有音频反欺骗方法假设整段音频是真实或伪造的,无法有效检测仅伪造音频中特定成分(如仅伪造语音,保留真实环境声;或反之)的更隐蔽的“成分级伪造”攻击。

  2. 核心方法:提出一个分离增强联合学习框架。该框架首先用二分类模型检测混合音频是否包含伪造内容,然后使用UNet在STFT域将音频分离为语音和环境声成分,再将各成分送入独立的反欺骗模型(XLSR-AASIST)进行检测,最终综合三个模型的输出进行五分类。核心是联合训练分离网络和反欺骗模型,以保留分离信号中的欺骗相关特征。

  3. 与已有方法相比新在哪里:首次定义并建模“成分级伪造”问题;首次构建覆盖所有真实/伪造语音-环境声组合的数据集;首次将音频源分离技术与联合学习策略引入成分级反欺骗检测,实现了对音频混合物中各成分真伪性的独立评估。

  4. 主要实验结果:在自有CompSpoof数据集上,所提方法(SEF+JL)在整体F1分数上显著优于基线(0.908 vs 0.827),在多个具体类别上提升明显。消融实验证明,联合学习机制至关重要,能使分离后的成分反欺骗性能大幅提升(例如语音检测F1从0.720提升至0.863)。具体性能对比如下表所示:

    方法数据集整体F1类别0 (原混合) F1类别1 (真音-真环) F1类别2 (伪音-真环) F1类别3 (真音-伪环) F1类别4 (伪音-伪环) F1
    BaselineEval0.8270.9800.8430.7450.8290.738
    SEF+JLEval0.9080.9900.8990.8710.9050.874
  5. 实际意义:为应对日益复杂的音频伪造攻击(成分替换)提供了新的评估基准(数据集)和检测思路,推动了音频安全研究向更细粒度发展。

  6. 主要局限性:数据集规模相对较小,且场景仅限于语音与环境声的混合,未验证音乐、其他类型背景声等场景;环境声成分的伪造检测性能仍是短板,可能受限于所用模型的通用性。


26. MSCT: Differential Cross-Modal Attention for Deepfake Detection

6.5/10 | 前10% | #音频深度伪造检测 | #注意力机制 | #音视频 #多模态模型

👥 作者与机构

  • 第一作者:Fangda Wei(北京理工大学)
  • 通讯作者:Shenghui Zhao(北京理工大学,有星号标记)
  • 作者列表:Fangda Wei(北京理工大学),Miao Liu(北京理工大学),Yingxue Wang(中国电子技术标准化研究院),Jing Wang(北京理工大学),Shenghui Zhao(北京理工大学),Nan Li(中国电子技术标准化研究院)

💡 毒舌点评

论文提出的“差分跨模态注意力”(DCA)模块设计巧妙,其通过注意力矩阵相减来增强模型对伪造内容敏感性的思路,确实指出了传统注意力机制在伪造检测任务中可能存在的目标冲突问题,是一个不错的洞察。然而,如此强调性能提升的论文,却在开源复现信息上“一毛不拔”,连基础的代码仓库或超参数都不公开,这无异于在沙滩上画出宏伟蓝图却不提供任何工具,对推动整个领域的可复现进步毫无贡献。

📌 核心摘要

  1. 要解决的问题:现有音频-视觉深度伪造检测方法主要依赖跨模态对齐,但传统的跨模态注意力机制可能与对齐损失目标冲突(对伪造内容不敏感),且缺乏有效的多尺度时间特征提取。
  2. 方法核心:提出多尺度跨模态Transformer编码器(MSCT),包含两个核心模块:差分跨模态注意力(DCA) 和 多尺度自注意力(MSSA)。DCA通过计算自注意力矩阵与跨模态注意力矩阵的差值,增强对伪造线索的关注。MSSA使用不同尺度的卷积处理Key矩阵,以整合相邻嵌入的多尺度时间信息。
  3. 与已有方法相比新在哪里:与传统跨模态注意力相比,DCA能更好地适配基于对齐损失的伪造检测任务;与标准自注意力相比,MSSA提供了更丰富的时间尺度感知能力,弥补了帧级特征提取的不足。
  4. 主要实验结果:在FakeAVCeleb数据集上,该方法取得了98.75%的准确率(ACC) 和 98.83%的AUC,显著优于表1中列出的所有基线方法,包括ACC为94.05%的MRDF-CE和96.30%的BusterX。消融实验(表2)表明,DCA模块(+1.25% ACC)比MSSA模块(+0.25% ACC)带来更大的性能增益。T-SNE可视化(图5)显示,本方法能更好地区分类别。
  5. 实际意义:提升了音视频深度伪造检测的准确性和鲁棒性,为多媒体内容安全提供了更强大的技术工具。
  6. 主要局限性:实验仅在单一数据集FakeAVCeleb上进行,缺乏跨数据集泛化性验证;未提供代码和详细复现参数,可复现性极差;与最新方法BusterX的对比缺少AUC指标。

27. Auxiliary Multi-Label Training For Improving the Robustness of Audio Deepfake Detection on AI-Processed Data

6.5/10 | 前50% | #音频深度伪造检测 | #数据增强 | #多任务学习 #自监督学习

👥 作者与机构

  • 第一作者:Inho Kim(松石大学)
  • 通讯作者:Souhwan Jung*(松石大学)
  • 作者列表:Inho Kim(松石大学),Jiwon Seo(松石大学),Seoyoung Park(松石大学),Thien-Phuc Doan(松石大学),Souhwan Jung*(松石大学)

💡 毒舌点评

亮点在于问题定义非常清晰——将“AI处理”从传统伪造中剥离,并提出一个简单易懂的训练框架(AMLT)来提升模型对此类数据的鲁棒性,思路直接有效。短板则是实验对比略显单薄,仅用了两个AP模块进行训练和评估,且未深入探讨不同AP组合或更复杂场景下的泛化能力,对方法为何有效的理论解释也主要停留在t-SNE可视化,机制剖析不够深。

📌 核心摘要

  1. 要解决什么问题:音频深度伪造检测模型(如SSL-Conformer, SSL-AASIST)在面对经过神经编解码器(NC)或AI语音增强(SE)等AI处理(AP)的音频时,性能会严重下降,因为这些处理会引入网络伪影,导致模型误判。
  2. 方法核心是什么:提出辅助多标签训练(AMLT)。在训练阶段,为AP处理后的音频分配额外的辅助标签(如AP bona, AP sp),将原本的二分类(真实/伪造)扩展为多分类进行训练,使模型能显式学习区分AP数据。在评估阶段,则忽略辅助标签,回归原始的二分类进行性能评估。
  3. 与已有方法相比新在哪里:打破了音频深度伪造检测领域长期遵循的“二分类训练”范式。与简单的数据增强(Aug)方法相比,AMLT通过引入辅助标签,在训练时为AP数据提供了更细粒度的监督信号,理论上能学到更具区分性的特征表示。
  4. 主要实验结果如何:在SSL-Conformer和SSL-AASIST两个基线上,AMLT(4L-2L设置)相比基线和简单数据增强方法,在包含AP数据的评估集上均取得了最高的准确率。具体而言,4L-2L使SSL-AASIST准确率从65.89%提升至72.28%,SSL-Conformer从71.21%提升至76.63%,优于简单数据增强的69.58%和72.94%。混淆矩阵和t-SNE可视化显示,AMLT能更好地区分真实样本和经过AP处理的真实样本。
  5. 实际意义是什么:提供了一种提升音频深度伪造检测模型在真实世界(音频可能经过各种AI预处理)场景下鲁棒性的有效策略,有助于增强现有检测系统的实用性和安全性。
  6. 主要局限性是什么:方法有效性对训练时所选AP模块的代表性有依赖;论文未深入分析AMLT提升性能的深层原因(如为何多标签训练优于二分类训练);实验仅验证了特定基线和有限AP组合下的效果,未在更广泛场景(如未知AP、混合AP)下验证泛化性。


28. Audio-Visual Deepfake Generation and Detection: An Exploratory Survey

6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #基准测试

👥 作者与机构

  • 第一作者:Hang Xu(哈尔滨工程大学计算机科学与技术学院)
  • 通讯作者:Boquan Li(哈尔滨工程大学计算机科学与技术学院,liboquan@hrbeu.edu.cn),Min Yu(中国科学院信息工程研究所,yumin@iie.ac.cn)
  • 作者列表:Hang Xu(哈尔滨工程大学计算机科学与技术学院)、Yuning An(哈尔滨工程大学计算机科学与技术学院)、Pengrui Fu(哈尔滨工程大学计算机科学与技术学院)、Zhiyu Fan(中国科学院信息工程研究所)、Boquan Li(哈尔滨工程大学计算机科学与技术学院)、Jiakun Liu(哈尔滨工业大学计算学部)、Yachao Liang(中国科学院信息工程研究所)、Min Yu(中国科学院信息工程研究所)

💡 毒舌点评

这篇综述及时填补了音视频深度伪造这一新兴交叉领域综述的空白,系统梳理了生成技术、检测方法和关键数据集,并指出了现有检测器在泛化性和鲁棒性上的普遍短板。然而,其实验部分虽有价值,但复现条件苛刻(需对大量检测器重新实现/训练),且综述本身未提出新的检测算法,结论的普适性受限于所选的有限数据集和检测器。

📌 核心摘要

这篇论文旨在应对音视频深度伪造(Audio-Visual Deepfake)日益增长的威胁,通过系统综述和实验评估,深入分析当前生成技术、检测方法及挑战。方法核心是:1)梳理了音视频深度伪造的生成方法(唇形同步和说话人脸生成)和相关数据集(完全伪造与部分伪造);2)将检测方法分为基于模态融合和基于模态不一致性两大类进行综述;3)通过泛化性实验和鲁棒性实验,评估了代表性检测器在多个数据集和多种失真下的可靠性。

与已有综述相比,本文新在首次专注于“音视频”这一具体伪造类型,并提供了针对该类型检测器的系统性可靠性评估。主要实验结果显示,大多数检测器泛化能力不足(表1),例如LIPINC在LAV-DF数据集上AUC仅为50.55%;同时抗干扰能力较弱(图3),高斯噪声和时间拉伸对多数检测器性能有显著破坏。本文的实际意义在于明确了当前检测技术的瓶颈,并为未来研究指明了方向,如发展基于内容相关性的检测策略、构建更具挑战性的测试基准等。主要局限性在于其评估覆盖的检测器和数据集有限,且未提供可直接复现的代码或模型。

主要实验结果表格: 表1. 泛化性实验结果 (AUC, %)

检测器FakeAVCelebIDForgeAVLipsLAV-DF
Yu et al. [17]99.12*83.4688.0765.13
LIPINC [30]71.2778.8270.5450.55
LipFD [14]72.4269.9784.98*41.95
VFD [31]76.43*43.3465.1055.94
SpeechForensics [32]99.2995.6799.4685.37
Feng et al. [33]80.8675.4974.3957.53
AVH-Align [34]95.29*14.7286.6188.70

注:星号()表示该结果基于监督学习设置(测试集与训练集有重叠),不反映泛化能力。*


29. Disentangled Authenticity Representation for Partially Deepfake Audio Localization

6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #音频安全

👥 作者与机构

  • 第一作者:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院)
  • 通讯作者:论文中未明确标注通讯作者,依据学术惯例,可能为Siding Zeng或其他未列出作者。
  • 作者列表:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院)。论文中仅列出此一位作者,但机构信息显示有两个隶属单位。

💡 毒舌点评

论文的亮点在于其针对特定痛点(域偏移和边界模糊)设计了一套逻辑自洽、组件协同的解决方案,消融实验也扎实地证明了各模块的有效性。然而,其核心思想——将表示解耦为“目标”与“干扰”成分——在计算机视觉等领域已不新鲜,论文的创新更多体现在如何将这一通用思想“翻译”并适配到部分伪造音频定位这个具体任务上,属于扎实的工程优化而非理论或架构上的重大突破。

📌 核心摘要

  1. 问题:部分深度伪造音频(仅少数片段被篡改)的定位面临两大挑战:训练与测试数据间的域偏移,以及真实与伪造段之间细微的过渡边界。

  2. 方法核心:提出DisAR双分支框架,将每个音频帧的特征显式解耦为“真实性特征”(捕捉伪造痕迹)和“干扰因素特征”(编码说话人、内容、环境等信息)。通过门控融合模块重建原始特征以避免信息丢失,并利用局部时间对比损失增强对篡改边界的敏感性。

  3. 创新点:与已有方法相比,新在显式地将真实性信息与干扰因素分离,而非隐式地让模型自行学习;并通过融合重构和对比损失分别保障信息完整性和提升边界精度。

  4. 主要结果:在PartialSpoof数据集上,DisAR取得了95.75%的F1分数(EER 3.51%);在ADD2023 Track 2(跨域测试)上,F1分数达到76.74%(EER 19.05%),均优于报告的基线。关键消融实验证明,移除正交损失、融合模块或对比损失均会导致性能显著下降(例如,无正交损失时F1降至68.48%)。

    • 主要对比实验结果(表1):
    方法PartialSpoof F1 (%)ADD2023 Track 2 F1 (%)
    AGO (ICASSP’24)94.3671.87
    DisAR (本文)95.7576.74
    • 跨域泛化结果(表3):PartialSpoof -> ADD2023设置下,DisAR的F1分数为57.81%,远高于基线SPF(37.15%)和RSDM(34.09%)。
  5. 实际意义:提升了深度伪造音频检测在真实复杂场景(不同设备、环境、语言)下的可靠性和可解释性(通过解耦的特征)。

  6. 主要局限性:论文未讨论模型的计算开销和部署复杂度;实验仅在两个数据集上进行,其广泛适用性有待验证;未提供开源代码,限制了结果的快速复现与验证。