ICASSP 2026 - 音频深度伪造检测

共 29 篇论文

← 返回 ICASSP 2026 总览

排名	论文	评分	分档
🥇	EchoFake: A Replay-Aware Dataset For Practical Speech Deepfa	8.5分	前25%
🥈	Dynamic Spectrogram Analysis with Local-Aware Graph Networks	8.5分	前10%
🥉	The Impact of Audio Watermarking on Audio Anti-Spoofing Coun	8.5分	前25%
4.	Beyond Face Swapping: A Diffusion-Based Digital Human Benchm	8.1分	前25%
5.	StreamMark: A Deep Learning-Based Semi-Fragile Audio Waterma	8.0分	前25%
6.	Assessing the Impact of Speaker Identity in Speech Spoofing	8.0分	前25%
7.	Subgraph Localization in the Subbands for Partially Spoofed	8.0分	前25%
8.	On deepfake voice detection - It’s all in the presentation	8.0分	前25%
9.	Dynamic Noise-Aware Multi Lora Framework Towards Real-World	8.0分	前25%
10.	Hanui: Harnessing Distributional Discrepancies for Singing V	8.0分	前10%
11.	Localizing Speech Deepfakes Beyond Transitions via Segment-A	8.0分	前25%
12.	Discrete-Continuous Fusion With Adaptive Hierarchical Featur	8.0分	前10%
13.	AVATAR: Audio-Visual Adaptive Fusion via Trained Agent Reinf	7.5分	前25%
14.	Few-Shot Recognition of Audio Deepfake Generators using Grap	7.5分	前25%
15.	Audio Deepfake Detection at the First Greeting: “Hi!”	7.5分	前25%
16.	Combining SSL Speech Features, Contextual Transformers and M	7.5分	前25%
17.	How to Label Resynthesized Audio: The Dual Role of Neural Au	7.5分	前25%
18.	KAN We Make Models Simpler for Audio Deepfake Detection with	7.5分	前25%
19.	Robust Deepfake Audio Detection via Multi-Level Intermediate	7.5分	前25%
20.	AI-Generated Music Detection in Broadcast Monitoring	7.0分	前50%
21.	Leveraging Large Multimodal Models for Audio-Video Deepfake	7.0分	前25%
22.	A Superb-Style Benchmark of Self-Supervised Speech Models fo	7.0分	前25%
23.	Understanding the Strengths and Weaknesses of SSL Models for	7.0分	前50%
24.	Towards Data Drift Monitoring for Speech Deepfake Detection	7.0分	前25%
25.	CompSpoof: A Dataset and Joint Learning Framework for Compon	7.0分	前25%
26.	MSCT: Differential Cross-Modal Attention for Deepfake Detect	6.5分	前10%
27.	Auxiliary Multi-Label Training For Improving the Robustness	6.5分	前50%
28.	Audio-Visual Deepfake Generation and Detection: An Explorato	6.5分	前25%
29.	Disentangled Authenticity Representation for Partially Deepf	6.5分	前25%

📋 论文详情

🥇 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection

🔥 8.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #语音伪造检测 #重放攻击

👥 作者与机构

第一作者：Tong Zhang (武汉大学网络空间安全学院)
通讯作者：Yanzhen Ren (武汉大学网络空间安全学院)
作者列表：Tong Zhang (武汉大学网络空间安全学院), Yihuan Huang (武汉大学网络空间安全学院), Yanzhen Ren (武汉大学网络空间安全学院; 教育部空天信息安全与可信计算重点实验室)

💡 毒舌点评

亮点：这篇论文如同为反语音欺诈领域量身打造了一套更逼真的“演习靶场”，精准戳中了现有检测模型在真实世界遭遇“物理回放”攻击时不堪一击的痛点，数据集构建的系统性和全面性值得称道。短板：它本质上是一份详尽的“战场报告”和“新式靶标”而非“新式武器”，在检测模型本身并无创新，且基线评估略显常规，距离真正解决“重放攻击”这一顽疾还有距离。

🔗 开源详情

代码：提供。论文明确说明数据集、代码和自动化录制工具已开源，链接为：https://github.com/EchoFake/EchoFake/
模型权重：未提及。论文仅评估了现有基线模型，未提出新模型。
数据集：已公开。EchoFake数据集可通过上述GitHub仓库获取。
Demo：未提及。
复现材料：提供了详尽的训练细节（学习率、batch size等）、超参数、数据集划分统计、预处理流程，复现基础良好。
论文中引用的开源项目：列出了所使用的多种开源TTS模型，如XTTSv2, F5-TTS, SpeechT5, LLaSA-1B等（详见参考文献和数据集构建部分）。
论文中未提及开源计划：所��必要的复现材料已在论文发表时一并开源。

📌 核心摘要

问题：现有的音频深度伪造检测模型在实验室环境下表现良好，但在面对真实世界中常见的低成本“物理重放攻击”（即将合成语音通过扬声器播放并重新录制）时，性能会急剧下降，严重威胁其实际部署的可靠性。
方法：为了解决这一问题，作者构建了EchoFake数据集。其核心在于首次系统地将前沿的零样本文本转语音（TTS）生成的伪造语音与多样化的物理重放录音相结合。数据集包含四种音频类型：真实语音、重放真实语音、伪造语音、重放伪造语音。
创新：与已有数据集（如ASVspoof）主要关注单一攻击方式（仅合成或仅重放真实语音）不同，EchoFake的创新在于覆盖了更复杂的复合攻击场景——即“合成+重放”。同时，它采用了多种最新开源的零样本TTS模型，并在采集重放数据时系统化地变化了播放/录音设备、环境、距离等条件。
主要实验结果：
- 使用EchoFake训练的三个基线模型（RawNet2， AASIST， Wav2Vec2）在跨数据集评估中表现出更好的泛化能力，平均EER显著低于在传统数据集上训练的模型（见表3）。
- 模型在EchoFake封闭集评估中表现优异（如AASIST的二分类EER为0.46%），但在开放集评估中性能大幅下降（如AASIST的二分类EER升至14.88%），重放样本是主要错误来源（见表4）。
- 消融实验证明，在训练数据中包含重放样本，能显著提升模型在重放攻击场景下的鲁棒性，而在传统基准上性能损失很小。
实际意义：EchoFake提供了一个更接近真实威胁模型的评估基准，有助于推动检测算法从实验室走向实际应用，提升对复杂欺诈攻击的防御能力。
局限性：尽管模型在EchoFake上得到提升，但在面对未见过的重放条件（开放集）时，性能仍有明显下降，表明在建模复杂信道效应和提高跨设备/环境泛化能力方面仍有挑战。论文未提出新的检测模型。

🥈 Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing

🔥 8.5/10 | 前10% | #音频深度伪造检测 | #图神经网络 | #自监督学习 #动态卷积

👥 作者与机构

第一作者：Yingdong Li（中山大学计算机学院）
通讯作者：Kun Zeng（中山大学计算机学院， zengkun2@mail.sysu.edu.cn）
作者列表：Yingdong Li（中山大学计算机学院）、Chengxin Chen（中国移动互联网公司，中国移动通信集团公司）、Dong Chen（中山大学计算机学院）、Nanli Zeng（中国移动互联网公司，中国移动通信集团公司）、Kun Zeng（中山大学计算机学院）

💡 毒舌点评

亮点在于将动态卷积与物理视角的多视图频谱分析相结合，并为强大的AASIST图网络框架增加了巧妙的局部信息聚合机制（LVM和SRM），技术融合顺畅且针对性强。短板是双分支前端（SSL + 频谱）不可避免地带来了计算开销，论文未对模型效率（如参数量、推理速度）进行分析或讨论，这在实际部署中可能是一个考量点。

🔗 开源详情

代码：论文中提供了代码仓库链接：https://github.com/lydsera/LocalSpoofDetect。
模型权重：论文中未提及是否公开模型权重。
数据集：使用的是公开数据集（ASVspoof 2019 LA， CFSD），论文未提及自行发布新数据集。
Demo：论文中未提及提供在线演示。
复现材料：论文中提供了详尽的实现细节（见3.2节），包括音频采样率、频谱图参数、SSL模型处理方式、训练优化器、学习率、批大小、损失函数、数据增强方法（RawBoost）以及训练硬件（A100 GPU），为复现提供了充分信息。
引用的开源项目：
- wav2vec 2.0 (XLS-R模型)
- RawNet2
- AASIST (原始架构)
- RawBoost (数据增强方法)

📌 核心摘要

问题：针对日益多样的语音深度伪造技术，现有音频反欺骗方法在模型复杂度和鲁棒性之间难以取得平衡，且固定的特征提取方式难以自适应地捕获不同尺度的伪造痕迹。
方法核心：提出一个双分支前端与增强图网络后端相结合的模型。前端包含自监督（SSL）分支和新设计的频谱分析分支。频谱分支采用“对称性引导内核选择（SKS）”块，通过物理视角（时间/频谱对称性）分析生成上下文图，动态加权不同尺度的卷积核。后端在AASIST框架上新增了“局部变化主节点（LVM）”和“稀疏残差主节点（SRM）”，以建模精细的局部伪造模式。
创新点：(i) 利用频谱对称性指导动态卷积，自适应捕获多尺度伪造伪影；(ii) 采用残差式快捷连接简化前端特征融合，无需复杂融合模块；(iii) 增强图神经网络后端，引入LVM和SRM节点以聚合局部判别信息。
实验结果：在ASVspoof 2019 LA和中文伪造语音数据集（CFSD）上取得了当前最优性能，EER分别为0.08%和0.10%，min t-DCF为0.0024。消融实验证实了每个提出组件的有效性。
实际意义：该模型能有效、鲁棒地检测合成与伪造语音，可增强语音生物识别等系统的安全性，对抵御日益逼真的语音伪造攻击具有重要价值。
主要局限性：未分析模型的计算效率（参数量、FLOPs、推理延迟），可能限制其在资源受限场景的应用；双分支架构对SSL预训练模型的依赖性较强。

🥉 The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures

🔥 8.5/10 | 前25% | #音频深度伪造检测 | #领域适应 | #知识蒸馏 #音频水印

👥 作者与机构

第一作者：Zhenshan Zhang（杜克昆山大学多模态智能系统苏州重点实验室，数字创新研究中心）
通讯作者：Ming Li（杜克昆山大学多模态智能系统苏州重点实验室，数字创新研究中心， ming.li369@dukekunshan.edu.cn）
作者列表：Zhenshan Zhang（杜克昆山大学多模态智能系统苏州重点实验室，数字创新研究中心）、Xueping Zhang（杜克昆山大学多模态智能系统苏州重点实验室，数字创新研究中心）、Yechen Wang（OfSpectrum, Inc.）、Liwei Jin（OfSpectrum, Inc.）、Ming Li（杜克昆山大学多模态智能系统苏州重点实验室，数字创新研究中心）

💡 毒舌点评

亮点：选题填补了一个重要的认知空白——系统量化了“水印”这种合法但普遍存在的人为扰动对反欺骗系统的“无差别攻击”效果，实验设计严谨（控制水印比例、类型分布），结论可靠。提出的KPWL框架在“已知水印”适应上取得了立竿见影的效果，思路清晰实用。短板：在“未见水印”场景下的性能反而下降，暴露了当前方法对水印特异性的过拟合，极大限制了其在真实世界（水印类型未知且多样）中的应用价值，也说明“领域适应”的本质挑战并未被彻底解决。

🔗 开源详情

代码：论文明确提供了代码仓库链接：https://github.com/Alphawarheads/Watermark_Spoofing.git。
模型权重：论文未提及是否公开预训练的模型权重（如基线XLSR+SLS或KPWL适应后的模型）。
数据集：论文指出构建了“Watermark-Spoofing”数据集，并提供了获取方式（通过上述GitHub仓库），表明数据集是公开的。
Demo：论文中未提及在线演示。
复现材料：论文详细说明了数据集构建协议（水印方法、比例）、训练配置（优化器、学习率、轮数、损失函数超参数）、评估设置，复现信息充分。
论文中引用的开源项目：引用了ASVspoof 2019/2021数据集[12,20]、In-the-Wild数据集[21]、多种水印方法（WavMark[4], Timbre[5], AudioSeal[13]等）、反欺骗模型（XLSR[6], SLS[9], Nes2Net[10]）以及数据增强工具RawBoost[28]。

📌 核心摘要

问题：本文首次研究了广泛使用的音频水印技术（为版权保护设计）对语音反欺骗（深度伪造检测）系统性能的影响，发现这种影响之前被完全忽视。
方法核心：构建了包含多种手工和DNN水印的“Watermark-Spoofing”数据集，并系统评估了现有模型性能下降的程度。提出名为“知识保留水印学习”（KPWL）的适应框架，通过在冻结前端（XLSR）和分类器的情况下微调中间层，并结合对称知识蒸馏与参数锚定，使模型能适应水印引入的分布偏移。
创新：首次揭示了音频水印是反欺骗系统面临的一种新的、未被研究的领域偏移源；首次构建了用于评估和缓解此问题的专用数据集与基准；提出了首个旨在同时适应水印并保留原始域检测能力的专用框架。
实验结果：在ASVspoof 2021 LA数据集上，当75%的样本被水印时，基线模型（XLSR+SLS）的EER从3.02%上升至3.68%。KPWL模型在相同条件下将EER降至3.21%，同时在干净数据上保持3.06%（与基线3.02%接近）。然而，在“未见水印”评估中，基线模型在75%水印（LA21）下EER为9.94%，而KPWL模型恶化至11.22%。
实际意义：提醒反欺骗系统开发者需考虑水印带来的鲁棒性挑战；为构建抗水印污染的反欺骗系统提供了首个基准和初步解决方案；揭示了水印技术可能对语音安全生态产生的意外副作用。
主要局限性：KPWL框架在应对未见过的水印类型时效果不佳甚至有害，表明当前方法的适应能力局限于训练时接触过的特定水印，泛化能力有待突破。

4. Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection

🔥 8.1/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #基准测试 #扩散模型

👥 作者与机构

第一作者：未说明（论文标注Jiaxin Liu†和Jia Wang†贡献相等，未明确谁为第一）
通讯作者：Saihui Hou⋆， Zhaofeng He⋆
作者列表：Jiaxin Liu（北京邮电大学，BUPT）、Jia Wang（北京师范大学，BNU）、Saihui Hou（未说明具体机构，可能来自BUPT或BNU）、Min Ren（滴滴出行，Didi Chuxing）、Huijia Wu（滴滴出行，Didi Chuxing）、Long Ma（未说明）、Renwang Pei（未说明）、Zhaofeng He（未说明具体机构，可能来自BUPT或BNU）

💡 毒舌点评

亮点在于构建了第一个专门为评估“扩散模型驱动的数字人”伪造而设计的大规模多模态数据集（DigiFakeAV），数据生成流程严谨，有效暴露了现有检测器的脆弱性，为领域提供了急需的试金石。短板则是提出的检测方法DigiShield虽然有效，但更像一个验证多模态融合有效性的“基线”而非一个具有颠覆性的新架构，且其在DigiFakeAV上80.1%的AUC也说明“道高一尺，魔高一丈”，真正的安全挑战远未解决。

🔗 开源详情

代码：论文中提及项目主页 https://hubeiwuhanliu.github.io/DigiFakeAV.github.io/，但未明确是否提供代码仓库链接。
模型权重：未提及是否公开DigiShield或其他模型的权重。
数据集：通过项目主页 https://hubeiwuhanliu.github.io/DigiFakeAV.github.io/ 提供获取信息，表明将开源。
Demo：未提及在线演示。
复现材料：给出了部分实现细节（如预处理、骨干网络ResNet-50、采样30帧、数据增强），但缺乏关键训练超参数（优化器、学习率等），复现材料不完整。
论文中引用的开源项目：引用了多个作为数据生成和对比的方法/模型，如Sonic [8], Hallo [5], EchoMimic [4], CosyVoice 2 [16], 以及基线检测器如Meso4 [19], Xception [2]等。

📌 核心摘要

要解决什么问题：现有深度伪造检测数据集和技术主要针对过时的面交换方法，无法有效评估和应对由扩散模型生成的、具有高度真实性和多模态一致性的新一代数字人伪造，导致现有检测器性能在现实威胁面前大幅下降。
方法核心是什么：本文提出两个核心贡献：a) 构建DigiFakeAV，一个包含6万视频的大规模多模态数据集，由5种前沿扩散模型生成，注重多样性、场景真实性和音视频同步质量。b) 提出DigiShield检测框架，采用双流网络分别提取视觉和音频的时空特征，并通过跨模态注意力和自注意力机制进行融合，以捕获微妙的跨模态不一致性。
与已有方法相比新在哪里：a) 数据集是第一个基于扩散模型、强调多模态一致性和场景多样性的伪造检测基准。b) 检测方法显式地建模了视频与音频在时空维度上的对齐关系，旨在应对扩散伪造的高一致性挑战。

主要实验结果如何：

现有9种检测器在DigiFakeAV上性能急剧下降，例如SFIConv从在DF-TIMIT上100%的AUC降至71.2%，SSVF从94.5%降至51.0%。
DigiShield在DigiFakeAV上达到80.1% AUC，比此前最佳方法SFIConv（71.2%）高出8.9个百分点。
消融研究显示，引入音频模态和对比损失将AUC从73.6%提升至77.4%，再加入自监督自注意力进一步提升至80.1%。关键实验结果表格如下：

表2：各种方法在现有数据集和DigiFakeAV上的AUC分数(%)

方法	DF-TIMIT	FF-DF	DFDC	Celeb-DF	FakeAVCeleb	DigiFakeAV (ours)
Meso4	87.8	68.4	84.7	75.3	54.8	60.9
MesoInception4	80.4	62.7	83.0	73.2	53.6	61.7
Xception-c23	95.9	94.4	99.7	72.2	65.3	72.5
Capsule	78.4	74.4	96.6	53.3	57.5	70.9
HeadPose	55.1	53.2	47.3	55.9	54.6	49.0
F3-Net	99.8	99.4	93.7	95.1	86.7	91.3
Cross Efficient ViT	50.4	55.8	99.1	95.1	86.7	80.5
SSVF	-	-	-	-	-	94.5
SFIConv	100.0	100.0	95.9	96.7	95.8	93.0
注：该表展示了现有方法在多个数据集上的性能，凸显其在DigiFakeAV上性能的普遍大幅下滑。

表3：DigiShield与基线方法在DigiFakeAV和DF-TIMIT上的AUC分数对比

方法	DigiFakeAV	DF-TIMIT-LQ	DF-TIMIT-HQ
MesoInception4	63.8	80.4	62.7
Capsule	65.3	78.4	74.4
Xception-c23	66.1	95.9	94.4
F3-Net	66.4	99.8	99.4
SFIConv	71.2	100.0	100.0
DigiShield (ours)	80.1	100.0	100.0
注：该表对比了本文提出的方法与之前最佳方法的性能，显示DigiShield在DigiFakeAV上的优势及在传统数据集上的强泛化性。

实际意义是什么：为学术界和工业界评估对抗最新AI生成威胁的能力提供了标准化的挑战平台（DigiFakeAV），并建立了新的检测基线（DigiShield），推动深度伪造检测技术向应对多模态、高真实性伪造的方向发展。
主要局限性是什么：a) 检测方法DigiShield虽为当前最佳，但80.1%的AUC表明在面对高质量扩散伪造时仍存在显著挑战。b) 数据集主要聚焦于语音驱动的数字人，可能未涵盖其他交互形式的扩散伪造。c) 论文未讨论检测方法在不同肤色、年龄群体上的公平性分析，尽管数据集已努力保证人口统计学平衡。

5. StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection

🔥 8.0/10 | 前25% | #音频深度伪造检测 | #端到端 | #鲁棒性 #数据集

👥 作者与机构

第一作者：Zhentao Liu（EPFL, Switzerland）
通讯作者：未说明
作者列表：Zhentao Liu（EPFL, Switzerland）、Milos Cernak（Logitech Europe, Switzerland）

💡 毒舌点评

这篇论文巧妙地将图像领域的“半脆弱水印”概念移植到音频，并精准定义了“良性”与“恶意”操作，为应对深度伪造提供了比传统鲁棒水印更聪明的“主动告警”方案，思路值得称赞。然而，其将所有深度伪造攻击简化为“变调”这一单一操作进行模拟，失真层的设计略显“偷懒”，可能无法完全覆盖未来更复杂的合成攻击（如更自然的音色替换或内容编辑），削弱了结论的绝对说服力。

🔗 开源详情

代码：提供了代码仓库链接：https://github.com/L1uZhentao/deepfake_benchmark
模型权重：论文中未提及公开预训练模型权重。
数据集：论文开源了用于评估的深度伪造基准测试集（Deepfake Benchmark），作为代码仓库的一部分发布。
Demo：未提及。
复现材料：提供了充分的训练细节，包括数据集（LibriSpeech子集）、模型参数量、损失函数公式与权重、优化器超参数（Adam，β值，学习率）、训练硬件（2x RTX 2080），这为复现提供了良好基础。
论文中引用的开源项目：未提及依赖的其他开源工具或模型。
总结：论文在可复现性方面表现良好，开源了关键的数据和代码，但缺少现成的模型权重。

📌 核心摘要

要解决什么问题：现有的被动深度伪造音频检测方法面临泛化能力差、易被对抗攻击绕过、难以区分良性AI处理（如降噪）与恶意伪造的困境。传统鲁棒水印在伪造后仍能提取，反而无法证明音频已被篡改。
方法核心是什么：提出StreamMark，一种基于深度学习的半脆弱音频水印系统。其核心是设计一个Encoder-Distortion-Decoder架构，其中失真层包含并行的良性变换（如裁剪、加噪）和恶意变换（如变调，模拟音色/内容篡改）。通过复合损失函数训练，使水印在经历良性操作后仍可恢复，但在经历语义篡改的恶意操作后无法恢复（准确率降至随机水平）。
与已有方法相比新在哪里：首先，提出了音频水印的“半脆弱性”范式，改变了以“鲁棒性”为单一目标的传统思路。其次，采用了在STFT复数域（同时修改幅度和相位）嵌入水印的新技术，以提升不可感知性。最后，构建并开源了首个专门针对AI音频转换（包含良性与恶意）的深度伪造评估基准。

主要实验结果如何：

不可感知性与鲁棒性（测试集A）：StreamMark达到了较高的PESQ分数（4.20），并保持了对Opus编码等真实世界良性失真的高鲁棒性（ACC > 99.89%）。
深度伪造基准（测试集B）：面对VALL-E-X、FreeVC、VoiceCraft等深度伪造攻击时，水印恢复准确率（ACC）下降至约50%（随机猜测水平），体现其“脆弱性”；而在面对DeepAFX等良性风格迁移时，ACC保持在98%以上，体现其“鲁棒性”。

详细数据见下表：表1：不可感知性与鲁棒性评估（测试集A）

方法	SNR (dB)	PESQ	SECS	裁剪 (70%)	MP3 (8 kbps)	Opus (60 ms)
Patchwork	33.65	4.34	0.99	0.72	0.61	0.85
AudioSeal	25.41	4.30	0.99	1.00	0.85	0.57
Timbre	24.14	3.70	0.99	0.99	0.79	0.99
StreamMark	24.16	4.20	0.99	0.99	0.87	0.99

表2：深度伪造基准评估（测试集B）

类型	模型/风格	ACC (%)	期望行为
恶意 (脆弱性)	VALL-E-X (TTS)	51.01	脆弱 (破坏)
	FreeVC (VC)	49.75	脆弱 (破坏)
	VoiceCraft (Editing)	51.79	脆弱 (破坏)
良性 (鲁棒性)	DeepAFX (Bright)	100.00	鲁棒 (保留)
	DeepAFX (Broadcast)	98.73	鲁棒 (保留)
	DeepAFX (Telephone)	98.34	鲁棒 (保留)

实际意义是什么：为数字音频内容提供了一种主动的、可编程的真实性验证机制。音频在源头嵌入水印后，任何意图改变其语义的篡改都会导致水印失效，从而发出警报。这对于建立可信的通信链路（如企业会议、新闻广播）和对抗日益猖獗的AI语音诈骗具有重要应用价值。
主要局限性是什么：1) 恶意变换模拟简单：仅用变调来代表所有深度伪造攻击，可能无法涵盖未来更复杂的合成技术。2) 部署前提限制：该方案要求音频源头（如麦克风、录音设备）必须预先集成StreamMark编码器，这对于现有基础设施的改造是巨大挑战。3) 安全性讨论不足：未深入探讨攻击者可能通过逆向工程或对抗样本绕过水印的潜在风险。

6. Assessing the Impact of Speaker Identity in Speech Spoofing Detection

🔥 8.0/10 | 前25% | #音频深度伪造检测 | #多任务学习 | #自监督学习 #说话人识别

👥 作者与机构

第一作者：Anh-Tuan DAO（法国阿维尼翁大学计算机实验室， Laboratoire d’informatique d’Avignon）
通讯作者：未说明（论文未明确标注，但联系邮箱来自Nicholas Evans）
作者列表：Anh-Tuan DAO（法国阿维尼翁大学计算机实验室）、Driss Matrouf（法国阿维尼翁大学计算机实验室）、Nicholas Evans（法国EURECOM， Sophia Antipolis）

💡 毒舌点评

这篇论文的亮点在于它设计了一个巧妙的“可开关”框架（SInMT），能统一评估两种关于说话人信息的对立假设，并且实验设计扎实，在四个数据集上验证了“去除说话人信息”对检测特定高级伪造攻击（A11）的显著效果。然而，其短板在于整体创新属于对现有SSL+多任务框架的特定应用组合优化，且论文未探讨将两种模式（aware/invariant）动态融合的潜力，结论部分稍显仓促。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：使用的是公开的ASVspoof 5， ASVspoof 2021， ITW和MUSAN数据集，论文中未提供新的或私有数据集。
Demo：未提及。
复现材料：论文给出了详细的训练细节、配置（如优化器、学习率、Batch Size、Epochs、硬件）和关键超参数（α, λ），以及数据增强流程，为复现实验提供了必要信息。
论文中引用的开源项目：引用了XLSR预训练模型（[10]）。

📌 核心摘要

要解决什么问题：研究在基于自监督学习（SSL）的语音伪造检测系统中，说话人身份信息究竟是应该被利用还是被抑制，以及这种信息对模型性能有何具体影响。
方法核心是什么：提出一个名为说话人不变多任务（SInMT）的统一框架。该框架使用预训练的XLSR作为特征提取器，后接两个结构相同的MHFA分类头。核心创新在于通过控制一个梯度反转层（GRL）的开启/关闭，使模型能在“说话人感知（MHFA-spk）”和“说话人不变（MHFA-IVspk）”两种模式间灵活切换。
与已有方法相比新在哪里：以往工作多单独评估多任务学习或不变性学习，SInMT框架首次在单一SSL骨干网络中实现了二者的统一与直接对比。它允许研究者系统评估在相同数据和特征基础上，引入或抑制说话人信息带来的不同效果。

主要实验结果如何：在四个评估集（ITW， ASVspoof 5 评估集， ASVspoof 2021 LA和DF隐藏子集）上，说话人不变模式（MHFA-IVspk）取得了最佳的整体性能。与基线MHFA模型相比，其平均EER（等错误率）降低了17.2%（从7.41%降至6.13%）。对于最具挑战性的攻击类型A11，MHFA-IVspk实现了48%的相对EER降低（从17.02%降至8.76%）。说话人感知模式（MHFA-spk）也优于基线。

主要实验结果表格（论文中Table 1）：

模型	ITW EER(%)	ASV5 eval EER(%)	ASV21LA EER(%)	ASV21DF EER(%)	平均EER(%)
AASIST	7.03	5.54	13.66	9.60	8.95
Conformer	5.69	3.85	12.49	10.40	8.10
MHFA	4.31	4.64	12.14	8.58	7.41
MHFA-spk	3.76	5.29	8.67	8.41	6.53
MHFA-IVspk	3.58	4.98	8.41	7.57	6.13

实际意义是什么：为设计更鲁棒的语音伪造检测系统提供了新的思路和实证依据。研究表明，在SSL特征基础上，主动抑制说话人特定信息可能使模型更专注于伪造痕迹本身，从而提升对高级、高仿真伪造攻击的检测能力，尤其是在跨数据集、跨说话人的场景下。
主要局限性是什么：论文指出，虽然MHFA-IVspk整体更优，但其在“见过说话人”的闭集场景下可能不如MHFA-spk，这一点因评估集均为开集（说话人与训练集不重叠）而未能验证。此外，框架的通用性受限于其特定的特征提取器（XLSR）和后端分类器（MHFA）。

7. Subgraph Localization in the Subbands for Partially Spoofed Speech Detection

🔥 8.0/10 | 前25% | #音频深度伪造检测 | #图神经网络 | #信号处理 #时频分析

👥 作者与机构

第一作者：Ji Liu (天津大学认知计算与应用天津市重点实验室)
通讯作者：Longbiao Wang (天津大学认知计算与应用天津市重点实验室; 苏州智言信息科技有限公司)
作者列表：Ji Liu (天津大学认知计算与应用天津市重点实验室), Chenghan Lin (未说明具体机构，同属天津大学), Longbiao Wang (天津大学认知计算与应用天津市重点实验室; 苏州智言信息科技有限公司), Kong Aik Lee (香港理工大学)

💡 毒舌点评

亮点：论文抓住了“短伪造片段在长真实语音中易被平均掉”这一实际痛点，并巧妙地将“不同伪造痕迹在不同频带显著”这一先验知识融入模型设计（子带划分），方法动机充分且直观。短板：方法本质上是子带特征提取+子图网络的模块化组合，创新性更多体现在特定任务上的工程优化，而非全新的建模范式；此外，论文未提供任何开源信息，对于后续研究的复现构成了主要障碍。

🔗 开源详情

代码：论文中未提及代码仓库链接。
模型权重：未提及。
数据集：实验使用ADD 2023挑战赛Track 2数据集，该数据集为公开竞赛数据集，但论文未说明获取方式。
Demo：未提供在线演示。
复现材料：提供了部分训练细节（优化器、学习率、轮数、超参数等）和消融实验设置，但缺乏模型层维度、具体代码实现、检查点文件等。
引用的开源项目：依赖的开源项目包括Facebook的wav2vec2-xls-r-300m模型（用于W2V2+AASIST基线）。
开源计划：论文中未提及开源计划。

📌 核心摘要

本文针对部分伪造语音检测中，短伪造片段难以被现有基于固定聚合长度的方法准确定位的问题，提出了一种名为“子带子图定位”（SLS）的新方法。该方法包含两个核心模块：一是子带特征提取模块，利用CQT滤波器初始化线性层，从语音频谱的低、中、高频子带中提取高分辨率特征，以捕捉不同伪造算法在不同频带留下的独特痕迹；二是子图模块，对每个子带的特征序列构建图结构，并通过基于阈值的边连接来鼓励同一类别（真实或伪造）帧的特征在图中聚集，从而增强类内紧凑性，特别是改善类别边界附近的特征混淆。实验在ADD 2023挑战赛Track 2数据集上进行，结果表明，SLS方法在帧级和段级定位性能上均优于TDL等现有方法。例如，在加权BCE损失权重w-=3.9时，获得了90.31%的帧级精确率和95.69%的召回率，帧级F1分数比TDL高1.24个百分点，段级F1分数比WavLM-ResNet高2.14个百分点。该方法通过精细化建模子带信息和改善边界处特征表征，提升了伪造语音定位的准确性和鲁棒性。其主要局限性在于模型复杂度较高，且未公开实现代码与权重。

8. On deepfake voice detection - It’s all in the presentation

🔥 8.0/10 | 前25% | #音频深度伪造检测 | #数据增强 | #自监督学习 #预训练

👥 作者与机构

第一作者：未说明（作者列表按字母顺序排列）
通讯作者：未说明
作者列表：Héctor Delgado（Microsoft）、Giorgio Ramondetti（Microsoft）、Emanuele Dalmasso（Microsoft）、Gennady Karvitsky（Microsoft）、Daniele Colibro（Microsoft）、Haydar Talib（Microsoft）

💡 毒舌点评

论文最大的亮点在于它跳出技术细节，直指领域痛点：当前研究普遍在“无菌实验室”里训练模型，却指望它们能解决“菜市场”里真实发生的诈骗，通过精心设计的实验有力地证明了“数据呈现方式”比“模型规模”更能决定实战效果。但短板也十分明显，作为一个强调“现实世界有效性”的工业界工作，却吝于公开核心代码、模型和训练细节，这极大地削弱了其主张的可复现性和社区推动潜力，让人怀疑其方法论推广的诚意。

🔗 开源详情

代码：论文中未提及代码链接。仅提供了一个用于测试协议的GitHub仓库名称，但未给出具体URL。
模型权重：未提及公开任何模型权重。
数据集：部分使用了公开数据集（ASVspoof， MLS， Switchboard等），但本文构建的核心新数据集（Presented类别和Realworld的Fraud Academy数据集）未公开。
Demo：未提供在线演示。
复现材料：论文详细描述了训练策略、超参数和硬件配置，提供了Table 1和Table 2的详细数据。然而，缺失模型权重和代码，使得从零复现变得极其困难。
引用的开源项目：论文在方法和数据部分引用了多个开源项目，包括：
- TTS引擎：ElevenLabs， play.ht， OpenAI Voice Engine， Mars5， YourTTS
- 数据集：ASVspoof 2019/5， MLS English， Switchboard， VoxCeleb， Fisher Spanish等（具体见参考文献）
- 模型/工具：WavLM (预训练模型)， HIFI-GAN/WaveGrad/WaveNet (声码器)， Encodec/Vocos (编解码器)， RawBoost (数据增强)

📌 核心摘要

这篇论文指出，当前深度伪造语音检测领域的研究数据集和方法过于理想化（使用原始纯净音频），导致训练出的模型难以泛化到真实世界通过电话等信道传输的伪造语音。为解决此问题，作者提出了一个完整的“欺骗攻击序列”框架，不仅包含深度伪造语音生成，还关键性地纳入了通过扬声器播放或直接注入电话的“呈现”阶段。基于此，他们构建了包含不同“呈现”方式的新型训练数据集（Presented）和一个完全保留真实场景、未用于训练的“真实世界”测试集（Fraud Academy）。实验表明，在训练中加入“呈现”数据，能显著提升模型在真实场景下的性能：在更稳健的实验室设置中准确率提升39%，在真实世界基准上提升57%。此外，论文证明，优化数据集带来的性能提升，比使用更大、更昂贵的SOTA模型更为重要。主要的局限性是，所提出的轻量级模型在处理扬声器播放场景时性能仍有不足，且整体研究未开源核心代码与权重。

9. Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection

🔥 8.0/10 | 前25% | #音频深度伪造检测 | #领域适应 | #鲁棒性

👥 作者与机构

第一作者：Woongjae Lee (Soongsil University, Seoul, Republic of Korea)
通讯作者：Souhwan Jung* (Soongsil University, Seoul, Republic of Korea)
作者列表：Woongjae Lee (松石大学), Hung Dinh-Xuan (松石大学), Thien-Phuc Doan (松石大学), Souhwan Jung* (松石大学)

💡 毒舌点评

这篇论文的亮点在于巧妙地将LoRA从语言模型“移植”并动态化应用于音频安全领域，通过“感知-路由-适应”的范式平衡了模型适应新噪声域与防止灾难性遗忘的矛盾，工程思路清晰。但短板在于其“动态”选择的噪声分类器本身是一个额外的误差源，且论文并未在包含未知/混合噪声的更真实场景中验证其端到端效果，离“完全鲁棒”尚有距离。

🔗 开源详情

代码：论文中未提及代码仓库链接。
模型权重：未提及公开预训练的骨干模型、噪声分类器或LoRA适配器权重。
数据集：论文描述了如何基于公开数据集（LibriSpeech, VCTK, TIMIT, ASVspoof 2019/2021）构建噪声增强数据集，但并未提供构建好的数据集本身或下载链接。
Demo：未提及。
复现材料：未提供训练超参数（如学习率、batch size）、优化器、硬件环境等关键复现信息。
论文中引用的开源项目：论文中提到了依赖的开源工具/模型，如RawBoost [6]、librosa（用于音高/时间变换）、torchaudio/sox（用于滤波）、wav2vec 2.0 [28]、SSAST [29]等，但未提供具体使用版本或配置。
总结：论文中未提及任何开源计划。

📌 核心摘要

问题：现有的音频深度伪造检测（ADD）模型在干净环境下性能优越，但在真实世界的复杂噪声和语音操纵下性能严重下降，而传统的数据增强和微调方法存在泛化性差或导致灾难性遗忘的问题。
方法核心：提出一个动态噪声感知多LoRA（DNA Multi LoRA）框架。该框架首先通过一个轻量级的噪声分类模块识别输入音频的噪声类型，然后根据分类结果动态选择一个预先训练好的、专门针对该噪声类型的LoRA适配器，将其集成到冻结的ADD模型骨干网络中进行检测。
创新点：相比于现有方法，本文创新性地结合了噪声感知与参数高效微调（LoRA）。1）实现了“一个骨干网络 + 多个轻量LoRA适配器”的模块化设计，扩展新噪声域无需重训整个模型；2）通过动态适配机制避免了顺序微调中的灾难性遗忘问题。
主要实验结果：在多个基准数据集（包括构建的噪声增强数据集和真实世界数据集）上，DNA Multi LoRA框架相比基线模型实现了平均41.4%的等错误率（EER）降低。在池化EER上，该方法（AASIST-SSL: 7.93%, ConformerTCM: 7.55%）接近全量微调的效果（约8.1%），但参数量仅为全量微调的约8.5%，并有效避免了灾难性遗忘（如图2所示，顺序微调会导致EER从约0.2%飙升至约5%）。每个噪声特定LoRA适配器在其目标域上均显著优于基线（表4），例如在D4（回声）域，AASIST-SSL的EER从10.42%降至0.92%。
实际意义：提供了一种高效、可扩展且可部署的解决方案，使ADD系统能够在不进行全面重训的情况下，动态适应多种现实世界噪声环境，提升了模型的实用性和鲁棒性。
主要局限性：框架的性能依赖于噪声分类器的准确性，且目前仅在预定义的10种噪声类别上进行了验证；对于完全未知的噪声类型或复杂混合噪声，框架的适应能力和鲁棒性尚待进一步研究。

10. Hanui: Harnessing Distributional Discrepancies for Singing Voice Deepfake Detection

🔥 8.0/10 | 前10% | #音频深度伪造检测 | #生成模型 | #自监督学习 #音频分类

👥 作者与机构

第一作者：未说明（论文标题后并列列出三位作者，无明确标注）
通讯作者：未说明
作者列表：Seyun Um（延世大学电气电子工程系）、Doyeon Kim（延世大学电气电子工程系）、Hong-Goo Kang（延世大学电气电子工程系）

💡 毒舌点评

亮点：将自编码器在异常检测中的“分布差异”思想巧妙地迁移到深度伪造检测，通过一个简单而深刻的假设（真实声音比伪造声音更难被自编码器准确重建）驱动整个模型设计，思路清晰且有效，泛化性能突出。短板：整个框架依赖一个精心设计且训练好的自编码器，其计算和训练开销可能高于一些单阶段的判别模型；此外，方法对“伪造声音分布更简单”这一假设的有效性，可能依赖于当前主流伪造技术的水平，面对未来更复杂、更接近真实分布的伪造方法，其优势是否会减弱尚待验证。

🔗 开源详情

代码：是，论文明确提供了GitHub代码仓库链接：https://github.com/sam-0927/Hanui
模型权重：论文中未提及是否公开预训练模型权重。
数据集：论文使用的SingFake和CtrSVDD数据集是公开的，但作者说明因版权限制无法直接分发其重新下载的数据，建议读者自行从YouTube和Bilibili下载原始歌曲。
Demo：未提及。
复现材料：论文提供了相当详细的训练细节，包括优化器设置、学习率、训练轮次、batch size、损失函数权重等，以及完整的模型架构描述，有助于复现。
论文中引用的开源项目：论文提到了多个作为基线的开源工作或模型，如LFCC+ResNet [3], AASIST [12], wav2vec2 [15], wav2vec2+AASIST [14]，以及用于音频压缩的Descript Audio Codec [27]。

📌 核心摘要

要解决什么问题：现有歌唱语音深度伪造检测（SVDD）方法在面对未见过的歌手、音乐风格和语言时，泛化能力不足，性能下降明显。
方法核心是什么：提出名为Hanui的新框架，其核心思想源自异常检测：利用自编码器（AE）重建输入信号，然后通过判别器提取特征图来衡量原始信号与重建信号之间的分布差异。核心假设是：真实歌声的分布更复杂，因此其原始-重建差异大于伪造歌声的差异。
与已有方法相比新在哪里：不同于以往直接学习分类特征的方法，Hanui显式地建模并利用了真实与伪造信号在“可重建性”上的分布差异。具体创新包括：1）提出基于分布差异的SVDD新范式；2）采用两阶段训练（先训练仅用真实数据的自编码器，再训练用真实+伪造数据的检测器）；3）设计了基于多频段判别器中间特征图的检测器融合策略。
主要实验结果如何：在SingFake和CtrSVDD数据集上，Hanui取得了最优的等错误率（EER）。例如，在最挑战的未见条件T04（未见歌手、语言、风格）上，Hanui的EER为21.36%，相比最强基线wav2vec2+AASIST（34.18%）绝对降低了12.82个百分点，相对降低约37.5%。消融实验证实了分布差异假设（图2）和中间层融合策略的有效性。
实际意义是什么：该方法显著提升了在真实、复杂场景下（歌手、语言、风格均未知）检测伪造歌声的鲁棒性，对于构建可靠的内容安全系统具有直接应用价值。
主要局限性是什么：1）模型训练分为两个阶段，且需要训练多个判别器和检测器模块，整体计算成本可能较高；2）对“伪造声音分布更简单”这一核心假设的验证，依赖于当前生成模型的特性，其长期有效性有待观察；3）论文中未提及模型权重是否开源，且因版权限制无法分发训练数据，这限制了完全的复现。

11. Localizing Speech Deepfakes Beyond Transitions via Segment-Aware Learning

🔥 8.0/10 | 前25% | #音频深度伪造检测 | #数据增强 | #自监督学习 #语音安全

👥 作者与机构

第一作者：Yuchen Mao
通讯作者：Yanmin Qian
作者列表：Yuchen Mao (Auditory Cognition and Computational Acoustics Lab, MoE Key Lab of Artificial Intelligence, AI Institute, School of Computer Science, Shanghai Jiao Tong University), Wen Huang (同Yuchen Mao的单位), Yanmin Qian (上海交通大学计算机科学学院听觉认知与��算声学实验室，教育部人工智能重点实验室，AI学院； VUI Labs)

💡 毒舌点评

亮点：论文精准地指出了现有方法过度依赖“过渡区域伪影”的“捷径学习”短板，并提出了简洁有效的“段感知学习”框架，通过位置监督和跨段混合，强制模型理解伪造内容本身，显著提升了在最具挑战性的“中间段”的检测能力和跨数据集泛化性能。短板：尽管实验充分，但对模型容量（如Conformer块的具体参数）、训练硬件和时长的描述不够详尽，且未公开模型权重，这为学术界和工业界的复现与直接应用设置了一定门槛。

🔗 开源详情

代码：论文中提供了代码仓库链接：https://github.com/SentryMao/SAL。
模型权重：论文中未提及公开预训练模型权重。
数据集：论文使用了公开数据集（PartialSpoof， HAD， LlamaPartialSpoof），但未提供新的数据集或数据获取说明。
Demo：论文中未提供在线演示。
复现材料：论文正文给出了关键的训练配置（优化器、学习率、批大小、调度器、数据增强策略等）��但未提供更详细的超参数列表（如模型各层维度）或训练日志。
引用的开源项目：论文依赖并引用了多个开源预训练模型，包括：Wav2Vec2-XLSR ([19])， WavLM ([20])；以及数据增强方法RawBoost ([22])。
总结：论文提供了可运行的代码仓库，但完整的模型复现仍需读者根据文中描述自行配置环境和训练，权重未公开。

📌 核心摘要

问题：现有针对部分语音伪造的检测方法过度依赖过渡区域的伪影，而忽视了伪造内容本身的特征，导致在伪造内容中间区域检测性能差，且泛化能力受限。
方法核心：提出段感知学习（SAL）框架，包含两个核心技术：（1）段位置标签（SPL）：为每帧添加基于其在连续同类片段中相对位置（起、中、止、单）的监督信号；（2）跨段混合（CSM）：一种数据增强方法，通过拼接不同语料的片段来生成多样化的伪造模式。
新意：与主要关注过渡区域（如BAM， AGO）的方法不同，SAL旨在让模型学习整个伪造片段的内在特征，而不仅仅是边界伪影。
主要结果：在PS数据集上，SAL（WavLM前端）达到EER 3.00%， F1 97.09%；在HAD数据集上达到EER 0.05%， F1 99.99%，均为当时最佳。在跨数据集评估（PS训练， LPS测试）中，SAL（WavLM）达到EER 36.60%， F1 56.09%，显著优于基线（如BAM的42.58% EER）。消融实验表明，SPL和CSM（尤其是2轮混合）均能带来稳定增益。
实际意义：提供了更可靠的部分语音伪造定位技术，增强了深度伪造检测系统应对复杂、隐蔽篡改的鲁棒性，对语音内容安全具有重要价值。
主要局限性：论文未提供预训练模型权重；部分训练细节（如具体GPU型号、总训练时长）未说明；泛化性验证虽包含跨数据集，但测试场景（语言、伪造方法）仍有限。

12. Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection

🔥 8.0/10 | 前10% | #音频深度伪造检测 | #迁移学习 #自监督学习 | #迁移学习 #自监督学习

👥 作者与机构

第一作者：Jianqiao Cui（清华大学自动化系）
通讯作者：未说明（论文中星号标注了Bingyao Yu为通讯作者，但需根据星号原文确认，此处依据“*Corresponding author”和“∗”对应Bingyao Yu）
作者列表：Jianqiao Cui（清华大学自动化系，长三角研究院），Bingyao Yu（清华大学自动化系），Shun Qin（清华大学长三角研究院）

💡 毒舌点评

本文提出的“离散语义标签与连续声学特征融合”思路新颖，且实验证明HAT模块对跨数据集鲁棒性提升显著。然而，其核心性能高度依赖于第三方模型GLM-4-Voice生成的语义标签质量，且所有实验均基于英语数据集，对跨语言泛化和实时攻击的鲁棒性未做验证，实际部署还需考量计算开销。

🔗 开源详情

代码：论文中未提及代码链接或开源计划。
模型权重：论文中未提及公开其微调后的模型权重。
数据集：使用了公开的CodecFake和ASVspoof2021数据集，论文中未提及数据获取方式的特殊说明。
Demo：论文中未提及提供在线演示。
复现材料：论文提供了模型架构图（图1）、关键超参数设置（学习率、batch size、优化器、训练轮数等）和模型配置（冻结层策略、HRC参数），这些信息有助于复现。
论文中引用的开源项目：
- Whisper（OpenAI）：作为核心骨干网络。
- GLM-4-Voice（THUDM）：用于生成离散语义标签。
- CodecFake、ASVspoof2021：作为评估基准数据集。

📌 核心摘要

该论文旨在解决当前基于神经编解码器的语音合成技术生成的深度伪造音频难以被现有检测方法有效识别的问题。其核心方法是将预训练的Whisper模型用于音频深度伪造检测，并引入两个关键模块：1）混合音频标记（HAT），将来自GLM-4-Voice的离散语义标签与Whisper编码器的连续声学特征进行融合，以捕捉语义与声学之间的不一致；2）分层残差连接（HRC），通过自适应地选择和整合Whisper编码器不同层次的输出特征，来保留多层次的伪造线索。与已有的单模态声学特征方法或简单的特征加权和方法相比，该方法能更有效地利用语义信息并保留关键的层次特征。在ASVspoof2021 DF、LA和CodecFake验证集上的实验表明，其最佳模型（Wsp with HAT&HRC）取得了0.67%的平均等错误率（EER），相较于强基线模型（如XLS-R）的EER降低了高达46%。具体实验数据如下：

表1：关键消融实验结果（在CodecFake验证集上）

模型配置	EER (%)	准确率 (%)
Whisper-small-prompt (Wsp)	0.88	99.10
Wsp with weighted sum	2.56	97.31
Wsp with HRC	0.65	99.34

表2：关键消融实验结果（在CodecFake验证集上）

模型配置	EER (%)	准确率 (%)
Whisper-tiny-prompt (Wtp)	1.11	98.78
Whisper-tiny + HAT (WtHat)	1.01	98.79
Whisper-base-prompt (Wbp)	0.96	98.99
Whisper-base + HAT (WbHat)	0.82	99.16
Whisper-small-prompt (Wsp)	0.88	99.13
Whisper-small + HAT (WsHat)	0.74	99.25

表3：与最先进方法的性能对比（EER %）

模型	DF	LA	Codec Val	平均值
XLS-R [20]	2.09	3.88	2.43	2.80
XLS-53 & LLGF [21]	5.44	7.18	5.86	6.16
WavLM & MFA [23]	2.56	5.08	2.99	3.54
Whisper-small-prompt (Wsp)	1.01	1.83	0.88	1.24
Wsp with HAT&HRC	0.58	0.94	0.49	0.67

该研究的实际意义在于为对抗日益逼真的音频深度伪造攻击提供了一种高性能的检测框架。主要局限性在于，其评估完全基于英语语音数据集，模型对非英语语音、方言或极低资源语言下的检测能力未经验证，且对实时流式处理或计算资源受限的场景适用性未做探讨。

13. AVATAR: Audio-Visual Adaptive Fusion via Trained Agent Reinforcement for Multimodal Deepfake Detection

✅ 7.5/10 | 前25% | #音频深度伪造检测 | #强化学习 | #多模态模型 #鲁棒性

👥 作者与机构

第一作者：Ebad Shabbir（DSEU-OKHLA, New Delhi, India）
通讯作者：Jiechao Gao（Stanford University, Stanford, CA, USA）
作者列表：Ebad Shabbir（DSEU-OKHLA, New Delhi, India），Pushkar Arora（DSEU-OKHLA, New Delhi, India），Rakshita Saksaina（DSEU-OKHLA, New Delhi, India），Tiange Xie（Institute of Information Engineering, Chinese Academy of Sciences, Beijing, China），Jiechao Gao（Stanford University, Stanford, CA, USA）

💡 毒舌点评

本文巧妙地将强化学习（PPO）引入多模态融合权重的动态决策，思路新颖且在小规模实验上取得了令人瞩目的性能提升，证明了“让模型自己决定信哪个”的可行性。然而，其所有实验仅基于1000个片段的微小数据集进行，这就像在沙盘里赢得了一场战争，其结论能否推广到真实世界的海量、复杂数据洪流中，要打一个大大的问号，极大地限制了工作的说服力。

🔗 开源详情

代码：论文中未提及代码仓库链接或开源计划。
模型权重：未提及公开PPO策略网络或任何投影/分类头的权重。
数据集：使用LAV-DF数据集，但论文未提供其获取方式或是否将划分好的子集公开。
Demo：未提及。
复现材料：论文详细描述了方法、预处理流程、网络架构、超参数设置（如PPO训练步数、奖励系数λ）、评估协议（固定种子、分层划分），并引用了所有依赖的开源预训练模型，提供了较好的复现指引。
论文中引用的开源项目/模型：Wav2Vec2 (facebook/wav2vec2-base-960h), Whisper (openai/whisper-small), Swin Transformer (via timm), MediaPipe, LAV-DF数据集。

📌 核心摘要

本文针对多模态深度伪造检测中固定融合策略无法适应音频和视频信号质量动态变化的问题，提出了AVATAR框架。其核心是采用近端策略优化（PPO）强化学习智能体，根据当前输入的音视频特征及其可靠性指标（如特征模态、模态间余弦相似度），动态学习并输出一个自适应的融合权重α，用于组合音频和视频的表示，而不是采用固定的拼接、平均或注意力机制。该框架无需重新训练特征提取骨干网络。与早期、晚期、交叉注意力等固定融合基线相比，AVATAR在LAV-DF数据集的一个子集（1000个片段）上实现了最优的分类性能（ROC AUC=0.945）。鲁棒性实验表明，在面对高斯噪声、特征维度丢弃等嵌入层破坏时，AVATAR的性能下降最小（平均下降-0.005 AUC），显著优于其他静态融合方法。该工作的实际意义在于为处理现实世界中质量不均衡的多模态伪造内容提供了一种更鲁棒的融合范式。主要局限性在于验证所用的数据集规模非常小，其在大规模和更广泛伪造类型上的泛化能力尚未得到证明。

14. Few-Shot Recognition of Audio Deepfake Generators using Graph-Based Prototype Adaptation

✅ 7.5/10 | 前25% | #音频深度伪造检测 | #图神经网络 | #少样本学习 #音频取证

👥 作者与机构

第一作者：Yupeng Tan (广西大学计算机、电子信息学院，广西人工智能学院)
通讯作者：Wei Xie (广西大学计算机、电子信息学院，广西人工智能学院)
作者列表：Yupeng Tan (广西大学计算机、电子信息学院，广西人工智能学院)，Wei Xie (广西大学计算机、电子信息学院，广西人工智能学院)

💡 毒舌点评

本文巧妙地将图神经网络与转导学习范式结合，用于解决少样本音频深度伪造生成器识别中因数据稀缺导致的原型估计偏差问题，技术路线完整且实验结果显著优于基线。然而，其核心思想——利用无标签数据（查询集）的结构信息来优化有标签数据的原型表示——在少样本学习领域并非首创（如标签传播等），创新深度有限，且论文未提供任何开源代码或模型权重，对后续研究的可复现性构成障碍。

🔗 开源详情

代码：论文中未提及代码仓库链接。
模型权重：未提及公开模型权重。
数据集：使用了公开数据集ASVspoof2019 LA和MLAAD，论文未提及额外数据。
Demo：未提供在线演示。
复现材料：论文提供了一些关键的超参数（如学习率、图top-k值、episode采样数），但缺少训练硬件信息、完整代码配置、权重文件以及Focal Loss和对比损失中的具体超参数（如γ, m）。
依赖的开源项目/模型：
- CLAP 音频编码器（论文引用[17]）
- 图卷积网络基础架构（论文引用[18]）
- Focal Loss（论文引用[19]）
- 对比学习框架（论文引用[20]）
- 消融实验中使用的RawNet3（论文引用[29]）
总体评价：论文中未提及完整的开源计划。

📌 核心摘要

问题：在音频取证中，识别深伪造音频的具体生成器类型至关重要，但新兴生成器的有标签样本极少，传统少样本方法因数据稀疏导致原型估计偏差大、特征区分度低。
方法：提出基于图的原型适应框架。在每个少样本任务中，将支持集和查询集样本构建成一个联合图（基于样本间距离的稀疏连接），通过图适应模块进行信息传播和特征精炼，再估计更可靠的原型进行分类。
创新：1）采用转导学习范式，联合利用有标签和支持样本构建任务特定图；2）设计图适应模块，通过图卷积网络精炼特征并校准原型，缓解原型偏差；3）在元测试阶段引入对比损失进行自适应。
实验：在ASVspoof2019 LA和MLAAD数据集上的5-way设置中，GPA方法在所有shot数下均取得最优准确率，例如在ASV2019LA上5-shot相比最强基线提升3.17%，10-shot提升6.12%，20-shot提升8.28%。消融实验验证了各组件的必要性。
意义：为应对新出现的音频深伪造威胁提供了一种有效的少样本识别方案，增强了音频取证系统对未知生成器的适应能力。
局限性：方法依赖预训练的CLAP编码器和特定的图构建策略，计算复杂度随样本数增加；实验仅在两个数据集上进行，对更多样化生成器和真实场景的泛化能力有待验证。

15. Audio Deepfake Detection at the First Greeting: “Hi!”

✅ 7.5/10 | 前25% | #音频深度伪造检测 | #时频分析 | #端到端 #鲁棒性

👥 作者与机构

第一作者：Haohan Shi（拉夫堡大学伦敦分校数字技术研究所）
通讯作者：Yunxiao Zhang（埃克塞特大学计算机科学系）
作者列表：Haohan Shi（拉夫堡大学伦敦分校数字技术研究所）、Xiyu Shi（拉夫堡大学伦敦分校数字技术研究所）、Safak Dogan（拉夫堡大学伦敦分校数字技术研究所）、Tianjin Huang（埃克塞特大学计算机科学系）、Yunxiao Zhang（埃克塞特大学计算机科学系）

💡 毒舌点评

这篇论文精准地切入了音频伪造检测中一个极具现实意义的细分场景——“第一句话”检测，并为此设计了针对性的轻量化框架，实验对比充分且结果显著，工程化考量（效率、部署）也值得肯定。不过，其核心模块（PCEM， FCEM）的命名虽显“豪华”，但内部算子（如卷积、池化、GELU）的组合更像是一个精心调优的“乐高”拼装，原创的理论洞察稍显薄弱，更像是一个扎实的工程优化案例。

🔗 开源详情

代码：论文在结论部分声明“Codes are available.”，表明代码已公开，但未在文中提供具体的仓库链接（如GitHub URL）。
模型权重：未提及是否公开预训练模型权重。
数据集：训练数据集Dcom由多个公开数据集构建，论文未提供独立的下载链接，但指明了来源语料库。评测数据集ADD-C也已公开使用。
Demo：未提供在线演示。
复现材料：提供了较为详细的训练配置信息（损失函数、优化器、调度策略、Batch Size、早停设置等），以及模型架构的主要组件和关键超参数。未提及是否提供配置文件、环境依赖或更详细的附录。
论文中引用的开源项目：提到了依赖的基线模型实现（LCNN， RawNet2， AASIST等）和数据集（Fake-or-Real， Wavefake， ASVspoof等）。
论文中未提及开源计划：除了声明代码可用外，未提及是否在特定平台维护、是否持续更新或提供issue支持等详细开源计划。

📌 核心摘要

本文旨在解决在真实世界通信降质（如编解码、丢包）条件下，对超短音频（0.5-2秒）进行深度伪造检测的挑战，典型场景是通话开头的“Hi”。作者提出了S-MGAA框架，这是对MGAA的轻量化扩展。其核心方法包括两个新模块：像素-通道增强模块（PCEM）和频率补偿增强模块（FCEM），前者从时频像素和通道维度增强伪造线索的显著性，后者通过多尺度频率分析来补偿时间信息的不足。与已有方法相比，本文首次联合关注了超短输入和通信降质鲁棒性两个方面，并设计了轻量高效的模型。主要实验结果表明：在ADD-C测试集上，S-MGAA-MFCC在0.5秒输入下的平均等错误率（EER）为3.44%，相比次优基线（RawGAT-ST）的4.52%降低了23.89%；在所有时长和降质条件下均取得最优或次优性能；同时，模型在实时因子（RTF）、浮点运算量（GFLOPs）和训练时间上展现出显著优势。该研究为实时部署在资源受限设备（如智能手机）上的早期语音欺骗检测提供了可行方案。主要局限性在于，实验评估均在合成降质数据集上进行，未在真实部署的实时通信系统中验证其端到端性能。

实验结果表格（Table 1）：

模型	0.5s Avg. EER (%)	1.0s Avg. EER (%)	1.5s Avg. EER (%)	2.0s Avg. EER (%)
MGAA-MFCC	5.44	2.88	1.70	0.99
RawGAT-ST	4.52	2.74	1.75	1.02
S-MGAA-MFCC	3.44	1.50	0.75	0.36

实验结果表格（Table 2）：

输入特征	平均EER相对改善率
LFCC	+51.60%
CQCC	+42.85%
MFCC	+51.55%

实验图表：图2：不同输入时长下基线模型的平均EER变化趋势图2展示了所有基线模型在输入时长从4秒缩短至0.5秒时，平均EER普遍出现显著上升，凸显了现有方法在超短音频上的性能脆弱性，为本文工作的必要性提供了佐证。

图3：效率对比雷达图图3通过雷达图对比了S-MGAA（绿色区域）与主要基线模型在参数量、计算量、实时因子和训练时间等效率指标上的表现，直观表明S-MGAA在保持高性能的同时，具有更优的计算效率和部署友好性。

16. Combining SSL Speech Features, Contextual Transformers and Mamba Models for Realistic Audio Spoofing Detection

✅ 7.5/10 | 前25% | #音频深度伪造检测 | #状态空间模型 | #预训练 #自监督学习

👥 作者与机构

第一作者：Luis Buera（Microsoft）
通讯作者：未说明（论文作者列表未明确区分第一/通讯作者，但通讯邮箱为microsoft.com）
作者列表：Luis Buera（Microsoft），Héctor Delgado（Microsoft），Daniele Colibro（Microsoft），Antonio Miguel（University of Zaragoza, Spain）

💡 毒舌点评

亮点：论文构建的“真实世界”评测基准极具说服力，明确区分了注入和播放两种攻击呈现方式，并评估了模型在不同通话时长下的性能，这为学术研究与工业落地之间架设了更实际的桥梁。
短板：提出的“ResNet-CoT-Mamba”更像是一个高效的成功模型组装案例，其核心组件如Audio Mamba、Hymba集成方式的原创性有限，更多是对现有技术的巧妙组合与验证。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：论文使用了公开数据集（如ASVspoof系列，VoxCeleb等）和私有数据集。公开部分可从原数据集官网获取；私有数据集（Realworld, Augmented）未说明获取方式。
Demo：未提及。
复现材料：提供了相当详细的架构图、训练策略、超参数和数据增强方法。论文中引用的开源项目/工具包括：wav2vec 2.0, RawBoost, 各种神经编解码器（神经声码器/编解码器库）。
论文中未提及明确的开源计划。

📌 核心摘要

问题：传统音频伪造检测模型在实验室条件下效果良好，但在面对真实通话场景（如电话客服中心）中的注入和播放攻击时，性能会下降，且现有研究对攻击呈现方式关注不足。
方法核心：提出“ResNet-CoT-Mamba”架构。首先使用预训练的wav2vec 2.0提取语音特征，然后通过由残差网络（ResNet）和上下文Transformer（CoT）组成的模块捕获短时相关性，最后用Mamba状态空间模型（SSM）捕获长程依赖关系。论文探索了多种Mamba集成方式，包括单向、双向、Hymba（Transformer与Mamba并行）和双路径结构。
创新点：1) 构建了包含注入、播放和真实通话中心场景的全面评测基准；2) 提出将Transformer（CoT）与Mamba在检测任务中进行多种方式的组合，特别是首次将Hymba架构引入该领域。
实验结果：在提出的基准测试中，最佳模型（Dual+Hymba+u (6)）相比强基线LGF，在EER和MDR上分别实现了52.6%和56.3%的相对改进。在“真实世界”数据集上，该模型在播放攻击场景的MDR上显著优于基线。关键数据见下表：
模型 Pool EER(%) Avg. MDR(%) Pool MDR(%) 播放攻击MDR(%)
LGF (基线) 7.27 19.90 23.84 39.72
Dual+Hymba+u (6) 3.28 10.58 8.15 未在表中直接给出
Dual+Hymba+u (4) 3.77 12.52 9.59 31.05
实际意义：该工作推动了音频伪造检测从实验室走向真实应用，为电话客服、金融通话等场景提供了更可靠的防御模型。
主要局限性：1) 模型架构的创新主要体现在组合方式上，而非基础模块的原创设计；2) 论文未开源代码、模型权重或测试数据集，影响了可复现性；3) 训练数据包含未公开的私有数据集（如Realworld, Augmented），尽管公开部分足够验证核心结论。

模型	Pool EER(%)	Avg. MDR(%)	Pool MDR(%)	播放攻击MDR(%)
LGF (基线)	7.27	19.90	23.84	39.72
Dual+Hymba+u (6)	3.28	10.58	8.15	未在表中直接给出
Dual+Hymba+u (4)	3.77	12.52	9.59	31.05

17. How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection

✅ 7.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #模型评估 #语音合成

👥 作者与机构

第一作者：Yixuan Xiao (斯图加特大学自然语言处理研究所)
通讯作者：未说明（论文未明确指出）
作者列表：Yixuan Xiao (斯图加特大学自然语言处理研究所)、Florian Lux (AppTek GmbH)、Alejandro Pérez-González-de-Martos (AppTek GmbH)、Ngoc Thang Vu (斯图加特大学自然语言处理研究所)

💡 毒舌点评

论文精准地抓住了“编解码器重合成音频既像好人又像坏人”这个痛点，并用一套严谨的实验给出了“看它心是为压缩而跳还是为合成而跳”的诊断思路，实用性拉满。不过，作者似乎更满足于揭示“病症”和提出“用药建议”，而对如何从根源上（即检测器架构层面）提升对这类模糊样本的鲁棒性，着墨甚少。

🔗 开源详情

代码：提供。论文中给出了GitHub仓库链接：https://github.com/XIAOYixuan/IMS-ADD/tree/codec-add，包含了训练脚本和代码库。
模型权重：未明确提及是否开源预训练的检测器权重。
数据集：公开。提供了两个获取途径：HuggingFace (https://huggingface.co/datasets/Flux9665/CodecDeepfakeDetection) 和 Zenodo (https://zenodo.org/records/17225924)。
Demo：未提及。
复现材料：提供了详细的训练超参数、数据增强策略、��据集划分统计等关键复现信息。
论文中引用的开源项目：引用了多个开源TTS系统和NAC模型作为攻击源，包括Llasa (XCodec2), MARS5 (EnCodec), CSM (Mimi), OpenAudio S1-mini (DAC), CosyVoice2/Chatterbox (S3Tokenizer)，以及检测器AASIST。

📌 核心摘要

本文针对音频深度伪造检测领域中神经音频编解码器（NAC）的双重角色问题展开研究。NAC既可用于音频压缩传输（产生编解码器重合成音频CoRS），又可作为语音合成系统的声码器（产生编解码器语音合成音频CoSG）。这使得训练检测器时面临困境：CoRS应标注为真实还是伪造？为解决此问题，本文构建了一个基于ASVspoof 5协议的扩展数据集CodecDeepfakeDetection，包含多种TTS系统（Llasa, MARS5等）和NACs（EnCodec, Mimi, DAC等）。核心创新在于系统性地评估了将CoRS标注为“真实”或“伪造”对不同检测器（X-AASIST, LWBN）性能的影响。实验发现，标注策略的有效性取决于NAC的设计目标：对于以压缩为导向的NAC（如EnCodec, DAC），将其重合成音频标注为伪造会导致检测器过度学习编解码器伪影，从而错误拒绝经该NAC压缩的真实音频；而对于以合成为导向的NAC（如Mimi），将其标注为伪造更有效。主要实验结果表明，未使用NAC数据增强的基线模型在面对混合了CoRS的测试集时，等错误率（EER）高达约40%，而采用合适的增强策略（对部分NAC作为真实数据）可将其显著降低约8-11个百分点。本文的实际意义在于为构建对编解码器技术演变更鲁棒的检测系统提供了明确的数据标注指南。主要局限性在于研究主要集中于分析和提供见解，而非提出一个全新的、能统一处理此类模糊性的检测模型。

关键实验数据表：不同标注策略对检测性能（EER）的影响（部分）

模型	训练策略	NAC增强类型	T-CoSG (EER)	T-CoRS (EER)	All (EER)
X-AASIST	无NAC增强 (Base)	-	10.67%	22.06%	20.35%
X-AASIST	CoRS标注为真实	EnCodec	10.30%	14.96%	13.23%
		Mimi	10.00%	11.29%	11.79%
		DAC	10.50%	13.37%	12.37%
X-AASIST	CoRS标注为伪造	EnCodec	10.30%	26.79%	25.08%
		Mimi	10.00%	25.42%	23.72%
		DAC	10.33%	28.50%	26.47%
LWBN	无NAC增强 (Base)	-	10.00%	20.65%	19.35%
LWBN	CoRS标注为真实	EnCodec	8.53%	13.42%	12.48%
		Mimi	8.20%	9.32%	9.60%
		DAC	9.13%	11.80%	10.85%
LWBN	CoRS标注为伪造	EnCodec	10.00%	27.10%	25.16%
		Mimi	10.00%	25.46%	23.50%
		DAC	9.53%	27.68%	25.80%
注：表格展示了当使用特定NAC进行增强时，相对于基线（Base）模型的性能变化。T-CoSG为仅真实音频+伪造音频的测试集，T-CoRS为重合成真实音频+伪造音频的测试集。数值为绝对EER。

18. KAN We Make Models Simpler for Audio Deepfake Detection with Kolmogorov–Arnold Networks?

✅ 7.5/10 | 前25% | #音频深度伪造检测 | #自监督学习 | #KAN

👥 作者与机构

第一作者：Hoan My Tran (Univ Rennes, CNRS, IRISA, Lannion, France)
通讯作者：David Guennec (Univ Rennes, CNRS, IRISA, Lannion, France), Aghilas Sini (Univ Le Mans, LIUM, Le Mans, France)
作者列表：Hoan My Tran†, Aghilas Sini∗, David Guennec†, Arnaud Delhay†, Damien Lolive‡, Pierre-François Marteau‡
- †: Univ Rennes, CNRS, IRISA, Lannion, France
- ∗: Univ Le Mans, LIUM, Le Mans, France
- ‡: Univ Bretagne Sud, CNRS, IRISA, Vannes, France

💡 毒舌点评

亮点：这篇论文的核心价值在于其“反常识”的结论——在强大的预训练模型（XLS-R）面前，复杂的下游分类器可能是不必要的，一个简单的全连接层（甚至只有2K参数）就能达到极具竞争力的性能，这为轻量化部署提供了重要思路。短板：虽然论文展示了KAN在平均EER上的优势，但其提升在部分数据集（如FoR）上并不一致，且论文缺乏对“为何KAN能更有效利用高维SSL特征”这一核心机制的深入理论或可视化分析，更像是一次成功的实验观察而非深刻的机理解释。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及公开的模型权重。
数据集：实验使用了多个公开的基准数据集（如ASVspoof系列），但未提及提供新的数据集。
Demo：未提及。
复现材料：论文中给出了详细的训练超参数、数据增强方法、损失函数设置等复现所需的关键信息。
论文中引用的开源项目：引用了XLS-R、RawBoost等作为基础工具。

📌 核心摘要

这篇论文旨在探索一种极简化的音频深度伪造检测架构，以解决当前方法模型复杂、参数量大的问题。方法核心是利用强大的自监督学习模型XLS-R提取高维语音特征，并直接将其输入到一个简单的后端分类器（全连接层或KAN层）进行真伪判断，跳过了传统的降维步骤。与已有方法（如使用Conformer、Mamba等复杂后端）相比，本文的新颖之处在于证明了在特征足够强大时，极简后端即可取得优异性能。主要实验结果表明，在ASVspoof等多个数据集上，仅使用22.54K参数的KAN后端（平均EER为1.07%）能取得与使用数百万参数复杂模型相当甚至更优的性能（表3）。实际意义在于，该工作为构建轻量、高效、易于部署的音频深度伪造检测系统指明了方向。其主要局限性在于，尽管KAN在平均指标上占优，但在某些特定数据集（如FoR）上性能不及全连接层，且论文未能深入揭示KAN性能优势的内在原理。

19. Robust Deepfake Audio Detection via Multi-Level Intermediate Feature Fusion

✅ 7.5/10 | 前25% | #音频深度伪造检测 | #特征融合 | #自监督学习 #鲁棒性

👥 作者与机构

第一作者：Jinpeng Zhao（中山大学计算机科学与工程学院）
通讯作者：Peijia Zheng（中山大学计算机科学与工程学院）
作者列表：Jinpeng Zhao, Jian Zhao, Yufei Zhou, Peijia Zheng†, Yusong Du（中山大学计算机科学与工程学院）

💡 毒舌点评

亮点在于，论文非常务实地通过一个轻量级（仅增加0.002%计算量）的MIFF模块，有效挖掘了现有强大骨干网络（XLSR-Mamba）中被忽视的中间层信息，实现了“小改进，大收益”。短板是，该工作本质上是将成熟的注意力机制（SE block）应用于特定模型（Mamba）的中间层特征融合，创新深度有限，更像是一个有效但非突破性的工程优化。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：使用公开的ASVspoof 2019 LA、ASVspoof 2021 LA/DF和In-The-Wild数据集，未提及新的数据集。
Demo：未提及。
复现材料：论文提供了较为详细的实验设置（数据集、增强方法、优化器、学习率、batch size等）、超参数（Mamba层数、缩减比、特征维度）和消融实验细节，为复现提供了良好基础，但未提供完整的配置文件或脚本。
论文中引用的开源项目：
1. XLSR-Mamba [7]：本文的主要基线模型。
2. XLS-R [2, 3, 6]：作为前端特征提取器。
3. Mamba [8]：作为后端骨干网络。
4. RawBoost [19]：用于数据增强。
5. Squeeze-and-Excitation Networks [17]：MIFF模块中注意力机制的灵感来源。
6. 其他对比方法（AASIST [4], Conformer [5], SLS [6]等）。

📌 核心摘要

本文针对现有深度伪造音频检测器（如XLSR-Mamba）主要依赖最终层特征、导致中间层判别性信息丢失的问题，提出了多级中间特征融合模块。该模块应用于双列双向Mamba网络的每个方向，通过引入Squeeze-and-Excitation机制，自适应地计算并加权聚合所有Mamba层的输出特征，并与最终层的残差输出融合，从而生成一个更全面、更具判别力的表征用于分类。实验表明，在ASVspoof 2021 DF和In-The-Wild数据集上，该方法分别取得了1.68%和5.66%的EER，相比基线XLSR-Mamba（1.88%和6.71%）实现了10.6%和15.6%的相对误差降低，尤其在应对自回归神经声码器生成的伪音时表现突出。该研究证明了多层次特征融合对于增强检测模型鲁棒性的有效意义。主要局限性在于方法未在更多样化的攻击类型或跨语言场景下进行验证，且依赖于特定的XLSR前端和Mamba后端组合。

20. AI-Generated Music Detection in Broadcast Monitoring

✅ 7.0/10 | 前50% | #音频深度伪造检测 | #数据集 | #鲁棒性 #工业应用

👥 作者与机构

第一作者：David López-Ayala (Music Technology Group, Universitat Pompeu Fabra, Barcelona, Spain)
通讯作者：未明确标注（根据邮箱顺序，第一作者与Martin Rocamora并列，推测Martin Rocamora可能为通讯作者，但论文未明确声明）
作者列表：David López-Ayala (Music Technology Group, Universitat Pompeu Fabra)、Asier Cabello (BMAT Licensing S.L.)、Pablo Zinemanas (BMAT Licensing S.L.)、Emilio Molina (BMAT Licensing S.L.)、Martin Rocamora (Music Technology Group, Universitat Pompeu Fabra)

💡 毒舌点评

亮点：本文最大的价值在于其“问题意识”——它没有停留在实验室的完美条件下自嗨，而是直指工业界（广播监测）的真实痛点，并通过精心设计的AI-OpenBMAT数据集和系统的消融实验，量化证明了现有“明星模型”在复杂声学环境下的脆弱性，为该领域指明了亟需突破的方向。短板：论文止步于“诊断”和“展示问题”，并没有提出任何新的“药方”（新的检测模型或算法）。作为一篇方法论文，其贡献更偏向数据工程和基准测试，技术深度略显不足，使得最终结论虽扎实但冲击力有限。

🔗 开源详情

代码：论文提供了AI-OpenBMAT数据集的GitHub仓库链接（github.com/DaveLoay/AI-OpenBMAT）。对于评估中使用的基线模型，CNN的代码未提及，SPECTTTRA模型代码通过参考文献[10]引用。
模型权重：未提及。
数据集：AI-OpenBMAT数据集已公开，通过上述GitHub仓库提供。论文中引用的数据集（如OpenBMAT, SONICS, BAF）也均为公开数据集。
Demo：未提及。
复现材料：提供了数据集和部分基线代码链接。但论文本身对模型训练的超参数、硬件等细节未作说明，对于复现CNN基线不充分。
论文中引用的开源项目：引用了SONICS数据集和模型（参考文献[10]）、OpenBMAT数据集（参考文献[14]）、BAF数据集（参考文献[15]）。
开源计划：论文中未提及额外的开源计划（如未来将开源新模型）。

📌 核心摘要

要解决什么问题：现有的AI生成音乐检测器主要在干净、完整的流媒体音乐上训练和验证，但在广播监测场景下（音乐为短片段且常被前景语音掩蔽）性能会严重下降。
方法核心是什么：构建了一个名为AI-OpenBMAT的新型数据集。该数据集基于真实电视广播的音频结构（来自OpenBMAT），将人类创作的音乐与其AI生成的延续版本（使用Suno v3.5）进行风格匹配配对，并按照真实的时长分布和信噪比（音乐与语音）进行混合，模拟出54.9小时的广播音频片段。
与已有方法相比新在哪里：这是首个专门为广播场景下的AI生成音乐检测任务设计的数据集。其创新点在于：1）数据构建基于真实广播音频的统计特征（片段长度、相对响度）；2）使用“延续生成”方式确保人类与AI音乐对的风格高度匹配，控制变量；3）实验设计系统性地隔离并测试了语音掩蔽（SNR）和音频短时长这两个广播场景的关键挑战。
主要实验结果如何：实验表明，在流媒体场景下表现优异的模型（如SPECTTTRA和CNN）在广播条件下性能大幅下降。例如，在低信噪比（如背景音乐）下，所有模型的F1分数均低于60%。在完整的AI-OpenBMAT广播场景评估中，最佳模型（SPECTTTRA-γ）的总体F1分数仅为61.1%，而CNN基线仅为27.6%。具体结果见下表：

模型	Overall F1	Per-class F1 (bg)	Per-class F1 (bgvl)	Per-class F1 (fg)	Per-class F1 (music)	Per-class F1 (similar)
SpectTTTra-α	57.6	54.3	47.0	84.4	88.5	61.7
SpectTTTra-β	54.3	44.2	36.4	78.0	83.9	50.3
SpectTTTra-γ	61.1	46.9	33.2	84.4	88.9	55.8
CNN	27.6	13.4	3	33	63.1	13.6

实际意义是什么：为AI音乐检测领域的研究者和工业界提供了一个更贴近现实的基准和数据集，揭示了现有技术的瓶颈，并推动开发对短时长和语音掩蔽更鲁棒的新检测算法，以满足广播版权监测等工业需求。
主要局限性是什么：论文的核心贡献是数据集和评估，而非新的检测模型。因此，它没有提供解决所发现问题的方案。此外，AI音乐生成源仅限于Suno v3.5，数据集的泛化性可能受限于生成模型的技术代际。

21. Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study

✅ 7.0/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #监督微调 #跨模态

👥 作者与机构

第一作者：Songjun Cao（腾讯优图实验室）（注：论文中注明与Yuqi Li贡献均等）
通讯作者：未说明
作者列表：Songjun Cao¹, Yuqi Li¹, ², Yunpeng Luo¹, Jianjun Yin², Long Ma¹ （¹ 腾讯优图实验室， ² 复旦大学）

💡 毒舌点评

亮点：将“音视频深度伪造检测”巧妙地重塑为“多模态问答任务”，利用现成的顶级多模态大模型（Qwen 2.5 Omni）作为骨架，通过两阶段微调迅速达到了领域内顶尖水平，证明了LMM在多媒体取证中的巨大潜力。
短板：作为一篇方法论论文，其核心创新（SFT LMM）对基础模型架构的依赖性极强，且未提供任何开源资源（代码、模型、训练脚本），使得“复现即正义”的学术圈同仁难以验证和跟进，更像是一个概念验证（Pilot Study）。

🔗 开源详情

代码：论文中未提及代码仓库链接。
模型权重：未提及是否公开微调后的AV-LMMDetect模型权重。
数据集：论文使用了公开数据集FakeAVCeleb和MAVOS-DD，并给出了引用和部分划分信息（如FakeAVCeleb使用70%/30%划分）。
Demo：未提及在线演示。
复现材料：未提供训练细节、配置、检查点或附录说明。
引用的开源项目：论文中明确引用了Qwen 2.5 Omni作为基座模型，以及MAVOS-DD、FakeAVCeleb等数据集。
开源计划：论文中未提及开源计划。

📌 核心摘要

要解决的问题：现代生成模型制造的音视频深度伪造内容日益逼真，现有的多模态检测器多为任务特定的小模型，存在泛化能力弱、跨域性能差的问题。
方法核心：提出AV-LMMDetect，首次将监督微调的大型多模态模型（基于Qwen 2.5 Omni）用于端到端的音视频深度伪造检测。方法将检测任务重新定义为一个二元分类问答：“这个视频是真实的还是伪造的？”。训练采用两阶段策略：第一阶段通过LoRA对语言模型部分进行轻量级对齐；第二阶段解冻视觉和音频编码器进行全量微调，以最大化跨模态协同效应。
与已有方法相比新在哪里：不同于传统的小型任务特定模型（如CNN/Transformer流水线）或仅处理单模态的音频LLM，本工作首次证明了经过SFT的通用大型多模态模型（LMM）能够作为统一的检测器，直接处理原始的音视频流，并展现出更强的跨模态推理和泛化能力。
主要实验结果：在FakeAVCeleb数据集上，AV-LMMDetect取得了98.02%的准确率和99.2%的AUC，与当前SOTA方法AVFF（98.6%准确率）性能相当。在更具挑战性的多语言MAVOS-DD数据集上，该方法在“开放集完整”场景下达到了85.09%的准确率和0.96的mAP，显著优于所有对比方法，树立了新的SOTA。消融实验表明，两阶段训练策略缺一不可。
实际意义：为多媒体安全领域提供了一种新的、基于大模型基座的通用检测范式，有望提升检测器对未知生成模型和跨语言场景的泛化能力，维护媒体内容的真实性。
主要局限性：该方法完全依赖于特定的基座大模型（Qwen 2.5 Omni），其性能受限于该模型的能力边界；训练过程可能计算成本较高；论文未提供开源实现，限制了成果的快速验证与应用。

22. A Superb-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection

✅ 7.0/10 | 前25% | #音频深度伪造检测 | #自监督学习 | #基准测试 #模型评估

👥 作者与机构

第一作者：未说明（论文按顺序列出作者，未明确指定第一作者）
通讯作者：未说明（论文中未明确标注通讯作者）
作者列表：Hashim Ali, Nithin Sai Adupa, Surya Subramani, Hafiz Malik（均来自University of Michigan, Electrical and Computer Engineering）

💡 毒舌点评

本文最大的价值在于“填空”——在音频深度伪造检测这个安全关键领域，终于有了一个像SUPERB那样标准化的评测框架，让不同研究能放在同一擂台上比较，这本身就是一个重要的贡献。但短板也同样明显：它本质上是一个“评测员”而非“创新者”，提出的Spooof-SUPERB协议是现有技术的整合而非新方法的突破，且未开源代码或模型，大大削弱了其作为基准的实践影响力。

🔗 开源详情

代码：论文中未提及代码仓库链接。
模型权重：未提及公开本次实验所使用的SSL模型下游微调后的权重。
数据集：论文中评估所使用的数据集（如ASVspoof系列、In-the-Wild、DFEval等）多为公开数据集，但论文本身未提供新的数据集，也未说明如何获取或处理它们。
Demo：未提及。
复现材料：论文详细描述了下游任务协议（冻结SSL、加权和聚合、分类器结构、训练/评估数据集），提供了复现所需的大部分信息，但缺乏具体的训练超参数（如学习率、优化器、batch size）。
论文中引用的开源项目：论文引用了大量SSL模型的原始论文（如wav2vec 2.0, HuBERT, WavLM等），这些都是开源项目。但本文自身未提供基于这些项目的整合代码。
总结：论文中未提及任何由本文作者发布的开源计划（代码、模型、工具）。

📌 核心摘要

这篇论文旨在解决音频深度伪造检测领域缺乏统一评估标准、导致研究结果难以比较的问题。其核心方法是提出一个名为“Spoof-SUPERB”的SUPERB式基准，该基准采用固定的下游任务设置（冻结SSL前端+加权层聚合+简单分类器），在ASVspoof 2019训练集上训练，并在包括ASVspoof 2019、2021、DeepfakeEval 2024、In-the-Wild、Famous Figures和ASVSpoofLD在内的8个数据集上进行跨域评估。与以往碎片化的研究相比，这是首个系统性地评估20个涵盖生成式、判别式和混合式架构的自监督学习模型的标准化基准。主要实验结果显示，大规模判别式SSL模型（如XLS-R、UniSpeech-SAT、WavLM Large）在平均EER上显著优于生成式模型和FBANK基线（例如XLS-R为17.4%，而FBANK为46.5%），并在噪声、混响和编解码器退化条件下表现出更强的鲁棒性。本文的实际意义是为社区提供了一个可复现的基线和实用的模型选择指南。主要局限性在于，固定的下游协议（训练数据选择、简单后端）可能限制了对模型潜力的挖掘，且未公开代码和模型权重。

表2. Equal Error Rate (EER, %) of SSL models across evaluation datasets.

Model	ASV19 LA	ASV21 LA	ASV21 DF	ASV5 Eval	In-the-Wild	DFEval 2024	Famous Fig.	ASVspoofLD	Mean EER
FBANK	42.828	43.155	44.789	49.838	48.393	47.113	48.427	47.672	46.527
APC	10.075	16.335	22.276	33.311	36.889	42.662	58.402	34.345	31.787
VQ-APC	12.155	18.872	20.217	30.581	34.860	52.173	58.544	31.799	32.400
NPC	15.243	17.619	25.239	37.868	40.986	49.843	51.979	29.758	33.567
Mockingjay	15.430	19.798	25.312	40.217	35.848	49.800	40.975	56.033	35.427
Mockingjay-960h	13.801	25.525	22.584	37.866	52.387	52.130	49.953	59.283	39.191
TERA	9.112	26.572	17.254	35.656	39.894	54.251	49.282	57.565	36.198
DeCoAR 2.0	7.628	12.352	18.990	29.571	35.029	49.800	54.452	22.126	28.743
wav2vec	8.812	15.500	14.761	30.691	42.239	53.895	51.048	36.263	31.651
wav2vec 2.0 Base	4.661	11.452	10.046	18.698	40.945	56.981	51.921	32.891	28.449
wav2vec 2.0 Large	7.695	18.887	11.617	19.956	40.461	55.764	44.401	30.413	28.649
HuBERT Base	4.867	12.562	13.387	23.990	27.276	53.747	53.749	17.772	25.919
HuBERT Large	2.788	10.049	11.996	21.252	21.039	52.991	48.440	13.146	22.712
MR-HuBERT	2.478	9.074	11.635	23.056	23.799	49.696	52.720	11.645	23.006
XLS-R	1.985	14.096	4.314	14.394	20.073	45.392	29.598	9.420	17.409
UniSpeech-SAT	1.961	8.818	7.443	14.996	16.791	49.800	46.601	9.557	19.496
Data2Vec	7.695	11.877	16.511	26.773	29.249	50.808	53.092	16.418	26.678
WAVLABLM	3.631	15.380	9.847	21.115	23.402	52.530	52.660	15.500	24.258
WavLM Large	2.273	11.636	11.527	17.549	24.331	49.696	35.367	12.089	20.558
SSAST	11.693	24.935	22.909	31.186	47.113	40.184	36.885	21.523	29.553
MAE-AST-FRAME	7.685	19.554	17.001	27.295	43.645	47.974	35.214	19.978	27.293

表3. Average EER (%) across all codec conditions (ASV5 Eval). Representative models from each category

Model	Avg. Codec EER
FBANK (Baseline)	49.8
APC (Generative)	33.3
XLS-R (Discriminative)	13.5
UniSpeech-SAT (Discriminative)	14.0
WavLM Large (Discriminative)	18.1
SSAST (Hybrid)	28.8

23. Understanding the Strengths and Weaknesses of SSL Models for Audio Deepfake Model Attribution

✅ 7.0/10 | 前50% | #音频深度伪造检测 | #自监督学习 | #语音合成

👥 作者与机构

第一作者：Gabriel Pîrlogeanu（POLITEHNICA Bucharest大学，Speech and Dialogue Research Laboratory）
通讯作者：未说明（论文未明确指定通讯作者）
作者列表：Gabriel Pîrlogeanu（POLITEHNICA Bucharest大学，Speech and Dialogue Research Laboratory）、Adriana Stan（POLITEHNICA Bucharest大学 Speech and Dialogue Research Laboratory 及 Technical University of Cluj-Napoca Communications Department）、Horia Cucu（POLITEHNICA Bucharest大学，Speech and Dialogue Research Laboratory）

💡 毒舌点评

亮点在于其严谨的控制变量实验设计，像“实验室”一样剖析了SSL特征在音频归因任务中的敏感点，尤其是“零初始化检查点”的验证为“模型架构指纹”的存在提供了有趣证据；短板是研究停留在对已有方法的分析与验证，未提出更强的归因模型或更鲁棒的特征，且对更复杂的实际场景（如多说话人、商业系统）测试不足，结论的普适性有待验证。

🔗 开源详情

代码：论文中未提及自有归因系统或实验代码的开源仓库链接。但承诺提供训练模型和生成数据。
模型权重：论文中明确说明将提供所有从头训练的TTS模型检查点和说话人适应后的模型权重（upon request）。
数据集：论文中使用了公开的LJSpeech数据集和HiFi-TTS的部分数据。生成的跨架构、跨检查点音频样本集承诺提供。
Demo：未提及。
复现材料：提供了详细的训练配置（单卡T4，batch size 32，迭代次数）、超参数选择过程（k值选择）、评估协议（数据划分比例）。论文依赖的开源项目（FastPitch, VITS, Grad-TTS, Matcha-TTS, HiFi-GAN）均提供了官方代码和预训练模型链接。
论文中引用的开源项目：
- TTS架构：FastPitch [11], VITS [12], Grad-TTS [13], Matcha-TTS [14]
- 声码器：HiFi-GAN [15]（及NGC预训练版本）
- SSL模型：wav2vec2-xls-r-2b, w2v-bert-2.0 (论文中未提及具体代码库，但为Hugging Face等平台标准模型)
- 数据集：LJSpeech [10], HiFi-TTS (部分)

📌 核心摘要

要解决什么问题：现有音频深度伪造检测研究多聚焦于二分类（真/假），而用于法律问责的“模型归因”（识别生成该音频的具体系统/模型）更具挑战性，尤其是当生成模型更新、重训练时，归因系统的鲁棒性尚不明确。
方法核心是什么：作者系统性地利用自监督学习（SSL）模型（wav2vec2-xls-r-2b 和 w2v-bert-2.0）提取音频特征，并搭配简单的kNN分类器，构建了一个轻量级的归因系统。通过严格控制变量（模型检查点、文本提示、声码器、说话人身份），对四个主流TTS架构（FastPitch, VITS, Grad-TTS, Matcha-TTS）进行受控实验，以剖析SSL特征的归因能力及其弱点。
与已有方法相比新在哪里：与以往利用复杂DNN分类器或未控制变量的归因研究不同，本文的核心创新在于实验设计的系统性：1) 从头训练并保存多个阶段的模型检查点；2) 显式隔离并操控文本、声码器、说话人等关键变量；3) 首次对比分析了两个不同SSL模型在归因任务上的互补特性；4) 探索了模型随机初始化对归因的影响。
主要实验结果如何：实验结果表明：a) 在域内（ID）任务中，架构级归因非常准确（F1~~0.98），但检查点级归因较难（F1~~0.5）；b) 文本提示对检查点归因影响显著；c) 声码器匹配对归因至关重要，跨声码器归因性能骤降；d) 说话人微调会严重干扰归因，其中w2v-bert-2.0因预训练数据更多而更鲁棒；e) 未训练的“零初始化”模型输出噪声，但能被完美归类到各自架构类别。关键数据见表1。

表1：不同条件下模型归因的宏F1分数（关键部分）

实验条件	查询集检查点	提示词划分	声码器类型	wav2vec2-xls-r-2b (检查点/架构)	w2v-bert-2.0 (检查点/架构)
1. 基线 (域内)	PT+9个检查点	不相交	默认	0.519 / 0.976	0.450 / 0.983
5. 依赖文本提示	PT+9个检查点	混合	默认	0.432 / 0.973	0.367 / 0.978
6. 依赖声码器 (同)	PT+9个检查点	不相交	统一	0.504 / 0.941	0.436 / 0.943
7. 依赖声码器 (异)	PT+9个检查点	不相交	混合	n/a / 0.634	n/a / 0.551
9. OOD (仅PT归因)	微调模型	不相交	默认	n/a / 0.361	n/a / 0.657
11. 零初始化 (ID)	零初始化	不相交	默认	0.874 / 1.000	0.859 / 1.000
12. 零初始化归因PT+9	PT+9个检查点	不相交	默认	n/a / 0.100	n/a / 0.100

（表1数据来自论文Table 1，展示了多个关键实验的结果对比。）

实际意义是什么：本研究为基于SSL的音频深度伪造归因系统提供了重要的鲁棒性指南：a) 架构级归因可靠；b) 检查点级归因易受内容、声码器、说话人变化影响；c) 部署时需考虑文本和声码器的多样性；d) 不同SSL模型可互补。这有助于设计更可靠的数字取证工具。
主要局限性是什么：a) 实验局限于四种TTS架构和一个单说话人数据集（LJSpeech），未测试多说话人、零样本克隆、多实现等更复杂场景；b) 声码器变化实验（表1行7）结论不明确；c) 仅分析了特征层面，未提出提升归因鲁棒性的新方法；d) 对“零初始化”实验的解释（模型未见过噪声数据）略显牵强。

24. Towards Data Drift Monitoring for Speech Deepfake Detection in the Context of MLOps

✅ 7.0/10 | 前25% | #音频深度伪造检测 | #数据漂移监控 | #模型微调 #MLOps

👥 作者与机构

第一作者：Xin Wang（日本国立信息学研究所）
通讯作者：未说明
作者列表：Xin Wang（日本国立信息学研究所），Wanying Ge（日本国立信息学研究所），Junichi Yamagishi（日本国立信息学研究所）

💡 毒舌点评

这篇论文的亮点在于其工程视角的前瞻性：它脱离了传统的“训练-测试”静态评估循环，首次在MLOps框架下系统性地探讨了语音伪造检测器面临的数据漂移问题，实验设计严谨且覆盖了多种检测器与距离度量。然而，其核心方法（用分布距离监控漂移、用新数据微调）本质上是对机器学习运维通用范式的直接应用，并未在漂移检测算法本身提出原创性贡献，创新高度有限。

🔗 开源详情

代码：论文中提及代码仓库链接（https://arxiv.org/abs/2509.10086），但未明确说明该仓库是否已公开发布及具体内容。
模型权重：未提及是否公开预训练或微调后的检测器权重。
数据集：使用了公开数据集（ASVspoof 2019， LJSpeech， MLAAD），但论文中未提供数据集的定制处理脚本或版本信息。
Demo：未提及。
复现材料：论文中提到了“代码仓库”，但未详细说明是否包含训练配置、环境依赖、实验脚本等。
引用的开源项目：
- ESPNet-TTS [13]：用于生成实验1的TTS数据。
- AntiDeepfake toolkit [12]：用于实现W2V和XSLR2b检测器。
- AASIST [4]：使用其官方实现。
总结：论文中提及了代码仓库，但缺乏关于开源项目状态、模型可用性和详细复现指南的明确信息。

📌 核心摘要

要解决什么问题：传统的静态语音深度伪造检测模型部署在云端后，面对不断涌现的新文本到语音（TTS）攻击，性能会下降。需要一种机制来自动监控新数据与原始训练/参考数据的分布差异（漂移），并据此更新模型。
方法核心是什么：从MLOps角度出发，提出两步框架：(1) 监控：利用检测器（如SSL模型）提取的音频嵌入特征，通过计算测试数据与参考数据在多个维度上的分布距离（如Wasserstein-1距离、K-S检验）来量化漂移；(2) 更新：当检测到显著漂移时，使用类似的新攻击数据对检测器进行微调，以减少漂移并恢复性能。
与已有方法相比新在哪里：与以往集中在提升检测准确率的实验室研究不同，本文首次将“数据漂移”概念引入语音伪造检测领域，并将其置于MLOps的运维闭环中进行研究。它关注的是模型上线后如何维持性能的可持续性问题。
主要实验结果如何：在玩具数据集和大规模MLAAD数据集上的实验证明：
- 监控有效性：较新的TTS攻击确实导致更高的漂移值（如图2、3所示）。例如，在MLAAD数据集上，v7版本（最新）的TTS系统产生的漂移值显著高于v2版本（早期）。
- 更新有效性：使用新攻击数据进行微调可以减少漂移。如图3(a)所示，使用8小时的v7数据微调后，XSLR2b检测器在v7测试集上的漂移值明显下降。同时，检测错误率（EER）也随之降低。表2显示，当用8小时v7数据微调后，XSLR2b在v7测试集上的EER从6.42%降至0.57%。
- 关键发现：使用与新攻击相似的数据（如用v6数据微调）对未见过的更新攻击（如v7）也有积极效果；但使用过时的数据（如v2）对新攻击的改善有限。
实际意义是什么：为语音伪造检测系统在真实云服务中的长期可靠运行提供了一套可行的监控与自适应更新框架，有助于应对持续演化的伪造技术，保障系统安全。
主要局限性是什么：论文中未明确提及。潜在局限包括：计算分布距离和频繁微调可能带来的运维开销；微调步骤依赖于对新攻击数据的获取与标注，这在实际场景中可能具有挑战性；实验未评估对真实语音数据误报率的影响。

25. CompSpoof: A Dataset and Joint Learning Framework for Component-Level Audio Anti-Spoofing Countermeasures

✅ 7.0/10 | 前25% | #音频深度伪造检测 | #语音分离 | #多任务学习 #数据集

👥 作者与机构

第一作者：Xueping Zhang（苏州昆山杜克大学，多模态智能系统苏州市重点实验室；数字创新研究中心）
通讯作者：Ming Li（苏州昆山杜克大学，多模态智能系统苏州市重点实验室；数字创新研究中心）
作者列表：
- Xueping Zhang（苏州昆山杜克大学，多模态智能系统苏州市重点实验室；数字创新研究中心）
- Yechen Wang（OfSpectrum, Inc., Los Angeles, USA）
- Linxi Li（OfSpectrum, Inc., Los Angeles, USA）
- Liwei Jin（OfSpectrum, Inc., Los Angeles, USA）
- Ming Li（苏州昆山杜克大学，多模态智能系统苏州市重点实验室；数字创新研究中心）

💡 毒舌点评

亮点：敏锐地捕捉并定义了“成分级伪造”这一更隐蔽的攻击新范式，并为此构建了首个配套数据集和完整的端到端解决方案，框架设计逻辑自洽。短板：提出的数据集规模较小（2500条），且环境声伪造检测效果显著弱于语音伪造检测，说明所提的“专用环境声反欺骗模型”（直接复用XLSR-AASIST）可能并不完全适配，成为系统性能短板。

🔗 开源详情

代码：论文提供了明确的GitHub仓库链接：https://github.com/XuepingZhang/CompSpoof。
模型权重：论文中未提及是否公开预训练模型权重。
数据集：论文提供了数据集的项目主页链接：https://xuepingzhang.github.io/CompSpoof-dataset/，表明数据集公开可用。
Demo：未提及在线演示。
复现材料：论文给出了训练细节（优化器、学习率、分阶段训练、损失函数公式及权重），提供了框架图（图1），但更细粒度的超参数（如UNet结构、batch size）和硬件信息未说明。
引用的开源项目/工具：
- 模型：XLSR-AASIST (基线及反欺骗模型)、UNet (分离网络)。
- 工具/库：Adam优化器。
- 数据集：ASVspoof5、CommonVoice、SSTC、VGGSound、VCapAV（用于构建CompSpoof）。
- 信号处理：STFT/iSTFT。
总结：论文提供了复现所需的代码、数据和关键训练配置，开源情况良好，但完整的实验环境和模型权重信息有待补充。

📌 核心摘要

问题：现有音频反欺骗方法假设整段音频是真实或伪造的，无法有效检测仅伪造音频中特定成分（如仅伪造语音，保留真实环境声；或反之）的更隐蔽的“成分级伪造”攻击。
核心方法：提出一个分离增强联合学习框架。该框架首先用二分类模型检测混合音频是否包含伪造内容，然后使用UNet在STFT域将音频分离为语音和环境声成分，再将各成分送入独立的反欺骗模型（XLSR-AASIST）进行检测，最终综合三个模型的输出进行五分类。核心是联合训练分离网络和反欺骗模型，以保留分离信号中的欺骗相关特征。
与已有方法相比新在哪里：首次定义并建模“成分级伪造”问题；首次构建覆盖所有真实/伪造语音-环境声组合的数据集；首次将音频源分离技术与联合学习策略引入成分级反欺骗检测，实现了对音频混合物中各成分真伪性的独立评估。

主要实验结果：在自有CompSpoof数据集上，所提方法（SEF+JL）在整体F1分数上显著优于基线（0.908 vs 0.827），在多个具体类别上提升明显。消融实验证明，联合学习机制至关重要，能使分离后的成分反欺骗性能大幅提升（例如语音检测F1从0.720提升至0.863）。具体性能对比如下表所示：

方法	数据集	整体F1	类别0 (原混合) F1	类别1 (真音-真环) F1	类别2 (伪音-真环) F1	类别3 (真音-伪环) F1	类别4 (伪音-伪环) F1
Baseline	Eval	0.827	0.980	0.843	0.745	0.829	0.738
SEF+JL	Eval	0.908	0.990	0.899	0.871	0.905	0.874

实际意义：为应对日益复杂的音频伪造攻击（成分替换）提供了新的评估基准（数据集）和检测思路，推动了音频安全研究向更细粒度发展。
主要局限性：数据集规模相对较小，且场景仅限于语音与环境声的混合，未验证音乐、其他类型背景声等场景；环境声成分的伪造检测性能仍是短板，可能受限于所用模型的通用性。

✅ 6.5/10 | 前10% | #音频深度伪造检测 | #注意力机制 | #音视频 #多模态模型

👥 作者与机构

第一作者：Fangda Wei（北京理工大学）
通讯作者：Shenghui Zhao（北京理工大学，有星号标记）
作者列表：Fangda Wei（北京理工大学），Miao Liu（北京理工大学），Yingxue Wang（中国电子技术标准化研究院），Jing Wang（北京理工大学），Shenghui Zhao（北京理工大学），Nan Li（中国电子技术标准化研究院）

💡 毒舌点评

论文提出的“差分跨模态注意力”（DCA）模块设计巧妙，其通过注意力矩阵相减来增强模型对伪造内容敏感性的思路，确实指出了传统注意力机制在伪造检测任务中可能存在的目标冲突问题，是一个不错的洞察。然而，如此强调性能提升的论文，却在开源复现信息上“一毛不拔”，连基础的代码仓库或超参数都不公开，这无异于在沙滩上画出宏伟蓝图却不提供任何工具，对推动整个领域的可复现进步毫无贡献。

🔗 开源详情

代码：论文中未提及代码仓库链接。
模型权重：未提及公开模型权重。
数据集：使用公开数据集FakeAVCeleb，但论文中未说明获取方式（通常可公开获取）。
Demo：未提供在线演示。
复现材料：未提供详细的训练配置、超参数、检查点或附录说明。
论文中引用的开源项目：引用了DLIB（用于人脸检测）、Res2Net、CBAM、Wavelet Convolution等工具或模型，但未说明是否基于其开源代码。
总体开源计划：论文中未提及任何开源计划。

📌 核心摘要

要解决的问题：现有音频-视觉深度伪造检测方法主要依赖跨模态对齐，但传统的跨模态注意力机制可能与对齐损失目标冲突（对伪造内容不敏感），且缺乏有效的多尺度时间特征提取。
方法核心：提出多尺度跨模态Transformer编码器（MSCT），包含两个核心模块：差分跨模态注意力（DCA）和多尺度自注意力（MSSA）。DCA通过计算自注意力矩阵与跨模态注意力矩阵的差值，增强对伪造线索的关注。MSSA使用不同尺度的卷积处理Key矩阵，以整合相邻嵌入的多尺度时间信息。
与已有方法相比新在哪里：与传统跨模态注意力相比，DCA能更好地适配基于对齐损失的伪造检测任务；与标准自注意力相比，MSSA提供了更丰富的时间尺度感知能力，弥补了帧级特征提取的不足。
主要实验结果：在FakeAVCeleb数据集上，该方法取得了98.75%的准确率（ACC）和 98.83%的AUC，显著优于表1中列出的所有基线方法，包括ACC为94.05%的MRDF-CE和96.30%的BusterX。消融实验（表2）表明，DCA模块（+1.25% ACC）比MSSA模块（+0.25% ACC）带来更大的性能增益。T-SNE可视化（图5）显示，本方法能更好地区分类别。
实际意义：提升了音视频深度伪造检测的准确性和鲁棒性，为多媒体内容安全提供了更强大的技术工具。
主要局限性：实验仅在单一数据集FakeAVCeleb上进行，缺乏跨数据集泛化性验证；未提供代码和详细复现参数，可复现性极差；与最新方法BusterX的对比缺少AUC指标。

27. Auxiliary Multi-Label Training For Improving the Robustness of Audio Deepfake Detection on AI-Processed Data

✅ 6.5/10 | 前50% | #音频深度伪造检测 | #数据增强 | #多任务学习 #自监督学习

👥 作者与机构

第一作者：Inho Kim（松石大学）
通讯作者：Souhwan Jung*（松石大学）
作者列表：Inho Kim（松石大学），Jiwon Seo（松石大学），Seoyoung Park（松石大学），Thien-Phuc Doan（松石大学），Souhwan Jung*（松石大学）

💡 毒舌点评

亮点在于问题定义非常清晰——将“AI处理”从传统伪造中剥离，并提出一个简单易懂的训练框架（AMLT）来提升模型对此类数据的鲁棒性，思路直接有效。短板则是实验对比略显单薄，仅用了两个AP模块进行训练和评估，且未深入探讨不同AP组合或更复杂场景下的泛化能力，对方法为何有效的理论解释也主要停留在t-SNE可视化，机制剖析不够深。

🔗 开源详情

代码：论文中未提及自己方法（AMLT）的代码仓库链接。
模型权重：未提及公开的模型权重。
数据集：评估所用数据集（VCTK, LibriSpeech, VoxCeleb, ASVspoof 2021, DSD-Corpus, In-The-Wild）为公开数据集，论文提供了引用。训练基线使用ASVspoof 2019公开数据。
Demo：未提供在线演示。
复现材料：给出了基线模型、AP模块的来源链接（开源工具），以及部分训练设置描述（如保持基线配置、调整输出层），但关键超参数（损失权重、学习率等）未说明。
论文中引用的开源项目：
- 神经编解码器：BigCodec, EnCodec, SpeechTokenizer, FunCodec
- 语音增强：ClearerVoice, VoiceFixer, Resemble-Enhance, Denoiser
- 基线模型/特征：wav2vec 2.0 (Hugging Face)

📌 核心摘要

要解决什么问题：音频深度伪造检测模型（如SSL-Conformer, SSL-AASIST）在面对经过神经编解码器（NC）或AI语音增强（SE）等AI处理（AP）的音频时，性能会严重下降，因为这些处理会引入网络伪影，导致模型误判。
方法核心是什么：提出辅助多标签训练（AMLT）。在训练阶段，为AP处理后的音频分配额外的辅助标签（如AP bona, AP sp），将原本的二分类（真实/伪造）扩展为多分类进行训练，使模型能显式学习区分AP数据。在评估阶段，则忽略辅助标签，回归原始的二分类进行性能评估。
与已有方法相比新在哪里：打破了音频深度伪造检测领域长期遵循的“二分类训练”范式。与简单的数据增强（Aug）方法相比，AMLT通过引入辅助标签，在训练时为AP数据提供了更细粒度的监督信号，理论上能学到更具区分性的特征表示。
主要实验结果如何：在SSL-Conformer和SSL-AASIST两个基线上，AMLT（4L-2L设置）相比基线和简单数据增强方法，在包含AP数据的评估集上均取得了最高的准确率。具体而言，4L-2L使SSL-AASIST准确率从65.89%提升至72.28%，SSL-Conformer从71.21%提升至76.63%，优于简单数据增强的69.58%和72.94%。混淆矩阵和t-SNE可视化显示，AMLT能更好地区分真实样本和经过AP处理的真实样本。
实际意义是什么：提供了一种提升音频深度伪造检测模型在真实世界（音频可能经过各种AI预处理）场景下鲁棒性的有效策略，有助于增强现有检测系统的实用性和安全性。
主要局限性是什么：方法有效性对训练时所选AP模块的代表性有依赖；论文未深入分析AMLT提升性能的深层原因（如为何多标签训练优于二分类训练）；实验仅验证了特定基线和有限AP组合下的效果，未在更广泛场景（如未知AP、混合AP）下验证泛化性。

28. Audio-Visual Deepfake Generation and Detection: An Exploratory Survey

✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #基准测试

👥 作者与机构

第一作者：Hang Xu（哈尔滨工程大学计算机科学与技术学院）
通讯作者：Boquan Li（哈尔滨工程大学计算机科学与技术学院，liboquan@hrbeu.edu.cn），Min Yu（中国科学院信息工程研究所，yumin@iie.ac.cn）
作者列表：Hang Xu（哈尔滨工程大学计算机科学与技术学院）、Yuning An（哈尔滨工程大学计算机科学与技术学院）、Pengrui Fu（哈尔滨工程大学计算机科学与技术学院）、Zhiyu Fan（中国科学院信息工程研究所）、Boquan Li（哈尔滨工程大学计算机科学与技术学院）、Jiakun Liu（哈尔滨工业大学计算学部）、Yachao Liang（中国科学院信息工程研究所）、Min Yu（中国科学院信息工程研究所）

💡 毒舌点评

这篇综述及时填补了音视频深度伪造这一新兴交叉领域综述的空白，系统梳理了生成技术、检测方法和关键数据集，并指出了现有检测器在泛化性和鲁棒性上的普遍短板。然而，其实验部分虽有价值，但复现条件苛刻（需对大量检测器重新实现/训练），且综述本身未提出新的检测算法，结论的普适性受限于所选的有限数据集和检测器。

🔗 开源详情

代码：论文中未提及提供本文相关的代码仓库链接。论文指出，许多被评估的检测器“要么没有开放其实现代码，要么发布的代码或模型不完整”，因此论文作者对这些检测器进行了重新实现或训练。
模型权重：未提及。
数据集：论文评估所用的数据集（FakeAVCeleb, IDForge, AVLips, LAV-DF）是已公开的，但论文未提供获取方式或整理脚本。
Demo：未提及。
复现材料：论文为每个检测器标注了参考文献，并说明了重新训练/评估的总体原则，但未提供详细的复现配置文件、超参数列表或检查点。
论文中引用的开源项目：论文作为综述，引用了大量生成与检测的原始工作（如Wav2Lip, SadTalker, SpeechForensics等），这些工作本身大多有公开代码，但论文并未将其整合为一个可运行的工具包。

📌 核心摘要

这篇论文旨在应对音视频深度伪造（Audio-Visual Deepfake）日益增长的威胁，通过系统综述和实验评估，深入分析当前生成技术、检测方法及挑战。方法核心是：1）梳理了音视频深度伪造的生成方法（唇形同步和说话人脸生成）和相关数据集（完全伪造与部分伪造）；2）将检测方法分为基于模态融合和基于模态不一致性两大类进行综述；3）通过泛化性实验和鲁棒性实验，评估了代表性检测器在多个数据集和多种失真下的可靠性。

与已有综述相比，本文新在首次专注于“音视频”这一具体伪造类型，并提供了针对该类型检测器的系统性可靠性评估。主要实验结果显示，大多数检测器泛化能力不足（表1），例如LIPINC在LAV-DF数据集上AUC仅为50.55%；同时抗干扰能力较弱（图3），高斯噪声和时间拉伸对多数检测器性能有显著破坏。本文的实际意义在于明确了当前检测技术的瓶颈，并为未来研究指明了方向，如发展基于内容相关性的检测策略、构建更具挑战性的测试基准等。主要局限性在于其评估覆盖的检测器和数据集有限，且未提供可直接复现的代码或模型。

主要实验结果表格：表1. 泛化性实验结果 (AUC, %)

检测器	FakeAVCeleb	IDForge	AVLips	LAV-DF
Yu et al. [17]	99.12*	83.46	88.07	65.13
LIPINC [30]	71.27	78.82	70.54	50.55
LipFD [14]	72.42	69.97	84.98*	41.95
VFD [31]	76.43*	43.34	65.10	55.94
SpeechForensics [32]	99.29	95.67	99.46	85.37
Feng et al. [33]	80.86	75.49	74.39	57.53
AVH-Align [34]	95.29*	14.72	86.61	88.70

注：星号()表示该结果基于监督学习设置（测试集与训练集有重叠），不反映泛化能力。*

29. Disentangled Authenticity Representation for Partially Deepfake Audio Localization

✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #音频安全

👥 作者与机构

第一作者：Siding Zeng（中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院）
通讯作者：论文中未明确标注通讯作者，依据学术惯例，可能为Siding Zeng或其他未列出作者。
作者列表：Siding Zeng（中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院）。论文中仅列出此一位作者，但机构信息显示有两个隶属单位。

💡 毒舌点评

论文的亮点在于其针对特定痛点（域偏移和边界模糊）设计了一套逻辑自洽、组件协同的解决方案，消融实验也扎实地证明了各模块的有效性。然而，其核心思想——将表示解耦为“目标”与“干扰”成分——在计算机视觉等领域已不新鲜，论文的创新更多体现在如何将这一通用思想“翻译”并适配到部分伪造音频定位这个具体任务上，属于扎实的工程优化而非理论或架构上的重大突破。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及公开模型权重。
数据集：实验使用了公开的PartialSpoof和ADD2023数据集，但论文本身未发布新数据集。
Demo：未提及在线演示。
复现材料：提供了较为详细的训练配置（优化器、学习率、批量大小、损失权重、硬件），但未提供完整的训练脚本、配置文件或预训练检查点。
论文中引用的开源项目：引用了Wav2Vec2预训练模型（作为特征提取器）。
总结：论文中未提及明确的开源计划。

📌 核心摘要

问题：部分深度伪造音频（仅少数片段被篡改）的定位面临两大挑战：训练与测试数据间的域偏移，以及真实与伪造段之间细微的过渡边界。
方法核心：提出DisAR双分支框架，将每个音频帧的特征显式解耦为“真实性特征”（捕捉伪造痕迹）和“干扰因素特征”（编码说话人、内容、环境等信息）。通过门控融合模块重建原始特征以避免信息丢失，并利用局部时间对比损失增强对篡改边界的敏感性。
创新点：与已有方法相比，新在显式地将真实性信息与干扰因素分离，而非隐式地让模型自行学习；并通过融合重构和对比损失分别保障信息完整性和提升边界精度。
主要结果：在PartialSpoof数据集上，DisAR取得了95.75%的F1分数（EER 3.51%）；在ADD2023 Track 2（跨域测试）上，F1分数达到76.74%（EER 19.05%），均优于报告的基线。关键消融实验证明，移除正交损失、融合模块或对比损失均会导致性能显著下降（例如，无正交损失时F1降至68.48%）。
- 主要对比实验结果（表1）：
方法 PartialSpoof F1 (%) ADD2023 Track 2 F1 (%)
AGO (ICASSP’24) 94.36 71.87
DisAR (本文) 95.75 76.74
- 跨域泛化结果（表3）：PartialSpoof -> ADD2023设置下，DisAR的F1分数为57.81%，远高于基线SPF（37.15%）和RSDM（34.09%）。
实际意义：提升了深度伪造音频检测在真实复杂场景（不同设备、环境、语言）下的可靠性和可解释性（通过解耦的特征）。
主要局限性：论文未讨论模型的计算开销和部署复杂度；实验仅在两个数据集上进行，其广泛适用性有待验证；未提供开源代码，限制了结果的快速复现与验证。

方法	PartialSpoof F1 (%)	ADD2023 Track 2 F1 (%)
AGO (ICASSP’24)	94.36	71.87
DisAR (本文)	95.75	76.74

ICASSP 2026 - 音频深度伪造检测#

📋 论文详情#

🥇 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection#

🥈 Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing#

🥉 The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures#

4. Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection#

5. StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection#

6. Assessing the Impact of Speaker Identity in Speech Spoofing Detection#

7. Subgraph Localization in the Subbands for Partially Spoofed Speech Detection#

8. On deepfake voice detection - It’s all in the presentation#

9. Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection#

10. Hanui: Harnessing Distributional Discrepancies for Singing Voice Deepfake Detection#

11. Localizing Speech Deepfakes Beyond Transitions via Segment-Aware Learning#

12. Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection#

13. AVATAR: Audio-Visual Adaptive Fusion via Trained Agent Reinforcement for Multimodal Deepfake Detection#

14. Few-Shot Recognition of Audio Deepfake Generators using Graph-Based Prototype Adaptation#

15. Audio Deepfake Detection at the First Greeting: “Hi!”#

16. Combining SSL Speech Features, Contextual Transformers and Mamba Models for Realistic Audio Spoofing Detection#

17. How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection#

18. KAN We Make Models Simpler for Audio Deepfake Detection with Kolmogorov–Arnold Networks?#

19. Robust Deepfake Audio Detection via Multi-Level Intermediate Feature Fusion#

20. AI-Generated Music Detection in Broadcast Monitoring#

21. Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study#

22. A Superb-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection#

23. Understanding the Strengths and Weaknesses of SSL Models for Audio Deepfake Model Attribution#

24. Towards Data Drift Monitoring for Speech Deepfake Detection in the Context of MLOps#

25. CompSpoof: A Dataset and Joint Learning Framework for Component-Level Audio Anti-Spoofing Countermeasures#

26. MSCT: Differential Cross-Modal Attention for Deepfake Detection#

27. Auxiliary Multi-Label Training For Improving the Robustness of Audio Deepfake Detection on AI-Processed Data#

28. Audio-Visual Deepfake Generation and Detection: An Exploratory Survey#

29. Disentangled Authenticity Representation for Partially Deepfake Audio Localization#

📎 相关论文

ICASSP 2026 - 音频深度伪造检测

📋 论文详情

🥇 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection

🥈 Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing

🥉 The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures

4. Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection

5. StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection

6. Assessing the Impact of Speaker Identity in Speech Spoofing Detection

7. Subgraph Localization in the Subbands for Partially Spoofed Speech Detection

8. On deepfake voice detection - It’s all in the presentation

9. Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection

10. Hanui: Harnessing Distributional Discrepancies for Singing Voice Deepfake Detection

11. Localizing Speech Deepfakes Beyond Transitions via Segment-Aware Learning

12. Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection

13. AVATAR: Audio-Visual Adaptive Fusion via Trained Agent Reinforcement for Multimodal Deepfake Detection

14. Few-Shot Recognition of Audio Deepfake Generators using Graph-Based Prototype Adaptation

15. Audio Deepfake Detection at the First Greeting: “Hi!”

16. Combining SSL Speech Features, Contextual Transformers and Mamba Models for Realistic Audio Spoofing Detection

17. How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection

18. KAN We Make Models Simpler for Audio Deepfake Detection with Kolmogorov–Arnold Networks?

19. Robust Deepfake Audio Detection via Multi-Level Intermediate Feature Fusion

20. AI-Generated Music Detection in Broadcast Monitoring

21. Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study

22. A Superb-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection

23. Understanding the Strengths and Weaknesses of SSL Models for Audio Deepfake Model Attribution

24. Towards Data Drift Monitoring for Speech Deepfake Detection in the Context of MLOps

25. CompSpoof: A Dataset and Joint Learning Framework for Component-Level Audio Anti-Spoofing Countermeasures

26. MSCT: Differential Cross-Modal Attention for Deepfake Detection

27. Auxiliary Multi-Label Training For Improving the Robustness of Audio Deepfake Detection on AI-Processed Data

28. Audio-Visual Deepfake Generation and Detection: An Exploratory Survey

29. Disentangled Authenticity Representation for Partially Deepfake Audio Localization