音频深度伪造检测

Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection

📄 Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection #音频深度伪造检测 #迁移学习 #自监督学习 #端到端 🔥 8.0/10 | 前10% | #音频深度伪造检测 | #迁移学习 #自监督学习 | #迁移学习 #自监督学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jianqiao Cui（清华大学自动化系）通讯作者：未说明（论文中星号标注了Bingyao Yu为通讯作者，但需根据星号原文确认，此处依据“*Corresponding author”和“∗”对应Bingyao Yu）作者列表：Jianqiao Cui（清华大学自动化系，长三角研究院），Bingyao Yu（清华大学自动化系），Shun Qin（清华大学长三角研究院） 💡 毒舌点评本文提出的“离散语义标签与连续声学特征融合”思路新颖，且实验证明HAT模块对跨数据集鲁棒性提升显著。然而，其核心性能高度依赖于第三方模型GLM-4-Voice生成的语义标签质量，且所有实验均基于英语数据集，对跨语言泛化和实时攻击的鲁棒性未做验证，实际部署还需考量计算开销。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：论文中未提及公开其微调后的模型权重。数据集：使用了公开的CodecFake和ASVspoof2021数据集，论文中未提及数据获取方式的特殊说明。 Demo：论文中未提及提供在线演示。复现材料：论文提供了模型架构图（图1）、关键超参数设置（学习率、batch size、优化器、训练轮数等）和模型配置（冻结层策略、HRC参数），这些信息有助于复现。论文中引用的开源项目： Whisper（OpenAI）：作为核心骨干网络。 GLM-4-Voice（THUDM）：用于生成离散语义标签。 CodecFake、ASVspoof2021：作为评估基准数据集。 📌 核心摘要该论文旨在解决当前基于神经编解码器的语音合成技术生成的深度伪造音频难以被现有检测方法有效识别的问题。其核心方法是将预训练的Whisper模型用于音频深度伪造检测，并引入两个关键模块：1）混合音频标记（HAT），将来自GLM-4-Voice的离散语义标签与Whisper编码器的连续声学特征进行融合，以捕捉语义与声学之间的不一致；2）分层残差连接（HRC），通过自适应地选择和整合Whisper编码器不同层次的输出特征，来保留多层次的伪造线索。与已有的单模态声学特征方法或简单的特征加权和方法相比，该方法能更有效地利用语义信息并保留关键的层次特征。在ASVspoof2021 DF、LA和CodecFake验证集上的实验表明，其最佳模型（Wsp with HAT&HRC）取得了0.67%的平均等错误率（EER），相较于强基线模型（如XLS-R）的EER降低了高达46%。具体实验数据如下： ...

Disentangled Authenticity Representation for Partially Deepfake Audio Localization

📄 Disentangled Authenticity Representation for Partially Deepfake Audio Localization #音频深度伪造检测 #对比学习 #语音伪造检测 #音频安全 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #音频安全学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Siding Zeng（中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院）通讯作者：论文中未明确标注通讯作者，依据学术惯例，可能为Siding Zeng或其他未列出作者。作者列表：Siding Zeng（中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院）。论文中仅列出此一位作者，但机构信息显示有两个隶属单位。 💡 毒舌点评论文的亮点在于其针对特定痛点（域偏移和边界模糊）设计了一套逻辑自洽、组件协同的解决方案，消融实验也扎实地证明了各模块的有效性。然而，其核心思想——将表示解耦为“目标”与“干扰”成分——在计算机视觉等领域已不新鲜，论文的创新更多体现在如何将这一通用思想“翻译”并适配到部分伪造音频定位这个具体任务上，属于扎实的工程优化而非理论或架构上的重大突破。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：实验使用了公开的PartialSpoof和ADD2023数据集，但论文本身未发布新数据集。 Demo：未提及在线演示。复现材料：提供了较为详细的训练配置（优化器、学习率、批量大小、损失权重、硬件），但未提供完整的训练脚本、配置文件或预训练检查点。论文中引用的开源项目：引用了Wav2Vec2预训练模型（作为特征提取器）。总结：论文中未提及明确的开源计划。 📌 核心摘要问题：部分深度伪造音频（仅少数片段被篡改）的定位面临两大挑战：训练与测试数据间的域偏移，以及真实与伪造段之间细微的过渡边界。方法核心：提出DisAR双分支框架，将每个音频帧的特征显式解耦为“真实性特征”（捕捉伪造痕迹）和“干扰因素特征”（编码说话人、内容、环境等信息）。通过门控融合模块重建原始特征以避免信息丢失，并利用局部时间对比损失增强对篡改边界的敏感性。创新点：与已有方法相比，新在显式地将真实性信息与干扰因素分离，而非隐式地让模型自行学习；并通过融合重构和对比损失分别保障信息完整性和提升边界精度。主要结果：在PartialSpoof数据集上，DisAR取得了95.75%的F1分数（EER 3.51%）；在ADD2023 Track 2（跨域测试）上，F1分数达到76.74%（EER 19.05%），均优于报告的基线。关键消融实验证明，移除正交损失、融合模块或对比损失均会导致性能显著下降（例如，无正交损失时F1降至68.48%）。主要对比实验结果（表1）：方法 PartialSpoof F1 (%) ADD2023 Track 2 F1 (%) AGO (ICASSP’24) 94.36 71.87 DisAR (本文) 95.75 76.74 跨域泛化结果（表3）：PartialSpoof -> ADD2023设置下，DisAR的F1分数为57.81%，远高于基线SPF（37.15%）和RSDM（34.09%）。实际意义：提升了深度伪造音频检测在真实复杂场景（不同设备、环境、语言）下的可靠性和可解释性（通过解耦的特征）。 ...

Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection

📄 Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection #音频深度伪造检测 #领域适应 #鲁棒性 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #领域适应 | #鲁棒性学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Woongjae Lee (Soongsil University, Seoul, Republic of Korea) 通讯作者：Souhwan Jung* (Soongsil University, Seoul, Republic of Korea) 作者列表：Woongjae Lee (松石大学), Hung Dinh-Xuan (松石大学), Thien-Phuc Doan (松石大学), Souhwan Jung* (松石大学) 💡 毒舌点评这篇论文的亮点在于巧妙地将LoRA从语言模型“移植”并动态化应用于音频安全领域，通过“感知-路由-适应”的范式平衡了模型适应新噪声域与防止灾难性遗忘的矛盾，工程思路清晰。但短板在于其“动态”选择的噪声分类器本身是一个额外的误差源，且论文并未在包含未知/混合噪声的更真实场景中验证其端到端效果，离“完全鲁棒”尚有距离。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开预训练的骨干模型、噪声分类器或LoRA适配器权重。数据集：论文描述了如何基于公开数据集（LibriSpeech, VCTK, TIMIT, ASVspoof 2019/2021）构建噪声增强数据集，但并未提供构建好的数据集本身或下载链接。 Demo：未提及。复现材料：未提供训练超参数（如学习率、batch size）、优化器、硬件环境等关键复现信息。论文中引用的开源项目：论文中提到了依赖的开源工具/模型，如RawBoost [6]、librosa（用于音高/时间变换）、torchaudio/sox（用于滤波）、wav2vec 2.0 [28]、SSAST [29]等，但未提供具体使用版本或配置。总结：论文中未提及任何开源计划。 📌 核心摘要问题：现有的音频深度伪造检测（ADD）模型在干净环境下性能优越，但在真实世界的复杂噪声和语音操纵下性能严重下降，而传统的数据增强和微调方法存在泛化性差或导致灾难性遗忘的问题。方法核心：提出一个动态噪声感知多LoRA（DNA Multi LoRA）框架。该框架首先通过一个轻量级的噪声分类模块识别输入音频的噪声类型，然后根据分类结果动态选择一个预先训练好的、专门针对该噪声类型的LoRA适配器，将其集成到冻结的ADD模型骨干网络中进行检测。创新点：相比于现有方法，本文创新性地结合了噪声感知与参数高效微调（LoRA）。1）实现了“一个骨干网络 + 多个轻量LoRA适配器”的模块化设计，扩展新噪声域无需重训整个模型；2）通过动态适配机制避免了顺序微调中的灾难性遗忘问题。主要实验结果：在多个基准数据集（包括构建的噪声增强数据集和真实世界数据集）上，DNA Multi LoRA框架相比基线模型实现了平均41.4%的等错误率（EER）降低。在池化EER上，该方法（AASIST-SSL: 7.93%, ConformerTCM: 7.55%）接近全量微调的效果（约8.1%），但参数量仅为全量微调的约8.5%，并有效避免了灾难性遗忘（如图2所示，顺序微调会导致EER从约0.2%飙升至约5%）。每个噪声特定LoRA适配器在其目标域上均显著优于基线（表4），例如在D4（回声）域，AASIST-SSL的EER从10.42%降至0.92%。实际意义：提供了一种高效、可扩展且可部署的解决方案，使ADD系统能够在不进行全面重训的情况下，动态适应多种现实世界噪声环境，提升了模型的实用性和鲁棒性。主要局限性：框架的性能依赖于噪声分类器的准确性，且目前仅在预定义的10种噪声类别上进行了验证；对于完全未知的噪声类型或复杂混合噪声，框架的适应能力和鲁棒性尚待进一步研究。 🏗️ 模型架构如图1（![图1: Dynamic Noise-Aware Multi LoRA framework architecture](https://nanless.github.io/audio-paper-digest-images/icassp-2026/2026-04-29/11463424-0.png))所示，DNA Multi LoRA框架是一个三阶段系统： ...

Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing

📄 Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing #音频深度伪造检测 #图神经网络 #自监督学习 #动态卷积 🔥 8.5/10 | 前10% | #音频深度伪造检测 | #图神经网络 | #自监督学习 #动态卷积学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yingdong Li（中山大学计算机学院）通讯作者：Kun Zeng（中山大学计算机学院， zengkun2@mail.sysu.edu.cn）作者列表：Yingdong Li（中山大学计算机学院）、Chengxin Chen（中国移动互联网公司，中国移动通信集团公司）、Dong Chen（中山大学计算机学院）、Nanli Zeng（中国移动互联网公司，中国移动通信集团公司）、Kun Zeng（中山大学计算机学院） 💡 毒舌点评亮点在于将动态卷积与物理视角的多视图频谱分析相结合，并为强大的AASIST图网络框架增加了巧妙的局部信息聚合机制（LVM和SRM），技术融合顺畅且针对性强。短板是双分支前端（SSL + 频谱）不可避免地带来了计算开销，论文未对模型效率（如参数量、推理速度）进行分析或讨论，这在实际部署中可能是一个考量点。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/lydsera/LocalSpoofDetect。模型权重：论文中未提及是否公开模型权重。数据集：使用的是公开数据集（ASVspoof 2019 LA， CFSD），论文未提及自行发布新数据集。 Demo：论文中未提及提供在线演示。复现材料：论文中提供了详尽的实现细节（见3.2节），包括音频采样率、频谱图参数、SSL模型处理方式、训练优化器、学习率、批大小、损失函数、数据增强方法（RawBoost）以及训练硬件（A100 GPU），为复现提供了充分信息。引用的开源项目： wav2vec 2.0 (XLS-R模型) RawNet2 AASIST (原始架构) RawBoost (数据增强方法) 📌 核心摘要问题：针对日益多样的语音深度伪造技术，现有音频反欺骗方法在模型复杂度和鲁棒性之间难以取得平衡，且固定的特征提取方式难以自适应地捕获不同尺度的伪造痕迹。方法核心：提出一个双分支前端与增强图网络后端相结合的模型。前端包含自监督（SSL）分支和新设计的频谱分析分支。频谱分支采用“对称性引导内核选择（SKS）”块，通过物理视角（时间/频谱对称性）分析生成上下文图，动态加权不同尺度的卷积核。后端在AASIST框架上新增了“局部变化主节点（LVM）”和“稀疏残差主节点（SRM）”，以建模精细的局部伪造模式。创新点：(i) 利用频谱对称性指导动态卷积，自适应捕获多尺度伪造伪影；(ii) 采用残差式快捷连接简化前端特征融合，无需复杂融合模块；(iii) 增强图神经网络后端，引入LVM和SRM节点以聚合局部判别信息。实验结果：在ASVspoof 2019 LA和中文伪造语音数据集（CFSD）上取得了当前最优性能，EER分别为0.08%和0.10%，min t-DCF为0.0024。消融实验证实了每个提出组件的有效性。实际意义：该模型能有效、鲁棒地检测合成与伪造语音，可增强语音生物识别等系统的安全性，对抵御日益逼真的语音伪造攻击具有重要价值。主要局限性：未分析模型的计算效率（参数量、FLOPs、推理延迟），可能限制其在资源受限场景的应用；双分支架构对SSL预训练模型的依赖性较强。 🏗️ 模型架构模型整体架构为双分支前端 + 增强图网络后端，具体流程如下： ...

EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection

📄 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection #音频深度伪造检测 #数据集 #语音伪造检测 #重放攻击 #基准测试 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #语音伪造检测 #重放攻击学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Tong Zhang (武汉大学网络空间安全学院) 通讯作者：Yanzhen Ren (武汉大学网络空间安全学院) 作者列表：Tong Zhang (武汉大学网络空间安全学院), Yihuan Huang (武汉大学网络空间安全学院), Yanzhen Ren (武汉大学网络空间安全学院; 教育部空天信息安全与可信计算重点实验室) 💡 毒舌点评亮点：这篇论文如同为反语音欺诈领域量身打造了一套更逼真的“演习靶场”，精准戳中了现有检测模型在真实世界遭遇“物理回放”攻击时不堪一击的痛点，数据集构建的系统性和全面性值得称道。短板：它本质上是一份详尽的“战场报告”和“新式靶标”而非“新式武器”，在检测模型本身并无创新，且基线评估略显常规，距离真正解决“重放攻击”这一顽疾还有距离。 🔗 开源详情代码：提供。论文明确说明数据集、代码和自动化录制工具已开源，链接为：https://github.com/EchoFake/EchoFake/ 模型权重：未提及。论文仅评估了现有基线模型，未提出新模型。数据集：已公开。EchoFake数据集可通过上述GitHub仓库获取。 Demo：未提及。复现材料：提供了详尽的训练细节（学习率、batch size等）、超参数、数据集划分统计、预处理流程，复现基础良好。论文中引用的开源项目：列出了所使用的多种开源TTS模型，如XTTSv2, F5-TTS, SpeechT5, LLaSA-1B等（详见参考文献和数据集构建部分）。论文中未提及开源计划：所��必要的复现材料已在论文发表时一并开源。 📌 核心摘要问题：现有的音频深度伪造检测模型在实验室环境下表现良好，但在面对真实世界中常见的低成本“物理重放攻击”（即将合成语音通过扬声器播放并重新录制）时，性能会急剧下降，严重威胁其实际部署的可靠性。方法：为了解决这一问题，作者构建了EchoFake数据集。其核心在于首次系统地将前沿的零样本文本转语音（TTS）生成的伪造语音与多样化的物理重放录音相结合。数据集包含四种音频类型：真实语音、重放真实语音、伪造语音、重放伪造语音。创新：与已有数据集（如ASVspoof）主要关注单一攻击方式（仅合成或仅重放真实语音）不同，EchoFake的创新在于覆盖了更复杂的复合攻击场景——即“合成+重放”。同时，它采用了多种最新开源的零样本TTS模型，并在采集重放数据时系统化地变化了播放/录音设备、环境、距离等条件。主要实验结果：使用EchoFake训练的三个基线模型（RawNet2， AASIST， Wav2Vec2）在跨数据集评估中表现出更好的泛化能力，平均EER显著低于在传统数据集上训练的模型（见表3）。模型在EchoFake封闭集评估中表现优异（如AASIST的二分类EER为0.46%），但在开放集评估中性能大幅下降（如AASIST的二分类EER升至14.88%），重放样本是主要错误来源（见表4）。消融实验证明，在训练数据中包含重放样本，能显著提升模型在重放攻击场景下的鲁棒性，而在传统基准上性能损失很小。实际意义：EchoFake提供了一个更接近真实威胁模型的评估基准，有助于推动检测算法从实验室走向实际应用，提升对复杂欺诈攻击的防御能力。局限性：尽管模型在EchoFake上得到提升，但在面对未见过的重放条件（开放集）时，性能仍有明显下降，表明在建模复杂信道效应和提高跨设备/环境泛化能力方面仍有挑战。论文未提出新的检测模型。 🏗️ 模型架构未说明。本文是一篇数据集论文，其核心贡献是构建EchoFake数据集并评估现有模型。论文中未提出新的检测模型架构。评估所使用的三个基线模型（RawNet2, AASIST, Wav2Vec2）的详细架构并非本文创新点，故在此不展开描述。 ...

Few-Shot Recognition of Audio Deepfake Generators using Graph-Based Prototype Adaptation

📄 Few-Shot Recognition of Audio Deepfake Generators using Graph-Based Prototype Adaptation #音频深度伪造检测 #少样本学习 #图神经网络 #音频取证 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #图神经网络 | #少样本学习 #音频取证学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yupeng Tan (广西大学计算机、电子信息学院，广西人工智能学院) 通讯作者：Wei Xie (广西大学计算机、电子信息学院，广西人工智能学院) 作者列表：Yupeng Tan (广西大学计算机、电子信息学院，广西人工智能学院)，Wei Xie (广西大学计算机、电子信息学院，广西人工智能学院) 💡 毒舌点评本文巧妙地将图神经网络与转导学习范式结合，用于解决少样本音频深度伪造生成器识别中因数据稀缺导致的原型估计偏差问题，技术路线完整且实验结果显著优于基线。然而，其核心思想——利用无标签数据（查询集）的结构信息来优化有标签数据的原型表示——在少样本学习领域并非首创（如标签传播等），创新深度有限，且论文未提供任何开源代码或模型权重，对后续研究的可复现性构成障碍。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：使用了公开数据集ASVspoof2019 LA和MLAAD，论文未提及额外数据。 Demo：未提供在线演示。复现材料：论文提供了一些关键的超参数（如学习率、图top-k值、episode采样数），但缺少训练硬件信息、完整代码配置、权重文件以及Focal Loss和对比损失中的具体超参数（如γ, m）。依赖的开源项目/模型： CLAP 音频编码器（论文引用[17]）图卷积网络基础架构（论文引用[18]） Focal Loss（论文引用[19]）对比学习框架（论文引用[20]）消融实验中使用的RawNet3（论文引用[29]）总体评价：论文中未提及完整的开源计划。 📌 核心摘要问题：在音频取证中，识别深伪造音频的具体生成器类型至关重要，但新兴生成器的有标签样本极少，传统少样本方法因数据稀疏导致原型估计偏差大、特征区分度低。方法：提出基于图的原型适应框架。在每个少样本任务中，将支持集和查询集样本构建成一个联合图（基于样本间距离的稀疏连接），通过图适应模块进行信息传播和特征精炼，再估计更可靠的原型进行分类。创新：1）采用转导学习范式，联合利用有标签和支持样本构建任务特定图；2）设计图适应模块，通过图卷积网络精炼特征并校准原型，缓解原型偏差；3）在元测试阶段引入对比损失进行自适应。实验：在ASVspoof2019 LA和MLAAD数据集上的5-way设置中，GPA方法在所有shot数下均取得最优准确率，例如在ASV2019LA上5-shot相比最强基线提升3.17%，10-shot提升6.12%，20-shot提升8.28%。消融实验验证了各组件的必要性。意义：为应对新出现的音频深伪造威胁提供了一种有效的少样本识别方案，增强了音频取证系统对未知生成器的适应能力。局限性：方法依赖预训练的CLAP编码器和特定的图构建策略，计算复杂度随样本数增加；实验仅在两个数据集上进行，对更多样化生成器和真实场景的泛化能力有待验证。 🏗️ 模型架构模型架构图如图2所示。 ...

Hanui: Harnessing Distributional Discrepancies for Singing Voice Deepfake Detection

📄 Hanui: Harnessing Distributional Discrepancies for Singing Voice Deepfake Detection #音频深度伪造检测 #生成模型 #自监督学习 #音频分类 #鲁棒性 🔥 8.0/10 | 前10% | #音频深度伪造检测 | #生成模型 | #自监督学习 #音频分类学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：未说明（论文标题后并列列出三位作者，无明确标注）通讯作者：未说明作者列表：Seyun Um（延世大学电气电子工程系）、Doyeon Kim（延世大学电气电子工程系）、Hong-Goo Kang（延世大学电气电子工程系） 💡 毒舌点评亮点：将自编码器在异常检测中的“分布差异”思想巧妙地迁移到深度伪造检测，通过一个简单而深刻的假设（真实声音比伪造声音更难被自编码器准确重建）驱动整个模型设计，思路清晰且有效，泛化性能突出。短板：整个框架依赖一个精心设计且训练好的自编码器，其计算和训练开销可能高于一些单阶段的判别模型；此外，方法对“伪造声音分布更简单”这一假设的有效性，可能依赖于当前主流伪造技术的水平，面对未来更复杂、更接近真实分布的伪造方法，其优势是否会减弱尚待验证。 🔗 开源详情代码：是，论文明确提供了GitHub代码仓库链接：https://github.com/sam-0927/Hanui 模型权重：论文中未提及是否公开预训练模型权重。数据集：论文使用的SingFake和CtrSVDD数据集是公开的，但作者说明因版权限制无法直接分发其重新下载的数据，建议读者自行从YouTube和Bilibili下载原始歌曲。 Demo：未提及。复现材料：论文提供了相当详细的训练细节，包括优化器设置、学习率、训练轮次、batch size、损失函数权重等，以及完整的模型架构描述，有助于复现。论文中引用的开源项目：论文提到了多个作为基线的开源工作或模型，如LFCC+ResNet [3], AASIST [12], wav2vec2 [15], wav2vec2+AASIST [14]，以及用于音频压缩的Descript Audio Codec [27]。 📌 核心摘要要解决什么问题：现有歌唱语音深度伪造检测（SVDD）方法在面对未见过的歌手、音乐风格和语言时，泛化能力不足，性能下降明显。方法核心是什么：提出名为Hanui的新框架，其核心思想源自异常检测：利用自编码器（AE）重建输入信号，然后通过判别器提取特征图来衡量原始信号与重建信号之间的分布差异。核心假设是：真实歌声的分布更复杂，因此其原始-重建差异大于伪造歌声的差异。与已有方法相比新在哪里：不同于以往直接学习分类特征的方法，Hanui显式地建模并利用了真实与伪造信号在“可重建性”上的分布差异。具体创新包括：1）提出基于分布差异的SVDD新范式；2）采用两阶段训练（先训练仅用真实数据的自编码器，再训练用真实+伪造数据的检测器）；3）设计了基于多频段判别器中间特征图的检测器融合策略。主要实验结果如何：在SingFake和CtrSVDD数据集上，Hanui取得了最优的等错误率（EER）。例如，在最挑战的未见条件T04（未见歌手、语言、风格）上，Hanui的EER为21.36%，相比最强基线wav2vec2+AASIST（34.18%）绝对降低了12.82个百分点，相对降低约37.5%。消融实验证实了分布差异假设（图2）和中间层融合策略的有效性。实际意义是什么：该方法显著提升了在真实、复杂场景下（歌手、语言、风格均未知）检测伪造歌声的鲁棒性，对于构建可靠的内容安全系统具有直接应用价值。主要局限性是什么：1）模型训练分为两个阶段，且需要训练多个判别器和检测器模块，整体计算成本可能较高；2）对“伪造声音分布更简单”这一核心假设的验证，依赖于当前生成模型的特性，其长期有效性有待观察；3）论文中未提及模型权重是否开源，且因版权限制无法分发训练数据，这限制了完全的复现。 🏗️ 模型架构 Hanui的整体架构如图1所示，主要由两个阶段、两大模块构成：自编码器（含判别器）和深度伪造检测器。 ...

How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection

📄 How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection #音频深度伪造检测 #数据集 #模型评估 #语音合成 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #模型评估 #语音合成学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yixuan Xiao (斯图加特大学自然语言处理研究所) 通讯作者：未说明（论文未明确指出）作者列表：Yixuan Xiao (斯图加特大学自然语言处理研究所)、Florian Lux (AppTek GmbH)、Alejandro Pérez-González-de-Martos (AppTek GmbH)、Ngoc Thang Vu (斯图加特大学自然语言处理研究所) 💡 毒舌点评论文精准地抓住了“编解码器重合成音频既像好人又像坏人”这个痛点，并用一套严谨的实验给出了“看它心是为压缩而跳还是为合成而跳”的诊断思路，实用性拉满。不过，作者似乎更满足于揭示“病症”和提出“用药建议”，而对如何从根源上（即检测器架构层面）提升对这类模糊样本的鲁棒性，着墨甚少。 🔗 开源详情代码：提供。论文中给出了GitHub仓库链接：https://github.com/XIAOYixuan/IMS-ADD/tree/codec-add，包含了训练脚本和代码库。模型权重：未明确提及是否开源预训练的检测器权重。数据集：公开。提供了两个获取途径：HuggingFace (https://huggingface.co/datasets/Flux9665/CodecDeepfakeDetection) 和 Zenodo (https://zenodo.org/records/17225924)。 Demo：未提及。复现材料：提供了详细的训练超参数、数据增强策略、��据集划分统计等关键复现信息。论文中引用的开源项目：引用了多个开源TTS系统和NAC模型作为攻击源，包括Llasa (XCodec2), MARS5 (EnCodec), CSM (Mimi), OpenAudio S1-mini (DAC), CosyVoice2/Chatterbox (S3Tokenizer)，以及检测器AASIST。 📌 核心摘要本文针对音频深度伪造检测领域中神经音频编解码器（NAC）的双重角色问题展开研究。NAC既可用于音频压缩传输（产生编解码器重合成音频CoRS），又可作为语音合成系统的声码器（产生编解码器语音合成音频CoSG）。这使得训练检测器时面临困境：CoRS应标注为真实还是伪造？为解决此问题，本文构建了一个基于ASVspoof 5协议的扩展数据集CodecDeepfakeDetection，包含多种TTS系统（Llasa, MARS5等）和NACs（EnCodec, Mimi, DAC等）。核心创新在于系统性地评估了将CoRS标注为“真实”或“伪造”对不同检测器（X-AASIST, LWBN）性能的影响。实验发现，标注策略的有效性取决于NAC的设计目标：对于以压缩为导向的NAC（如EnCodec, DAC），将其重合成音频标注为伪造会导致检测器过度学习编解码器伪影，从而错误拒绝经该NAC压缩的真实音频；而对于以合成为导向的NAC（如Mimi），将其标注为伪造更有效。主要实验结果表明，未使用NAC数据增强的基线模型在面对混合了CoRS的测试集时，等错误率（EER）高达约40%，而采用合适的增强策略（对部分NAC作为真实数据）可将其显著降低约8-11个百分点。本文的实际意义在于为构建对编解码器技术演变更鲁棒的检测系统提供了明确的数据标注指南。主要局限性在于研究主要集中于分析和提供见解，而非提出一个全新的、能统一处理此类模糊性的检测模型。 ...

ICASSP 2026 - 音频深度伪造检测论文列表

ICASSP 2026 - 音频深度伪造检测共 29 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfa 8.5分前25% 🥈 Dynamic Spectrogram Analysis with Local-Aware Graph Networks 8.5分前10% 🥉 The Impact of Audio Watermarking on Audio Anti-Spoofing Coun 8.5分前25% 4. Beyond Face Swapping: A Diffusion-Based Digital Human Benchm 8.1分前25% 5. StreamMark: A Deep Learning-Based Semi-Fragile Audio Waterma 8.0分前25% 6. Assessing the Impact of Speaker Identity in Speech Spoofing 8.0分前25% 7. Subgraph Localization in the Subbands for Partially Spoofed 8.0分前25% 8. On deepfake voice detection - It’s all in the presentation 8.0分前25% 9. Dynamic Noise-Aware Multi Lora Framework Towards Real-World 8.0分前25% 10. Hanui: Harnessing Distributional Discrepancies for Singing V 8.0分前10% 11. Localizing Speech Deepfakes Beyond Transitions via Segment-A 8.0分前25% 12. Discrete-Continuous Fusion With Adaptive Hierarchical Featur 8.0分前10% 13. AVATAR: Audio-Visual Adaptive Fusion via Trained Agent Reinf 7.5分前25% 14. Few-Shot Recognition of Audio Deepfake Generators using Grap 7.5分前25% 15. Audio Deepfake Detection at the First Greeting: “Hi!” 7.5分前25% 16. Combining SSL Speech Features, Contextual Transformers and M 7.5分前25% 17. How to Label Resynthesized Audio: The Dual Role of Neural Au 7.5分前25% 18. KAN We Make Models Simpler for Audio Deepfake Detection with 7.5分前25% 19. Robust Deepfake Audio Detection via Multi-Level Intermediate 7.5分前25% 20. AI-Generated Music Detection in Broadcast Monitoring 7.0分前50% 21. Leveraging Large Multimodal Models for Audio-Video Deepfake 7.0分前25% 22. A Superb-Style Benchmark of Self-Supervised Speech Models fo 7.0分前25% 23. Understanding the Strengths and Weaknesses of SSL Models for 7.0分前50% 24. Towards Data Drift Monitoring for Speech Deepfake Detection 7.0分前25% 25. CompSpoof: A Dataset and Joint Learning Framework for Compon 7.0分前25% 26. MSCT: Differential Cross-Modal Attention for Deepfake Detect 6.5分前10% 27. Auxiliary Multi-Label Training For Improving the Robustness 6.5分前50% 28. Audio-Visual Deepfake Generation and Detection: An Explorato 6.5分前25% 29. Disentangled Authenticity Representation for Partially Deepf 6.5分前25% 📋 论文详情 🥇 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #语音伪造检测 #重放攻击 ...

KAN We Make Models Simpler for Audio Deepfake Detection with Kolmogorov–Arnold Networks?

📄 KAN We Make Models Simpler for Audio Deepfake Detection with Kolmogorov–Arnold Networks? #音频深度伪造检测 #自监督学习 #KAN ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #自监督学习 | #KAN 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Hoan My Tran (Univ Rennes, CNRS, IRISA, Lannion, France) 通讯作者：David Guennec (Univ Rennes, CNRS, IRISA, Lannion, France), Aghilas Sini (Univ Le Mans, LIUM, Le Mans, France) 作者列表：Hoan My Tran†, Aghilas Sini∗, David Guennec†, Arnaud Delhay†, Damien Lolive‡, Pierre-François Marteau‡ †: Univ Rennes, CNRS, IRISA, Lannion, France ∗: Univ Le Mans, LIUM, Le Mans, France ‡: Univ Bretagne Sud, CNRS, IRISA, Vannes, France 💡 毒舌点评亮点：这篇论文的核心价值在于其“反常识”的结论——在强大的预训练模型（XLS-R）面前，复杂的下游分类器可能是不必要的，一个简单的全连接层（甚至只有2K参数）就能达到极具竞争力的性能，这为轻量化部署提供了重要思路。短板：虽然论文展示了KAN在平均EER上的优势，但其提升在部分数据集（如FoR）上并不一致，且论文缺乏对“为何KAN能更有效利用高维SSL特征”这一核心机制的深入理论或可视化分析，更像是一次成功的实验观察而非深刻的机理解释。 ...