AVATAR: Audio-Visual Adaptive Fusion via Trained Agent Reinforcement for Multimodal Deepfake Detection

📄 AVATAR: Audio-Visual Adaptive Fusion via Trained Agent Reinforcement for Multimodal Deepfake Detection #音频深度伪造检测 #强化学习 #多模态模型 #鲁棒性 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #强化学习 | #多模态模型 #鲁棒性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Ebad Shabbir(DSEU-OKHLA, New Delhi, India) 通讯作者:Jiechao Gao(Stanford University, Stanford, CA, USA) 作者列表:Ebad Shabbir(DSEU-OKHLA, New Delhi, India),Pushkar Arora(DSEU-OKHLA, New Delhi, India),Rakshita Saksaina(DSEU-OKHLA, New Delhi, India),Tiange Xie(Institute of Information Engineering, Chinese Academy of Sciences, Beijing, China),Jiechao Gao(Stanford University, Stanford, CA, USA) 💡 毒舌点评 本文巧妙地将强化学习(PPO)引入多模态融合权重的动态决策,思路新颖且在小规模实验上取得了令人瞩目的性能提升,证明了“让模型自己决定信哪个”的可行性。然而,其所有实验仅基于1000个片段的微小数据集进行,这就像在沙盘里赢得了一场战争,其结论能否推广到真实世界的海量、复杂数据洪流中,要打一个大大的问号,极大地限制了工作的说服力。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 338 words

Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection

📄 Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection #音频深度伪造检测 #多模态模型 #基准测试 #扩散模型 #数据集 🔥 8.1/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #基准测试 #扩散模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:未说明(论文标注Jiaxin Liu†和Jia Wang†贡献相等,未明确谁为第一) 通讯作者:Saihui Hou⋆, Zhaofeng He⋆ 作者列表:Jiaxin Liu(北京邮电大学,BUPT)、Jia Wang(北京师范大学,BNU)、Saihui Hou(未说明具体机构,可能来自BUPT或BNU)、Min Ren(滴滴出行,Didi Chuxing)、Huijia Wu(滴滴出行,Didi Chuxing)、Long Ma(未说明)、Renwang Pei(未说明)、Zhaofeng He(未说明具体机构,可能来自BUPT或BNU) 💡 毒舌点评 亮点在于构建了第一个专门为评估“扩散模型驱动的数字人”伪造而设计的大规模多模态数据集(DigiFakeAV),数据生成流程严谨,有效暴露了现有检测器的脆弱性,为领域提供了急需的试金石。短板则是提出的检测方法DigiShield虽然有效,但更像一个验证多模态融合有效性的“基线”而非一个具有颠覆性的新架构,且其在DigiFakeAV上80.1%的AUC也说明“道高一尺,魔高一丈”,真正的安全挑战远未解决。 🔗 开源详情 代码:论文中提及项目主页 https://hubeiwuhanliu.github.io/DigiFakeAV.github.io/,但未明确是否提供代码仓库链接。 模型权重:未提及是否公开DigiShield或其他模型的权重。 数据集:通过项目主页 https://hubeiwuhanliu.github.io/DigiFakeAV.github.io/ 提供获取信息,表明将开源。 Demo:未提及在线演示。 复现材料:给出了部分实现细节(如预处理、骨干网络ResNet-50、采样30帧、数据增强),但缺乏关键训练超参数(优化器、学习率等),复现材料不完整。 论文中引用的开源项目:引用了多个作为数据生成和对比的方法/模型,如Sonic [8], Hallo [5], EchoMimic [4], CosyVoice 2 [16], 以及基线检测器如Meso4 [19], Xception [2]等。 📌 核心摘要 要解决什么问题:现有深度伪造检测数据集和技术主要针对过时的面交换方法,无法有效评估和应对由扩散模型生成的、具有高度真实性和多模态一致性的新一代数字人伪造,导致现有检测器性能在现实威胁面前大幅下降。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 389 words

Combining SSL Speech Features, Contextual Transformers and Mamba Models for Realistic Audio Spoofing Detection

📄 Combining SSL Speech Features, Contextual Transformers and Mamba Models for Realistic Audio Spoofing Detection #音频深度伪造检测 #状态空间模型 #预训练 #自监督学习 #基准测试 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #状态空间模型 | #预训练 #自监督学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Luis Buera(Microsoft) 通讯作者:未说明(论文作者列表未明确区分第一/通讯作者,但通讯邮箱为microsoft.com) 作者列表:Luis Buera(Microsoft),Héctor Delgado(Microsoft),Daniele Colibro(Microsoft),Antonio Miguel(University of Zaragoza, Spain) 💡 毒舌点评 亮点:论文构建的“真实世界”评测基准极具说服力,明确区分了注入和播放两种攻击呈现方式,并评估了模型在不同通话时长下的性能,这为学术研究与工业落地之间架设了更实际的桥梁。 短板:提出的“ResNet-CoT-Mamba”更像是一个高效的成功模型组装案例,其核心组件如Audio Mamba、Hymba集成方式的原创性有限,更多是对现有技术的巧妙组合与验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文使用了公开数据集(如ASVspoof系列,VoxCeleb等)和私有数据集。公开部分可从原数据集官网获取;私有数据集(Realworld, Augmented)未说明获取方式。 Demo:未提及。 复现材料:提供了相当详细的架构图、训练策略、超参数和数据增强方法。论文中引用的开源项目/工具包括:wav2vec 2.0, RawBoost, 各种神经编解码器(神经声码器/编解码器库)。 论文中未提及明确的开源计划。 📌 核心摘要 问题:传统音频伪造检测模型在实验室条件下效果良好,但在面对真实通话场景(如电话客服中心)中的注入和播放攻击时,性能会下降,且现有研究对攻击呈现方式关注不足。 方法核心:提出“ResNet-CoT-Mamba”架构。首先使用预训练的wav2vec 2.0提取语音特征,然后通过由残差网络(ResNet)和上下文Transformer(CoT)组成的模块捕获短时相关性,最后用Mamba状态空间模型(SSM)捕获长程依赖关系。论文探索了多种Mamba集成方式,包括单向、双向、Hymba(Transformer与Mamba并行)和双路径结构。 创新点:1) 构建了包含注入、播放和真实通话中心场景的全面评测基准;2) 提出将Transformer(CoT)与Mamba在检测任务中进行多种方式的组合,特别是首次将Hymba架构引入该领域。 实验结果:在提出的基准测试中,最佳模型(Dual+Hymba+u (6))相比强基线LGF,在EER和MDR上分别实现了52.6%和56.3%的相对改进。在“真实世界”数据集上,该模型在播放攻击场景的MDR上显著优于基线。关键数据见下表: 模型 Pool EER(%) Avg. MDR(%) Pool MDR(%) 播放攻击MDR(%) LGF (基线) 7.27 19.90 23.84 39.72 Dual+Hymba+u (6) 3.28 10.58 8.15 未在表中直接给出 Dual+Hymba+u (4) 3.77 12.52 9.59 31.05 实际意义:该工作推动了音频伪造检测从实验室走向真实应用,为电话客服、金融通话等场景提供了更可靠的防御模型。 主要局限性:1) 模型架构的创新主要体现在组合方式上,而非基础模块的原创设计;2) 论文未开源代码、模型权重或测试数据集,影响了可复现性;3) 训练数据包含未公开的私有数据集(如Realworld, Augmented),尽管公开部分足够验证核心结论。 🏗️ 模型架构 论文提出了两种主要架构变体:ResNet-CoT-Mamba和ResNet-CoT-Dual-Mamba。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 352 words

CompSpoof: A Dataset and Joint Learning Framework for Component-Level Audio Anti-Spoofing Countermeasures

📄 CompSpoof: A Dataset and Joint Learning Framework for Component-Level Audio Anti-Spoofing Countermeasures #音频深度伪造检测 #语音分离 #多任务学习 #数据集 ✅ 7.0/10 | 前25% | #音频深度伪造检测 | #语音分离 | #多任务学习 #数据集 学术质量 4.7/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Xueping Zhang(苏州昆山杜克大学,多模态智能系统苏州市重点实验室;数字创新研究中心) 通讯作者:Ming Li(苏州昆山杜克大学,多模态智能系统苏州市重点实验室;数字创新研究中心) 作者列表: Xueping Zhang(苏州昆山杜克大学,多模态智能系统苏州市重点实验室;数字创新研究中心) Yechen Wang(OfSpectrum, Inc., Los Angeles, USA) Linxi Li(OfSpectrum, Inc., Los Angeles, USA) Liwei Jin(OfSpectrum, Inc., Los Angeles, USA) Ming Li(苏州昆山杜克大学,多模态智能系统苏州市重点实验室;数字创新研究中心) 💡 毒舌点评 亮点:敏锐地捕捉并定义了“成分级伪造”这一更隐蔽的攻击新范式,并为此构建了首个配套数据集和完整的端到端解决方案,框架设计逻辑自洽。 短板:提出的数据集规模较小(2500条),且环境声伪造检测效果显著弱于语音伪造检测,说明所提的“专用环境声反欺骗模型”(直接复用XLSR-AASIST)可能并不完全适配,成为系统性能短板。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 411 words

Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection

📄 Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection #音频深度伪造检测 #迁移学习 #自监督学习 #端到端 🔥 8.0/10 | 前10% | #音频深度伪造检测 | #迁移学习 #自监督学习 | #迁移学习 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jianqiao Cui(清华大学自动化系) 通讯作者:未说明(论文中星号标注了Bingyao Yu为通讯作者,但需根据星号原文确认,此处依据“*Corresponding author”和“∗”对应Bingyao Yu) 作者列表:Jianqiao Cui(清华大学自动化系, 长三角研究院),Bingyao Yu(清华大学自动化系),Shun Qin(清华大学长三角研究院) 💡 毒舌点评 本文提出的“离散语义标签与连续声学特征融合”思路新颖,且实验证明HAT模块对跨数据集鲁棒性提升显著。然而,其核心性能高度依赖于第三方模型GLM-4-Voice生成的语义标签质量,且所有实验均基于英语数据集,对跨语言泛化和实时攻击的鲁棒性未做验证,实际部署还需考量计算开销。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:论文中未提及公开其微调后的模型权重。 数据集:使用了公开的CodecFake和ASVspoof2021数据集,论文中未提及数据获取方式的特殊说明。 Demo:论文中未提及提供在线演示。 复现材料:论文提供了模型架构图(图1)、关键超参数设置(学习率、batch size、优化器、训练轮数等)和模型配置(冻结层策略、HRC参数),这些信息有助于复现。 论文中引用的开源项目: Whisper(OpenAI):作为核心骨干网络。 GLM-4-Voice(THUDM):用于生成离散语义标签。 CodecFake、ASVspoof2021:作为评估基准数据集。 📌 核心摘要 该论文旨在解决当前基于神经编解码器的语音合成技术生成的深度伪造音频难以被现有检测方法有效识别的问题。其核心方法是将预训练的Whisper模型用于音频深度伪造检测,并引入两个关键模块:1)混合音频标记(HAT),将来自GLM-4-Voice的离散语义标签与Whisper编码器的连续声学特征进行融合,以捕捉语义与声学之间的不一致;2)分层残差连接(HRC),通过自适应地选择和整合Whisper编码器不同层次的输出特征,来保留多层次的伪造线索。与已有的单模态声学特征方法或简单的特征加权和方法相比,该方法能更有效地利用语义信息并保留关键的层次特征。在ASVspoof2021 DF、LA和CodecFake验证集上的实验表明,其最佳模型(Wsp with HAT&HRC)取得了0.67%的平均等错误率(EER),相较于强基线模型(如XLS-R)的EER降低了高达46%。具体实验数据如下: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 304 words

Disentangled Authenticity Representation for Partially Deepfake Audio Localization

📄 Disentangled Authenticity Representation for Partially Deepfake Audio Localization #音频深度伪造检测 #对比学习 #语音伪造检测 #音频安全 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院) 通讯作者:论文中未明确标注通讯作者,依据学术惯例,可能为Siding Zeng或其他未列出作者。 作者列表:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院)。论文中仅列出此一位作者,但机构信息显示有两个隶属单位。 💡 毒舌点评 论文的亮点在于其针对特定痛点(域偏移和边界模糊)设计了一套逻辑自洽、组件协同的解决方案,消融实验也扎实地证明了各模块的有效性。然而,其核心思想——将表示解耦为“目标”与“干扰”成分——在计算机视觉等领域已不新鲜,论文的创新更多体现在如何将这一通用思想“翻译”并适配到部分伪造音频定位这个具体任务上,属于扎实的工程优化而非理论或架构上的重大突破。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:实验使用了公开的PartialSpoof和ADD2023数据集,但论文本身未发布新数据集。 Demo:未提及在线演示。 复现材料:提供了较为详细的训练配置(优化器、学习率、批量大小、损失权重、硬件),但未提供完整的训练脚本、配置文件或预训练检查点。 论文中引用的开源项目:引用了Wav2Vec2预训练模型(作为特征提取器)。 总结:论文中未提及明确的开源计划。 📌 核心摘要 问题:部分深度伪造音频(仅少数片段被篡改)的定位面临两大挑战:训练与测试数据间的域偏移,以及真实与伪造段之间细微的过渡边界。 方法核心:提出DisAR双分支框架,将每个音频帧的特征显式解耦为“真实性特征”(捕捉伪造痕迹)和“干扰因素特征”(编码说话人、内容、环境等信息)。通过门控融合模块重建原始特征以避免信息丢失,并利用局部时间对比损失增强对篡改边界的敏感性。 创新点:与已有方法相比,新在显式地将真实性信息与干扰因素分离,而非隐式地让模型自行学习;并通过融合重构和对比损失分别保障信息完整性和提升边界精度。 主要结果:在PartialSpoof数据集上,DisAR取得了95.75%的F1分数(EER 3.51%);在ADD2023 Track 2(跨域测试)上,F1分数达到76.74%(EER 19.05%),均优于报告的基线。关键消融实验证明,移除正交损失、融合模块或对比损失均会导致性能显著下降(例如,无正交损失时F1降至68.48%)。 主要对比实验结果(表1): 方法 PartialSpoof F1 (%) ADD2023 Track 2 F1 (%) AGO (ICASSP’24) 94.36 71.87 DisAR (本文) 95.75 76.74 跨域泛化结果(表3):PartialSpoof -> ADD2023设置下,DisAR的F1分数为57.81%,远高于基线SPF(37.15%)和RSDM(34.09%)。 实际意义:提升了深度伪造音频检测在真实复杂场景(不同设备、环境、语言)下的可靠性和可解释性(通过解耦的特征)。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 316 words

Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection

📄 Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection #音频深度伪造检测 #领域适应 #鲁棒性 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #领域适应 | #鲁棒性 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Woongjae Lee (Soongsil University, Seoul, Republic of Korea) 通讯作者:Souhwan Jung* (Soongsil University, Seoul, Republic of Korea) 作者列表:Woongjae Lee (松石大学), Hung Dinh-Xuan (松石大学), Thien-Phuc Doan (松石大学), Souhwan Jung* (松石大学) 💡 毒舌点评 这篇论文的亮点在于巧妙地将LoRA从语言模型“移植”并动态化应用于音频安全领域,通过“感知-路由-适应”的范式平衡了模型适应新噪声域与防止灾难性遗忘的矛盾,工程思路清晰。但短板在于其“动态”选择的噪声分类器本身是一个额外的误差源,且论文并未在包含未知/混合噪声的更真实场景中验证其端到端效果,离“完全鲁棒”尚有距离。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开预训练的骨干模型、噪声分类器或LoRA适配器权重。 数据集:论文描述了如何基于公开数据集(LibriSpeech, VCTK, TIMIT, ASVspoof 2019/2021)构建噪声增强数据集,但并未提供构建好的数据集本身或下载链接。 Demo:未提及。 复现材料:未提供训练超参数(如学习率、batch size)、优化器、硬件环境等关键复现信息。 论文中引用的开源项目:论文中提到了依赖的开源工具/模型,如RawBoost [6]、librosa(用于音高/时间变换)、torchaudio/sox(用于滤波)、wav2vec 2.0 [28]、SSAST [29]等,但未提供具体使用版本或配置。 总结:论文中未提及任何开源计划。 📌 核心摘要 问题:现有的音频深度伪造检测(ADD)模型在干净环境下性能优越,但在真实世界的复杂噪声和语音操纵下性能严重下降,而传统的数据增强和微调方法存在泛化性差或导致灾难性遗忘的问题。 方法核心:提出一个动态噪声感知多LoRA(DNA Multi LoRA)框架。该框架首先通过一个轻量级的噪声分类模块识别输入音频的噪声类型,然后根据分类结果动态选择一个预先训练好的、专门针对该噪声类型的LoRA适配器,将其集成到冻结的ADD模型骨干网络中进行检测。 创新点:相比于现有方法,本文创新性地结合了噪声感知与参数高效微调(LoRA)。1)实现了“一个骨干网络 + 多个轻量LoRA适配器”的模块化设计,扩展新噪声域无需重训整个模型;2)通过动态适配机制避免了顺序微调中的灾难性遗忘问题。 主要实验结果:在多个基准数据集(包括构建的噪声增强数据集和真实世界数据集)上,DNA Multi LoRA框架相比基线模型实现了平均41.4%的等错误率(EER)降低。在池化EER上,该方法(AASIST-SSL: 7.93%, ConformerTCM: 7.55%)接近全量微调的效果(约8.1%),但参数量仅为全量微调的约8.5%,并有效避免了灾难性遗忘(如图2所示,顺序微调会导致EER从约0.2%飙升至约5%)。每个噪声特定LoRA适配器在其目标域上均显著优于基线(表4),例如在D4(回声)域,AASIST-SSL的EER从10.42%降至0.92%。 实际意义:提供了一种高效、可扩展且可部署的解决方案,使ADD系统能够在不进行全面重训的情况下,动态适应多种现实世界噪声环境,提升了模型的实用性和鲁棒性。 主要局限性:框架的性能依赖于噪声分类器的准确性,且目前仅在预定义的10种噪声类别上进行了验证;对于完全未知的噪声类型或复杂混合噪声,框架的适应能力和鲁棒性尚待进一步研究。 🏗️ 模型架构 如图1(![图1: Dynamic Noise-Aware Multi LoRA framework architecture](https://nanless.github.io/audio-paper-digest-images/icassp-2026/2026-04-29/11463424-0.png))所示,DNA Multi LoRA框架是一个三阶段系统: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 294 words

Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing

📄 Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing #音频深度伪造检测 #图神经网络 #自监督学习 #动态卷积 🔥 8.5/10 | 前10% | #音频深度伪造检测 | #图神经网络 | #自监督学习 #动态卷积 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yingdong Li(中山大学计算机学院) 通讯作者:Kun Zeng(中山大学计算机学院, zengkun2@mail.sysu.edu.cn) 作者列表:Yingdong Li(中山大学计算机学院)、Chengxin Chen(中国移动互联网公司,中国移动通信集团公司)、Dong Chen(中山大学计算机学院)、Nanli Zeng(中国移动互联网公司,中国移动通信集团公司)、Kun Zeng(中山大学计算机学院) 💡 毒舌点评 亮点在于将动态卷积与物理视角的多视图频谱分析相结合,并为强大的AASIST图网络框架增加了巧妙的局部信息聚合机制(LVM和SRM),技术融合顺畅且针对性强。短板是双分支前端(SSL + 频谱)不可避免地带来了计算开销,论文未对模型效率(如参数量、推理速度)进行分析或讨论,这在实际部署中可能是一个考量点。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/lydsera/LocalSpoofDetect。 模型权重:论文中未提及是否公开模型权重。 数据集:使用的是公开数据集(ASVspoof 2019 LA, CFSD),论文未提及自行发布新数据集。 Demo:论文中未提及提供在线演示。 复现材料:论文中提供了详尽的实现细节(见3.2节),包括音频采样率、频谱图参数、SSL模型处理方式、训练优化器、学习率、批大小、损失函数、数据增强方法(RawBoost)以及训练硬件(A100 GPU),为复现提供了充分信息。 引用的开源项目: wav2vec 2.0 (XLS-R模型) RawNet2 AASIST (原始架构) RawBoost (数据增强方法) 📌 核心摘要 问题:针对日益多样的语音深度伪造技术,现有音频反欺骗方法在模型复杂度和鲁棒性之间难以取得平衡,且固定的特征提取方式难以自适应地捕获不同尺度的伪造痕迹。 方法核心:提出一个双分支前端与增强图网络后端相结合的模型。前端包含自监督(SSL)分支和新设计的频谱分析分支。频谱分支采用“对称性引导内核选择(SKS)”块,通过物理视角(时间/频谱对称性)分析生成上下文图,动态加权不同尺度的卷积核。后端在AASIST框架上新增了“局部变化主节点(LVM)”和“稀疏残差主节点(SRM)”,以建模精细的局部伪造模式。 创新点:(i) 利用频谱对称性指导动态卷积,自适应捕获多尺度伪造伪影;(ii) 采用残差式快捷连接简化前端特征融合,无需复杂融合模块;(iii) 增强图神经网络后端,引入LVM和SRM节点以聚合局部判别信息。 实验结果:在ASVspoof 2019 LA和中文伪造语音数据集(CFSD)上取得了当前最优性能,EER分别为0.08%和0.10%,min t-DCF为0.0024。消融实验证实了每个提出组件的有效性。 实际意义:该模型能有效、鲁棒地检测合成与伪造语音,可增强语音生物识别等系统的安全性,对抵御日益逼真的语音伪造攻击具有重要价值。 主要局限性:未分析模型的计算效率(参数量、FLOPs、推理延迟),可能限制其在资源受限场景的应用;双分支架构对SSL预训练模型的依赖性较强。 🏗️ 模型架构 模型整体架构为双分支前端 + 增强图网络后端,具体流程如下: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 333 words

EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection

📄 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection #音频深度伪造检测 #数据集 #语音伪造检测 #重放攻击 #基准测试 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #语音伪造检测 #重放攻击 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Tong Zhang (武汉大学 网络空间安全学院) 通讯作者:Yanzhen Ren (武汉大学 网络空间安全学院) 作者列表:Tong Zhang (武汉大学 网络空间安全学院), Yihuan Huang (武汉大学 网络空间安全学院), Yanzhen Ren (武汉大学 网络空间安全学院; 教育部空天信息安全与可信计算重点实验室) 💡 毒舌点评 亮点:这篇论文如同为反语音欺诈领域量身打造了一套更逼真的“演习靶场”,精准戳中了现有检测模型在真实世界遭遇“物理回放”攻击时不堪一击的痛点,数据集构建的系统性和全面性值得称道。短板:它本质上是一份详尽的“战场报告”和“新式靶标”而非“新式武器”,在检测模型本身并无创新,且基线评估略显常规,距离真正解决“重放攻击”这一顽疾还有距离。 🔗 开源详情 代码:提供。论文明确说明数据集、代码和自动化录制工具已开源,链接为:https://github.com/EchoFake/EchoFake/ 模型权重:未提及。论文仅评估了现有基线模型,未提出新模型。 数据集:已公开。EchoFake数据集可通过上述GitHub仓库获取。 Demo:未提及。 复现材料:提供了详尽的训练细节(学习率、batch size等)、超参数、数据集划分统计、预处理流程,复现基础良好。 论文中引用的开源项目:列出了所使用的多种开源TTS模型,如XTTSv2, F5-TTS, SpeechT5, LLaSA-1B等(详见参考文献和数据集构建部分)。 论文中未提及开源计划:所��必要的复现材料已在论文发表时一并开源。 📌 核心摘要 问题:现有的音频深度伪造检测模型在实验室环境下表现良好,但在面对真实世界中常见的低成本“物理重放攻击”(即将合成语音通过扬声器播放并重新录制)时,性能会急剧下降,严重威胁其实际部署的可靠性。 方法:为了解决这一问题,作者构建了EchoFake数据集。其核心在于首次系统地将前沿的零样本文本转语音(TTS)生成的伪造语音与多样化的物理重放录音相结合。数据集包含四种音频类型:真实语音、重放真实语音、伪造语音、重放伪造语音。 创新:与已有数据集(如ASVspoof)主要关注单一攻击方式(仅合成或仅重放真实语音)不同,EchoFake的创新在于覆盖了更复杂的复合攻击场景——即“合成+重放”。同时,它采用了多种最新开源的零样本TTS模型,并在采集重放数据时系统化地变化了播放/录音设备、环境、距离等条件。 主要实验结果: 使用EchoFake训练的三个基线模型(RawNet2, AASIST, Wav2Vec2)在跨数据集评估中表现出更好的泛化能力,平均EER显著低于在传统数据集上训练的模型(见表3)。 模型在EchoFake封闭集评估中表现优异(如AASIST的二分类EER为0.46%),但在开放集评估中性能大幅下降(如AASIST的二分类EER升至14.88%),重放样本是主要错误来源(见表4)。 消融实验证明,在训练数据中包含重放样本,能显著提升模型在重放攻击场景下的鲁棒性,而在传统基准上性能损失很小。 实际意义:EchoFake提供了一个更接近真实威胁模型的评估基准,有助于推动检测算法从实验室走向实际应用,提升对复杂欺诈攻击的防御能力。 局限性:尽管模型在EchoFake上得到提升,但在面对未见过的重放条件(开放集)时,性能仍有明显下降,表明在建模复杂信道效应和提高跨设备/环境泛化能力方面仍有挑战。论文未提出新的检测模型。 🏗️ 模型架构 未说明。本文是一篇数据集论文,其核心贡献是构建EchoFake数据集并评估现有模型。论文中未提出新的检测模型架构。评估所使用的三个基线模型(RawNet2, AASIST, Wav2Vec2)的详细架构并非本文创新点,故在此不展开描述。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 393 words

Few-Shot Recognition of Audio Deepfake Generators using Graph-Based Prototype Adaptation

📄 Few-Shot Recognition of Audio Deepfake Generators using Graph-Based Prototype Adaptation #音频深度伪造检测 #少样本学习 #图神经网络 #音频取证 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #图神经网络 | #少样本学习 #音频取证 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yupeng Tan (广西大学计算机、电子信息学院,广西人工智能学院) 通讯作者:Wei Xie (广西大学计算机、电子信息学院,广西人工智能学院) 作者列表:Yupeng Tan (广西大学计算机、电子信息学院,广西人工智能学院),Wei Xie (广西大学计算机、电子信息学院,广西人工智能学院) 💡 毒舌点评 本文巧妙地将图神经网络与转导学习范式结合,用于解决少样本音频深度伪造生成器识别中因数据稀缺导致的原型估计偏差问题,技术路线完整且实验结果显著优于基线。然而,其核心思想——利用无标签数据(查询集)的结构信息来优化有标签数据的原型表示——在少样本学习领域并非首创(如标签传播等),创新深度有限,且论文未提供任何开源代码或模型权重,对后续研究的可复现性构成障碍。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:使用了公开数据集ASVspoof2019 LA和MLAAD,论文未提及额外数据。 Demo:未提供在线演示。 复现材料:论文提供了一些关键的超参数(如学习率、图top-k值、episode采样数),但缺少训练硬件信息、完整代码配置、权重文件以及Focal Loss和对比损失中的具体超参数(如γ, m)。 依赖的开源项目/模型: CLAP 音频编码器(论文引用[17]) 图卷积网络基础架构(论文引用[18]) Focal Loss(论文引用[19]) 对比学习框架(论文引用[20]) 消融实验中使用的RawNet3(论文引用[29]) 总体评价:论文中未提及完整的开源计划。 📌 核心摘要 问题:在音频取证中,识别深伪造音频的具体生成器类型至关重要,但新兴生成器的有标签样本极少,传统少样本方法因数据稀疏导致原型估计偏差大、特征区分度低。 方法:提出基于图的原型适应框架。在每个少样本任务中,将支持集和查询集样本构建成一个联合图(基于样本间距离的稀疏连接),通过图适应模块进行信息传播和特征精炼,再估计更可靠的原型进行分类。 创新:1)采用转导学习范式,联合利用有标签和支持样本构建任务特定图;2)设计图适应模块,通过图卷积网络精炼特征并校准原型,缓解原型偏差;3)在元测试阶段引入对比损失进行自适应。 实验:在ASVspoof2019 LA和MLAAD数据集上的5-way设置中,GPA方法在所有shot数下均取得最优准确率,例如在ASV2019LA上5-shot相比最强基线提升3.17%,10-shot提升6.12%,20-shot提升8.28%。消融实验验证了各组件的必要性。 意义:为应对新出现的音频深伪造威胁提供了一种有效的少样本识别方案,增强了音频取证系统对未知生成器的适应能力。 局限性:方法依赖预训练的CLAP编码器和特定的图构建策略,计算复杂度随样本数增加;实验仅在两个数据集上进行,对更多样化生成器和真实场景的泛化能力有待验证。 🏗️ 模型架构 模型架构图如图2所示。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 307 words