StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection

📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频深度伪造检测 #端到端 #鲁棒性 #数据集 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #端到端 | #鲁棒性 #数据集 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhentao Liu(EPFL, Switzerland) 通讯作者:未说明 作者列表:Zhentao Liu(EPFL, Switzerland)、Milos Cernak(Logitech Europe, Switzerland) 💡 毒舌点评 这篇论文巧妙地将图像领域的“半脆弱水印”概念移植到音频,并精准定义了“良性”与“恶意”操作,为应对深度伪造提供了比传统鲁棒水印更聪明的“主动告警”方案,思路值得称赞。然而,其将所有深度伪造攻击简化为“变调”这一单一操作进行模拟,失真层的设计略显“偷懒”,可能无法完全覆盖未来更复杂的合成攻击(如更自然的音色替换或内容编辑),削弱了结论的绝对说服力。 🔗 开源详情 代码:提供了代码仓库链接:https://github.com/L1uZhentao/deepfake_benchmark 模型权重:论文中未提及公开预训练模型权重。 数据集:论文开源了用于评估的深度伪造基准测试集(Deepfake Benchmark),作为代码仓库的一部分发布。 Demo:未提及。 复现材料:提供了充分的训练细节,包括数据集(LibriSpeech子集)、模型参数量、损失函数公式与权重、优化器超参数(Adam,β值,学习率)、训练硬件(2x RTX 2080),这为复现提供了良好基础。 论文中引用的开源项目:未提及依赖的其他开源工具或模型。 总结:论文在可复现性方面表现良好,开源了关键的数据和代码,但缺少现成的模型权重。 📌 核心摘要 要解决什么问题:现有的被动深度伪造音频检测方法面临泛化能力差、易被对抗攻击绕过、难以区分良性AI处理(如降噪)与恶意伪造的困境。传统鲁棒水印在伪造后仍能提取,反而无法证明音频已被篡改。 方法核心是什么:提出StreamMark,一种基于深度学习的半脆弱音频水印系统。其核心是设计一个Encoder-Distortion-Decoder架构,其中失真层包含并行的良性变换(如裁剪、加噪)和恶意变换(如变调,模拟音色/内容篡改)。通过复合损失函数训练,使水印在经历良性操作后仍可恢复,但在经历语义篡改的恶意操作后无法恢复(准确率降至随机水平)。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 265 words

Subgraph Localization in the Subbands for Partially Spoofed Speech Detection

📄 Subgraph Localization in the Subbands for Partially Spoofed Speech Detection #音频深度伪造检测 #图神经网络 #信号处理 #时频分析 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #图神经网络 | #信号处理 #时频分析 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Ji Liu (天津大学 认知计算与应用天津市重点实验室) 通讯作者:Longbiao Wang (天津大学 认知计算与应用天津市重点实验室; 苏州智言信息科技有限公司) 作者列表:Ji Liu (天津大学 认知计算与应用天津市重点实验室), Chenghan Lin (未说明具体机构,同属天津大学), Longbiao Wang (天津大学 认知计算与应用天津市重点实验室; 苏州智言信息科技有限公司), Kong Aik Lee (香港理工大学) 💡 毒舌点评 亮点:论文抓住了“短伪造片段在长真实语音中易被平均掉”这一实际痛点,并巧妙地将“不同伪造痕迹在不同频带显著”这一先验知识融入模型设计(子带划分),方法动机充分且直观。短板:方法本质上是子带特征提取+子图网络的模块化组合,创新性更多体现在特定任务上的工程优化,而非全新的建模范式;此外,论文未提供任何开源信息,对于后续研究的复现构成了主要障碍。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及。 数据集:实验使用ADD 2023挑战赛Track 2数据集,该数据集为公开竞赛数据集,但论文未说明获取方式。 Demo:未提供在线演示。 复现材料:提供了部分训练细节(优化器、学习率、轮数、超参数等)和消融实验设置,但缺乏模型层维度、具体代码实现、检查点文件等。 引用的开源项目:依赖的开源项目包括Facebook的wav2vec2-xls-r-300m模型(用于W2V2+AASIST基线)。 开源计划:论文中未提及开源计划。 📌 核心摘要 本文针对部分伪造语音检测中,短伪造片段难以被现有基于固定聚合长度的方法准确定位的问题,提出了一种名为“子带子图定位”(SLS)的新方法。该方法包含两个核心模块:一是子带特征提取模块,利用CQT滤波器初始化线性层,从语音频谱的低、中、高频子带中提取高分辨率特征,以捕捉不同伪造算法在不同频带留下的独特痕迹;二是子图模块,对每个子带的特征序列构建图结构,并通过基于阈值的边连接来鼓励同一类别(真实或伪造)帧的特征在图中聚集,从而增强类内紧凑性,特别是改善类别边界附近的特征混淆。实验在ADD 2023挑战赛Track 2数据集上进行,结果表明,SLS方法在帧级和段级定位性能上均优于TDL等现有方法。例如,在加权BCE损失权重w-=3.9时,获得了90.31%的帧级精确率和95.69%的召回率,帧级F1分数比TDL高1.24个百分点,段级F1分数比WavLM-ResNet高2.14个百分点。该方法通过精细化建模子带信息和改善边界处特征表征,提升了伪造语音定位的准确性和鲁棒性。其主要局限性在于模型复杂度较高,且未公开实现代码与权重。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 297 words

The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures

📄 The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures #音频深度伪造检测 #领域适应 #知识蒸馏 #音频水印 #音频安全 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #领域适应 | #知识蒸馏 #音频水印 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhenshan Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心) 通讯作者:Ming Li(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心, ming.li369@dukekunshan.edu.cn) 作者列表:Zhenshan Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心)、Xueping Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心)、Yechen Wang(OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Ming Li(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心) 💡 毒舌点评 亮点:选题填补了一个重要的认知空白——系统量化了“水印”这种合法但普遍存在的人为扰动对反欺骗系统的“无差别攻击”效果,实验设计严谨(控制水印比例、类型分布),结论可靠。提出的KPWL框架在“已知水印”适应上取得了立竿见影的效果,思路清晰实用。 短板:在“未见水印”场景下的性能反而下降,暴露了当前方法对水印特异性的过拟合,极大限制了其在真实世界(水印类型未知且多样)中的应用价值,也说明“领域适应”的本质挑战并未被彻底解决。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/Alphawarheads/Watermark_Spoofing.git。 模型权重:论文未提及是否公开预训练的模型权重(如基线XLSR+SLS或KPWL适应后的模型)。 数据集:论文指出构建了“Watermark-Spoofing”数据集,并提供了获取方式(通过上述GitHub仓库),表明数据集是公开的。 Demo:论文中未提及在线演示。 复现材料:论文详细说明了数据集构建协议(水印方法、比例)、训练配置(优化器、学习率、轮数、损失函数超参数)、评估设置,复现信息充分。 论文中引用的开源项目:引用了ASVspoof 2019/2021数据集[12,20]、In-the-Wild数据集[21]、多种水印方法(WavMark[4], Timbre[5], AudioSeal[13]等)、反欺骗模型(XLSR[6], SLS[9], Nes2Net[10])以及数据增强工具RawBoost[28]。 📌 核心摘要 问题:本文首次研究了广泛使用的音频水印技术(为版权保护设计)对语音反欺骗(深度伪造检测)系统性能的影响,发现这种影响之前被完全忽视。 方法核心:构建了包含多种手工和DNN水印的“Watermark-Spoofing”数据集,并系统评估了现有模型性能下降的程度。提出名为“知识保留水印学习”(KPWL)的适应框架,通过在冻结前端(XLSR)和分类器的情况下微调中间层,并结合对称知识蒸馏与参数锚定,使模型能适应水印引入的分布偏移。 创新:首次揭示了音频水印是反欺骗系统面临的一种新的、未被研究的领域偏移源;首次构建了用于评估和缓解此问题的专用数据集与基准;提出了首个旨在同时适应水印并保留原始域检测能力的专用框架。 实验结果:在ASVspoof 2021 LA数据集上,当75%的样本被水印时,基线模型(XLSR+SLS)的EER从3.02%上升至3.68%。KPWL模型在相同条件下将EER降至3.21%,同时在干净数据上保持3.06%(与基线3.02%接近)。然而,在“未见水印”评估中,基线模型在75%水印(LA21)下EER为9.94%,而KPWL模型恶化至11.22%。 实际意义:提醒反欺骗系统开发者需考虑水印带来的鲁棒性挑战;为构建抗水印污染的反欺骗系统提供了首个基准和初步解决方案;揭示了水印技术可能对语音安全生态产生的意外副作用。 主要局限性:KPWL框架在应对未见过的水印类型时效果不佳甚至有害,表明当前方法的适应能力局限于训练时接触过的特定水印,泛化能力有待突破。 🏗️ 模型架构 本文的核心模型架构并非提出一种全新的端到端神经网络,而是提出了一种训练策略与框架(KPWL),用于适应现有的反欺骗模型以应对水印干扰。以论文中作为骨干的 XLSR+SLS 模型为例,其整体流程与KPWL框架的适配如下: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 390 words

Towards Data Drift Monitoring for Speech Deepfake Detection in the Context of MLOps

📄 Towards Data Drift Monitoring for Speech Deepfake Detection in the Context of MLOps #音频深度伪造检测 #数据漂移监控 #模型微调 #MLOps ✅ 7.0/10 | 前25% | #音频深度伪造检测 | #数据漂移监控 | #模型微调 #MLOps 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xin Wang(日本国立信息学研究所) 通讯作者:未说明 作者列表:Xin Wang(日本国立信息学研究所),Wanying Ge(日本国立信息学研究所),Junichi Yamagishi(日本国立信息学研究所) 💡 毒舌点评 这篇论文的亮点在于其工程视角的前瞻性:它脱离了传统的“训练-测试”静态评估循环,首次在MLOps框架下系统性地探讨了语音伪造检测器面临的数据漂移问题,实验设计严谨且覆盖了多种检测器与距离度量。然而,其核心方法(用分布距离监控漂移、用新数据微调)本质上是对机器学习运维通用范式的直接应用,并未在漂移检测算法本身提出原创性贡献,创新高度有限。 🔗 开源详情 代码:论文中提及代码仓库链接(https://arxiv.org/abs/2509.10086),但未明确说明该仓库是否已公开发布及具体内容。 模型权重:未提及是否公开预训练或微调后的检测器权重。 数据集:使用了公开数据集(ASVspoof 2019, LJSpeech, MLAAD),但论文中未提供数据集的定制处理脚本或版本信息。 Demo:未提及。 复现材料:论文中提到了“代码仓库”,但未详细说明是否包含训练配置、环境依赖、实验脚本等。 引用的开源项目: ESPNet-TTS [13]:用于生成实验1的TTS数据。 AntiDeepfake toolkit [12]:用于实现W2V和XSLR2b检测器。 AASIST [4]:使用其官方实现。 总结:论文中提及了代码仓库,但缺乏关于开源项目状态、模型可用性和详细复现指南的明确信息。 📌 核心摘要 要解决什么问题:传统的静态语音深度伪造检测模型部署在云端后,面对不断涌现的新文本到语音(TTS)攻击,性能会下降。需要一种机制来自动监控新数据与原始训练/参考数据的分布差异(漂移),并据此更新模型。 方法核心是什么:从MLOps角度出发,提出两步框架:(1) 监控:利用检测器(如SSL模型)提取的音频嵌入特征,通过计算测试数据与参考数据在多个维度上的分布距离(如Wasserstein-1距离、K-S检验)来量化漂移;(2) 更新:当检测到显著漂移时,使用类似的新攻击数据对检测器进行微调,以减少漂移并恢复性能。 与已有方法相比新在哪里:与以往集中在提升检测准确率的实验室研究不同,本文首次将“数据漂移”概念引入语音伪造检测领域,并将其置于MLOps的运维闭环中进行研究。它关注的是模型上线后如何维持性能的可持续性问题。 主要实验结果如何:在玩具数据集和大规模MLAAD数据集上的实验证明: 监控有效性:较新的TTS攻击确实导致更高的漂移值(如图2、3所示)。例如,在MLAAD数据集上,v7版本(最新)的TTS系统产生的漂移值显著高于v2版本(早期)。 更新有效性:使用新攻击数据进行微调可以减少漂移。如图3(a)所示,使用8小时的v7数据微调后,XSLR2b检测器在v7测试集上的漂移值明显下降。同时,检测错误率(EER)也随之降低。表2显示,当用8小时v7数据微调后,XSLR2b在v7测试集上的EER从6.42%降至0.57%。 关键发现:使用与新攻击相似的数据(如用v6数据微调)对未见过的更新攻击(如v7)也有积极效果;但使用过时的数据(如v2)对新攻击的改善有限。 实际意义是什么:为语音伪造检测系统在真实云服务中的长期可靠运行提供了一套可行的监控与自适应更新框架,有助于应对持续演化的伪造技术,保障系统安全。 主要局限性是什么:论文中未明确提及。潜在局限包括:计算分布距离和频繁微调可能带来的运维开销;微调步骤依赖于对新攻击数据的获取与标注,这在实际场景中可能具有挑战性;实验未评估对真实语音数据误报率的影响。 🏗️ 模型架构 本文未提出一个新的端到端检测模型架构。其核心贡献在于监控和更新流程。该流程依赖于现有的语音伪造检测器来提取关键特征。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 248 words

Understanding the Strengths and Weaknesses of SSL Models for Audio Deepfake Model Attribution

📄 Understanding the Strengths and Weaknesses of SSL Models for Audio Deepfake Model Attribution #音频深度伪造检测 #自监督学习 #语音合成 ✅ 7.0/10 | 前50% | #音频深度伪造检测 | #自监督学习 | #语音合成 学术质量 7.0/7 | 选题价值 1.2/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Gabriel Pîrlogeanu(POLITEHNICA Bucharest大学,Speech and Dialogue Research Laboratory) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表:Gabriel Pîrlogeanu(POLITEHNICA Bucharest大学,Speech and Dialogue Research Laboratory)、Adriana Stan(POLITEHNICA Bucharest大学 Speech and Dialogue Research Laboratory 及 Technical University of Cluj-Napoca Communications Department)、Horia Cucu(POLITEHNICA Bucharest大学,Speech and Dialogue Research Laboratory) 💡 毒舌点评 亮点在于其严谨的控制变量实验设计,像“实验室”一样剖析了SSL特征在音频归因任务中的敏感点,尤其是“零初始化检查点”的验证为“模型架构指纹”的存在提供了有趣证据;短板是研究停留在对已有方法的分析与验证,未提出更强的归因模型或更鲁棒的特征,且对更复杂的实际场景(如多说话人、商业系统)测试不足,结论的普适性有待验证。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 304 words

Environmental Sound Deepfake Detection Using Deep-Learning Framework

📄 Environmental Sound Deepfake Detection Using Deep-Learning Framework #音频深度伪造检测 #预训练 #迁移学习 #频谱分析 #基准测试 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #预训练 | #迁移学习 #频谱分析 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Lam Pham* (奥地利技术研究所数字安全与安全中心, 奥地利) 通讯作者:Son Le† (越南孙德盛大学) 作者列表: Lam Pham* (奥地利技术研究所数字安全与安全中心, 奥地利) Khoi Vu* (FPT大学, 越南) Dat Tran* (FPT大学, 越南) Phat Lam (胡志明市理工大学, 越南) Vu Nguyen (越南孙德盛大学) David Fischinger (奥地利技术研究所数字安全与安全中心, 奥地利) Alexander Schindler (奥地利技术研究所数字安全与安全中心, 奥地利) Martin Boyer (奥地利技术研究所数字安全与安全中心, 奥地利) Son Le† (越南孙德盛大学) 💡 毒舌点评 亮点:论文对“环境声音深度伪造检测”这一新兴任务进行了堪称教科书级别的系统性实验评估,清晰揭示了“声音场景”与“声音事件”伪造检测的差异性,并证明了微调预训练模型(如BEATs)远优于从头训练,为后续研究提供了明确的基线和方向。 短板:核心方法(微调BEATs)本身并非本文原创,创新更多体现在训练策略(三阶段)和实验设计上;此外,论文声称开源但提供的链接指向arXiv页面,具体的代码和模型权重获取方式在节选中未明确,降低了即刻复现的便利性。 ...

2026-04-23 · 更新于 2026-05-20 · 2 min · 267 words

Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages

📄 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages #音频深度伪造检测 #预训练 #多语言 #语音大模型 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Girish(UPES, India)与 Mohd Mujtaba Akhtar(Veer Bahadur Singh Purvanchal University, India)为共同第一作者 通讯作者:Orchid Chetia Phukan(IIIT-Delhi, India),邮箱:orchidp@iiitd.ac.in 作者列表: Girish(UPES, India) Mohd Mujtaba Akhtar(Veer Bahadur Singh Purvanchal University, India) Orchid Chetia Phukan(IIIT-Delhi, India) Arun Balaji Buduru(IIIT-Delhi, India) 💡 毒舌点评 这篇论文在填补印度语言CodecFake检测空白方面做得非常扎实,SATYAM模型的双曲空间对齐设计也颇具巧思,为多模态融合提供了新思路。然而,其所有“实战”演练都发生在精心构造的合成数据集上,缺乏对真实世界中可能遇到的噪声、信道失真、对抗攻击等复杂因素的评估,这使得其宣称的“鲁棒性”仍停留在实验室阶段。 ...

2026-04-23 · 更新于 2026-05-20 · 2 min · 386 words

Environmental Sound Deepfake Detection Using Deep-Learning Framework

📄 Environmental Sound Deepfake Detection Using Deep-Learning Framework #音频深度伪造检测 #预训练 #音频分类 #数据增强 #音频安全 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 第一作者:Lam Pham (奥地利理工学院 AIT,数字安全与安全中心) 通讯作者:Son Le (Ton Duc Thang University, Vietnam) 其他作者: Khoi Vu, Dat Tran (FPT University, Vietnam) Phat Lam (HCM University of Technology, Vietnam) David Fischinger, Alexander Schindler, Martin Boyer (奥地利理工学院 AIT,数字安全与安全中心) 💡 毒舌点评 亮点:论文像一本详尽的“菜谱”,把频谱图、网络架构、预训练模型这些“食材”挨个试了个遍,还精心设计了“三阶段烹饪法”(训练策略),最终端出了一盘在特定数据集上色香味俱全的“菜”(高准确率)。槽点:创新性主要体现在“系统性尝试”和“策略调优”上,缺乏让人眼前一亮的“新菜式”(核心方法创新)。而且,这盘“菜”主要用的还是别人家的“高级食材”(预训练BEATs模型)。 🔗 开源详情 代码:论文在arXiv页面明确提供了GitHub链接,表明代码已开源。 模型权重:论文中未明确说明是否公开预训练或微调后的模型权重。通常此类研究会随代码一起发布。 数据集:使用了公开的基准数据集EnvSDD和ESDD-Challenge-TestSet,论文中提供了数据集的详细构成和获取参考文献。 预训练权重:使用了公开的预训练BEATs模型。 在线Demo:论文中未提及。 引用的开源项目:Pytorch框架、Adam优化器、BEATs模型、EnvSDD数据集。 📌 核心摘要 本文针对环境声音(如声音事件、声音场景)的深度伪造检测这一新兴任务,提出了一个系统的深度学习框架。核心贡献在于通过大量实验,系统评估了不同频谱图(MEL, CQT, Gammatone)、多种CNN架构(ResNet, Inception等)以及预训练模型(BEATs)在该任务上的表现,并验证了声音事件与声音场景的伪造检测应作为独立任务处理。关键方法包括:1)提出以Gammatone频谱图作为有效输入特征;2)设计了一个包含多损失函数训练、Mixup微调和骨干网络冻结的三阶段训练策略;3)发现并验证了微调预训练的BEATs模型远优于从头训练。主要效果是在EnvSDD测试集上取得了0.98的准确率和0.99的AUC,并在跨数据集测试(ESDD-Challenge-TestSet)中展现了泛化能力。局限性在于方法创新性有限,主要依赖现有技术的组合与优化,且跨数据集性能有显著下降,表明领域泛化仍是挑战。 🏗️ 模型架构 论文提出了一个统一的深度学习框架用于环境声音深度伪造检测(ESDD),其整体流程如下: ...

2026-04-22 · 更新于 2026-05-20 · 2 min · 276 words

HCFD: A Benchmark for Audio Deepfake Detection in Healthcare

📄 HCFD: A Benchmark for Audio Deepfake Detection in Healthcare #音频深度伪造检测 #状态空间模型 #基准测试 #超几何学习 #医疗健康 📝 评分:5.0/10 | arxiv 👥 作者与机构 第一作者: Mohd Mujtaba Akhtar (Veer Bahadur Singh Purvanchal University, India) † (论文标注为Equal contribution as a first author) 通讯作者: Muskaan Singh (Ulster University, UK) (论文标注为Corresponding author) 其他作者: Girish (UPES, India) † (论文标注为Equal contribution as a first author) 💡 毒舌点评 亮点: 填补了医疗音频领域深伪检测的空白,像个“音频法医”一样专门为病态语音设计检测工具,数据集构建和实验设计非常系统、扎实。 槽点: 用了“Mamba”、“超几何空间”这些时髦词汇包装,但核心是“多个证据向量+原型聚类”的思路,有种给传统方法穿上了最新款外套的感觉。另外,实验都在干净的数据集上做,真放到嘈杂的远程医疗通话里,这97%的准确率估计得打个对折。 🔗 开源详情 代码: 论文声明将在GitHub提供代码和评估资源(链接:https://helixometry.github.io/HCFD/)。但截至论文阅读时,该链接内容可能尚未完全公开。 模型权重: 未明确提及是否公开训练好的PHOENIX-Mamba模型权重。 数据集: 论文声明将提供HCFK数据集的划分文件和生成管道。数据集本身基于多个现有公开医疗语音语料库构建,需遵循原语料库的许可协议获取。 预训练权重: 实验中使用的预训练模型(PaSST, WavLM, Wav2Vec2, Whisper等)均为公开模型,链接已在论文中提供。 在线Demo: 未提及。 依赖的开源工具: 依赖多个公开的神经音频编解码器实现(SpeechTokenizer, Descript Audio Codec, Encodec, SoundStream, Funcodec, Audiodec, SNAC),链接已在附录A中提供。 📌 核心摘要 本文针对医疗健康领域中神经音频编解码器生成的语音深伪检测问题,提出了一个全新的研究任务(HCFD)和基准数据集(HCFK)。研究发现,在健康语音上训练的现有深伪检测模型在病态语音上性能显著下降。为此,论文首先验证了预训练音频模型(如PaSST)能更好地应对病理语音带来的变异性。更重要的是,本文提出了一个名为PHOENIX-Mamba的几何感知检测框架,该框架通过Mamba骨干网络建模长程上下文,并利用超几何空间中的多个原型来表征和聚类异质的伪造语音模式,从而在多个临床条件(抑郁、阿尔茨海默症、构音障碍)和语言(英语、中文)上取得了优于预训练模型基线的性能。工作为医疗音频安全提供了重要的基准和初步解决方案,但其方法在真实复杂场景下的鲁棒性以及数据集的覆盖广度仍有待提升。 ...

2026-04-21 · 更新于 2026-05-20 · 3 min · 483 words

ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection

📄 ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection #音频深度伪造检测 #少样本 #检索增强 #音频大模型 #可解释性 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者(推断):Benjamin Chou(普渡大学,Purdue University) 通讯作者(推断):Yi Zhu(Reality Defender Inc.),Surya Koppisetti(Reality Defender Inc.) 其他作者:无 机构详情: Benjamin Chou:普渡大学(Purdue University),论文注释表明工作在Reality Defender Inc.实习期间完成。 Yi Zhu:Reality Defender Inc.(美国/加拿大,邮箱后缀为@inrs.ca,INRS为加拿大魁北克大学研究所)。 Surya Koppisetti:Reality Defender Inc.。 💡 毒舌点评 亮点:把大模型(ALM)的“思考”能力用在了音频安全这个“脏活累活”上,还搞出了个“左右互搏”(PCR)的套路让模型自己挑刺、去伪存真,思路相当清奇,结果在真实世界数据上效果拔群。槽点:最好的“厨师”(Phase-1证据生成)用的是谷歌的“秘制酱料”(Gemini),自己家“厨房”(开源ALM)的灶台还没完全搭好(AF3指令遵循差),让想完全复刻这道菜的人有点抓瞎。而且,这“秘制酱料”在处理“罐头食品”(脚本语音)时,味道反而不对了。 🔗 开源详情 代码:论文提到“GitHub”链接,但未在正文中给出具体URL。未明确说明是否开源。 模型权重: 专用检测器:使用的Wav2Vec2-AASIST是公开的预训练模型。 ALM:主要实验使用专有的Gemini-2.5 Flash API。评估了开源的Audio Flamingo 3 (AF3) 模型权重。 ICLAD本身:未提及发布任何ICLAD特有的模型权重。其“模型”本质上是提示策略和流程。 数据集:使用的均为公开学术数据集(ASVspoof 2019/2021, MLAAD, ITW, SpoofCeleb, DFEval 2024),并提供了详细的分割和许可证信息。 预训练权重:Phase-1证据库依赖Gemini生成,非可下载的预训练权重。 在线Demo:未提及。 引用的开源项目:faiss(用于k-NN), lm-format-enforcer, xgrammar(用于尝试约束AF3输出)。 📌 核心摘要 本文针对音频深度伪造检测模型在真实场景(in-the-wild)中泛化能力差的核心问题,提出了一种名为ICLAD的全新范式。该框架利用音频语言模型(ALM)的上下文学习能力,实现了无需训练的快速适应。其核心是创新的成对比较推理策略:在离线阶段,引导ALM为每个样本同时生成“真实”和“伪造”的证据,再结合真实标签进行证据调和,生成高质量、去幻觉的文本解释库;在线推理时,通过检索最相似的样本及其证据作为上下文,并结合一个动态路由机制,将分布内样本交给专用检测器处理,将分布外(真实场景)样本交给ALM进行推理。实验表明,ICLAD在三个真实场景数据集上显著超越了SOTA专用检测器(宏F1最高提升近2倍),并能提供可解释的文本理由。然而,该方法在脚本语音数据集上性能有所下降,且其最佳性能依赖于专有模型Gemini。 ...

2026-04-21 · 更新于 2026-05-20 · 2 min · 385 words