ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection
📄 ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection #音频深度伪造检测 #少样本 #检索增强 #音频大模型 #可解释性 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者(推断):Benjamin Chou(普渡大学,Purdue University) 通讯作者(推断):Yi Zhu(Reality Defender Inc.),Surya Koppisetti(Reality Defender Inc.) 其他作者:无 机构详情: Benjamin Chou:普渡大学(Purdue University),论文注释表明工作在Reality Defender Inc.实习期间完成。 Yi Zhu:Reality Defender Inc.(美国/加拿大,邮箱后缀为@inrs.ca,INRS为加拿大魁北克大学研究所)。 Surya Koppisetti:Reality Defender Inc.。 💡 毒舌点评 亮点:把大模型(ALM)的“思考”能力用在了音频安全这个“脏活累活”上,还搞出了个“左右互搏”(PCR)的套路让模型自己挑刺、去伪存真,思路相当清奇,结果在真实世界数据上效果拔群。槽点:最好的“厨师”(Phase-1证据生成)用的是谷歌的“秘制酱料”(Gemini),自己家“厨房”(开源ALM)的灶台还没完全搭好(AF3指令遵循差),让想完全复刻这道菜的人有点抓瞎。而且,这“秘制酱料”在处理“罐头食品”(脚本语音)时,味道反而不对了。 🔗 开源详情 代码:论文提到“GitHub”链接,但未在正文中给出具体URL。未明确说明是否开源。 模型权重: 专用检测器:使用的Wav2Vec2-AASIST是公开的预训练模型。 ALM:主要实验使用专有的Gemini-2.5 Flash API。评估了开源的Audio Flamingo 3 (AF3) 模型权重。 ICLAD本身:未提及发布任何ICLAD特有的模型权重。其“模型”本质上是提示策略和流程。 数据集:使用的均为公开学术数据集(ASVspoof 2019/2021, MLAAD, ITW, SpoofCeleb, DFEval 2024),并提供了详细的分割和许可证信息。 预训练权重:Phase-1证据库依赖Gemini生成,非可下载的预训练权重。 在线Demo:未提及。 引用的开源项目:faiss(用于k-NN), lm-format-enforcer, xgrammar(用于尝试约束AF3输出)。 📌 核心摘要 本文针对音频深度伪造检测模型在真实场景(in-the-wild)中泛化能力差的核心问题,提出了一种名为ICLAD的全新范式。该框架利用音频语言模型(ALM)的上下文学习能力,实现了无需训练的快速适应。其核心是创新的成对比较推理策略:在离线阶段,引导ALM为每个样本同时生成“真实”和“伪造”的证据,再结合真实标签进行证据调和,生成高质量、去幻觉的文本解释库;在线推理时,通过检索最相似的样本及其证据作为上下文,并结合一个动态路由机制,将分布内样本交给专用检测器处理,将分布外(真实场景)样本交给ALM进行推理。实验表明,ICLAD在三个真实场景数据集上显著超越了SOTA专用检测器(宏F1最高提升近2倍),并能提供可解释的文本理由。然而,该方法在脚本语音数据集上性能有所下降,且其最佳性能依赖于专有模型Gemini。 ...