📄 Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs #对抗样本 #多模态模型 #模型评估 #预训练
✅ 6.5/10 | #对抗样本 #多模态模型 | arxiv
👥 作者与机构 第一作者:Hao Wang (Magellan Technology Research Institute (MTRI), Waseda University) 通讯作者:未说明 作者列表:Hao Wang (Magellan Technology Research Institute (MTRI), Waseda University)、Yiqun Sun (Magellan Technology Research Institute (MTRI))、Pengfei Wei (Magellan Technology Research Institute (MTRI))、Lawrence B. Hsieh (Magellan Technology Research Institute (MTRI))、Daisuke Kawahara (Waseda University) 💡 毒舌点评 亮点在于提出了一种简洁、即插即用的VLM对抗防御框架,通过SAE的重建目标隐式学习攻击特征的思路有一定启发性,且实验设计(跨域、跨攻击设置)较为全面。短板在于核心insight“重建目标能隐式捕捉攻击信号”的理论解释或可视化证据不足,更像是一个经验性发现;此外,与最前沿的VLM攻击防御方法对比不足,部分实验(如只用SSA-CWA生成攻击特征)可能限制了结论的普适性。
📌 核心摘要 解决的问题:视觉-语言模型(VLMs)在面对对抗性攻击时极其脆弱,现有检测方法缺乏对最新、最强攻击的评估,且在跨域、跨攻击等现实场景下鲁棒性不足。 方法核心:提出SAEgis,一种基于稀疏自编码器(SAE)的即插即用检测框架。将SAE插入预训练VLM(如Qwen2.5-VL)的视觉编码器或投影层,仅用重建目标训练。利用少量对抗样本,通过计算每个稀疏特征的“攻击得分”来选出“攻击相关特征”。在推理时,计算输入图像触发的攻击相关特征数量,若超过基于干净数据校准的阈值,则判定为对抗样本。 与已有方法相比新在哪里:首次将SAE作为即插即用模块用于VLM对抗检测,无需对抗训练。方法基于特征激活模式而非重建误差或额外分类器,设计更轻量、通用。通过多层SAE信号集成,有效融合了低级纹理和高级语义中的攻击特征。 主要实验结果:在NIPS17、LLaVA、Medical三个数据集上,针对SSA-CWA、M-Attack、FOA-Attack三种攻击进行评估。SAEgis(集成版)在跨域设置下平均F1达到94.4%,显著优于Dense (Ensemble) 的82.2%和PIP的79.4%。在跨攻击设置下,单层SAE(vision-block0)也能保持较高F1(~89.7%),但集成后性能更稳定(F1 >93%)。 实际意义:为提升现实世界VLM部署的安全性提供了一个轻量、实用且易于集成的防御组件,尤其在域偏移和未知攻击下表现出良好鲁棒性。 主要局限性:攻击相关特征的“攻击得分”计算基于简单均值差,对分布漂移敏感;阈值校准仅依赖干净数据,在跨域测试时可能导致性能下降(如图5所示的失败案例);方法评估仅限于“描述图像”这一任务,对VLM其他功能的泛化性未知。 🔗 开源详情 代码:https://github.com/conan1024hao/SAEgis 模型权重:论文中未提及具体的模型权重链接。论文指出将使用 Qwen2.5-VL-3B-Instruct (Bai et al., 2025b) 作为骨干VLM,并将在论文发表后释放所有预训练的SAE权重 (“All pretrained SAE weights will be released upon publication”)。 数据集:论文中使用了以下数据集,但未提供直接的下载链接。数据集获取方式需参考原始论文或官方发布渠道。 NIPS17 (K et al., 2017) - 自然图像数据集。 LLaVA-Instruct-150K (Liu et al., 2023) - 自然图像数据集。 Medical Multimodal Evaluation Data (Chen et al., 2024b) - 医学图像数据集,用于域外评估。 FineVision (Wiedmann et al., 2025) - 用于预训练SAE模块。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及具体的训练脚本、配置文件或预训练检查点链接。但论文详细描述了实现细节(第4.2节),包括: 骨干模型:Qwen2.5-VL-3B-Instruct。 SAE训练数据:使用 FineVision 数据集,训练500k样本。 SAE超参数:批大小16,学习率5e-5,潜在维度32768,稀疏度Top-K=64。 实验超参数:选择Top-K=256个攻击相关特征,检测阈值由干净验证集上假阳性率α=0.02确定。 具体层位置:实验确定了 vision-block0, vision-block10 和 projection-mlp2 是最佳SAE插入点。 论文中引用的开源项目:论文中引用了以下开源项目/工具,但未在正文中提供其官方链接(链接仅存在于参考文献列表中,未在此列出): VLM模型:CLIP (Radford et al., 2021), BLIP (Li et al., 2022), MiniGPT-4 (Zhu et al., 2023), Qwen2.5-VL-3B-Instruct (Bai et al., 2025b)。 扩散模型:Stable Diffusion (Rombach et al., 2022), 用于MirrorCheck方法。 数据集:LAION-400M (Schuhmann et al., 2021), 用于AnyAttack方法训练。 攻击方法:SSA-CWA (Dong et al., 2023), AttackVLM (Zhao et al., 2023), AdvDiffVLM (Guo et al., 2024), AnyAttack (Zhang et al., 2025), M-Attack (未完整引用), FOA-Attack (Jia et al., 2025)。 检测方法:MirrorCheck (Fares et al., 2024), PIP (Zhang et al., 2024), HiddenDetect (Jiang et al., 2025b), PromptGuard (Zhou et al., 2026)。 其他:SVM (Cortes and Vapnik, 1995), 用于PIP方法。 🏗️ 方法概述和架构 整体流程概述:SAEgis是一个两阶段的即插即用防御框架。第一阶段是特征选择阶段,在已知攻击类型的数据上,训练一个SAE模块并识别出与攻击最相关的稀疏特征;第二阶段是检测推理阶段,在部署时,通过监控这些攻击相关特征的激活数量来实时判断输入图像是否为对抗样本。整个系统无需修改原VLM的参数,仅在选定层旁插入一个SAE模块。
...