Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models
📄 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models #音频安全 #对抗样本 #多模态模型 #基准测试 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv 学术质量 7.3/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Yanyun Wang 通讯作者:未在论文中明确指定 作者列表:Yanyun Wang, Yu Huang, Zi Liang, Xixin Wu, Li Liu(所有作者所属机构信息未在论文正文中提供,仅在作者姓名下方列出,未明确给出具体机构名称) 💡 毒舌点评 本文的核心亮点是提出了一个范式级别的创新——“声学干扰”,巧妙地将攻击载荷从“恶意音频内容”解耦,利用生成模型先验中的良性声学特征作为通用触发器,这思路极具启发性且实验验证充分。然而,一个必须严肃质疑的根本问题是:整个“通用”ALS武器库的构建完全依赖于Bark模型的特定先验。那么,AIA对目标LALM的“通用性”是否隐含了一个关键假设,即这些LALM的音频编码器与Bark的生成空间存在某种未知的共性?如果目标LALM的音频处理架构与Bark差异巨大,这种“声学干扰”的迁移性还能成立吗?论文对此核心假设缺乏深入的理论或实验讨论,使得“通用性”的宣称打了折扣。此外,所有评估严重依赖GPT-4o作为裁判,尽管引入了外部模型验证,但“运动员兼裁判”的风险依然存在。 📌 核心摘要 问题:现有针对大音频语言模型(LALM)的越狱攻击范式(优化语义、控制声学参数、添加扰动)都将恶意音频内容作为攻击载荷,存在效率低、耦合性强等根本局限。本文挑战了这种必要性。 方法核心:提出“声学干扰”新范式和“声学干扰攻击”(AIA)。核心是利用特定的“声学潜在语义”(ALS)——从生成模型(Bark)先验中挖掘的、内容良性的内在副语言特征——作为通用触发器,干扰LALM的安全对齐路径。攻击通过一个离线构建、预排序的通用中性ALS音频库实现,无需实例特定优化。两阶段攻击流程:先尝试纯文本越狱,若失败则从ALS库中依次选取音频与文本组合查询。 创新点:首次发现并定义“声学干扰”现象;提出首个解耦攻击载荷与音频模态的通用黑盒越狱方法AIA;通过可解释性分析揭示了干扰诱导的“推理路径漂移”机制;构建了可解释的12维ALS索引系统。 实验结果:在10个LALM(7开源,3闭源)和5个数据集上验证了AIA的有效性。以表2为例,在JBB数据集上,AIA使Qwen2.5-Omni的ASR-M从文本基线的50.98%提升至100.00%,对GPT-4o-Audio从56.10%提升至75.61%。在与现有方法的对比中(表3),AIA在多个模型上取得了SOTA或接近SOTA的攻击效果,且查询开销相对较低。 实际意义:揭示了当前LALM跨模态安全对齐的根本性脆弱性,即安全机制可能被内容无关的声学特征所干扰。为攻击和防御研究提供了新方向。 局限性:攻击有效性高度依赖于作为代理模型的Bark;未探讨防御策略;部分基线对比数据来自不同评测标准(JALMBench的宽松评分)。 🔗 开源详情 代码:https://flaai.github.io/AIA_page 模型权重:论文中未提及 数据集: JBB-Behaviors (from JailbreakBench): 论文引用了该数据集。其获取链接通常为:https://github.com/centerforaisafety/JailbreakBench。 WildJailbreak: 论文引用了该数据集。其获取链接通常为:https://huggingface.co/datasets/AI-LLM/WildJailbreak。 HH-RLHF: 论文引用了该数据集。其获取链接通常为:https://github.com/anthropics/hh-rlhf。 AdvBench: 论文引用了该数据集。其获取链接通常为:https://github.com/linyiZh/AdvBench。 HarmBench: 论文引用了该数据集。其获取链接通常为:https://github.com/centerforaisafety/HarmBench。 Demo:论文中未提及在线演示链接,但提供了项目主页 https://flaai.github.io/AIA_page。 复现材料:论文中未提及具体的训练配置、检查点下载链接。文中提到了构建的“ALS arsenal”以及附录中提供了算法伪代码、12维标签系统定义等复现所需的部分具体信息。 论文中引用的开源项目: Bark (文本转语音模型): https://github.com/suno-ai/bark CLAP (对比音频预训练模型): https://github.com/LAION-AI/CLAP WavLM (音频表示模型): https://github.com/microsoft/unilm/tree/master/wavlm JailbreakBench: https://github.com/centerforaisafety/JailbreakBench WildJailbreak: https://huggingface.co/datasets/AI-LLM/WildJailbreak HH-RLHF: https://github.com/anthropics/hh-rlhf AdvBench: https://github.com/linyiZh/AdvBench HarmBench: https://github.com/centerforaisafety/HarmBench Llama Guard 3: 论文提及模型名,链接未提供。其官方信息通常来自 Meta AI。 GPT-4o / GPT-4o-mini: OpenAI的专有模型,无开源链接。 🏗️ 方法概述和架构 整体流程概述:本文提出的声学干扰攻击(AIA)是一个两阶段的黑盒攻击框架。输入是一个恶意的文本越狱提示(text jailbreak)和目标LALM。第一阶段(文本测试),系统先用原始文本多次查询LALM;若文本本身未能成功越狱,则进入第二阶段(音频干扰),从预构建并排序的通用声学干扰音频库(ALS武器库)中依次选取音频,与文本组合成多模态查询,直至成功或达到尝试上限。输出为是否成功诱导模型生成有害回应。 ...