Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection
📄 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection #音频安全 #音频大模型 #对抗样本 #多模态模型 🔥 评分:8.8/10 | arxiv 👥 作者与机构 第一作者:Meng Chen(浙江大学,ZJU-MUSLAB) 通讯作者:Tianwei Zhang(新加坡国立大学,School of Computing) 其他作者: Kun Wang(浙江大学,ZJU-MUSLAB) Li Lu(浙江大学,ZJU-MUSLAB) Jiaheng Zhang(香港中文大学,Department of Computer Science & Engineering) Kun Wang(阿里云,Alibaba Cloud)(注:论文PDF中作者列表有两位Kun Wang,根据机构推断一位来自ZJU-MUSLAB,另一位来自阿里云) 💡 毒舌点评 亮点:论文首次系统性地研究了针对音频大语言模型(LALM)的“间接”音频提示注入攻击,问题定义精准(数据-only访问、用户在环),并提出了一个通用且有效的攻击框架AudioHijack。槽点:攻击框架严重依赖对目标模型的白盒访问(知道架构和参数),这在现实世界中可能是一个重大限制;此外,虽然提出了多种防御策略,但它们的有效性有限,论文在“如何有效防御”这一更关键的问题上着墨相对较少。 🔗 开源详情 代码:论文中明确提到“We release our code and data at https://github.com/zju-muslab/AudioHijack”。GitHub仓库已创建,但截至论文发布时可能尚未完全公开。 模型权重:未提及发布攻击模型权重。攻击针对的是现有的开源LALM。 数据集:论文中使用的音频数据来自公开基准(AirBench, VoiceBench)。用于训练攻击的辅助用户指令数据集可能随代码一起发布。 音频样本:提供在线试听链接:https://audiohijack.github.io。 在线Demo:未提及。 依赖的开源项目:攻击实现依赖于PyTorch等框架,以及被攻击的各个开源LALM的官方代码库(如Qwen2-Audio, GLM-4-Voice等)。 📌 核心摘要 这篇论文揭示了针对音频大语言模型(LALM)的一种新型安全威胁:上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据(如会议录音、音乐片段),即可在用户不知情的情况下,劫持模型行为,使其执行恶意指令(如发送邮件、下载文件、传播错误信息)。为实现这一目标,作者提出了AudioHijack框架,它通过基于采样的梯度估计解决了音频分词不可微的问题,实现了端到端的对抗音频优化;通过注意力引导的上下文泛化技术,使攻击能泛化到未知的用户指令上下文;并设计了卷积扰动混合方法,将对抗扰动模拟为自然的混响效果,极大提升了攻击的隐蔽性。实验表明,AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%,并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞,为LALM的安全设计提供了重要警示。 🏗️ 模型架构 论文本身并未提出新的模型架构,而是针对现有的、架构各异的大型音频语言模型(LALM) 进行攻击研究。因此,本节将详细描述被攻击的LALM的通用架构流程,以及AudioHijack攻击框架如何与之交互。 ...