📄 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection
#音频安全 #音频大模型 #对抗样本 #多模态模型
🔥 评分:8.8/10 | arxiv
👥 作者与机构
- 第一作者:Meng Chen(浙江大学,ZJU-MUSLAB)
- 通讯作者:Tianwei Zhang(新加坡国立大学,School of Computing)
- 其他作者:
- Kun Wang(浙江大学,ZJU-MUSLAB)
- Li Lu(浙江大学,ZJU-MUSLAB)
- Jiaheng Zhang(香港中文大学,Department of Computer Science & Engineering)
- Kun Wang(阿里云,Alibaba Cloud)(注:论文PDF中作者列表有两位Kun Wang,根据机构推断一位来自ZJU-MUSLAB,另一位来自阿里云)
💡 毒舌点评
亮点:论文首次系统性地研究了针对音频大语言模型(LALM)的“间接”音频提示注入攻击,问题定义精准(数据-only访问、用户在环),并提出了一个通用且有效的攻击框架AudioHijack。槽点:攻击框架严重依赖对目标模型的白盒访问(知道架构和参数),这在现实世界中可能是一个重大限制;此外,虽然提出了多种防御策略,但它们的有效性有限,论文在“如何有效防御”这一更关键的问题上着墨相对较少。
📌 核心摘要
这篇论文揭示了针对音频大语言模型(LALM)的一种新型安全威胁:上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据(如会议录音、音乐片段),即可在用户不知情的情况下,劫持模型行为,使其执行恶意指令(如发送邮件、下载文件、传播错误信息)。为实现这一目标,作者提出了AudioHijack框架,它通过基于采样的梯度估计解决了音频分词不可微的问题,实现了端到端的对抗音频优化;通过注意力引导的上下文泛化技术,使攻击能泛化到未知的用户指令上下文;并设计了卷积扰动混合方法,将对抗扰动模拟为自然的混响效果,极大提升了攻击的隐蔽性。实验表明,AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%,并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞,为LALM的安全设计提供了重要警示。
🏗️ 模型架构
论文本身并未提出新的模型架构,而是针对现有的、架构各异的大型音频语言模型(LALM) 进行攻击研究。因此,本节将详细描述被攻击的LALM的通用架构流程,以及AudioHijack攻击框架如何与之交互。
1. 被攻击LALM的通用输入输出流程: 现代LALM通常采用端到端架构,直接处理音频输入并生成文本/语音响应。其核心流程如下:
- 输入:一个组合提示,通常包含:
- 音频数据:用户上传或参考的音频内容(如录音、音乐)。
- 用户指令:可以是文本(如“总结这段录音”)或语音(直接说出指令)。
- 系统提示:模型预设的角色和任务指令。
- 处理流程:
- 音频编码:原始音频信号
x通过一个音频编码器E(·)(如Whisper的编码器、BEATs等)提取连续声学特征e = E(x)。 - 音频-文本对齐:这是架构异构的关键。根据论文分类,有三种主要方案:
- 离散标记方案:声学特征
e通过向量量化(VQ)层映射为离散音频标记序列z,然后通过嵌入矩阵Φ查表得到嵌入向量ẽ = Φ(z),与文本标记嵌入拼接。 - 连续特征方案:声学特征
e通过一个模态适配器(如MLP、交叉注意力层)直接投影到文本嵌入空间,得到与文本嵌入维度一致的向量,再与文本嵌入拼接。 - 混合方案:同时使用离散标记和连续特征,将两者与文本嵌入融合。
- 离散标记方案:声学特征
- 大语言模型处理:拼接后的嵌入序列被送入LLM主干(如LLaMA、Qwen等)。LLM以自回归方式生成响应。
- 音频编码:原始音频信号
- 输出:生成文本响应,部分全双工模型还会并行生成语音。
2. AudioHijack攻击框架的介入点:
AudioHijack的目标是生成对抗音频 x̂,使得当 x̂ 作为“音频数据”输入时,模型的输出行为被劫持。
- 攻击目标:优化
x̂,使得M(x̂, x_c)(x_c为未知用户上下文)生成预定义的恶意响应r_t。 - 核心挑战与对应组件:
- 挑战C1(梯度阻塞):在离散标记方案中,VQ层的硬选择操作不可微,阻碍了梯度从损失函数
L反向传播到输入音频x̂。AudioHijack的解决方案是基于采样的梯度估计。它用Gumbel-Softmax采样替代硬选择,用可微的加权求和替代嵌入查找,从而打通了梯度流。 - 挑战C2(上下文不透明与敏感):用户指令
x_c未知且多变,攻击需具有泛化性。AudioHijack的解决方案是注意力引导的上下文泛化。它包括:(a) 隐式方法:在多个辅助用户指令上优化攻击(EoT);(b) 显式方法:在损失函数中加入注意力损失L_att,强制模型在生成目标响应时,更多地关注对抗音频数据部分,抑制对用户上下文的注意力。 - 挑战C3(感知隐蔽性):扰动必须人耳不可闻。AudioHijack的解决方案是卷积扰动混合。它不直接添加噪声
δ,而是将音频分帧后与可学习的短卷积核(初始化自真实房间脉冲响应RIR)进行卷积,再通过重叠相加和能量归一化,生成类似自然混响的对抗样本。
- 挑战C1(梯度阻塞):在离散标记方案中,VQ层的硬选择操作不可微,阻碍了梯度从损失函数
3. 关键设计选择理由:
- 输出级注入策略:选择操纵模型输出分布(生成特定响应),而非输入级(混入语音指令)或特征级(对齐嵌入),是因为该策略对模型架构的假设最少,普适性最强。
- Gumbel-Softmax:相比直通估计器(STE),它能更好地处理LALM中音频嵌入与声学特征维度不匹配的问题,提供更准确的梯度估计。
- 注意力监督:直接干预模型的注意力分配是解决上下文敏感性的根本方法,因为攻击失效的本质是模型注意力被用户指令“抢走”。
- 卷积混合:相比简单的加性扰动,卷积操作能更好地将扰动能量分布在时频域,模仿自然声学现象(如混响),从而在相同扰动强度下获得更高的感知质量。
💡 核心创新点
- 首个系统化的音频提示注入攻击框架:定义了“上下文无关、不可感知”的间接音频提示注入威胁模型(攻击者仅控制音频数据,用户在环),并提出了通用的AudioHijack攻击框架,填补了LALM安全研究中针对主动行为劫持攻击的空白。
- 基于采样的端到端梯度估计方法:针对离散音频标记化带来的梯度阻塞问题,提出使用Gumbel-Softmax分布进行可微分采样,结合直通技巧,实现了对包含离散、连续及混合架构的LALM的端到端对抗优化。
- 注意力引导的上下文泛化技术:创新性地将攻击泛化性问题归因于模型的注意力竞争,并设计了隐式(多上下文训练)与显式(注意力损失函数)相结合的注意力操控方法,使对抗音频在各种未知用户指令下均能稳定劫持模型。
- 卷积扰动混合的隐蔽攻击方法:提出将对抗扰动建模为可学习的卷积核(模拟房间脉冲响应),通过卷积运算将扰动“混合”到原始音频中,生成类似自然混响的对抗样本,在攻击效果和感知隐蔽性之间取得了卓越平衡。
🔬 细节详述
- 训练数据:
- 音频数据载体:从AirBench(音频问答基准)和VoiceBench(语音助手基准)中采样。具体包括:从AirBench-chat子集随机抽取600个音频-文本对(200个语音QA、200个声音QA、200个音乐QA);从VoiceBench-wildvoice子集选取200个真实人声样本。这些音频作为攻击的载体
x_d。 - 辅助用户指令数据集:用于上下文泛化训练。论文未明确说明来源,但指出使用了一个小的辅助指令集
X̂_c,包含代表性的交互上下文(文本和语音)。消融实验显示,仅需20-50条辅助指令即可达到较好效果。
- 音频数据载体:从AirBench(音频问答基准)和VoiceBench(语音助手基准)中采样。具体包括:从AirBench-chat子集随机抽取600个音频-文本对(200个语音QA、200个声音QA、200个音乐QA);从VoiceBench-wildvoice子集选取200个真实人声样本。这些音频作为攻击的载体
- 损失函数:
- 总损失:
L_total = L_adv + α * L_pen + β * L_att - 对抗损失
L_adv:标准的序列级损失,如交叉熵损失,目标是使模型M生成预定义的目标响应r_t。在上下文泛化中,L_adv是在多个辅助用户指令x̂_c上的期望:L_adv = E_{x̂_c ~ X̂_c} [L(M(x̂, x̂_c), r_t)]。 - 惩罚损失
L_pen:在卷积混合策略下,L_pen = || x̂ - x_d * δ_0 ||_2,其中δ_0是预设的真实房间脉冲响应信号。该项约束学到的卷积核δ_k接近自然的RIR形状。 - 注意力损失
L_att:L_att = max{κ - W_d, 0}。W_d是生成目标响应r_t的所有token对音频数据token的平均注意力权重。该项强制W_d不低于阈值κ(论文中设为0.015)。
- 总损失:
- 训练策略:
- 优化器:论文未明确说明,通常使用AdamW。
- 学习率:0.001。
- 训练步数:连续和混合架构模型训练2000步,离散架构模型训练3000步。
- Batch Size:4。
- 温度参数
τ:用于Gumbel-Softmax,设为10。
- 关键超参数:
α = 1.0(惩罚损失权重)β = 50.0(注意力损失权重)κ = 0.015(注意力下界)τ = 10.0(Gumbel-Softmax温度)- 卷积核长度:约0.2秒。
- 音频帧长:约0.2秒,帧移:0.01秒,使用汉宁窗进行边界平滑。
- 训练硬件:论文未明确说明,但评估部分提到使用两块L40-48GB GPU进行长音频实验。
- 推理细节:使用每个LALM默认的采样参数(温度、top_k, top_p)进行生成,以模拟真实场景。
- 数据增强/正则化:攻击优化本身通过在多上下文上训练(隐式EoT)和注意力损失(显式正则)来提高泛化性,防止过拟合到特定指令。
📊 实验结果
- 主要指标对比(攻击有效性 - 非工具滥用):
论文在13个LALM上测试了5种非工具滥用行为(共10个目标响应),每个模型-目标组合测试100个未见过的用户上下文。
- 整体成功率:平均提示注入成功率(PISR) 在0.89-0.95之间,平均行为匹配成功率(BMSR) 在0.84-0.94之间。
- 按模型架构:
- 离散架构(SpeechGPT除外):GLM-4-Voice和VITA-Audio的PISR和BMSR均高于0.91和0.90。SpeechGPT因音频词表小(仅1000),成功率较低(PISR: 0.23-0.57, BMSR: 0.15-0.42)。
- 连续架构:普遍表现优异,如Qwen2-Audio, Kimi-Audio等,BMSR普遍>0.90。
- 混合架构(Kimi-Audio):BMSR > 0.90。
- 工具滥用攻击结果(表III):
在支持工具调用的三个模型(Ultravox-v5, Phi-4-Multimodal, Voxtral-Mini)上进行。
- 单步工具调用:
search_web:BMSR在0.91-1.00之间。download_file:BMSR在0.78-1.00之间。
- 级联工具调用(
list_calendar+send_email,文本格式):- Ultravox-v5: BMSR=0.95
- Phi-4-Multimodal: BMSR=0.83
- Voxtral-Mini: BMSR=0.59(较低,因模型常请求用户确认)。
- 发现:JSON格式的目标响应比文本格式更容易成功触发工具滥用。
- 单步工具调用:
- 上下文泛化分析(图7):
- 指令长度:随着用户指令token长度增加(0-120),PISR和BMSR保持稳定,仅在语音指令超过100 token时略有下降。
- 消融研究(图7 & 图8):
- 上下文特定攻击(CSA) 在未见过的上下文上BMSR很低(0.18-0.65)。
- 上下文无关攻击(CAA,即AudioHijack) 即使不加
L_att,BMSR也保持在0.77以上。 - 加入
L_att后,CSA的BMSR提升0.11-0.33,CAA的BMSR提升0.01-0.14。 - 训练过程中,对抗音频获得的注意力权重稳步上升,同时交叉熵损失下降更快,证明了注意力引导的有效性。
- 攻击隐蔽性评估(表IV):
在5个模型上,使用5种语音、5种声音、5种音乐载体进行评估。
- AudioHijack(卷积混合):
- SNR:语音29.27dB,声音28.61dB,音乐30.05dB。
- MCD:语音4.16,声音2.37,音乐2.80。
- PESQ(语音):3.16。
- 对比基线:
- L∞约束的加性攻击:SNR极低(9.87-14.71),MCD高(4.24-8.36),PESQ差(1.18)。
- L2惩罚的加性攻击:SNR中等(22.15-27.16),MCD中等(2.96-5.56),PESQ中等(2.23)。
- 结论:卷积混合在各项指标上均显著优于加性方法,听感上更接近自然混响。
- AudioHijack(卷积混合):
- 实际影响因素分析:
- 辅助数据大小:即使只用20条辅助指令,BMSR仍>0.64;用50条时,BMSR>0.85。
- 载体长度:7.5秒载体BMSR>0.63;10秒载体BMSR>0.75。
- 采样温度:温度升高(随机性增加)会降低成功率,但温度=1.3时BMSR仍>0.60。
- 长音频可扩展性:在10分钟音频中优化15秒片段,BMSR=0.58;优化30秒片段,BMSR=0.89。
- 对商业语音代理的攻击(表VI):
- 同模型迁移(本地模型 -> 商业API):
- Phi4MM-instruct: 平均BMSR 0.53-0.98。
- VM-latest: 平均BMSR 0.52-0.97。
- 跨模型迁移(Voxtral-Mini -> VS-latest):BMSR > 0.37(除钓鱼投递0.14)。
- 同模型迁移(本地模型 -> 商业API):
- 防御评估:
- 上下文防御:效果有限,BMSR下降<0.07。
- 自反思检测:真阳性率(TPR)仅0.28,对“听觉失明”和“提示拒绝”类攻击几乎无效。
- Logits发散检测:AUC 0.71-0.85,但等错误率(EER)较高(0.21-0.36)。
- 注意力偏差检测:效果最好,PCA+SVM分类器的精确率和召回率分别达0.98和0.93。但在自适应攻击(减小
κ)下,性能下降(精确率0.90,召回率0.69),揭示了攻击效果与可检测性之间的权衡。
⚖️ 评分理由
- 创新性:9.5/10 - 论文首次系统定义了针对LALM的间接音频提示注入威胁模型,并提出了AudioHijack这一集成多项创新技术(梯度估计、注意力引导、卷积混合)的通用攻击框架,开创性强,对AI安全社区有重要警示作用。
- 实验充分性:9.0/10 - 实验极其全面,在13个不同架构的SOTA LALM和2个商业API上进行了大规模评估,涵盖了多种攻击行为、上下文泛化、隐蔽性、实际影响因素和防御探索。数据详实,消融实验设计合理。
- 实用价值:8.5/10 - 揭示了LALM在实际部署中面临的真实、高危安全漏洞,尤其是对具有工具调用能力的语音代理,攻击可导致数据泄露、恶意操作等严重后果。研究直接推动了LALM安全设计的需求。
- 灌水程度:2.0/10 - 论文内容紧凑,问题、方法、实验、讨论环环相扣,技术细节丰富,没有明显的冗余或夸大表述。是一篇扎实的安全研究论文。
🔗 开源详情
- 代码:论文中明确提到“We release our code and data at https://github.com/zju-muslab/AudioHijack”。GitHub仓库已创建,但截至论文发布时可能尚未完全公开。
- 模型权重:未提及发布攻击模型权重。攻击针对的是现有的开源LALM。
- 数据集:论文中使用的音频数据来自公开基准(AirBench, VoiceBench)。用于训练攻击的辅助用户指令数据集可能随代码一起发布。
- 音频样本:提供在线试听链接:
https://audiohijack.github.io。 - 在线Demo:未提及。
- 依赖的开源项目:攻击实现依赖于PyTorch等框架,以及被攻击的各个开源LALM的官方代码库(如Qwen2-Audio, GLM-4-Voice等)。
🖼️ 图片与表格
- 图1: LALM架构分类图 | 保留: 是 - 清晰展示了离散、连续、混合三种音频-文本集成方案,是理解攻击背景和挑战C1的关键。
- 图2: 威胁模型示意图 | 保留: 是 - 直观说明了攻击者、用户、LALM助理三方关系及攻击场景,对理解问题定义至关重要。
- 图3: AudioHijack框架概览图 | 保留: 是 - 核心架构图,概括了攻击的三个主要组件及其解决的挑战,是理解方法的关键。
- 图4: 注意力竞争直觉图 | 保留: 是 - 通过注意力权重的对比,直观揭示了攻击成功/失败与模型注意力分配的关系,引出了注意力引导方法的必要性。
- 图5: 13个LALM攻击成功率柱状图 | 保留: 是 - 核心结果图,展示了AudioHijack在不同模型和不同攻击行为上的高成功率,证明了方法的有效性和普适性。
- 图7: 上下文泛化分析图 | 保留: 是 - 展示了攻击成功率随指令长度和模态的变化,以及��键的消融实验结果,证明了上下文泛化能力。
- 图8: 训练过程中注意力权重与损失变化图 | 保留: 是 - 提供了注意力引导方法有效的动态证据,显示了注意力上升与损失下降的同步过程。
- 图9: 频谱图对比(语音载体) | 保留: 是 - 关键的可视化结果,直观对比了原始音频、加性对抗样本、卷积对抗样本和自然混响音频的频谱,强有力地证明了卷积混合的隐蔽性优势。
- 表II: 目标LALM总结 | 保留: 是 - 以表格形式详细列出了被攻击模型的架构、参数量、能力等信息,是实验设置的重要参考。
- 表III: 工具滥用攻击结果 | 保留: 是 - 详细展示了针对三个支持工具调用的模型的攻击成功率,揭示了工具滥用这一高风险漏洞。
- 表IV: 攻击隐蔽性量化对比 | 保留: 是 - 核心结果表,用SNR、MCD、PESQ等指标量化证明了卷积混合方法在感知质量上显著优于加性方法。
- 表VI: 对商业语音代理的攻击结果 | 保留: 是 - 证明了攻击从开源模型到商业API的迁移性,凸显了实际威胁。
- 附录图表(如注意力可视化、更多频谱图) | 保留: 否 - 属于补充材料,非核心结论所必需。
📸 论文图片







