📄 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

#音频安全 #音频大模型 #对抗样本 #多模态模型

🔥 评分：8.8/10 | arxiv

👥 作者与机构

第一作者：Meng Chen（浙江大学，ZJU-MUSLAB）
通讯作者：Tianwei Zhang（新加坡国立大学，School of Computing）
其他作者：
- Kun Wang（浙江大学，ZJU-MUSLAB）
- Li Lu（浙江大学，ZJU-MUSLAB）
- Jiaheng Zhang（香港中文大学，Department of Computer Science & Engineering）
- Kun Wang（阿里云，Alibaba Cloud）(注：论文PDF中作者列表有两位Kun Wang，根据机构推断一位来自ZJU-MUSLAB，另一位来自阿里云)

💡 毒舌点评

亮点：论文首次系统性地研究了针对音频大语言模型（LALM）的“间接”音频提示注入攻击，问题定义精准（数据-only访问、用户在环），并提出了一个通用且有效的攻击框架AudioHijack。槽点：攻击框架严重依赖对目标模型的白盒访问（知道架构和参数），这在现实世界中可能是一个重大限制；此外，虽然提出了多种防御策略，但它们的有效性有限，论文在“如何有效防御”这一更关键的问题上着墨相对较少。

🔗 开源详情

代码：论文中明确提到“We release our code and data at https://github.com/zju-muslab/AudioHijack”。GitHub仓库已创建，但截至论文发布时可能尚未完全公开。
模型权重：未提及发布攻击模型权重。攻击针对的是现有的开源LALM。
数据集：论文中使用的音频数据来自公开基准（AirBench, VoiceBench）。用于训练攻击的辅助用户指令数据集可能随代码一起发布。
音频样本：提供在线试听链接：https://audiohijack.github.io。
在线Demo：未提及。
依赖的开源项目：攻击实现依赖于PyTorch等框架，以及被攻击的各个开源LALM的官方代码库（如Qwen2-Audio, GLM-4-Voice等）。

📌 核心摘要

这篇论文揭示了针对音频大语言模型（LALM）的一种新型安全威胁：上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据（如会议录音、音乐片段），即可在用户不知情的情况下，劫持模型行为，使其执行恶意指令（如发送邮件、下载文件、传播错误信息）。为实现这一目标，作者提出了AudioHijack框架，它通过基于采样的梯度估计解决了音频分词不可微的问题，实现了端到端的对抗音频优化；通过注意力引导的上下文泛化技术，使攻击能泛化到未知的用户指令上下文；并设计了卷积扰动混合方法，将对抗扰动模拟为自然的混响效果，极大提升了攻击的隐蔽性。实验表明，AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%，并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞，为LALM的安全设计提供了重要警示。

🏗️ 模型架构

论文本身并未提出新的模型架构，而是针对现有的、架构各异的大型音频语言模型（LALM） 进行攻击研究。因此，本节将详细描述被攻击的LALM的通用架构流程，以及AudioHijack攻击框架如何与之交互。

1. 被攻击LALM的通用输入输出流程： 现代LALM通常采用端到端架构，直接处理音频输入并生成文本/语音响应。其核心流程如下：

输入：一个组合提示，通常包含：
- 音频数据：用户上传或参考的音频内容（如录音、音乐）。
- 用户指令：可以是文本（如“总结这段录音”）或语音（直接说出指令）。
- 系统提示：模型预设的角色和任务指令。
处理流程：
1. 音频编码：原始音频信号 x 通过一个音频编码器 E(·)（如Whisper的编码器、BEATs等）提取连续声学特征 e = E(x)。
2. 音频-文本对齐：这是架构异构的关键。根据论文分类，有三种主要方案：
  - 离散标记方案：声学特征 e 通过向量量化（VQ）层映射为离散音频标记序列 z，然后通过嵌入矩阵 Φ 查表得到嵌入向量 ẽ = Φ(z)，与文本标记嵌入拼接。
  - 连续特征方案：声学特征 e 通过一个模态适配器（如MLP、交叉注意力层）直接投影到文本嵌入空间，得到与文本嵌入维度一致的向量，再与文本嵌入拼接。
  - 混合方案：同时使用离散标记和连续特征，将两者与文本嵌入融合。
3. 大语言模型处理：拼接后的嵌入序列被送入LLM主干（如LLaMA、Qwen等）。LLM以自回归方式生成响应。
输出：生成文本响应，部分全双工模型还会并行生成语音。

2. AudioHijack攻击框架的介入点： AudioHijack的目标是生成对抗音频 x̂，使得当 x̂ 作为“音频数据”输入时，模型的输出行为被劫持。

攻击目标：优化 x̂，使得 M(x̂, x_c)（x_c为未知用户上下文）生成预定义的恶意响应 r_t。
核心挑战与对应组件：
- 挑战C1（梯度阻塞）：在离散标记方案中，VQ层的硬选择操作不可微，阻碍了梯度从损失函数 L 反向传播到输入音频 x̂。AudioHijack的解决方案是基于采样的梯度估计。它用Gumbel-Softmax采样替代硬选择，用可微的加权求和替代嵌入查找，从而打通了梯度流。
- 挑战C2（上下文不透明与敏感）：用户指令 x_c 未知且多变，攻击需具有泛化性。AudioHijack的解决方案是注意力引导的上下文泛化。它包括：(a) 隐式方法：在多个辅助用户指令上优化攻击（EoT）；(b) 显式方法：在损失函数中加入注意力损失 L_att，强制模型在生成目标响应时，更多地关注对抗音频数据部分，抑制对用户上下文的注意力。
- 挑战C3（感知隐蔽性）：扰动必须人耳不可闻。AudioHijack的解决方案是卷积扰动混合。它不直接添加噪声 δ，而是将音频分帧后与可学习的短卷积核（初始化自真实房间脉冲响应RIR）进行卷积，再通过重叠相加和能量归一化，生成类似自然混响的对抗样本。

3. 关键设计选择理由：

输出级注入策略：选择操纵模型输出分布（生成特定响应），而非输入级（混入语音指令）或特征级（对齐嵌入），是因为该策略对模型架构的假设最少，普适性最强。
Gumbel-Softmax：相比直通估计器（STE），它能更好地处理LALM中音频嵌入与声学特征维度不匹配的问题，提供更准确的梯度估计。
注意力监督：直接干预模型的注意力分配是解决上下文敏感性的根本方法，因为攻击失效的本质是模型注意力被用户指令“抢走”。
卷积混合：相比简单的加性扰动，卷积操作能更好地将扰动能量分布在时频域，模仿自然声学现象（如混响），从而在相同扰动强度下获得更高的感知质量。

💡 核心创新点

首个系统化的音频提示注入攻击框架：定义了“上下文无关、不可感知”的间接音频提示注入威胁模型（攻击者仅控制音频数据，用户在环），并提出了通用的AudioHijack攻击框架，填补了LALM安全研究中针对主动行为劫持攻击的空白。
基于采样的端到端梯度估计方法：针对离散音频标记化带来的梯度阻塞问题，提出使用Gumbel-Softmax分布进行可微分采样，结合直通技巧，实现了对包含离散、连续及混合架构的LALM的端到端对抗优化。
注意力引导的上下文泛化技术：创新性地将攻击泛化性问题归因于模型的注意力竞争，并设计了隐式（多上下文训练）与显式（注意力损失函数）相结合的注意力操控方法，使对抗音频在各种未知用户指令下均能稳定劫持模型。
卷积扰动混合的隐蔽攻击方法：提出将对抗扰动建模为可学习的卷积核（模拟房间脉冲响应），通过卷积运算将扰动“混合”到原始音频中，生成类似自然混响的对抗样本，在攻击效果和感知隐蔽性之间取得了卓越平衡。

🔬 细节详述

训练数据：
- 音频数据载体：从AirBench（音频问答基准）和VoiceBench（语音助手基准）中采样。具体包括：从AirBench-chat子集随机抽取600个音频-文本对（200个语音QA、200个声音QA、200个音乐QA）；从VoiceBench-wildvoice子集选取200个真实人声样本。这些音频作为攻击的载体 x_d。
- 辅助用户指令数据集：用于上下文泛化训练。论文未明确说明来源，但指出使用了一个小的辅助指令集 X̂_c，包含代表性的交互上下文（文本和语音）。消融实验显示，仅需20-50条辅助指令即可达到较好效果。
损失函数：
- 总损失：L_total = L_adv + α * L_pen + β * L_att
- 对抗损失 L_adv：标准的序列级损失，如交叉熵损失，目标是使模型 M 生成预定义的目标响应 r_t。在上下文泛化中，L_adv 是在多个辅助用户指令 x̂_c 上的期望：L_adv = E_{x̂_c ~ X̂_c} [L(M(x̂, x̂_c), r_t)]。
- 惩罚损失 L_pen：在卷积混合策略下，L_pen = || x̂ - x_d * δ_0 ||_2，其中 δ_0 是预设的真实房间脉冲响应信号。该项约束学到的卷积核 δ_k 接近自然的RIR形状。
- 注意力损失 L_att：L_att = max{κ - W_d, 0}。W_d 是生成目标响应 r_t 的所有token对音频数据token的平均注意力权重。该项强制 W_d 不低于阈值 κ（论文中设为0.015）。
训练策略：
- 优化器：论文未明确说明，通常使用AdamW。
- 学习率：0.001。
- 训练步数：连续和混合架构模型训练2000步，离散架构模型训练3000步。
- Batch Size：4。
- 温度参数 τ：用于Gumbel-Softmax，设为10。
关键超参数：
- α = 1.0（惩罚损失权重）
- β = 50.0（注意力损失权重）
- κ = 0.015（注意力下界）
- τ = 10.0（Gumbel-Softmax温度）
- 卷积核长度：约0.2秒。
- 音频帧长：约0.2秒，帧移：0.01秒，使用汉宁窗进行边界平滑。
训练硬件：论文未明确说明，但评估部分提到使用两块L40-48GB GPU进行长音频实验。
推理细节：使用每个LALM默认的采样参数（温度、top_k, top_p）进行生成，以模拟真实场景。
数据增强/正则化：攻击优化本身通过在多上下文上训练（隐式EoT）和注意力损失（显式正则）来提高泛化性，防止过拟合到特定指令。

📊 实验结果

主要指标对比（攻击有效性 - 非工具滥用）：论文在13个LALM上测试了5种非工具滥用行为（共10个目标响应），每个模型-目标组合测试100个未见过的用户上下文。
- 整体成功率：平均提示注入成功率（PISR） 在0.89-0.95之间，平均行为匹配成功率（BMSR） 在0.84-0.94之间。
- 按模型架构：
  - 离散架构（SpeechGPT除外）：GLM-4-Voice和VITA-Audio的PISR和BMSR均高于0.91和0.90。SpeechGPT因音频词表小（仅1000），成功率较低（PISR: 0.23-0.57， BMSR: 0.15-0.42）。
  - 连续架构：普遍表现优异，如Qwen2-Audio, Kimi-Audio等，BMSR普遍>0.90。
  - 混合架构（Kimi-Audio）：BMSR > 0.90。
工具滥用攻击结果（表III）：在支持工具调用的三个模型（Ultravox-v5, Phi-4-Multimodal, Voxtral-Mini）上进行。
- 单步工具调用：
  - search_web：BMSR在0.91-1.00之间。
  - download_file：BMSR在0.78-1.00之间。
- 级联工具调用（list_calendar + send_email，文本格式）：
  - Ultravox-v5: BMSR=0.95
  - Phi-4-Multimodal: BMSR=0.83
  - Voxtral-Mini: BMSR=0.59（较低，因模型常请求用户确认）。
- 发现：JSON格式的目标响应比文本格式更容易成功触发工具滥用。
上下文泛化分析（图7）：
- 指令长度：随着用户指令token长度增加（0-120），PISR和BMSR保持稳定，仅在语音指令超过100 token时略有下降。
- 消融研究（图7 & 图8）：
  - 上下文特定攻击（CSA） 在未见过的上下文上BMSR很低（0.18-0.65）。
  - 上下文无关攻击（CAA，即AudioHijack） 即使不加 L_att，BMSR也保持在0.77以上。
  - 加入 L_att 后，CSA的BMSR提升0.11-0.33，CAA的BMSR提升0.01-0.14。
  - 训练过程中，对抗音频获得的注意力权重稳步上升，同时交叉熵损失下降更快，证明了注意力引导的有效性。
攻击隐蔽性评估（表IV）：在5个模型上，使用5种语音、5种声音、5种音乐载体进行评估。
- AudioHijack（卷积混合）：
  - SNR：语音29.27dB，声音28.61dB，音乐30.05dB。
  - MCD：语音4.16，声音2.37，音乐2.80。
  - PESQ（语音）：3.16。
- 对比基线：
  - L∞约束的加性攻击：SNR极低（9.87-14.71），MCD高（4.24-8.36），PESQ差（1.18）。
  - L2惩罚的加性攻击：SNR中等（22.15-27.16），MCD中等（2.96-5.56），PESQ中等（2.23）。
- 结论：卷积混合在各项指标上均显著优于加性方法，听感上更接近自然混响。
实际影响因素分析：
- 辅助数据大小：即使只用20条辅助指令，BMSR仍>0.64；用50条时，BMSR>0.85。
- 载体长度：7.5秒载体BMSR>0.63；10秒载体BMSR>0.75。
- 采样温度：温度升高（随机性增加）会降低成功率，但温度=1.3时BMSR仍>0.60。
- 长音频可扩展性：在10分钟音频中优化15秒片段，BMSR=0.58；优化30秒片段，BMSR=0.89。
对商业语音代理的攻击（表VI）：
- 同模型迁移（本地模型 -> 商业API）：
  - Phi4MM-instruct: 平均BMSR 0.53-0.98。
  - VM-latest: 平均BMSR 0.52-0.97。
- 跨模型迁移（Voxtral-Mini -> VS-latest）：BMSR > 0.37（除钓鱼投递0.14）。
防御评估：
- 上下文防御：效果有限，BMSR下降<0.07。
- 自反思检测：真阳性率（TPR）仅0.28，对“听觉失明”和“提示拒绝”类攻击几乎无效。
- Logits发散检测：AUC 0.71-0.85，但等错误率（EER）较高（0.21-0.36）。
- 注意力偏差检测：效果最好，PCA+SVM分类器的精确率和召回率分别达0.98和0.93。但在自适应攻击（减小 κ）下，性能下降（精确率0.90，召回率0.69），揭示了攻击效果与可检测性之间的权衡。

⚖️ 评分理由

创新性：9.5/10 - 论文首次系统定义了针对LALM的间接音频提示注入威胁模型，并提出了AudioHijack这一集成多项创新技术（梯度估计、注意力引导、卷积混合）的通用攻击框架，开创性强，对AI安全社区有重要警示作用。
实验充分性：9.0/10 - 实验极其全面，在13个不同架构的SOTA LALM和2个商业API上进行了大规模评估，涵盖了多种攻击行为、上下文泛化、隐蔽性、实际影响因素和防御探索。数据详实，消融实验设计合理。
实用价值：8.5/10 - 揭示了LALM在实际部署中面临的真实、高危安全漏洞，尤其是对具有工具调用能力的语音代理，攻击可导致数据泄露、恶意操作等严重后果。研究直接推动了LALM安全设计的需求。
灌水程度：2.0/10 - 论文内容紧凑，问题、方法、实验、讨论环环相扣，技术细节丰富，没有明显的冗余或夸大表述。是一篇扎实的安全研究论文。

🖼️ 图片与表格

图1: LALM架构分类图 | 保留: 是 - 清晰展示了离散、连续、混合三种音频-文本集成方案，是理解攻击背景和挑战C1的关键。
图2: 威胁模型示意图 | 保留: 是 - 直观说明了攻击者、用户、LALM助理三方关系及攻击场景，对理解问题定义至关重要。
图3: AudioHijack框架概览图 | 保留: 是 - 核心架构图，概括了攻击的三个主要组件及其解决的挑战，是理解方法的关键。
图4: 注意力竞争直觉图 | 保留: 是 - 通过注意力权重的对比，直观揭示了攻击成功/失败与模型注意力分配的关系，引出了注意力引导方法的必要性。
图5: 13个LALM攻击成功率柱状图 | 保留: 是 - 核心结果图，展示了AudioHijack在不同模型和不同攻击行为上的高成功率，证明了方法的有效性和普适性。
图7: 上下文泛化分析图 | 保留: 是 - 展示了攻击成功率随指令长度和模态的变化，以及��键的消融实验结果，证明了上下文泛化能力。
图8: 训练过程中注意力权重与损失变化图 | 保留: 是 - 提供了注意力引导方法有效的动态证据，显示了注意力上升与损失下降的同步过程。
图9: 频谱图对比（语音载体） | 保留: 是 - 关键的可视化结果，直观对比了原始音频、加性对抗样本、卷积对抗样本和自然混响音频的频谱，强有力地证明了卷积混合的隐蔽性优势。
表II: 目标LALM总结 | 保留: 是 - 以表格形式详细列出了被攻击模型的架构、参数量、能力等信息，是实验设置的重要参考。
表III: 工具滥用攻击结果 | 保留: 是 - 详细展示了针对三个支持工具调用的模型的攻击成功率，揭示了工具滥用这一高风险漏洞。
表IV: 攻击隐蔽性量化对比 | 保留: 是 - 核心结果表，用SNR、MCD、PESQ等指标量化证明了卷积混合方法在感知质量上显著优于加性方法。
表VI: 对商业语音代理的攻击结果 | 保留: 是 - 证明了攻击从开源模型到商业API的迁移性，凸显了实际威胁。
附录图表（如注意力可视化、更多频谱图） | 保留: 否 - 属于补充材料，非核心结论所必需。