📄 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

#音频安全 #音频大模型 #对抗样本 #多模态模型

🔥 评分:8.8/10 | arxiv

👥 作者与机构

  • 第一作者:Meng Chen(浙江大学,ZJU-MUSLAB)
  • 通讯作者:Tianwei Zhang(新加坡国立大学,School of Computing)
  • 其他作者:
    • Kun Wang(浙江大学,ZJU-MUSLAB)
    • Li Lu(浙江大学,ZJU-MUSLAB)
    • Jiaheng Zhang(香港中文大学,Department of Computer Science & Engineering)
    • Kun Wang(阿里云,Alibaba Cloud)(注:论文PDF中作者列表有两位Kun Wang,根据机构推断一位来自ZJU-MUSLAB,另一位来自阿里云)

💡 毒舌点评

亮点:论文首次系统性地研究了针对音频大语言模型(LALM)的“间接”音频提示注入攻击,问题定义精准(数据-only访问、用户在环),并提出了一个通用且有效的攻击框架AudioHijack。槽点:攻击框架严重依赖对目标模型的白盒访问(知道架构和参数),这在现实世界中可能是一个重大限制;此外,虽然提出了多种防御策略,但它们的有效性有限,论文在“如何有效防御”这一更关键的问题上着墨相对较少。

📌 核心摘要

这篇论文揭示了针对音频大语言模型(LALM)的一种新型安全威胁:上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据(如会议录音、音乐片段),即可在用户不知情的情况下,劫持模型行为,使其执行恶意指令(如发送邮件、下载文件、传播错误信息)。为实现这一目标,作者提出了AudioHijack框架,它通过基于采样的梯度估计解决了音频分词不可微的问题,实现了端到端的对抗音频优化;通过注意力引导的上下文泛化技术,使攻击能泛化到未知的用户指令上下文;并设计了卷积扰动混合方法,将对抗扰动模拟为自然的混响效果,极大提升了攻击的隐蔽性。实验表明,AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%,并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞,为LALM的安全设计提供了重要警示。

🏗️ 模型架构

论文本身并未提出新的模型架构,而是针对现有的、架构各异的大型音频语言模型(LALM) 进行攻击研究。因此,本节将详细描述被攻击的LALM的通用架构流程,以及AudioHijack攻击框架如何与之交互。

1. 被攻击LALM的通用输入输出流程: 现代LALM通常采用端到端架构,直接处理音频输入并生成文本/语音响应。其核心流程如下:

  • 输入:一个组合提示,通常包含:
    • 音频数据:用户上传或参考的音频内容(如录音、音乐)。
    • 用户指令:可以是文本(如“总结这段录音”)或语音(直接说出指令)。
    • 系统提示:模型预设的角色和任务指令。
  • 处理流程
    1. 音频编码:原始音频信号 x 通过一个音频编码器 E(·)(如Whisper的编码器、BEATs等)提取连续声学特征 e = E(x)
    2. 音频-文本对齐:这是架构异构的关键。根据论文分类,有三种主要方案:
      • 离散标记方案:声学特征 e 通过向量量化(VQ)层映射为离散音频标记序列 z,然后通过嵌入矩阵 Φ 查表得到嵌入向量 ẽ = Φ(z),与文本标记嵌入拼接。
      • 连续特征方案:声学特征 e 通过一个模态适配器(如MLP、交叉注意力层)直接投影到文本嵌入空间,得到与文本嵌入维度一致的向量,再与文本嵌入拼接。
      • 混合方案:同时使用离散标记和连续特征,将两者与文本嵌入融合。
    3. 大语言模型处理:拼接后的嵌入序列被送入LLM主干(如LLaMA、Qwen等)。LLM以自回归方式生成响应。
  • 输出:生成文本响应,部分全双工模型还会并行生成语音。

2. AudioHijack攻击框架的介入点: AudioHijack的目标是生成对抗音频 ,使得当 作为“音频数据”输入时,模型的输出行为被劫持。

  • 攻击目标:优化 ,使得 M(x̂, x_c)x_c为未知用户上下文)生成预定义的恶意响应 r_t
  • 核心挑战与对应组件
    • 挑战C1(梯度阻塞):在离散标记方案中,VQ层的硬选择操作不可微,阻碍了梯度从损失函数 L 反向传播到输入音频 AudioHijack的解决方案基于采样的梯度估计。它用Gumbel-Softmax采样替代硬选择,用可微的加权求和替代嵌入查找,从而打通了梯度流。
    • 挑战C2(上下文不透明与敏感):用户指令 x_c 未知且多变,攻击需具有泛化性。AudioHijack的解决方案注意力引导的上下文泛化。它包括:(a) 隐式方法:在多个辅助用户指令上优化攻击(EoT);(b) 显式方法:在损失函数中加入注意力损失 L_att,强制模型在生成目标响应时,更多地关注对抗音频数据部分,抑制对用户上下文的注意力。
    • 挑战C3(感知隐蔽性):扰动必须人耳不可闻。AudioHijack的解决方案卷积扰动混合。它不直接添加噪声 δ,而是将音频分帧后与可学习的短卷积核(初始化自真实房间脉冲响应RIR)进行卷积,再通过重叠相加和能量归一化,生成类似自然混响的对抗样本。

3. 关键设计选择理由:

  • 输出级注入策略:选择操纵模型输出分布(生成特定响应),而非输入级(混入语音指令)或特征级(对齐嵌入),是因为该策略对模型架构的假设最少,普适性最强。
  • Gumbel-Softmax:相比直通估计器(STE),它能更好地处理LALM中音频嵌入与声学特征维度不匹配的问题,提供更准确的梯度估计。
  • 注意力监督:直接干预模型的注意力分配是解决上下文敏感性的根本方法,因为攻击失效的本质是模型注意力被用户指令“抢走”。
  • 卷积混合:相比简单的加性扰动,卷积操作能更好地将扰动能量分布在时频域,模仿自然声学现象(如混响),从而在相同扰动强度下获得更高的感知质量。

💡 核心创新点

  1. 首个系统化的音频提示注入攻击框架:定义了“上下文无关、不可感知”的间接音频提示注入威胁模型(攻击者仅控制音频数据,用户在环),并提出了通用的AudioHijack攻击框架,填补了LALM安全研究中针对主动行为劫持攻击的空白。
  2. 基于采样的端到端梯度估计方法:针对离散音频标记化带来的梯度阻塞问题,提出使用Gumbel-Softmax分布进行可微分采样,结合直通技巧,实现了对包含离散、连续及混合架构的LALM的端到端对抗优化。
  3. 注意力引导的上下文泛化技术:创新性地将攻击泛化性问题归因于模型的注意力竞争,并设计了隐式(多上下文训练)与显式(注意力损失函数)相结合的注意力操控方法,使对抗音频在各种未知用户指令下均能稳定劫持模型。
  4. 卷积扰动混合的隐蔽攻击方法:提出将对抗扰动建模为可学习的卷积核(模拟房间脉冲响应),通过卷积运算将扰动“混合”到原始音频中,生成类似自然混响的对抗样本,在攻击效果和感知隐蔽性之间取得了卓越平衡。

🔬 细节详述

  • 训练数据
    • 音频数据载体:从AirBench(音频问答基准)和VoiceBench(语音助手基准)中采样。具体包括:从AirBench-chat子集随机抽取600个音频-文本对(200个语音QA、200个声音QA、200个音乐QA);从VoiceBench-wildvoice子集选取200个真实人声样本。这些音频作为攻击的载体 x_d
    • 辅助用户指令数据集:用于上下文泛化训练。论文未明确说明来源,但指出使用了一个小的辅助指令集 X̂_c,包含代表性的交互上下文(文本和语音)。消融实验显示,仅需20-50条辅助指令即可达到较好效果。
  • 损失函数
    • 总损失L_total = L_adv + α * L_pen + β * L_att
    • 对抗损失 L_adv:标准的序列级损失,如交叉熵损失,目标是使模型 M 生成预定义的目标响应 r_t。在上下文泛化中,L_adv 是在多个辅助用户指令 x̂_c 上的期望:L_adv = E_{x̂_c ~ X̂_c} [L(M(x̂, x̂_c), r_t)]
    • 惩罚损失 L_pen:在卷积混合策略下,L_pen = || x̂ - x_d * δ_0 ||_2,其中 δ_0 是预设的真实房间脉冲响应信号。该项约束学到的卷积核 δ_k 接近自然的RIR形状。
    • 注意力损失 L_attL_att = max{κ - W_d, 0}W_d 是生成目标响应 r_t 的所有token对音频数据token的平均注意力权重。该项强制 W_d 不低于阈值 κ(论文中设为0.015)。
  • 训练策略
    • 优化器:论文未明确说明,通常使用AdamW。
    • 学习率:0.001。
    • 训练步数:连续和混合架构模型训练2000步,离散架构模型训练3000步。
    • Batch Size:4。
    • 温度参数 τ:用于Gumbel-Softmax,设为10。
  • 关键超参数
    • α = 1.0(惩罚损失权重)
    • β = 50.0(注意力损失权重)
    • κ = 0.015(注意力下界)
    • τ = 10.0(Gumbel-Softmax温度)
    • 卷积核长度:约0.2秒。
    • 音频帧长:约0.2秒,帧移:0.01秒,使用汉宁窗进行边界平滑。
  • 训练硬件:论文未明确说明,但评估部分提到使用两块L40-48GB GPU进行长音频实验。
  • 推理细节:使用每个LALM默认的采样参数(温度、top_k, top_p)进行生成,以模拟真实场景。
  • 数据增强/正则化:攻击优化本身通过在多上下文上训练(隐式EoT)和注意力损失(显式正则)来提高泛化性,防止过拟合到特定指令。

📊 实验结果

  • 主要指标对比(攻击有效性 - 非工具滥用): 论文在13个LALM上测试了5种非工具滥用行为(共10个目标响应),每个模型-目标组合测试100个未见过的用户上下文。
    • 整体成功率:平均提示注入成功率(PISR) 在0.89-0.95之间,平均行为匹配成功率(BMSR) 在0.84-0.94之间。
    • 按模型架构
      • 离散架构(SpeechGPT除外):GLM-4-Voice和VITA-Audio的PISR和BMSR均高于0.91和0.90。SpeechGPT因音频词表小(仅1000),成功率较低(PISR: 0.23-0.57, BMSR: 0.15-0.42)。
      • 连续架构:普遍表现优异,如Qwen2-Audio, Kimi-Audio等,BMSR普遍>0.90。
      • 混合架构(Kimi-Audio):BMSR > 0.90。
  • 工具滥用攻击结果(表III): 在支持工具调用的三个模型(Ultravox-v5, Phi-4-Multimodal, Voxtral-Mini)上进行。
    • 单步工具调用
      • search_web:BMSR在0.91-1.00之间。
      • download_file:BMSR在0.78-1.00之间。
    • 级联工具调用list_calendar + send_email,文本格式):
      • Ultravox-v5: BMSR=0.95
      • Phi-4-Multimodal: BMSR=0.83
      • Voxtral-Mini: BMSR=0.59(较低,因模型常请求用户确认)。
    • 发现:JSON格式的目标响应比文本格式更容易成功触发工具滥用。
  • 上下文泛化分析(图7)
    • 指令长度:随着用户指令token长度增加(0-120),PISR和BMSR保持稳定,仅在语音指令超过100 token时略有下降。
    • 消融研究(图7 & 图8)
      • 上下文特定攻击(CSA) 在未见过的上下文上BMSR很低(0.18-0.65)。
      • 上下文无关攻击(CAA,即AudioHijack) 即使不加 L_att,BMSR也保持在0.77以上。
      • 加入 L_att 后,CSA的BMSR提升0.11-0.33,CAA的BMSR提升0.01-0.14。
      • 训练过程中,对抗音频获得的注意力权重稳步上升,同时交叉熵损失下降更快,证明了注意力引导的有效性。
  • 攻击隐蔽性评估(表IV): 在5个模型上,使用5种语音、5种声音、5种音乐载体进行评估。
    • AudioHijack(卷积混合)
      • SNR:语音29.27dB,声音28.61dB,音乐30.05dB。
      • MCD:语音4.16,声音2.37,音乐2.80。
      • PESQ(语音):3.16。
    • 对比基线
      • L∞约束的加性攻击:SNR极低(9.87-14.71),MCD高(4.24-8.36),PESQ差(1.18)。
      • L2惩罚的加性攻击:SNR中等(22.15-27.16),MCD中等(2.96-5.56),PESQ中等(2.23)。
    • 结论:卷积混合在各项指标上均显著优于加性方法,听感上更接近自然混响。
  • 实际影响因素分析
    • 辅助数据大小:即使只用20条辅助指令,BMSR仍>0.64;用50条时,BMSR>0.85。
    • 载体长度:7.5秒载体BMSR>0.63;10秒载体BMSR>0.75。
    • 采样温度:温度升高(随机性增加)会降低成功率,但温度=1.3时BMSR仍>0.60。
    • 长音频可扩展性:在10分钟音频中优化15秒片段,BMSR=0.58;优化30秒片段,BMSR=0.89。
  • 对商业语音代理的攻击(表VI)
    • 同模型迁移(本地模型 -> 商业API):
      • Phi4MM-instruct: 平均BMSR 0.53-0.98。
      • VM-latest: 平均BMSR 0.52-0.97。
    • 跨模型迁移(Voxtral-Mini -> VS-latest):BMSR > 0.37(除钓鱼投递0.14)。
  • 防御评估
    • 上下文防御:效果有限,BMSR下降<0.07。
    • 自反思检测:真阳性率(TPR)仅0.28,对“听觉失明”和“提示拒绝”类攻击几乎无效。
    • Logits发散检测:AUC 0.71-0.85,但等错误率(EER)较高(0.21-0.36)。
    • 注意力偏差检测:效果最好,PCA+SVM分类器的精确率和召回率分别达0.98和0.93。但在自适应攻击(减小 κ)下,性能下降(精确率0.90,召回率0.69),揭示了攻击效果与可检测性之间的权衡。

⚖️ 评分理由

  • 创新性:9.5/10 - 论文首次系统定义了针对LALM的间接音频提示注入威胁模型,并提出了AudioHijack这一集成多项创新技术(梯度估计、注意力引导、卷积混合)的通用攻击框架,开创性强,对AI安全社区有重要警示作用。
  • 实验充分性:9.0/10 - 实验极其全面,在13个不同架构的SOTA LALM和2个商业API上进行了大规模评估,涵盖了多种攻击行为、上下文泛化、隐蔽性、实际影响因素和防御探索。数据详实,消融实验设计合理。
  • 实用价值:8.5/10 - 揭示了LALM在实际部署中面临的真实、高危安全漏洞,尤其是对具有工具调用能力的语音代理,攻击可导致数据泄露、恶意操作等严重后果。研究直接推动了LALM安全设计的需求。
  • 灌水程度:2.0/10 - 论文内容紧凑,问题、方法、实验、讨论环环相扣,技术细节丰富,没有明显的冗余或夸大表述。是一篇扎实的安全研究论文。

🔗 开源详情

  • 代码:论文中明确提到“We release our code and data at https://github.com/zju-muslab/AudioHijack”。GitHub仓库已创建,但截至论文发布时可能尚未完全公开。
  • 模型权重:未提及发布攻击模型权重。攻击针对的是现有的开源LALM。
  • 数据集:论文中使用的音频数据来自公开基准(AirBench, VoiceBench)。用于训练攻击的辅助用户指令数据集可能随代码一起发布。
  • 音频样本:提供在线试听链接:https://audiohijack.github.io
  • 在线Demo:未提及。
  • 依赖的开源项目:攻击实现依赖于PyTorch等框架,以及被攻击的各个开源LALM的官方代码库(如Qwen2-Audio, GLM-4-Voice等)。

🖼️ 图片与表格

  • 图1: LALM架构分类图 | 保留: 是 - 清晰展示了离散、连续、混合三种音频-文本集成方案,是理解攻击背景和挑战C1的关键。
  • 图2: 威胁模型示意图 | 保留: 是 - 直观说明了攻击者、用户、LALM助理三方关系及攻击场景,对理解问题定义至关重要。
  • 图3: AudioHijack框架概览图 | 保留: 是 - 核心架构图,概括了攻击的三个主要组件及其解决的挑战,是理解方法的关键。
  • 图4: 注意力竞争直觉图 | 保留: 是 - 通过注意力权重的对比,直观揭示了攻击成功/失败与模型注意力分配的关系,引出了注意力引导方法的必要性。
  • 图5: 13个LALM攻击成功率柱状图 | 保留: 是 - 核心结果图,展示了AudioHijack在不同模型和不同攻击行为上的高成功率,证明了方法的有效性和普适性。
  • 图7: 上下文泛化分析图 | 保留: 是 - 展示了攻击成功率随指令长度和模态的变化,以及��键的消融实验结果,证明了上下文泛化能力。
  • 图8: 训练过程中注意力权重与损失变化图 | 保留: 是 - 提供了注意力引导方法有效的动态证据,显示了注意力上升与损失下降的同步过程。
  • 图9: 频谱图对比(语音载体) | 保留: 是 - 关键的可视化结果,直观对比了原始音频、加性对抗样本、卷积对抗样本和自然混响音频的频谱,强有力地证明了卷积混合的隐蔽性优势。
  • 表II: 目标LALM总结 | 保留: 是 - 以表格形式详细列出了被攻击模型的架构、参数量、能力等信息,是实验设置的重要参考。
  • 表III: 工具滥用攻击结果 | 保留: 是 - 详细展示了针对三个支持工具调用的模型的攻击成功率,揭示了工具滥用这一高风险漏洞。
  • 表IV: 攻击隐蔽性量化对比 | 保留: 是 - 核心结果表,用SNR、MCD、PESQ等指标量化证明了卷积混合方法在感知质量上显著优于加性方法。
  • 表VI: 对商业语音代理的攻击结果 | 保留: 是 - 证明了攻击从开源模型到商业API的迁移性,凸显了实际威胁。
  • 附录图表(如注意力可视化、更多频谱图) | 保留: 否 - 属于补充材料,非核心结论所必需。

📸 论文图片

figure

figure

figure

figure

figure

figure

figure

figure


← 返回 2026-04-19 论文速递