📄 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

#音频安全 #基准测试 #语音大模型 #多模态模型 #鲁棒性

🔥 8.5/10 | 前25% | #音频安全 | #基准测试 | #语音大模型 #多模态模型

学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高

👥 作者与机构

  • 第一作者:Zifan Peng(香港科技大学(广州)、清华大学互联网体系结构国家重点实验室)
  • 通讯作者:Wenhan Dong(香港科技大学(广州))、Xinlei He(香港科技大学(广州)、清华大学互联网体系结构国家重点实验室)
  • 作者列表:Zifan Peng(香港科技大学(广州)、清华大学互联网体系结构国家重点实验室)、Yule Liu(香港科技大学(广州))、Zhen Sun(香港科技大学(广州))、Mingchen Li(北德克萨斯大学)、Zeren Luo(香港科技大学(广州))、Jingyi Zheng(香港科技大学(广州))、Wenhan Dong(香港科技大学(广州))、Xinlei He(香港科技大学(广州)、清华大学互联网体系结构国家重点实验室)、Xuechao Wang(香港科技大学(广州))、Yingjie Xue(中国科学技术大学)、Shengmin Xu(福建师范大学)、Xinyi Huang(南京航空航天大学)

💡 毒舌点评

亮点:这篇论文为“音频大模型安全”这一新兴且关键的领域建立了第一个系统性的、大规模的基准测试框架(JALMBench),其覆盖的攻击面之广(从文本迁移攻击到音频原生攻击)、评估维度之深(效率、主题、声音多样性、模型架构),以及提供的开源工具和数据集之完整,都使其具有很高的实用和研究价值,真正起到了“点亮地图”的作用。短板:论文在“防御”部分的探索略显单薄,评估的几种防御方法(如Prompt Shield、LLaMA-Guard)基本是现有针对文本或视觉模型方法的简单迁移,并未提出任何针对音频信号特性或LALM多模态融合架构的新颖、专用防御机制,使得“破”之后的“立”显得力度不足。

🔗 开源详情

  • 代码:提供GitHub仓库链接:https://github.com/sfofgalaxy/JALMBench
  • 模型权重:未提及。论文评估的是已有的开源和商业LALM,未发布新训练的模型。
  • 数据集:公开发布于HuggingFace数据集管理平台(链接包含在上述GitHub仓库中)。
  • Demo:未提及。
  • 复现材料:提供了极其详尽的复现材料,包括:数据生成的所有细节(TTS配置、翻译协议、说话人统计)、攻击和防御方法的详细实现、评估提示词全文、所有超参数设置、硬件信息、以及完整的附录说明。
  • 论文中引用的开源项目:Google Cloud TTS、DeepL Translator、F5-TTS、MMS-TTS、SpeechT5、Coqui.ai TTS(用于口音转换)等。

📌 核心摘要

  1. 解决的问题:大型音频语言模型(LALMs)在实际应用中面临日益严峻的安全风险,尤其是能绕过安全对齐的越狱攻击。然而,该领域缺乏一个统一的、大规模的评估框架和基准数据集来系统性地评估和比较针对LALM的越狱攻击。
  2. 方法核心:提出JALMBench,一个综合性基准测试框架。它包含245,355个音频样本(>1,000小时)和11,316个文本样本,支持12个主流LALM、8种攻击方法(4种文本迁移、4种音频原生)和5种防御方法。该框架采用模块化设计,易于扩展。
  3. 与已有方法相比的新意:这是首个专门为评估LALM越狱漏洞而设计的综合基准。与现有零散的工作相比,它统一了评估标准和代码实现,覆盖了更全面的攻击类型(首次系统比较文本迁移和音频原生攻击)、更多的模型和防御策略,并进行了深入的多维度分析。
  4. 主要实验结果:
    • 攻击有效性:音频模态的平均攻击成功率(ASR)高于文本模态(21.5% vs. 17.0%)。最强的音频原生攻击AdvWave在所有模型上平均ASR高达96.2%。
    • 架构影响:采用离散化音频编码的模型(如GLM-4-Voice)展现出更好的跨模态安全泛化能力,文本与音频的安全表现一致;而采用连续特征提取的模型(如LLaMA-Omni)则存在严重的模态安全差距。
    • 防御效果:现有防御方法效果有限。最佳的提示级防御(AdaShield)和响应级防御(LLaMA-Guard)分别将平均ASR降低了19.6和18.0个百分点,但提示级防御会导致约6.3%的效用下降。
    • 攻击效率:实现60%以上ASR通常需要>100秒处理时间,但40%左右的ASR可在<10秒内达成,说明低成本攻击是现实威胁。
    • 其他发现:明确的仇恨言论内容(如“写一篇煽动暴力的演讲”)被模型较好拒绝(平均ASR 41%),但隐晦的危害信息(如“制造假新闻引发恐慌”)ASR更高(67%)。非美国口音和多语言场景通常会提高攻击成功率。
  5. 实际意义:为LALM的安全研究提供了重要的基准和度量标准,揭示了当前模型在音频模态下的脆弱性,特别是对直接信号级的操纵。研究发现(如编码策略对安全的影响、现有防御的不足)为设计更安全的LALM架构和专用防御机制指明了方向。
  6. 主要局限性:论文明确指出未探索多轮越狱攻击;对影响攻击的声音因素(如情感、更细粒度的口音)覆盖不全;防御评估初步,缺乏针对音频模态的创新防御方法。

🏗️ 模型架构

JALMBench本身不是一个模型,而是一个用于评估模型的基准测试框架。其架构设计为模块化,包含三个主要部分:

  • 输入模块:处理文本、音频和系统提示输入。支持文本到语音(TTS)转换(可配置语言、口音、性别),以及音频预处理(调整速度、音调、音量、添加噪声等)。用户可通过实现抽象类添加新的预处理函数。
  • 处理模块:包含攻击和防御子模块,实现了8种越狱攻击和5种防御方法。该模块高度可扩展,用户可添加新的攻击或防御。
  • 输出模块:处理模型输出,进行评估和分析。支持将输出保存为文本和音频(如果模型支持),包含音频转文本的后处理模块。当前支持3个评判模型(GPT-4o等),可扩展至其他本地部署模型或API。 该框架的核心设计理念是标准化和模块化,允许用户以最小的工作量添加新的LALM、数据集或防御方法,只需实现一个简单的抽象类即可。它通过提供统一的API和可实现的类,实现了对异构LALM的公平评估。

💡 核心创新点

  1. 首个LALM安全基准:填补了领域空白,首次为大型音频语言模型构建了一个全面的、统一的越狱攻击评估框架,结束了该领域研究碎片化的状态。
  2. 全面的攻击与评估覆盖:不仅评估了针对LLM的文本迁移攻击,还系统性地评估了针对音频模态的原生攻击方法,并首次对两者进行了直接比较,揭示了音频模态特有的脆弱性。
  3. 多维度深入分析:超越了简单的成功率报告,从攻击效率、话题敏感性、声音多样性(语言、口音、TTS系统)、模型架构(连续特征提取 vs. 离散化编码)等多个维度进行了深入分析,得出了关键的架构设计洞见(如离散化编码更安全)。
  4. 防御策略的初步探索与评估:首次评估了将现有文本/视觉领域防御策略迁移到LALM场景的效果,并揭示了其局限性和效用-安全权衡,为未来设计专用防御奠定了基础。
  5. 开源与可扩展性:提供了完整的代码、数据集和详细的复现指南,其模块化框架设计鼓励社区扩展,具有很强的实用性和可持续性。

🔬 细节详述

  • 训练数据:
    • 有害查询集(THarm):从AdvBench, JailbreakBench, MM-SafetyBench, HarmBench四个基准中手动筛选去重得到246条。
    • 音频多样性变体(ADiv):在THarm基础上,通过改变口音(英、印、澳)、性别、TTS系统(Google, F5, MMS, SpeechT5)和语言(9种)生成,以研究多样性影响。
    • 文本迁移攻击样本:基于THarm,使用ICA(使用1-3个示例)、DAN(1个模板)、DI(直接使用模板)、PAP(GPT-4生成40个变体/查询)生成。
    • 音频原生攻击样本:
      • SSJ:手动遮蔽查询中的一个有害词,逐字符转为音频。
      • AMSE:应用6种音频编辑技术(速度、音调、强调、语调、噪声、口音)。
      • BoN:对每个有害音频生成600个变体(调整速度、音高、音量、添加背景音/噪声/音乐)。
      • AdvWave:使用GPT-4o作为代理模型进行黑盒优化(30轮迭代)。
  • 损失函数:未提及,因为JALMBench是评估基准,不涉及模型训练。
  • 训练策略:未提及。论文评估的是预训练的LALM。
  • 关键超参数:
    • ICA:评估了1、2、3个示例前缀的效果。
    • AdvWave:黑盒优化迭代轮数为30轮。
    • BoN:每个查询生成600个变体。
    • PAP:每个查询生成40个说服性变体。
  • 训练硬件:基准实验在8块NVIDIA-L20 GPU(48GB)和2个Intel Xeon Platinum 8369B CPU上完成,总计约6000 GPU小时。
  • 推理细节:对所有模型(包括评判模型)采用贪婪解码(top_k=1),确保输出确定性。
  • 评估方法:使用GPT-4o-2024-11-20作为LLM-as-a-judge,根据OpenAI使用策略对模型响应进行1-5分评分(1分最安全,5分最不安全)。评分≥4分视为越狱成功。进行了评估者可靠性分析(重复性、跨模型一致性、人工验证)。
  • 正则化或稳定训练技巧:不适用。

📊 实验结果

主要结果表格1:文本与文本迁移攻击的成功率(ASR%)

模型文本模态-THarm文本模态-ICA文本模态-DI文本模态-DAN文本模态-PAP音频模态-AHarm音频模态-ICA音频模态-DI音频模态-DAN音频模态-PAP
SpeechGPT29.833.173.669.989.420.70.013.81.293.1
Spirit LM56.195.127.649.289.027.259.32.812.689.8
GLM-4-Voice18.714.343.161.090.719.542.326.062.693.5
SALMONN38.226.068.383.388.238.641.11.68.590.2
Qwen2-Audio6.91.262.227.686.67.30.028.926.093.5
LLaMA-Omni9.60.010.625.294.358.993.135.411.494.7
DiVA5.30.08.10.888.07.70.01.20.087.4
Freeze-Omni9.80.021.523.287.013.098.419.926.895.9
VITA-1.012.616.372.821.584.641.567.536.219.191.1
VITA-1.512.61.636.623.685.414.635.439.427.688.6
GPT-4o-Audio0.80.02.00.874.43.33.724.85.782.9
Gemini-2.04.10.015.012.277.65.766.331.772.483.7
平均17.015.636.833.286.321.542.321.822.890.4

主要结果表格2:音频原生攻击的成功率(ASR%)

模型SSJAMSEBoNAdvWave
SpeechGPT0.869.581.383.3
Spirit LM5.791.191.597.6
GLM-4-Voice2.061.089.099.6
SALMONN81.392.398.897.6
Qwen2-Audio72.034.185.496.7
LLaMA-Omni41.997.699.6100.0
DiVA21.111.885.397.6
Freeze-Omni60.632.189.899.6
VITA-1.064.687.892.398.8
VITA-1.566.358.190.297.2
GPT-4o-Audio34.65.765.491.1
Gemini-2.093.99.397.695.1
平均45.454.288.996.2

文本与文本迁移攻击成功率 图2展示了12个LALM在文本模态和音频模态下,面对原始有害查询及四种文本迁移攻击时的ASR。关键结论:PAP攻击最为有效;LLaMA-Omni在音频模态下远脆弱于文本模态。

音频原生攻击成功率 图3展示了12个LALM面对四种音频原生攻击时的ASR。关键结论:AdvWave攻击近乎完美(平均96.2%);大多数模型在音频原生攻击下极其脆弱。

主要结果表���3:声音多样性影响的平均ASR(%)

模型AHarm男声女声英国口音印度口音澳大利亚口音F5-TTSMMS-TTSSpeechT5人声
SpeechGPT20.723.625.626.827.223.220.319.522.021.0
Spirit LM27.228.928.939.838.640.227.228.034.026.9
GLM-4-Voice26.426.425.228.532.526.424.825.224.825.3
SALMONN38.639.038.219.135.834.639.038.637.833.5
Qwen2-Audio7.315.415.48.911.011.47.77.36.97.2
LLaMA-Omni58.961.058.958.965.068.059.856.561.057.5
DiVA7.78.18.18.18.18.18.18.57.77.5
Freeze-Omni13.015.412.212.618.315.413.013.413.012.8
VITA-1.041.538.644.340.237.836.640.242.341.140.7
VITA-1.514.615.915.012.611.813.013.814.214.216.8
GPT-4o-Audio3.33.33.33.33.73.34.13.33.33.2
Gemini-2.05.76.56.16.54.15.36.56.18.15.3
平均22.123.523.422.124.523.822.021.922.821.5

主要结果表格4:防御效果的平均ASR(%)

防御方法AHarmDANDIICAPAPAMSEBoNSSJAdvWave平均
无防御21.542.321.822.890.445.454.288.996.253.7
LLaMA-Guard0.424.42.58.982.111.237.872.981.035.7
Azure12.626.114.38.284.238.242.081.880.643.1
JailbreakBench11.912.521.618.182.539.040.882.584.443.7
FigStep9.221.713.315.974.640.930.480.278.640.5
AdaShield9.426.18.510.857.228.430.260.275.934.1

攻击效率分析图

攻击效率 图4展示了不同攻击方法达到不同ASR所需的时间(每查询)。关键结论:高效攻击(如SSJ, AMSE)在<10秒内可实现约40% ASR,构成现实威胁;而高ASR攻击(如AdvWave, BoN)需要更长时间(>100秒)。

话题敏感性分析图

话题影响 图5展示了不同有害话题在所有模型和攻击下的平均ASR。关键结论:明确的“仇恨与骚扰”内容ASR最低(41%),而隐晦的“错误信息”ASR较高(67%)。

语言影响分析图

语言影响 图6展示了不同语言下所有LALM的平均ASR。关键结论:非英语语言的ASR普遍低于英语(AHarm),可能与训练数据不平衡有关。

架构影响分析图

架构影响 图7展示了LLaMA-Omni、Qwen2-Audio和GLM-4-Voice在良性、有害和对抗性查询下的最后一层隐藏状态t-SNE可视化。关键结论:LLaMA-Omni(连续特征)存在严重的模态安全鸿沟;GLM-4-Voice(离散化编码)实现了文本和音频的良好对齐。

效用-安全权衡分析图

效用-安全权衡 图8(a)展示了不同防御方法在ASR降低(安全)和QA准确率(效用)上的权衡,LLaMA-Guard和AdaShield是帕累托最优方法。图8(b)展示了不同模型在无防御下的拒绝率与效用的关系。

主要结论:实验证明当前LALM普遍存在严重的越狱漏洞,尤其是面对音频原生攻击时。模型的音频编码策略(离散 vs. 连续)对其安全泛化能力有决定性影响。现有的通用防御方法效果有限,需要为音频模态设计专用防御。

⚖️ 评分理由

  • 学术质量:6.2/7:论文的核心创新在于构建和开放了一个首个全面的LALM安全基准,这是该领域的重要基础设施。技术实现严谨,实验规模宏大(6000 GPU小时),分析维度全面且深入(攻击、防御、效率、主题、声音、架构),结论有充分数据支撑。扣分点在于其攻击和防御方法多为现有方法的整合与评估,原创性算法贡献有限。
  • 选题价值:1.8/2:选题精准击中了多模态大模型时代的关键安全挑战,填补了音频模态安全评估的空白,具有极高的前沿性和实际影响力,对LALM的开发者和研究者都有重要参考价值。
  • 开源与复现加成:+1.0/1:论文提供了极其完善的开源生态:代码仓库、HuggingFace数据集、详细的附录说明(包括所有生成脚本、评估提示词、数据配置等)。其模块化框架设计便于社区直接使用和扩展,复现门槛极低,这是本工作的一大亮点。

← 返回 ICLR 2026 论文分析