📄 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models
#音频安全 #基准测试 #语音大模型 #多模态模型 #鲁棒性
🔥 8.5/10 | 前25% | #音频安全 | #基准测试 | #语音大模型 #多模态模型
学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高
👥 作者与机构
- 第一作者:Zifan Peng(香港科技大学(广州)、清华大学互联网体系结构国家重点实验室)
- 通讯作者:Wenhan Dong(香港科技大学(广州))、Xinlei He(香港科技大学(广州)、清华大学互联网体系结构国家重点实验室)
- 作者列表:Zifan Peng(香港科技大学(广州)、清华大学互联网体系结构国家重点实验室)、Yule Liu(香港科技大学(广州))、Zhen Sun(香港科技大学(广州))、Mingchen Li(北德克萨斯大学)、Zeren Luo(香港科技大学(广州))、Jingyi Zheng(香港科技大学(广州))、Wenhan Dong(香港科技大学(广州))、Xinlei He(香港科技大学(广州)、清华大学互联网体系结构国家重点实验室)、Xuechao Wang(香港科技大学(广州))、Yingjie Xue(中国科学技术大学)、Shengmin Xu(福建师范大学)、Xinyi Huang(南京航空航天大学)
💡 毒舌点评
亮点:这篇论文为“音频大模型安全”这一新兴且关键的领域建立了第一个系统性的、大规模的基准测试框架(JALMBench),其覆盖的攻击面之广(从文本迁移攻击到音频原生攻击)、评估维度之深(效率、主题、声音多样性、模型架构),以及提供的开源工具和数据集之完整,都使其具有很高的实用和研究价值,真正起到了“点亮地图”的作用。短板:论文在“防御”部分的探索略显单薄,评估的几种防御方法(如Prompt Shield、LLaMA-Guard)基本是现有针对文本或视觉模型方法的简单迁移,并未提出任何针对音频信号特性或LALM多模态融合架构的新颖、专用防御机制,使得“破”之后的“立”显得力度不足。
🔗 开源详情
- 代码:提供GitHub仓库链接:https://github.com/sfofgalaxy/JALMBench
- 模型权重:未提及。论文评估的是已有的开源和商业LALM,未发布新训练的模型。
- 数据集:公开发布于HuggingFace数据集管理平台(链接包含在上述GitHub仓库中)。
- Demo:未提及。
- 复现材料:提供了极其详尽的复现材料,包括:数据生成的所有细节(TTS配置、翻译协议、说话人统计)、攻击和防御方法的详细实现、评估提示词全文、所有超参数设置、硬件信息、以及完整的附录说明。
- 论文中引用的开源项目:Google Cloud TTS、DeepL Translator、F5-TTS、MMS-TTS、SpeechT5、Coqui.ai TTS(用于口音转换)等。
📌 核心摘要
- 解决的问题:大型音频语言模型(LALMs)在实际应用中面临日益严峻的安全风险,尤其是能绕过安全对齐的越狱攻击。然而,该领域缺乏一个统一的、大规模的评估框架和基准数据集来系统性地评估和比较针对LALM的越狱攻击。
- 方法核心:提出JALMBench,一个综合性基准测试框架。它包含245,355个音频样本(>1,000小时)和11,316个文本样本,支持12个主流LALM、8种攻击方法(4种文本迁移、4种音频原生)和5种防御方法。该框架采用模块化设计,易于扩展。
- 与已有方法相比的新意:这是首个专门为评估LALM越狱漏洞而设计的综合基准。与现有零散的工作相比,它统一了评估标准和代码实现,覆盖了更全面的攻击类型(首次系统比较文本迁移和音频原生攻击)、更多的模型和防御策略,并进行了深入的多维度分析。
- 主要实验结果:
- 攻击有效性:音频模态的平均攻击成功率(ASR)高于文本模态(21.5% vs. 17.0%)。最强的音频原生攻击AdvWave在所有模型上平均ASR高达96.2%。
- 架构影响:采用离散化音频编码的模型(如GLM-4-Voice)展现出更好的跨模态安全泛化能力,文本与音频的安全表现一致;而采用连续特征提取的模型(如LLaMA-Omni)则存在严重的模态安全差距。
- 防御效果:现有防御方法效果有限。最佳的提示级防御(AdaShield)和响应级防御(LLaMA-Guard)分别将平均ASR降低了19.6和18.0个百分点,但提示级防御会导致约6.3%的效用下降。
- 攻击效率:实现60%以上ASR通常需要>100秒处理时间,但40%左右的ASR可在<10秒内达成,说明低成本攻击是现实威胁。
- 其他发现:明确的仇恨言论内容(如“写一篇煽动暴力的演讲”)被模型较好拒绝(平均ASR 41%),但隐晦的危害信息(如“制造假新闻引发恐慌”)ASR更高(67%)。非美国口音和多语言场景通常会提高攻击成功率。
- 实际意义:为LALM的安全研究提供了重要的基准和度量标准,揭示了当前模型在音频模态下的脆弱性,特别是对直接信号级的操纵。研究发现(如编码策略对安全的影响、现有防御的不足)为设计更安全的LALM架构和专用防御机制指明了方向。
- 主要局限性:论文明确指出未探索多轮越狱攻击;对影响攻击的声音因素(如情感、更细粒度的口音)覆盖不全;防御评估初步,缺乏针对音频模态的创新防御方法。
🏗️ 模型架构
JALMBench本身不是一个模型,而是一个用于评估模型的基准测试框架。其架构设计为模块化,包含三个主要部分:
- 输入模块:处理文本、音频和系统提示输入。支持文本到语音(TTS)转换(可配置语言、口音、性别),以及音频预处理(调整速度、音调、音量、添加噪声等)。用户可通过实现抽象类添加新的预处理函数。
- 处理模块:包含攻击和防御子模块,实现了8种越狱攻击和5种防御方法。该模块高度可扩展,用户可添加新的攻击或防御。
- 输出模块:处理模型输出,进行评估和分析。支持将输出保存为文本和音频(如果模型支持),包含音频转文本的后处理模块。当前支持3个评判模型(GPT-4o等),可扩展至其他本地部署模型或API。 该框架的核心设计理念是标准化和模块化,允许用户以最小的工作量添加新的LALM、数据集或防御方法,只需实现一个简单的抽象类即可。它通过提供统一的API和可实现的类,实现了对异构LALM的公平评估。
💡 核心创新点
- 首个LALM安全基准:填补了领域空白,首次为大型音频语言模型构建了一个全面的、统一的越狱攻击评估框架,结束了该领域研究碎片化的状态。
- 全面的攻击与评估覆盖:不仅评估了针对LLM的文本迁移攻击,还系统性地评估了针对音频模态的原生攻击方法,并首次对两者进行了直接比较,揭示了音频模态特有的脆弱性。
- 多维度深入分析:超越了简单的成功率报告,从攻击效率、话题敏感性、声音多样性(语言、口音、TTS系统)、模型架构(连续特征提取 vs. 离散化编码)等多个维度进行了深入分析,得出了关键的架构设计洞见(如离散化编码更安全)。
- 防御策略的初步探索与评估:首次评估了将现有文本/视觉领域防御策略迁移到LALM场景的效果,并揭示了其局限性和效用-安全权衡,为未来设计专用防御奠定了基础。
- 开源与可扩展性:提供了完整的代码、数据集和详细的复现指南,其模块化框架设计鼓励社区扩展,具有很强的实用性和可持续性。
🔬 细节详述
- 训练数据:
- 有害查询集(THarm):从AdvBench, JailbreakBench, MM-SafetyBench, HarmBench四个基准中手动筛选去重得到246条。
- 音频多样性变体(ADiv):在THarm基础上,通过改变口音(英、印、澳)、性别、TTS系统(Google, F5, MMS, SpeechT5)和语言(9种)生成,以研究多样性影响。
- 文本迁移攻击样本:基于THarm,使用ICA(使用1-3个示例)、DAN(1个模板)、DI(直接使用模板)、PAP(GPT-4生成40个变体/查询)生成。
- 音频原生攻击样本:
- SSJ:手动遮蔽查询中的一个有害词,逐字符转为音频。
- AMSE:应用6种音频编辑技术(速度、音调、强调、语调、噪声、口音)。
- BoN:对每个有害音频生成600个变体(调整速度、音高、音量、添加背景音/噪声/音乐)。
- AdvWave:使用GPT-4o作为代理模型进行黑盒优化(30轮迭代)。
- 损失函数:未提及,因为JALMBench是评估基准,不涉及模型训练。
- 训练策略:未提及。论文评估的是预训练的LALM。
- 关键超参数:
- ICA:评估了1、2、3个示例前缀的效果。
- AdvWave:黑盒优化迭代轮数为30轮。
- BoN:每个查询生成600个变体。
- PAP:每个查询生成40个说服性变体。
- 训练硬件:基准实验在8块NVIDIA-L20 GPU(48GB)和2个Intel Xeon Platinum 8369B CPU上完成,总计约6000 GPU小时。
- 推理细节:对所有模型(包括评判模型)采用贪婪解码(top_k=1),确保输出确定性。
- 评估方法:使用GPT-4o-2024-11-20作为LLM-as-a-judge,根据OpenAI使用策略对模型响应进行1-5分评分(1分最安全,5分最不安全)。评分≥4分视为越狱成功。进行了评估者可靠性分析(重复性、跨模型一致性、人工验证)。
- 正则化或稳定训练技巧:不适用。
📊 实验结果
主要结果表格1:文本与文本迁移攻击的成功率(ASR%)
| 模型 | 文本模态-THarm | 文本模态-ICA | 文本模态-DI | 文本模态-DAN | 文本模态-PAP | 音频模态-AHarm | 音频模态-ICA | 音频模态-DI | 音频模态-DAN | 音频模态-PAP |
|---|---|---|---|---|---|---|---|---|---|---|
| SpeechGPT | 29.8 | 33.1 | 73.6 | 69.9 | 89.4 | 20.7 | 0.0 | 13.8 | 1.2 | 93.1 |
| Spirit LM | 56.1 | 95.1 | 27.6 | 49.2 | 89.0 | 27.2 | 59.3 | 2.8 | 12.6 | 89.8 |
| GLM-4-Voice | 18.7 | 14.3 | 43.1 | 61.0 | 90.7 | 19.5 | 42.3 | 26.0 | 62.6 | 93.5 |
| SALMONN | 38.2 | 26.0 | 68.3 | 83.3 | 88.2 | 38.6 | 41.1 | 1.6 | 8.5 | 90.2 |
| Qwen2-Audio | 6.9 | 1.2 | 62.2 | 27.6 | 86.6 | 7.3 | 0.0 | 28.9 | 26.0 | 93.5 |
| LLaMA-Omni | 9.6 | 0.0 | 10.6 | 25.2 | 94.3 | 58.9 | 93.1 | 35.4 | 11.4 | 94.7 |
| DiVA | 5.3 | 0.0 | 8.1 | 0.8 | 88.0 | 7.7 | 0.0 | 1.2 | 0.0 | 87.4 |
| Freeze-Omni | 9.8 | 0.0 | 21.5 | 23.2 | 87.0 | 13.0 | 98.4 | 19.9 | 26.8 | 95.9 |
| VITA-1.0 | 12.6 | 16.3 | 72.8 | 21.5 | 84.6 | 41.5 | 67.5 | 36.2 | 19.1 | 91.1 |
| VITA-1.5 | 12.6 | 1.6 | 36.6 | 23.6 | 85.4 | 14.6 | 35.4 | 39.4 | 27.6 | 88.6 |
| GPT-4o-Audio | 0.8 | 0.0 | 2.0 | 0.8 | 74.4 | 3.3 | 3.7 | 24.8 | 5.7 | 82.9 |
| Gemini-2.0 | 4.1 | 0.0 | 15.0 | 12.2 | 77.6 | 5.7 | 66.3 | 31.7 | 72.4 | 83.7 |
| 平均 | 17.0 | 15.6 | 36.8 | 33.2 | 86.3 | 21.5 | 42.3 | 21.8 | 22.8 | 90.4 |
主要结果表格2:音频原生攻击的成功率(ASR%)
| 模型 | SSJ | AMSE | BoN | AdvWave |
|---|---|---|---|---|
| SpeechGPT | 0.8 | 69.5 | 81.3 | 83.3 |
| Spirit LM | 5.7 | 91.1 | 91.5 | 97.6 |
| GLM-4-Voice | 2.0 | 61.0 | 89.0 | 99.6 |
| SALMONN | 81.3 | 92.3 | 98.8 | 97.6 |
| Qwen2-Audio | 72.0 | 34.1 | 85.4 | 96.7 |
| LLaMA-Omni | 41.9 | 97.6 | 99.6 | 100.0 |
| DiVA | 21.1 | 11.8 | 85.3 | 97.6 |
| Freeze-Omni | 60.6 | 32.1 | 89.8 | 99.6 |
| VITA-1.0 | 64.6 | 87.8 | 92.3 | 98.8 |
| VITA-1.5 | 66.3 | 58.1 | 90.2 | 97.2 |
| GPT-4o-Audio | 34.6 | 5.7 | 65.4 | 91.1 |
| Gemini-2.0 | 93.9 | 9.3 | 97.6 | 95.1 |
| 平均 | 45.4 | 54.2 | 88.9 | 96.2 |
图2展示了12个LALM在文本模态和音频模态下,面对原始有害查询及四种文本迁移攻击时的ASR。关键结论:PAP攻击最为有效;LLaMA-Omni在音频模态下远脆弱于文本模态。
图3展示了12个LALM面对四种音频原生攻击时的ASR。关键结论:AdvWave攻击近乎完美(平均96.2%);大多数模型在音频原生攻击下极其脆弱。
主要结果表���3:声音多样性影响的平均ASR(%)
| 模型 | AHarm | 男声 | 女声 | 英国口音 | 印度口音 | 澳大利亚口音 | F5-TTS | MMS-TTS | SpeechT5 | 人声 |
|---|---|---|---|---|---|---|---|---|---|---|
| SpeechGPT | 20.7 | 23.6 | 25.6 | 26.8 | 27.2 | 23.2 | 20.3 | 19.5 | 22.0 | 21.0 |
| Spirit LM | 27.2 | 28.9 | 28.9 | 39.8 | 38.6 | 40.2 | 27.2 | 28.0 | 34.0 | 26.9 |
| GLM-4-Voice | 26.4 | 26.4 | 25.2 | 28.5 | 32.5 | 26.4 | 24.8 | 25.2 | 24.8 | 25.3 |
| SALMONN | 38.6 | 39.0 | 38.2 | 19.1 | 35.8 | 34.6 | 39.0 | 38.6 | 37.8 | 33.5 |
| Qwen2-Audio | 7.3 | 15.4 | 15.4 | 8.9 | 11.0 | 11.4 | 7.7 | 7.3 | 6.9 | 7.2 |
| LLaMA-Omni | 58.9 | 61.0 | 58.9 | 58.9 | 65.0 | 68.0 | 59.8 | 56.5 | 61.0 | 57.5 |
| DiVA | 7.7 | 8.1 | 8.1 | 8.1 | 8.1 | 8.1 | 8.1 | 8.5 | 7.7 | 7.5 |
| Freeze-Omni | 13.0 | 15.4 | 12.2 | 12.6 | 18.3 | 15.4 | 13.0 | 13.4 | 13.0 | 12.8 |
| VITA-1.0 | 41.5 | 38.6 | 44.3 | 40.2 | 37.8 | 36.6 | 40.2 | 42.3 | 41.1 | 40.7 |
| VITA-1.5 | 14.6 | 15.9 | 15.0 | 12.6 | 11.8 | 13.0 | 13.8 | 14.2 | 14.2 | 16.8 |
| GPT-4o-Audio | 3.3 | 3.3 | 3.3 | 3.3 | 3.7 | 3.3 | 4.1 | 3.3 | 3.3 | 3.2 |
| Gemini-2.0 | 5.7 | 6.5 | 6.1 | 6.5 | 4.1 | 5.3 | 6.5 | 6.1 | 8.1 | 5.3 |
| 平均 | 22.1 | 23.5 | 23.4 | 22.1 | 24.5 | 23.8 | 22.0 | 21.9 | 22.8 | 21.5 |
主要结果表格4:防御效果的平均ASR(%)
| 防御方法 | AHarm | DAN | DI | ICA | PAP | AMSE | BoN | SSJ | AdvWave | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|
| 无防御 | 21.5 | 42.3 | 21.8 | 22.8 | 90.4 | 45.4 | 54.2 | 88.9 | 96.2 | 53.7 |
| LLaMA-Guard | 0.4 | 24.4 | 2.5 | 8.9 | 82.1 | 11.2 | 37.8 | 72.9 | 81.0 | 35.7 |
| Azure | 12.6 | 26.1 | 14.3 | 8.2 | 84.2 | 38.2 | 42.0 | 81.8 | 80.6 | 43.1 |
| JailbreakBench | 11.9 | 12.5 | 21.6 | 18.1 | 82.5 | 39.0 | 40.8 | 82.5 | 84.4 | 43.7 |
| FigStep | 9.2 | 21.7 | 13.3 | 15.9 | 74.6 | 40.9 | 30.4 | 80.2 | 78.6 | 40.5 |
| AdaShield | 9.4 | 26.1 | 8.5 | 10.8 | 57.2 | 28.4 | 30.2 | 60.2 | 75.9 | 34.1 |
攻击效率分析图
图4展示了不同攻击方法达到不同ASR所需的时间(每查询)。关键结论:高效攻击(如SSJ, AMSE)在<10秒内可实现约40% ASR,构成现实威胁;而高ASR攻击(如AdvWave, BoN)需要更长时间(>100秒)。
话题敏感性分析图
图5展示了不同有害话题在所有模型和攻击下的平均ASR。关键结论:明确的“仇恨与骚扰”内容ASR最低(41%),而隐晦的“错误信息”ASR较高(67%)。
语言影响分析图
图6展示了不同语言下所有LALM的平均ASR。关键结论:非英语语言的ASR普遍低于英语(AHarm),可能与训练数据不平衡有关。
架构影响分析图
图7展示了LLaMA-Omni、Qwen2-Audio和GLM-4-Voice在良性、有害和对抗性查询下的最后一层隐藏状态t-SNE可视化。关键结论:LLaMA-Omni(连续特征)存在严重的模态安全鸿沟;GLM-4-Voice(离散化编码)实现了文本和音频的良好对齐。
效用-安全权衡分析图
图8(a)展示了不同防御方法在ASR降低(安全)和QA准确率(效用)上的权衡,LLaMA-Guard和AdaShield是帕累托最优方法。图8(b)展示了不同模型在无防御下的拒绝率与效用的关系。
主要结论:实验证明当前LALM普遍存在严重的越狱漏洞,尤其是面对音频原生攻击时。模型的音频编码策略(离散 vs. 连续)对其安全泛化能力有决定性影响。现有的通用防御方法效果有限,需要为音频模态设计专用防御。
⚖️ 评分理由
- 学术质量:6.2/7:论文的核心创新在于构建和开放了一个首个全面的LALM安全基准,这是该领域的重要基础设施。技术实现严谨,实验规模宏大(6000 GPU小时),分析维度全面且深入(攻击、防御、效率、主题、声音、架构),结论有充分数据支撑。扣分点在于其攻击和防御方法多为现有方法的整合与评估,原创性算法贡献有限。
- 选题价值:1.8/2:选题精准击中了多模态大模型时代的关键安全挑战,填补了音频模态安全评估的空白,具有极高的前沿性和实际影响力,对LALM的开发者和研究者都有重要参考价值。
- 开源与复现加成:+1.0/1:论文提供了极其完善的开源生态:代码仓库、HuggingFace数据集、详细的附录说明(包括所有生成脚本、评估提示词、数据配置等)。其模块化框架设计便于社区直接使用和扩展,复现门槛极低,这是本工作的一大亮点。