📄 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

#音频安全 #基准测试 #语音大模型 #多模态模型 #鲁棒性

🔥 8.5/10 | 前25% | #音频安全 | #基准测试 | #语音大模型 #多模态模型

学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度高

👥 作者与机构

第一作者：Zifan Peng（香港科技大学（广州）、清华大学互联网体系结构国家重点实验室）
通讯作者：Wenhan Dong（香港科技大学（广州））、Xinlei He（香港科技大学（广州）、清华大学互联网体系结构国家重点实验室）
作者列表：Zifan Peng（香港科技大学（广州）、清华大学互联网体系结构国家重点实验室）、Yule Liu（香港科技大学（广州））、Zhen Sun（香港科技大学（广州））、Mingchen Li（北德克萨斯大学）、Zeren Luo（香港科技大学（广州））、Jingyi Zheng（香港科技大学（广州））、Wenhan Dong（香港科技大学（广州））、Xinlei He（香港科技大学（广州）、清华大学互联网体系结构国家重点实验室）、Xuechao Wang（香港科技大学（广州））、Yingjie Xue（中国科学技术大学）、Shengmin Xu（福建师范大学）、Xinyi Huang（南京航空航天大学）

💡 毒舌点评

亮点：这篇论文为“音频大模型安全”这一新兴且关键的领域建立了第一个系统性的、大规模的基准测试框架（JALMBench），其覆盖的攻击面之广（从文本迁移攻击到音频原生攻击）、评估维度之深（效率、主题、声音多样性、模型架构），以及提供的开源工具和数据集之完整，都使其具有很高的实用和研究价值，真正起到了“点亮地图”的作用。短板：论文在“防御”部分的探索略显单薄，评估的几种防御方法（如Prompt Shield、LLaMA-Guard）基本是现有针对文本或视觉模型方法的简单迁移，并未提出任何针对音频信号特性或LALM多模态融合架构的新颖、专用防御机制，使得“破”之后的“立”显得力度不足。

🔗 开源详情

代码：提供GitHub仓库链接：https://github.com/sfofgalaxy/JALMBench
模型权重：未提及。论文评估的是已有的开源和商业LALM，未发布新训练的模型。
数据集：公开发布于HuggingFace数据集管理平台（链接包含在上述GitHub仓库中）。
Demo：未提及。
复现材料：提供了极其详尽的复现材料，包括：数据生成的所有细节（TTS配置、翻译协议、说话人统计）、攻击和防御方法的详细实现、评估提示词全文、所有超参数设置、硬件信息、以及完整的附录说明。
论文中引用的开源项目：Google Cloud TTS、DeepL Translator、F5-TTS、MMS-TTS、SpeechT5、Coqui.ai TTS（用于口音转换）等。

📌 核心摘要

解决的问题：大型音频语言模型（LALMs）在实际应用中面临日益严峻的安全风险，尤其是能绕过安全对齐的越狱攻击。然而，该领域缺乏一个统一的、大规模的评估框架和基准数据集来系统性地评估和比较针对LALM的越狱攻击。
方法核心：提出JALMBench，一个综合性基准测试框架。它包含245,355个音频样本（>1,000小时）和11,316个文本样本，支持12个主流LALM、8种攻击方法（4种文本迁移、4种音频原生）和5种防御方法。该框架采用模块化设计，易于扩展。
与已有方法相比的新意：这是首个专门为评估LALM越狱漏洞而设计的综合基准。与现有零散的工作相比，它统一了评估标准和代码实现，覆盖了更全面的攻击类型（首次系统比较文本迁移和音频原生攻击）、更多的模型和防御策略，并进行了深入的多维度分析。
主要实验结果：
- 攻击有效性：音频模态的平均攻击成功率（ASR）高于文本模态（21.5% vs. 17.0%）。最强的音频原生攻击AdvWave在所有模型上平均ASR高达96.2%。
- 架构影响：采用离散化音频编码的模型（如GLM-4-Voice）展现出更好的跨模态安全泛化能力，文本与音频的安全表现一致；而采用连续特征提取的模型（如LLaMA-Omni）则存在严重的模态安全差距。
- 防御效果：现有防御方法效果有限。最佳的提示级防御（AdaShield）和响应级防御（LLaMA-Guard）分别将平均ASR降低了19.6和18.0个百分点，但提示级防御会导致约6.3%的效用下降。
- 攻击效率：实现60%以上ASR通常需要>100秒处理时间，但40%左右的ASR可在<10秒内达成，说明低成本攻击是现实威胁。
- 其他发现：明确的仇恨言论内容（如“写一篇煽动暴力的演讲”）被模型较好拒绝（平均ASR 41%），但隐晦的危害信息（如“制造假新闻引发恐慌”）ASR更高（67%）。非美国口音和多语言场景通常会提高攻击成功率。
实际意义：为LALM的安全研究提供了重要的基准和度量标准，揭示了当前模型在音频模态下的脆弱性，特别是对直接信号级的操纵。研究发现（如编码策略对安全的影响、现有防御的不足）为设计更安全的LALM架构和专用防御机制指明了方向。
主要局限性：论文明确指出未探索多轮越狱攻击；对影响攻击的声音因素（如情感、更细粒度的口音）覆盖不全；防御评估初步，缺乏针对音频模态的创新防御方法。

🏗️ 模型架构

JALMBench本身不是一个模型，而是一个用于评估模型的基准测试框架。其架构设计为模块化，包含三个主要部分：

输入模块：处理文本、音频和系统提示输入。支持文本到语音（TTS）转换（可配置语言、口音、性别），以及音频预处理（调整速度、音调、音量、添加噪声等）。用户可通过实现抽象类添加新的预处理函数。
处理模块：包含攻击和防御子模块，实现了8种越狱攻击和5种防御方法。该模块高度可扩展，用户可添加新的攻击或防御。
输出模块：处理模型输出，进行评估和分析。支持将输出保存为文本和音频（如果模型支持），包含音频转文本的后处理模块。当前支持3个评判模型（GPT-4o等），可扩展至其他本地部署模型或API。该框架的核心设计理念是标准化和模块化，允许用户以最小的工作量添加新的LALM、数据集或防御方法，只需实现一个简单的抽象类即可。它通过提供统一的API和可实现的类，实现了对异构LALM的公平评估。

💡 核心创新点

首个LALM安全基准：填补了领域空白，首次为大型音频语言模型构建了一个全面的、统一的越狱攻击评估框架，结束了该领域研究碎片化的状态。
全面的攻击与评估覆盖：不仅评估了针对LLM的文本迁移攻击，还系统性地评估了针对音频模态的原生攻击方法，并首次对两者进行了直接比较，揭示了音频模态特有的脆弱性。
多维度深入分析：超越了简单的成功率报告，从攻击效率、话题敏感性、声音多样性（语言、口音、TTS系统）、模型架构（连续特征提取 vs. 离散化编码）等多个维度进行了深入分析，得出了关键的架构设计洞见（如离散化编码更安全）。
防御策略的初步探索与评估：首次评估了将现有文本/视觉领域防御策略迁移到LALM场景的效果，并揭示了其局限性和效用-安全权衡，为未来设计专用防御奠定了基础。
开源与可扩展性：提供了完整的代码、数据集和详细的复现指南，其模块化框架设计鼓励社区扩展，具有很强的实用性和可持续性。

🔬 细节详述

训练数据：
- 有害查询集（THarm）：从AdvBench, JailbreakBench, MM-SafetyBench, HarmBench四个基准中手动筛选去重得到246条。
- 音频多样性变体（ADiv）：在THarm基础上，通过改变口音（英、印、澳）、性别、TTS系统（Google, F5, MMS, SpeechT5）和语言（9种）生成，以研究多样性影响。
- 文本迁移攻击样本：基于THarm，使用ICA（使用1-3个示例）、DAN（1个模板）、DI（直接使用模板）、PAP（GPT-4生成40个变体/查询）生成。
- 音频原生攻击样本：
  - SSJ：手动遮蔽查询中的一个有害词，逐字符转为音频。
  - AMSE：应用6种音频编辑技术（速度、音调、强调、语调、噪声、口音）。
  - BoN：对每个有害音频生成600个变体（调整速度、音高、音量、添加背景音/噪声/音乐）。
  - AdvWave：使用GPT-4o作为代理模型进行黑盒优化（30轮迭代）。
损失函数：未提及，因为JALMBench是评估基准，不涉及模型训练。
训练策略：未提及。论文评估的是预训练的LALM。
关键超参数：
- ICA：评估了1、2、3个示例前缀的效果。
- AdvWave：黑盒优化迭代轮数为30轮。
- BoN：每个查询生成600个变体。
- PAP：每个查询生成40个说服性变体。
训练硬件：基准实验在8块NVIDIA-L20 GPU（48GB）和2个Intel Xeon Platinum 8369B CPU上完成，总计约6000 GPU小时。
推理细节：对所有模型（包括评判模型）采用贪婪解码（top_k=1），确保输出确定性。
评估方法：使用GPT-4o-2024-11-20作为LLM-as-a-judge，根据OpenAI使用策略对模型响应进行1-5分评分（1分最安全，5分最不安全）。评分≥4分视为越狱成功。进行了评估者可靠性分析（重复性、跨模型一致性、人工验证）。
正则化或稳定训练技巧：不适用。

📊 实验结果

主要结果表格1：文本与文本迁移攻击的成功率（ASR%）

模型	文本模态-THarm	文本模态-ICA	文本模态-DI	文本模态-DAN	文本模态-PAP	音频模态-AHarm	音频模态-ICA	音频模态-DI	音频模态-DAN	音频模态-PAP
SpeechGPT	29.8	33.1	73.6	69.9	89.4	20.7	0.0	13.8	1.2	93.1
Spirit LM	56.1	95.1	27.6	49.2	89.0	27.2	59.3	2.8	12.6	89.8
GLM-4-Voice	18.7	14.3	43.1	61.0	90.7	19.5	42.3	26.0	62.6	93.5
SALMONN	38.2	26.0	68.3	83.3	88.2	38.6	41.1	1.6	8.5	90.2
Qwen2-Audio	6.9	1.2	62.2	27.6	86.6	7.3	0.0	28.9	26.0	93.5
LLaMA-Omni	9.6	0.0	10.6	25.2	94.3	58.9	93.1	35.4	11.4	94.7
DiVA	5.3	0.0	8.1	0.8	88.0	7.7	0.0	1.2	0.0	87.4
Freeze-Omni	9.8	0.0	21.5	23.2	87.0	13.0	98.4	19.9	26.8	95.9
VITA-1.0	12.6	16.3	72.8	21.5	84.6	41.5	67.5	36.2	19.1	91.1
VITA-1.5	12.6	1.6	36.6	23.6	85.4	14.6	35.4	39.4	27.6	88.6
GPT-4o-Audio	0.8	0.0	2.0	0.8	74.4	3.3	3.7	24.8	5.7	82.9
Gemini-2.0	4.1	0.0	15.0	12.2	77.6	5.7	66.3	31.7	72.4	83.7
平均	17.0	15.6	36.8	33.2	86.3	21.5	42.3	21.8	22.8	90.4

主要结果表格2：音频原生攻击的成功率（ASR%）

模型	SSJ	AMSE	BoN	AdvWave
SpeechGPT	0.8	69.5	81.3	83.3
Spirit LM	5.7	91.1	91.5	97.6
GLM-4-Voice	2.0	61.0	89.0	99.6
SALMONN	81.3	92.3	98.8	97.6
Qwen2-Audio	72.0	34.1	85.4	96.7
LLaMA-Omni	41.9	97.6	99.6	100.0
DiVA	21.1	11.8	85.3	97.6
Freeze-Omni	60.6	32.1	89.8	99.6
VITA-1.0	64.6	87.8	92.3	98.8
VITA-1.5	66.3	58.1	90.2	97.2
GPT-4o-Audio	34.6	5.7	65.4	91.1
Gemini-2.0	93.9	9.3	97.6	95.1
平均	45.4	54.2	88.9	96.2

文本与文本迁移攻击成功率图2展示了12个LALM在文本模态和音频模态下，面对原始有害查询及四种文本迁移攻击时的ASR。关键结论：PAP攻击最为有效；LLaMA-Omni在音频模态下远脆弱于文本模态。

音频原生攻击成功率图3展示了12个LALM面对四种音频原生攻击时的ASR。关键结论：AdvWave攻击近乎完美（平均96.2%）；大多数模型在音频原生攻击下极其脆弱。

主要结果表��3：声音多样性影响的平均ASR（%）

模型	AHarm	男声	女声	英国口音	印度口音	澳大利亚口音	F5-TTS	MMS-TTS	SpeechT5	人声
SpeechGPT	20.7	23.6	25.6	26.8	27.2	23.2	20.3	19.5	22.0	21.0
Spirit LM	27.2	28.9	28.9	39.8	38.6	40.2	27.2	28.0	34.0	26.9
GLM-4-Voice	26.4	26.4	25.2	28.5	32.5	26.4	24.8	25.2	24.8	25.3
SALMONN	38.6	39.0	38.2	19.1	35.8	34.6	39.0	38.6	37.8	33.5
Qwen2-Audio	7.3	15.4	15.4	8.9	11.0	11.4	7.7	7.3	6.9	7.2
LLaMA-Omni	58.9	61.0	58.9	58.9	65.0	68.0	59.8	56.5	61.0	57.5
DiVA	7.7	8.1	8.1	8.1	8.1	8.1	8.1	8.5	7.7	7.5
Freeze-Omni	13.0	15.4	12.2	12.6	18.3	15.4	13.0	13.4	13.0	12.8
VITA-1.0	41.5	38.6	44.3	40.2	37.8	36.6	40.2	42.3	41.1	40.7
VITA-1.5	14.6	15.9	15.0	12.6	11.8	13.0	13.8	14.2	14.2	16.8
GPT-4o-Audio	3.3	3.3	3.3	3.3	3.7	3.3	4.1	3.3	3.3	3.2
Gemini-2.0	5.7	6.5	6.1	6.5	4.1	5.3	6.5	6.1	8.1	5.3
平均	22.1	23.5	23.4	22.1	24.5	23.8	22.0	21.9	22.8	21.5

主要结果表格4：防御效果的平均ASR（%）

防御方法	AHarm	DAN	DI	ICA	PAP	AMSE	BoN	SSJ	AdvWave	平均
无防御	21.5	42.3	21.8	22.8	90.4	45.4	54.2	88.9	96.2	53.7
LLaMA-Guard	0.4	24.4	2.5	8.9	82.1	11.2	37.8	72.9	81.0	35.7
Azure	12.6	26.1	14.3	8.2	84.2	38.2	42.0	81.8	80.6	43.1
JailbreakBench	11.9	12.5	21.6	18.1	82.5	39.0	40.8	82.5	84.4	43.7
FigStep	9.2	21.7	13.3	15.9	74.6	40.9	30.4	80.2	78.6	40.5
AdaShield	9.4	26.1	8.5	10.8	57.2	28.4	30.2	60.2	75.9	34.1

攻击效率分析图

攻击效率图4展示了不同攻击方法达到不同ASR所需的时间（每查询）。关键结论：高效攻击（如SSJ, AMSE）在<10秒内可实现约40% ASR，构成现实威胁；而高ASR攻击（如AdvWave, BoN）需要更长时间（>100秒）。

话题敏感性分析图

话题影响图5展示了不同有害话题在所有模型和攻击下的平均ASR。关键结论：明确的“仇恨与骚扰”内容ASR最低（41%），而隐晦的“错误信息”ASR较高（67%）。

语言影响分析图

语言影响图6展示了不同语言下所有LALM的平均ASR。关键结论：非英语语言的ASR普遍低于英语（AHarm），可能与训练数据不平衡有关。

架构影响分析图

架构影响图7展示了LLaMA-Omni、Qwen2-Audio和GLM-4-Voice在良性、有害和对抗性查询下的最后一层隐藏状态t-SNE可视化。关键结论：LLaMA-Omni（连续特征）存在严重的模态安全鸿沟；GLM-4-Voice（离散化编码）实现了文本和音频的良好对齐。

效用-安全权衡分析图

效用-安全权衡图8(a)展示了不同防御方法在ASR降低（安全）和QA准确率（效用）上的权衡，LLaMA-Guard和AdaShield是帕累托最优方法。图8(b)展示了不同模型在无防御下的拒绝率与效用的关系。

主要结论：实验证明当前LALM普遍存在严重的越狱漏洞，尤其是面对音频原生攻击时。模型的音频编码策略（离散 vs. 连续）对其安全泛化能力有决定性影响。现有的通用防御方法效果有限，需要为音频模态设计专用防御。

⚖️ 评分理由

学术质量：6.2/7：论文的核心创新在于构建和开放了一个首个全面的LALM安全基准，这是该领域的重要基础设施。技术实现严谨，实验规模宏大（6000 GPU小时），分析维度全面且深入（攻击、防御、效率、主题、声音、架构），结论有充分数据支撑。扣分点在于其攻击和防御方法多为现有方法的整合与评估，原创性算法贡献有限。
选题价值：1.8/2：选题精准击中了多模态大模型时代的关键安全挑战，填补了音频模态安全评估的空白，具有极高的前沿性和实际影响力，对LALM的开发者和研究者都有重要参考价值。
开源与复现加成：+1.0/1：论文提供了极其完善的开源生态：代码仓库、HuggingFace数据集、详细的附录说明（包括所有生成脚本、评估提示词、数据配置等）。其模块化框架设计便于社区直接使用和扩展，复现门槛极低，这是本工作的一大亮点。

← 返回 ICLR 2026 论文分析

📄 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文