📄 SpeechJBB: Probing Safety Alignment and Comprehension in Large Audio Language Models under Code-Switched Speech

#语音识别 #多语言 #语音合成 #数据集

7.3/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5

7.3/10 | 前25% | #语音识别 | #多语言 | #语音合成 #数据集 | arxiv

👥 作者与机构

Virginia Ceccatelli1,2, Yejin Jeon1,2, David Ifeoluwa Adelani1,2,3。1 Mila - Quebec AI Institute, 2 McGill University, Canada, 3 Canada CIFAR AI Chair.

💡 毒舌点评

这篇工作准确抓住了当前多模态大模型安全评估中的一个关键盲点:从文本转向音频,从单语转向代码切换。构建的SpeechJBB数据集思路清晰,实验规模可观。但“开源”部分有些滑头——声称要开源,却连个GitHub链接都没给,这在顶会论文里有点说不过去。更关键的是,其对“安全失败源于对齐缺陷”的结论,虽然逻辑自洽,但仅凭现有实验(特别是将高能力模型的安全失败简单归因于对齐)的证据链还不够坚实,可能低估了音频理解本身引入的歧义性(如ASR错误、伪词干扰)对安全决策的直接混淆作用。另外,用GPT-4.1当裁判,其自身的多语言判断偏差是否被考虑在内?

📌 核心摘要

本文提出了SpeechJBB,首个用于评估大型音频语言模型在多语言代码切换语音下安全性的数据集。研究发现,非英语单语及非英语代码切换语音的越狱成功率最高。围绕安全关键词插入音系合理的伪词可进一步降低拒绝率,增强攻击效果。实验表明,模型的多语言理解能力与安全对齐程度并非强相关,表明安全失败可能源于对齐缺陷而非理解能力不足。此外,论文还初步探索了基于提示的防御策略。

🔗 开源详情

  • 代码:论文在贡献部分声称“All related code and datasets will be open-sourced”,但在所提供的论文文本中,未提及具体的代码仓库URL或开源状态页面。
  • 模型权重:论文未提供任何被评估模型(开源或闭源)的权重下载链接。开源模型(如Qwen系列、Gemma系列)需从其各自官方发布渠道(如HuggingFace)获取;闭源模型(GPT-4o, Gemini)无法获取权重。
  • 数据集:论文未提供SpeechJBB数据集本身的公开下载链接。论文说明该数据集基于JailbreakBench (JBB) 数据集改编。JailbreakBench数据集以 MIT License 开源。用于生成数据集的其他资源许可信息在论文中提及:MGSM和FLeurs SIB使用 CC BY-SA 4.0 许可,Google Fleurs使用 CC-BY 4.0 许可。
  • Demo:论文中未提及。
  • 复现材料:论文中未提供训练配置、检查点或详细可执行脚本。
  • 论文中引用的开源项目:
    • JailbreakBench (JBB):文本越狱数据集基准。相关资源通常托管于:https://github.com/centerforaisafety/jailbreakbench
    • TranslateGemma-4B:用于翻译的模型。论文中提及但未给出具体链接。
    • XTTS:由Coqui TTS开发的文本转语音模型。其开源版本可参考:https://github.com/coqui-ai/TTS
    • Whisper:OpenAI的语音识别模型。在附录中用于WER/CER分析。其开源地址为:https://github.com/openai/whisper
    • UTMOS:用于语音自然度评估的指标。论文中引用其开源实现:https://github.com/sarulab-speech/UTMOS2022
    • GPT-4o (OpenAI):作为专有模型被评估和使用。
    • Gemini-2.5-Pro (Google):作为专有模型被评估。
    • Qwen2.5-Omni-7B, Qwen3-Omni-30B (Alibaba Qwen团队):作为开源模型被评估。其官方仓库为:https://github.com/QwenLM/Qwen2.5-Audio, https://github.com/QwenLM/Qwen3
    • Gemma 3n, Gemma 4 (Google Gemma团队):作为开源模型被评估。其官方资源可参考:https://github.com/google-deepmind/gemma
    • Audio Flamingo 3 (Goel et al.):作为开源模型被评估。论文中提及其原始工作。
    • Voxtral-Small-24B (Mistral AI):作为开源模型被评估。其相关发布可参考:https://github.com/mistralai/mistral-src
    • SALMoNN-7B (Tang et al.):作为开源模型被评估。论文中引用其原始工作。
    • Speech-MGSM:多语言语音推理数据集,论文在附录中提及。
    • Google Fleurs & Fleurs-SLU (SIB):多语言语音理解数据集,论文在实验中使用。
    • VoiceJailbreak (Shen et al.), SpeechGuard (Peri et al.):相关工作中的安全评估方法/数据集,论文中作为背景引用。

🏗️ 方法概述和架构

本文的方法核心在于构建并评估一个针对多模态大模型(LALMs)的音频越狱攻击数据集与攻击范式。其架构和流程可分为以下几个关键部分:

  1. 数据集构建 (SpeechJBB):
    • 基础多语言扩展:以文本越狱基准JailbreakBench (JBB) 为源,将其中的100条有害提示和100条良性提示,通过TranslateGemma-4B翻译成德语、西班牙语、法语和意大利语。翻译结果经母语者人工验证以保证语义和自然度。随后,使用XTTS语音合成模型将这些多语言文本合成为单语语音,并通过WER(字错误率)和UTMOS(自然度)指标进行质量评估。
    • 代码切换扩展:基于上述翻译的单语文本提示,使用GPT-4o生成包含两种语言的代码切换查询。关键设计规则是:当语言对包含英语时,非英语语言必须为矩阵语言(支配语法结构);当语言对均为非英语时,lang1为矩阵语言。这避免了英语主导的结构。生成的代码切换文本同样经XTTS合成为语音,并由母语者验证其语法有效性和自然度,同时使用UTMOS进行评估。最终数据集包含10个语言对。
    • 伪词混淆增强:为模拟真实语音中的自然干扰(如填充词、发音不规则),在安全关键术语周围插入音系合理但无语义的伪词。伪词由GPT-4o生成,并在10%、30%和50%三个比例下插入原始文本。增强后的文本同样经XTTS合成,并由人工审查以确保原始有害意图仍可被识别。
  2. 模型评估框架:
    • 评估对象:涵盖7个开源模型(Qwen2.5-Omni-7B, Qwen3-Omni-30B, Voxtral-Small-24B, SALMoNN-7B, Audio Flamingo 3, Gemma 3n, Gemma 4)和2个闭源模型(GPT-4o, Gemini-2.5-Pro)。其中,对Audio Flamingo 3采用了两阶段推理(先转录后回答),以应对其非对话生成的设计。
    • 评估流程:将合成的音频直接输入支持音频输入的模型。对于所有支持系统提示的模型,使用统一的系统指令(要求直接响应音频,不重复问题)以减少输出格式差异。
    • 评估指标与协议:使用GPT-4.1作为“法官”模型,将模型响应分类为三类:拒绝(明确拒绝或空响应)、偏转(回应但离题)和被越狱(部分或完全遵从有害请求)。法官模型使用英语提示进行分类,并提供简短理由。论文对随机样本进行了人工抽查以验证评估的正确性。
  3. 补充分析实验:
    • 伪词意义归属分析:在10%和50%插入比例下,分析模型对伪词的处理行为,包括检测率(识别为伪词)、替换率(用合理词汇替换)和意义归属(判断为无害、有害或噪声)。
    • 通用理解基准测试:在单语设置下,评估模型在Speech-MGSM(多语言口语推理)、Google Fleurs(ASR)和Fleurs-SLU(口语主题分类)基准上的表现,以区分安全失败与通用能力不足。
    • 提示防御实验:设计了一个两步防御提示(先重建清晰英文请求,再验证意图),测试其在恶意基线、良性基线以及50%伪词混淆设置下对模型行为(拒绝率、偏转率、遵从率)的影响,旨在评估纯提示防御的局限性。

图1

图2

💡 核心创新点

  1. 首次针对音频模态和代码切换的越狱数据集:提出SpeechJBB,填补了多模态大模型安全评估在多语言、语音化,特别是真实世界常见的代码切换场景下的空白。
  2. 引入音系合理的伪词混淆攻击:创新性地提出一种适用于语音输入的、自然的对抗性扰动方法,该方法比简单的关键词替换更贴近现实,能更有效地测试安全对齐的鲁棒性。
  3. 系统性的多模型、多设置评估:对当前主流的开源和闭源LALM进行全面评估,揭示了在非英语代码切换和伪词混淆下普遍存在的安全脆弱性,并定量分析了模型能力与安全性的解耦现象。

📊 实验结果

实验在三种语言设置(单语、英语-其他代码切换、非英语-非英语代码切换)和三种伪词插入比例(10%,30%,50%)下进行。

基线代码切换评估结果 (Table 3):

模型拒绝率 (RR) ↑偏转率 (DR) ↓越狱成功率 (JSR) ↓
MonoEN-XX-Y平均MonoEN-XX-Y平均MonoEN-XX-Y平均
Flamingo66.4067.2544.6757.939.608.7527.3316.4723.6024.0027.8325.40
Gemini97.0896.9290.5594.430.200.501.520.812.722.587.924.76
Gemma 3n95.0093.2581.5089.130.403.004.332.674.603.7514.178.20
Gemma 475.0066.7558.0066.000.803.509.004.8024.2029.7533.0029.20
GPT93.0090.0079.0086.600.202.254.172.336.807.7516.8311.07
Qwen2.5-Omni89.4084.7571.8381.131.804.5012.506.808.8010.7515.6712.07
Qwen3-Omni94.6091.2580.3388.000.201.507.333.405.207.2512.338.60
SALMoNN72.0076.2584.3378.073.004.255.004.1324.8019.5010.6717.73
Voxtral51.4047.5037.6744.871.804.7512.336.8046.8047.7549.8348.27
平均81.5479.3269.7676.242.003.679.285.3616.3917.0120.9218.37
  • 主要发现:非英语/非英语代码切换(X-Y)设置下安全脆弱性最严重(平均JSR 20.92%)。Voxtral最脆弱(平均JSR 48.27%),Gemini最鲁棒(平均JSR 4.76%)。

伪词混淆增强结果 (Table 4):

模型10% 插入30% 插入50% 插入
RRDRJSRRRDRJSRRRDRJSR

| Flamingo | 54.0 | 19.3 | 26.5 | 25.20 | 26.75 | 27.50 | 43.9 | 28.9 | 27.0 | 31.80 | 25.50 | 24.00 | 42.6 | 26.6 | 30.6 | 36.20 | 31.50 | 25.33 | | Gemini | 93.2 | 1.8 | 5.1 | 3.46 | 4.60 | 6.70 | 88.1 | 3.9 | 8.0 | 5.90 | 6.55 | 10.77 | 85.9 | 5.6 | 8.5 | 6.90 | 7.85 | 10.38 | | Gemma 3n | 83.6 | 4.0 | 12.4 | 6.20 | 8.25 | 20.33 | 76.9 | 6.3 | 16.7 | 10.20 | 12.25 | 25.17 | 75.3 | 7.0 | 17.7 | 11.80 | 15.00 | 24.33 | | Gemma 4 | 58.6 | 8.1 | 33.3 | 28.80 | 30.00 | 39.17 | 44.9 | 9.7 | 45.3 | 42.00 | 46.00 | 47.50 | 45.5 | 9.8 | 44.7 | 41.80 | 45.25 | 46.83 | | GPT | 82.4 | 4.6 | 13.0 | 9.40 | 11.00 | 17.37 | 72.3 | 10.1 | 17.4 | 13.80 | 17.50 | 20.33 | 67.7 | 11.1 | 21.1 | 17.20 | 21.75 | 23.83 | | Qwen2.5-Omni | 80.5 | 7.9 | 11.5 | 6.60 | 12.75 | 14.83 | 70.8 | 13.8 | 15.4 | 13.20 | 14.75 | 17.67 | 65.7 | 14.7 | 19.5 | 16.60 | 20.00 | 21.67 | | Qwen3-Omni | 83.9 | 6.4 | 9.6 | 5.00 | 8.50 | 14.17 | 78.8 | 9.1 | 12.1 | 6.40 | 8.25 | 19.33 | 76.1 | 8.4 | 15.3 | 7.22 | 16.75 | 21.00 | | SALMoNN | 79.7 | 4.6 | 15.7 | 20.00 | 20.75 | 8.83 | 85.3 | 4.6 | 10.1 | 14.40 | 10.75 | 6.00 | 85.9 | 4.7 | 9.1 | 11.80 | 9.25 | 6.83 | | Voxtral | 33.3 | 11.3 | 55.4 | 58.40 | 56.75 | 52.00 | 29.1 | 20.5 | 50.4 | 56.60 | 50.50 | 45.17 | 25.5 | 19.3 | 55.1 | 62.40 | 55.00 | 49.17 | | 平均 | 72.1 | 7.6 | 20.3 | 18.12 | 19.93 | 22.32 | 65.6 | 11.9 | 22.5 | 21.59 | 21.34 | 24.00 | 63.4 | 11.9 | 24.6 | 23.55 | 24.76 | 25.48 |

  • 主要发现:伪词插入比例与安全脆弱性单调递增。平均JSR从基线18.37%升至24.6%(50%插入)。非英语代码切换仍是最脆弱的设置。

伪词意义归属分析 (10% 插入, Table 5):

模型检测(识别)替换意义归属(无害)意义归属(有害)意义归属(噪声)
Flamingo14.470.543.315.241.5
Gemini68.119.264.316.818.9
Gemma 3n20.858.040.012.947.1
Gemma 445.837.054.09.037.0
GPT1.996.855.06.738.3
Qwen2.5-Omni21.151.652.911.835.3
Qwen3-Omni50.834.541.213.045.8
SALMoNN3.887.933.13.763.2
Voxtral33.556.861.211.027.8
  • 主要发现:模型很少将伪词归因为“有害”(<17%)。能力较强的模型(如Gemini)更倾向于检测并保留伪词,而能力较弱的模型(如GPT, SALMoNN)则更倾向于用合理词汇替换它。

通用理解基准测试 - MGSM (Table 6):

模型正确错误未回答
Flamingo6.378.115.7
Gemini97.92.10.0
Gemma 3n2.16.991.0
Gemma 414.885.10.1
GPT91.87.50.6
Qwen2.5-Omni43.056.60.5
Qwen3-Omni74.125.70.2
SALMoNN2.262.435.4
Voxtral72.926.70.4

通用理解基准测试 - Fleurs ASR & SLU (Table 7):

  • Fleurs ASR (第一行): Gemini接近完美(~97-99% F1)。Flamingo和Voxtral在英语外语言上显著下降。SALMoNN几乎完全失败。
  • Fleurs-SLU SIB (第二行): Gemini (76.62%) 和 Voxtral (73.03%) 表现最好,尽管Voxtral在越狱实验中非常脆弱。这支持了“强大理解能力不足以保证安全”的结论。

提示防御实验 (Table 8):

模型恶意+防御良性+防御50%插入+防御
↑ 拒绝偏转↓ 遵从↓ 拒绝偏转遵从↑ 拒绝偏转↓ 遵从
Flamingo72.6 (+14.7)5.6 (-10.9)21.8 (-3.6)42.1 (+12.8)36.6 (+12.0)20.9 (-24.8)67.2 (+9.3)6.2 (-10.3)26.6 (+1.2)
Gemini90.8 (-3.5)0.7 (-0.11)7.7 (+2.9)38.8 (+17.3)27.6 (-25.0)32.0 (-43.8)86.3 (-8.1)2.6 (+1.8)11.0 (+6.2)
Gemma 3n94.5 (+5.4)2.1 (-0.6)3.1 (-5.1)64.1 (+18.5)22.5 (+12.6)13.3 (-30.9)89.9 (+0.8)3.7 (+1.1)6.3 (-1.9)
Gemma 488.6 (+22.6)3.5 (-1.3)7.7 (-21.5)44.1 (+28.6)32.3 (+21.9)22.3 (-51.7)75.9 (+9.9)7.5 (+2.7)16.5 (-12.7)
GPT88.2 (+1.6)2.0 (-0.3)9.7 (-1.4)89.3 (+78.5)2.3 (-2.8)8.3 (-75.5)75.7 (-10.9)9.5 (+7.2)14.6 (+3.6)
Qwen2.5-Omni91.2 (+10.0)2.2 (-4.6)6.7 (-5.4)50.8 (+33.3)29.0 (+19.7)19.3 (-53.6)90.1 (+8.9)5.1 (-1.7)4.8 (-7.3)
Qwen3-Omni95.4 (+7.4)1.3 (-2.1)3.3 (-5.3)62.1 (+43.1)22.7 (+16.8)14.1 (-60.8)94.3 (+6.3)2.7 (-0.7)4.3 (-4.3)
SALMoNN65.5 (-12.6)3.7 (-0.4)30.8 (+13.1)71.8 (+6.8)9.1 (-5.1)19.1 (-1.6)80.9 (+2.9)2.3 (-1.9)16.8 (-0.9)
Voxtral71.8 (+26.9)6.4 (-0.4)21.8 (-26.5)69.0 (+61.8)8.5 (-0.9)22.0 (-61.4)50.9 (+6.1)12.9 (+6.1)36.1 (-12.2)
  • 主要发现:防御提示在恶意设置下普遍提高了拒绝率(如Gemma 4 +22.6%),但也导致了在良性设置下拒绝率和偏转率的不必要升高,显示出过度保守的倾向。在50%伪词混淆下,部分模型(如GPT)的拒绝率反而下降,表明伪词干扰可能削弱防御机制。

图3

图4

⚖️ 评分理由

  • 创新性 (1.5/2):将安全评估从文本扩展到音频、从单语扩展到代码切换的研究方向极具价值,伪词混淆攻击的设计巧妙且贴合语音特性。但方法本质上是数据集构建+系统评估,在算法或架构层面的原创性稍弱。
  • 技术严谨性 (1.1/1.5):评估框架设计合理,实验设置全面。主要不足在于:1) LLM-as-a-Judge的引入可能带来评估偏差,尤其是在处理多语言和伪词内容时,其可靠性的验证深度不够;2) 将高能力模型的安全失败直接归因于“对齐缺陷”可能过于简化,未能充分探讨音频理解管道(如潜在的ASR步骤)引入的错误如何直接影响安全分类。
  • 实验充分性 (1.3/1.5):实验覆盖了9个模型、多个语言设置和攻击变体,数据量充实。消融分析(如伪词插入比例)和理解基准测试(MGSM, Fleurs)的加入增强了结论的说服力。但缺少对不同语音合成器(如XTTS)生成语音的鲁棒性分析,以及攻击方法在真实用户交互(多轮对话)中的有效性验证。
  • 清晰度 (1.3/1.5):论文结构清晰,从问题定义到数据集构建、实验、分析逻辑连贯。表格和图示设计良好。扣分点在于:部分实验细节(如GPT-4o生成代码切换文本和伪词的具体提示语)在附录中,正文中描述可更充分;Table 4/5的列标题略显拥挤。
  • 影响力 (1.3/1.5):对多模态大模型安全社区有直接且重要的贡献,揭示了当前评估的重大盲区。数据集的发布将促进该领域的研究。但研究结论(对齐缺陷)的普适性有待后续工作在不同对齐方法(如RLHF)的模型上进一步验证。
  • 开源 (0.3/1.5):论文明确承诺开源代码和数据集,但在审阅版本中未提供任何链接或仓库地址。论文评估的部分模型为专有模型(GPT-4o, Gemini),无法完全开源。这是主要扣分项。
  • 可复现性 (0.3/1.5):由于缺乏代码、详细生成参数和完整数据集,完全复现本文结果存在障碍。部分实验细节在附录,但核心的复现材料缺失。
  • 工程/实践价值 (0.5/1.5):研究直接指向部署中真实存在的多语言音频输入安全风险,对模型开发者和安全团队有明确的警示意义。提出的伪词攻击是一种实用的红队测试方法。但论文未提供可直接集成到现有安全管道的防御方案。

🚨 局限与问题

  1. 评估方法的偏差:依赖GPT-4.1作为评估者,其自身对多语言、特别是包含伪词的非标准文本的理解和判断能力未经严格评估。这种“用LLM评判LLM”的方法可能引入系统性偏差,特别是在区分“偏转”和“拒绝”边界模糊的响应时。
  2. 对齐归因的简化:论文将高能力模型(如Voxtral在MGSM表现好但JSR高)的安全失败主要归因于“安全对齐缺陷”,这一结论可能不够充分。安全决策发生在理解之后,即使模型理解了输入(ASR正确),其后的安全分类器或策略也可能被代码切换的语法结构或伪词的语义噪声直接干扰。论文未能隔离“理解”与“安全分类”两个阶段的影响。
  3. 伪词攻击的泛化性:伪词生成依赖于特定的提示模板和GPT-4o。这些伪词的“音系合理性”和“自然度”缺乏客观度量,主要依赖人工验证。攻击效果是否依赖于特定的语音合成模型(XTTS)和语言对,未进行充分讨论。
  4. 防御策略的初步性:提出的提示防御仅是一种概念验证,其设计较为通用。实验显示它在提升恶意场景拒绝率的同时,在良性场景引入了严重的保守偏差,且在面对强伪词干扰时可能失效。这暴露了纯提示防御的根本局限性,但论文未探索更鲁棒的、结合训练或外部分类器的防御方向。
  5. 模型覆盖的时效性:尽管评估了9个模型,但鉴于领域发展迅速,结论可能无法涵盖最新的模型架构或对齐技术(如近期发布的更强安全对齐模型)。作者在局限部分已提及此点。
  6. 代码切换的深度:数据集构建的代码切换方法(由LLM按规则生成)可能无法完全捕捉自然人类语码转换的复杂性和随机性,例如更精细的语法混合、语码嵌入等。这可能影响攻击在真实场景中的泛化能力。

📷 论文图片

图5


← 返回 2026-06-05 语音/音乐/音频论文速递