Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization
📄 Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization #语音大模型 #音频安全 #对抗样本 #信号处理 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #语音大模型 #信号处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文未明确区分第一作者) 通讯作者:未说明(论文未明确标注) 作者列表:Zheng Fang, Xiaosen Wang, Shenyi Zhang, Shaokang Wang, Zhijin Ge(论文中未提供任何作者的所属机构信息) 💡 毒舌点评 这篇论文的亮点在于通过一个巧妙的观察(梯度能量高度集中于少数token),将看似复杂的音频波形优化问题简化成了“抓关键”,提出了高效的稀疏攻击方法TAGO。但其短板也很明显:研究聚焦于“如何更高效地破坏安全”,视角相对负面;且方法的成功严重依赖于特定的超参数(如token保留率ζ)和早停策略,在真实场景的泛化能力上论证稍显不足。 📌 核心摘要 解决的问题:针对音频语言模型(ALM)的越狱攻击通常采用对整个音频波形进行密集梯度更新的方法,这在高维音频输入上计算冗余且效率不高。本文探究了这种密集优化的必要性。 方法核心:提出Token-Aware Gradient Optimization (TAGO)。核心思想是分析ALM在越狱优化过程中,梯度能量在音频token层面上的分布,发现其高度非均匀,仅一小部分token贡献了大部分梯度能量。因此,在每次迭代中,TAGO只对梯度能量最高的前ζ比例token所对应的音频区域(receptive field)进行梯度更新,而将其他区域的梯度置零,实现稀疏优化。 创新之处:与已有方法(如SpeechGuard、AdvWave)的密集更新不同,TAGO首次将优化粒度从波形样本点提升到与模型内部表示对齐的“音频token”级别,并利用梯度的稀疏性进行自适应、token选择性的更新。此外,TAGO还设计了模型兼容的前缀模板和EOS抑制策略。 实验结果:在Qwen3-Omni, Qwen2.5-Omni和LLaMA-Omni三个模型上的实验表明,TAGO在攻击成功率上优于基线。即使将token保留率降至0.25(仅更新25%的token对应区域),在Qwen3-Omni上仍能保持86%的ASR_l(LLM判别成功率),仅比全量更新的87%下降1个百分点。同时,实验否定了“先密集优化再稀疏化”的后处理方法。 实际意义:证明了针对ALM的越狱攻击存在大量冗余更新,揭示了模型安全对齐机制在音频模态上的一个潜在脆弱点(梯度信号分布不均)。这为攻击者提供了更高效的攻击思路,也为防御者指出了需要关注的脆弱区域(关键音频token),推动了对音频模型安全机制的深入理解。 主要局限性:攻击效果对超参数(如token保留率ζ和早停置信度ρ)较为敏感;虽然构造了模型兼容前缀,但仍属于基于特定文本前缀的约束优化,可能无法覆盖所有拒绝场景;主要评估了白盒攻击,对黑盒场景的迁移性未做探讨。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中评估的三个模型均提供了HuggingFace链接: Qwen3-Omni-30B-A3B-Instruct: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B LLaMA-3.1-8B-Omni: https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni 数据集:论文中未提供数据集的直接下载链接。主要使用的数据集为 AdvBench-50(基于 Chao et al. (2025) 的有害指令集)和 HarmBench(Mazeika et al. (2024))。需参考相应原始论文获取。 Demo:论文中未提及。 复现材料:论文提供了详细的复现信息,包括: 对话模板(见论文附录A表5)。 拒绝词列表(见论文附录A表6)。 模型兼容的目标前缀(见论文附录A表7)。 优化超参数(如 K=500, η=10⁻³, λ=0.02, λₑₒₛ=0.2, ε=0.1)。 评判模型及提示(见论文附录A中“Judge models and judge prompts”部分,包含SorryBench评判器及Gemini提示)。 论文中引用的开源项目: Whisper (语音编码器):https://github.com/openai/whisper Google Cloud Text-to-Speech (用于合成测试音频):https://cloud.google.com/text-to-speech SorryBench 评判模型 (Mistral-7B-Instruct-v0.2-sorry-bench-202406):https://huggingface.co/sorry-bench/ft-mistral-7b-instruct-v0.2-sorry-bench-202406 Gemini 3 Flash (用作 LLaMA-Omni 的评判模型):未提供具体链接。 🏗️ 模型架构 TAGO并非一个传统意义上的神经网络模型,而是一种针对已有ALM的优化攻击算法。其整体架构(流程)如图1所示: ...