Codec-Robust Attacks on Audio LLMs
📄 Codec-Robust Attacks on Audio LLMs #音频安全 #对抗样本 #语音大模型 #音频编码 #模型评估 #神经音频编解码器 🔥 8.3/10 | 前25% | #音频安全 | #对抗样本 | #语音大模型 #音频编码 | arxiv 学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 第一作者:Jaechul Roh(University of Massachusetts Amherst) 通讯作者:Jean-Philippe Monteuuis(Qualcomm Research),Jonathan Petit(Qualcomm Research) 作者列表:Jaechul Roh(University of Massachusetts Amherst),Jean-Philippe Monteuuis(Qualcomm Research),Jonathan Petit(Qualcomm Research),Amir Houmansdar(University of Massachusetts Amherst) 💡 毒舌点评 本文洞察非常漂亮:与其在被编解码器抛弃的波形空间里做无用功,不如直接在编解码器自己的“心窝子”(潜在空间)里做手脚,让压缩过程反而成了攻击的帮凶。但“白盒访问编解码器和模型”的威胁模型假设很强,现实中大多数攻击者未必有这种权限,论文对此的辩护略显不足,其宣称的“实用威胁”可能被高估。 📌 核心摘要 解决问题:现有针对音频大语言模型的对抗攻击在经过现实中的有损编解码器(如Opus, MP3)压缩后会失效,而有损压缩曾被认为是有效的防御机制。本文旨在证明这种防御并不可靠,并提出一种能抵抗压缩的攻击方法。 方法核心:提出CodecAttack,核心在于将对抗扰动直接优化在神经音频编解码器(如EnCodec)的连续潜在空间中,而非波形空间。因为该空间正是编解码器设计上要保留的部分,所以扰动能自然地“穿过”压缩通道。同时,采用多比特率的Straight-through Expectation-over-Transformation(EoT)训练策略,使扰动能抵抗各种比特率的压缩。 与已有方法相比新在哪里:这是首个同时满足“外部攻击”(不修改受害者模型)和“编解码器鲁棒”这两个关键条件的攻击方法。已有波形攻击无法抵抗压缩,而内部表示攻击(如修改编码器状态)则要求修改模型本身。本文通过改变扰动空间,将“防御通道”转化为“攻击通道”。 主要实验结果:在三个部署场景(金融、面试筛选、音乐版权)和三个目标模型上,使用Opus在64-192kbps下评估,平均攻击成功率(ASR)达到85.5%。而使用相同EoT策略训练的波形基线攻击在任何比特率下ASR均不超过26%。攻击还能迁移到未见过的编解码器,在MP3上达到最高100% ASR,在AAC-LC上最高84% ASR。关键对比数据见下表(摘自论文表2,场景S1,模型Qwen2-Audio, SNR≈5.8dB): 比特率 潜在空间攻击 (ASR%) 波形基线攻击 (ASR%) Opus 64 kbps 80.0 24.0 Opus 128 kbps 88.0 26.0 MP3 128 kbps (held-out) 88.0 24.0 实际意义:揭示了被广泛视为安全防御的音频有损压缩,实际上可以被针对性的攻击利用。这直接威胁到所有通过编解码器管道传输音频的语音助手、内容审核系统等部署。 主要局限性:1)攻击需要针对特定目标模型优化,跨模型迁移性未展示;2)威胁模型假设攻击者拥有白盒访问权限;3)主要评估数字音频通道,未考虑物理声学(扬声器-麦克风)通道。 🔗 开源详情 代码:论文中未提及代码链接。论文在结论部分提到“代码和检查点将在未来发布”,但未提供具体URL。 模型权重:论文中未提及具体链接。论文攻击了三个开源模型:Qwen2-Audio-7B-Instruct, Audio Flamingo 3 (AF3), 和 Qwen2.5-Omni。这些模型通常可在Hugging Face等平台找到,但论文本身未提供直接获取链接。 数据集:论文中未提及数据集公开链接。论文构建了三个评估场景(金融语音代理、面试筛选、音乐行业检测)的自有评估数据集,但未说明其公开获取方式或开源协议。 Demo:论文中未提及。 复现材料:论文中未提及独立的复现材料(如训练配置、检查点下载)。论文正文和附录(如Algorithm 1, Appendix I)详细描述了实验设置和算法细节,构成了复现的理论依据。 论文中引用的开源项目: EnCodec: https://github.com/facebookresearch/encodec Mimi: https://github.com/kyutai-labs/mimi DAC (Descript Audio Codec): https://github.com/descriptinc/descript-audio-codec PyTorch: https://github.com/pytorch/pytorch (论文中作为深度学习框架使用) Adam优化器: 是PyTorch等框架中的标准优化器,未单独列出链接。 🏗️ 方法概述和架构 本文提出的CodecAttack是一个在神经音频编解码器潜在空间中优化对抗扰动的攻击框架,旨在生成能抵抗有损压缩的对抗性音频。其核心流程如图1所示。 ...