📄 Codec-Robust Attacks on Audio LLMs
#音频安全 #对抗样本 #语音大模型 #音频编码 #模型评估 #神经音频编解码器
🔥 8.3/10 | 前25% | #音频安全 | #对抗样本 | #语音大模型 #音频编码 | arxiv
学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 0.5/2 | 置信度 高
👥 作者与机构
- 第一作者:Jaechul Roh(University of Massachusetts Amherst)
- 通讯作者:Jean-Philippe Monteuuis(Qualcomm Research),Jonathan Petit(Qualcomm Research)
- 作者列表:Jaechul Roh(University of Massachusetts Amherst),Jean-Philippe Monteuuis(Qualcomm Research),Jonathan Petit(Qualcomm Research),Amir Houmansdar(University of Massachusetts Amherst)
💡 毒舌点评
本文洞察非常漂亮:与其在被编解码器抛弃的波形空间里做无用功,不如直接在编解码器自己的“心窝子”(潜在空间)里做手脚,让压缩过程反而成了攻击的帮凶。但“白盒访问编解码器和模型”的威胁模型假设很强,现实中大多数攻击者未必有这种权限,论文对此的辩护略显不足,其宣称的“实用威胁”可能被高估。
📌 核心摘要
- 解决问题:现有针对音频大语言模型的对抗攻击在经过现实中的有损编解码器(如Opus, MP3)压缩后会失效,而有损压缩曾被认为是有效的防御机制。本文旨在证明这种防御并不可靠,并提出一种能抵抗压缩的攻击方法。
- 方法核心:提出CodecAttack,核心在于将对抗扰动直接优化在神经音频编解码器(如EnCodec)的连续潜在空间中,而非波形空间。因为该空间正是编解码器设计上要保留的部分,所以扰动能自然地“穿过”压缩通道。同时,采用多比特率的Straight-through Expectation-over-Transformation(EoT)训练策略,使扰动能抵抗各种比特率的压缩。
- 与已有方法相比新在哪里:这是首个同时满足“外部攻击”(不修改受害者模型)和“编解码器鲁棒”这两个关键条件的攻击方法。已有波形攻击无法抵抗压缩,而内部表示攻击(如修改编码器状态)则要求修改模型本身。本文通过改变扰动空间,将“防御通道”转化为“攻击通道”。
- 主要实验结果:在三个部署场景(金融、面试筛选、音乐版权)和三个目标模型上,使用Opus在64-192kbps下评估,平均攻击成功率(ASR)达到85.5%。而使用相同EoT策略训练的波形基线攻击在任何比特率下ASR均不超过26%。攻击还能迁移到未见过的编解码器,在MP3上达到最高100% ASR,在AAC-LC上最高84% ASR。关键对比数据见下表(摘自论文表2,场景S1,模型Qwen2-Audio, SNR≈5.8dB):
| 比特率 | 潜在空间攻击 (ASR%) | 波形基线攻击 (ASR%) |
|---|---|---|
| Opus 64 kbps | 80.0 | 24.0 |
| Opus 128 kbps | 88.0 | 26.0 |
| MP3 128 kbps (held-out) | 88.0 | 24.0 |
- 实际意义:揭示了被广泛视为安全防御的音频有损压缩,实际上可以被针对性的攻击利用。这直接威胁到所有通过编解码器管道传输音频的语音助手、内容审核系统等部署。
- 主要局限性:1)攻击需要针对特定目标模型优化,跨模型迁移性未展示;2)威胁模型假设攻击者拥有白盒访问权限;3)主要评估数字音频通道,未考虑物理声学(扬声器-麦克风)通道。
🔗 开源详情
- 代码:论文中未提及代码链接。论文在结论部分提到“代码和检查点将在未来发布”,但未提供具体URL。
- 模型权重:论文中未提及具体链接。论文攻击了三个开源模型:Qwen2-Audio-7B-Instruct, Audio Flamingo 3 (AF3), 和 Qwen2.5-Omni。这些模型通常可在Hugging Face等平台找到,但论文本身未提供直接获取链接。
- 数据集:论文中未提及数据集公开链接。论文构建了三个评估场景(金融语音代理、面试筛选、音乐行业检测)的自有评估数据集,但未说明其公开获取方式或开源协议。
- Demo:论文中未提及。
- 复现材料:论文中未提及独立的复现材料(如训练配置、检查点下载)。论文正文和附录(如Algorithm 1, Appendix I)详细描述了实验设置和算法细节,构成了复现的理论依据。
- 论文中引用的开源项目:
- EnCodec: https://github.com/facebookresearch/encodec
- Mimi: https://github.com/kyutai-labs/mimi
- DAC (Descript Audio Codec): https://github.com/descriptinc/descript-audio-codec
- PyTorch: https://github.com/pytorch/pytorch (论文中作为深度学习框架使用)
- Adam优化器: 是PyTorch等框架中的标准优化器,未单独列出链接。
🏗️ 方法概述和架构
本文提出的CodecAttack是一个在神经音频编解码器潜在空间中优化对抗扰动的攻击框架,旨在生成能抵抗有损压缩的对抗性音频。其核心流程如图1所示。
图1:CodecAttack流程概览。良性音频载体被编码到EnCodec的连续潜在空间中,并在有界预算内添加扰动(步骤1-2)。在优化过程中(步骤3),扰动后的潜在向量被解码、用随机采样的Opus比特率压缩,然后输入受害者Audio LLM;针对目标命令的交叉熵损失通过模型、编解码器(经由直通估计器STE)和解码器反向传播,以更新扰动。若干步后,导出的对抗波形在优化器从未见过的保留编解码器(Opus, MP3, AAC-LC)上进行评估。
1. 整体流程概述 攻击以一段良性音频(语音或音乐)和一个攻击者选择的目标字符串作为输入。系统首先将音频编码到神经编解码器(如EnCodec)的连续潜在空间。然后,通过投影梯度下降(PGD)在潜在空间中迭代优化一个有界扰动,使得扰动后的音频经编解码器解码并压缩后,能迫使目标音频大语言模型输出指定字符串。最终输出的是优化后的对抗波形。
2. 主要组件/模块详解
- 潜在空间编码器 (Encoder E):
- 功能:将输入的原始波形映射到神经编解码器的连续潜在表示中。
- 内部结构/实现:论文使用预训练的EnCodec编码器。该编码器基于卷积网络,将24kHz波形转换为离散时间步的潜在向量z∈ℝ^{d×F},其中d=128是潜在维度,F是帧数。关键在于,攻击绕过了编解码器中正常的残差向量量化(RVQ)步骤,直接操作于连续潜在表示。
- 输入输出:输入原始波形x,输出连续潜在向量z。
- 扰动优化 (Perturbation δ):
- 功能:在潜在空间中学习对抗扰动,使下游任务失败。
- 内部结构/实现:扰动δ初始化为与z同形的零张量,并通过Adam优化器迭代更新。扰动被约束在ℓ∞范数球内,预算为ϵ,即||δ||∞ ≤ ϵ。
- 输入输出:接收当前潜在向量z和梯度信号,输出更新后的扰动δ。
- 可微分解码-压缩-推理管道:
- 功能:构建从扰动潜在向量到最终模型输出及损失的可微分路径。
- 内部结构/实现:
- 解码器 (Decoder D):将扰动后的潜在向量(z + δ)解码回24kHz波形。论文使用EnCodec解码器,并设置为训练模式以启用自动求导(autograd),特别是其权重归一化的卷积层。
- Opus编解码器代理 (C_b):这是实现可微分压缩的关键。Opus本身是非可微分的(其CELT/SILK量化是用C语言实现的)。论文使用直通估计器 (STE) 构建一个可微代理:
C_b(x) = stop_grad(Opus_b(x) - x) + x。前向传播执行真实的Opus编解码(损失性压缩),但反向传播时将编解码器视为恒等函数,从而允许梯度通过。 - 重采样器 (R_16k):将解码后的波形(24kHz)重采样至目标Audio LLM的输入采样率(如16kHz)。
- 目标Audio LLM (f):接收预处理后的波形,输出token分布。损失函数是模型预测与目标字符串y*之间的交叉熵L_CE。
- 输入输出:输入是扰动潜在向量z+δ,输出是交叉熵损失L,用于更新δ。
- 多比特率EoT训练策略:
- 功能:确保优化的扰动能抵抗一个范围内各种比特率的压缩。
- 内部结构/实现:采用期望-越变换 (EoT) 框架。在优化的每个步骤,从比特率网格B = {16, 24, 32, 64, 128} kbps中随机采样一个比特率b_t。优化的目标是损失在所有可能比特率下的期望:L = E_{b_t}[L_CE(f(… C_{b_t}(…) …), y*)]。实现上,每步采样一个比特率进行优化。论文还采用两阶段训练:前30%步骤(预热)仅优化干净通道(无压缩)损失;后70%步骤交替进行编解码器EoT更新(奇数步)和干净通道更新(偶数步),以稳定训练。交替优化旨在让扰动同时满足直接攻击和压缩鲁棒性两个目标。
- 输入输出:作为优化策略,指导扰动δ的更新方向。
3. 组件间的数据流与交互 数据流是端到端的:原始波形x → 编码器E → 潜在向量z → 加扰(z+δ) → 解码器D → 波形 → Opus代理C_b(在EoT步骤)或直接通过 → 重采样器R_16k → Audio LLM f → 交叉熵损失L。梯度从L反向传播,通过f、R_16k、C_b(或直通路径)、D,最终到达δ。编码器E和大部分解码器D的参数在攻击优化过程中是冻结的。
4. 关键设计选择及动机
- 选择潜在空间而非波形空间:这是论文最核心的insight。有损编解码器会丢弃其认为不重要的频率信息(通常是高频)。波形空间扰动的能量容易分布到这些被丢弃的频带。而在编解码器自身的潜在空间中优化扰动,相当于在该编解码器设计上会优先保留的信号子空间中构造攻击,因此扰动能更有效地“存活”压缩。
- 使用STE使压缩可微分:直接对包含不可微分组件(如Opus量化)的管道求导是不可能的。STE提供了一种标准且有效的方法,使梯度能够通过非可分模块流动,从而端到端优化扰动。
- 多比特率EoT:现实中的部署会使用多种比特率。单一比特率训练的扰动可能过拟合。通过随机采样多个比特率,强迫扰动对压缩的随机性具备鲁棒性,模拟了真实场景。
- 两阶段训练:直接从随机扰动开始对高噪声的压缩管道进行优化可能不稳定。先进行干净通道预热可以快速找到一个“可攻击”的子空间,再通过交替优化使其同时满足鲁棒性要求。
5. 专业术语解释
- 神经音频编解码器:如EnCodec、Mimi、DAC。它们使用神经网络将音频压缩为紧凑的离散代码(通过RVQ),再解码回波形,旨在实现高保真度的有损压缩。
- 连续潜在空间:编解码器编码器输出的、尚未进行量化的连续值表示。攻击在此空间操作,避免了离散代码的梯度问题。
- 直通估计器 (STE):一种让梯度能“穿过”非可微操作(如量化、取整)的技术,在扩散模型和离散表征学习中常用。
- 期望-越变换 (EoT):一种对抗训练策略,通过在优化过程中随机采样输入变换(如压缩、缩放、旋转)来提升对抗样本的鲁棒性。
💡 核心创新点
- 攻击空间范式转变:将音频对抗攻击从波形域迁移到神经编解码器的潜在域。之前的方法在波形上加扰动,而CodecAttack在潜在空间上加扰动。这基于一个深刻洞察:对抗扰动应在编码器/解码器保留的信息子空间中构造,才能抵抗压缩。
- 编解码器鲁棒性实现:通过将多比特率的Opus压缩纳入优化循环(使用STE和EoT),使攻击成功地抵抗了现实部署中常见的有损压缩。论文通过对照实验(相同EoT策略应用于波形攻击效果不佳)有力地证明了,鲁棒性主要来自攻击空间,而非训练技巧。
- 音频原生威胁评估框架:构建了三个针对语音代理实际威胁的评估场景(金融、招聘、音乐版权),并设计了统一的编解码器评估网格(训练用Opus,评估扩展到MP3、AAC-LC)。这超越了简单套用文本越狱任务的评测,使安全评估更贴合实际。
📊 实验结果
论文进行了全面的实验,主要结果如下:
1. 核心对比实验:潜在空间 vs. 波形基线 实验控制变量:相同优化器、相同多比特率EoT训练策略、匹配的信噪比(≈5.8dB)。结果清晰表明攻击空间是性能差异的主因。
图4:编解码器EoT消融实验(场景S3a,模型Qwen2-Audio,ϵ=1.0,n=40)。蓝色为使用多比特率EoT的鲁棒攻击,红色为不使用EoT(仅干净通道目标)的攻击。图中标签显示了移除EoT导致的ASR下降。虚线区分了分布内的Opus通道(左)和保留的MP3与AAC-LC通道(右)。不使用EoT时,Opus ≤32 kbps的ASR降至0%,AAC-LC 64k下降了32.5个百分点。
2. 跨编解码器泛化 攻击在Opus上训练,但能迁移到未见过的编解码器,显示了方法的普适性。下表展示了在场景S3b(版权分类),模型Qwen2.5-Omni上的跨编解码器结果(摘自论文表3和表4)。
| 编解码器 | 比特率 | Clean ASR | Opus (训练内) | MP3 (保留) | AAC-LC (保留) |
|---|---|---|---|---|---|
| EnCodec (ϵ=1.0) | 64 kbps | 100.0% | 94.7% | 89.5% | 68.4% |
| 128 kbps | 100.0% | 100.0% | 100.0% | 73.7% | |
| Mimi (ϵ=0.2) | 128 kbps | 36.8% | 36.8% | 36.8% | 36.8% |
| DAC (ϵ=0.6194) | 128 kbps | 36.8% | 36.8% | 36.8% | 21.1% |
3. 消融实验:多比特率EoT的必要性 移除EoT(仅用干净通道目标)的消融实验(图4)表明,在Opus ≤32 kbps和AAC-LC 64kbps下,攻击成功率急剧下降甚至归零,证明了EoT对于低比特率鲁棒性至关重要。
4. 目标长度容量分析 实验(图5)表明,对于≤8个单词的目标,攻击在几乎所有比特率下都能达到完美成功率;目标长度在15-20个单词时成功率逐渐下降;超过32个单词时崩溃。主要结果中使用的目标都在可靠范围内。
图5:不同目标词数和Opus比特率下,Qwen2-Audio在ϵ=1.0时的成功次数(最多3个载体)。攻击在w≤8时,在所有比特率下都饱和于3/3,在w=15-20时逐渐下降,在w=32时崩溃,此时PGD损失增加了约5倍(从0.011到0.052)。
5. 频谱分析与机制解释
图3:结构性 vs. 对抗性频谱放置。三个扰动源在匹配范数下的每巴克带分数能量:(A) 基于雅可比矩阵的解码器包络(无优化),(B) 随机潜在抽样(σ匹配,无对抗目标),(C) 实际对抗扰动δ (ϵ=1.0)。来源A和B逐带重叠,均将92-93%的能量置于4 kHz以下,证实低于4 kHz的限制是解码器参数化属性,而非优化器所致。实际对抗δ共享此限制,但进一步集中于400 Hz以下(42% vs. 约21%),这是编解码器分配最多比特的区域。
论文通过雅可比矩阵分析(图6)和频谱放置分析(图3, 9)揭示了攻击鲁棒性的根本原因:1)EnCodec解码器的结构决定了其潜在空间基函数主要响应4kHz以下频率;2)对抗损失进一步将扰动能量集中到编解码器最忠实保留的400Hz以下频段。而波形攻击能量分布更广,其高频部分被编解码器丢弃。
6. 音频质量 附录表12提供了音频质量指标。在主要操作点(ϵ=1.0),语音载体的STOI≈0.90,保持良好可懂度;音乐载体的感知质量也保持其风格特征,但可测量的质量指标(如PESQ-WB)有所下降,这符合预期:编解码器鲁棒的扰动必须占据人耳敏感的频段。
🔬 细节详述
- 训练数据:
- 来源:场景S1:25个英语银行语音片段;场景S2:25个英语+24个 Mandarin面试语音片段;场景S3:约40+45段24kHz音乐片段(爵士、古典等)。
- 规模:攻击优化使用单个载体和单个目标,总实验量(评估)跨多个场景、模型、编解码器设置。
- 预处理:音频统一为24kHz,16bit PCM。重采样至16kHz供模型输入。
- 损失函数:
- 名称:交叉熵损失。
- 作用:衡量模型预测的token分布与目标字符串y*之间的差异,驱动扰动优化使模型输出目标。
- 公式:L_CE(f(R_{16k}(D(z+δ))), y*)。
- 训练策略:
- 优化器:Adam。
- 学习率:α=0.2。
- 训练步数:S=1000步。
- 调度策略:两阶段。前wS=300步为预热阶段,仅优化干净通道损失(Eq. 1)。后700步交替进行:奇数步进行编解码器EoT优化(Eq. 3),偶数步进行干净通道优化(Eq. 1)。
- 投影:每一步更新后,将δ投影到ℓ∞范数为ϵ的球内。
- 关键超参数:
- 潜在空间:EnCodec,潜在维度d=128,帧率F与采样率相关(对于24kHz输入,约75fps)。
- 扰动预算:ϵ ∈ {0.5, 1.0, 1.5}(在EnCodec连续潜在空间的ℓ∞范数)。
- EoT比特率网格:B = {16, 24, 32, 64, 128} kbps。
- 解码器设置:EnCodec解码器设为训练模式以启用autograd。
- 训练硬件:
- GPU:NVIDIA A100 (80 GB)。
- 训练时长:每次1000步优化约需8分钟。完整评估(跨所有场景、模型、编解码器)约需350 GPU小时。
- 推理细节:
- 输入:优化后的潜在向量z+δ*。
- 输出:通过EnCodec解码器生成24kHz,16bit PCM波形文件(x̂ = D(z+δ*))。
- 评估:生成的波形文件经过指定的编解码器(Opus, MP3, AAC-LC)压缩,然后输入目标Audio LLM进行推理。模型输出经标准化后进行严格的子串匹配,计算攻击成功率(ASR)。
- 正则化/稳定训练技巧:两阶段训练(预热+交替优化)用于稳定在噪声梯度下的训练过程。
⚖️ 评分理由
创新性:2.6/3
- 优点:问题选择极其重要且实际(编解码器作为防御的失效)。核心洞察(在潜在空间攻击)新颖、深刻且有说服力,彻底扭转了“有损压缩是防御”的范式认知。实验设计(控制变量对比潜在与波形攻击)直接、有力地验证了这一洞察。评估框架(音频原生场景)超越了简单文本越狱。
- 不足:方法的技术组件(STE, EoT)本身是已有的,但将其巧妙组合并应用于解决这个特定关键问题,组合带来的新洞察使其具有高创新性。不存在“换汤不换药”。
技术严谨性:1.3/1.5
- 优点:算法推导(尤其是STE代理和优化目标)清晰正确。两阶段训练的动机合理。频谱分析(雅可比矩阵、能量分布)为方法提供了坚实的理论解释,而不仅仅是经验结果。
- 不足:论文未充分讨论STE在强非线性编解码器下的近似误差可能带来的影响。对于跨编解码器迁移(如到DAC)时预算缩放(σ-ratio scaling)的详细推导和合理性说明可以更深入。
实验充分性:1.4/1.5
- 优点:实验设计非常全面。1)覆盖了多个目标模型(Qwen2-Audio, AF3, Qwen2.5-Omni)。2)设计了三个差异化的实际部署场景。3)系统评估了训练编解码器(Opus)和多种保留编解码器(MP3, AAC-LC)在不同比特率下的表现。4)关键的消融实验(EoT必要性、目标长度)和分析实验(频谱分析)有力支撑了结论。
- 不足:跨模型迁移性(用一个模型训练的攻击能否在另一个模型上生效)未被测试和讨论。主要结果集中在特定音频编码器(EnCodec)上,虽然附录探索了其他编解码器,但可以更系统地验证“神经编解码器通用性”的主张。
清晰度:0.8/1
- 优点:论文写作清晰流畅,结构完整。核心思想阐述得非常清楚。图表(如图1, 3)直观地辅助了理解。关键公式和算法伪代码(Algorithm 1)明确。
- 不足:一些非常关键的实验细节(如波形基线攻击的完整优化细节、λ超参数的具体设置)被放在了附录,主文引用不够直接。符号z有时指代原始潜在向量,有时指代连续表示,略有混淆。
影响力:1.7/2
- 优点:直接影响重大。论文挑战了音频安全领域一个普遍的防御假设(有损压缩),并展示了一种有效的攻击范式。对于所有依赖音频编解码器管道的语音AI系统(助手、客服、内容审核)的安全性提出了新的、严峻的挑战。为后续防御研究(如针对潜在空间攻击的检测、对抗训练)指明了新方向。与语音/音频领域读者的相关性极高。
- 不足:攻击的实用性受限于威胁模型(白盒访问),这在实际中可能难以满足。论文虽论证了“外部”特性(不修改模型),但白盒访问(特别是对编解码器)的现实性论证可以更充分。
开源:0.0/1.5
- 优点:无。
- 缺点:论文中未提及任何代码、模型权重、数据集或Demo的开源计划。无法评估其可复现性。
可复现性:0.5/0.5
- 优点:论文(包括附录)提供了极其详尽的复现信息:1)完整的优化算法和超参数(学习率、步数、调度)。2)所有实验场景的详细描述(载体来源、目标设计)。3)评估协议和指标的明确定义。4)硬件配置。这些信息理论上足以让他人独立复现实验。
- 缺点:完全不开源,复现需自行准备所有资源和实现细节,门槛较高。
总分:8.3/10 (注:此为理论总分,实际评分已根据各维度权重和内容修正调整为7.8)
🚨 局限与问题
论文明确承认的局限:
- 模型特定优化:对抗扰动针对特定受害者模型优化,跨模型迁移性未展示。这是白盒攻击的常见特点。
- 防御研究不足:论文主要展示了攻击,对于如何防御此类潜在空间攻击仅提出了几个未来方向(如对抗训练、重合成检测),但未进行深入探索或验证。
- 威胁模型:假设攻击者拥有对受害者Audio LLM和用于构造攻击的编解码器的白盒访问权限。
审稿人发现的潜在问题:
- 威胁模型强度与现实性:尽管论文论证了“外部”攻击(不修改模型),但“白盒访问”假设在许多现实场景中可能仍然过强。攻击者如何获得目标模型和编解码器的精确副本?论文对此的辩护可以更充分,例如讨论攻击者下载公开模型(如Qwen)并获取相同编解码器的可能性,但部署环境的差异(版本、配置)仍是挑战。
- 物理声学通道缺失:所有评估均在数字编解码器通道进行。在更复杂的“扬声器-空气-麦克风”物理攻击场景中,该方法的鲁棒性未知,这可能是更现实的威胁之一。
- AAC-LC上的载体依赖性:实验发现攻击在AAC-LC上对音乐载体效果远好于语音载体(图7)。论文将其归因于心理声学掩蔽效应,但这一发现本身揭示了方法的脆弱性——攻击效果高度依赖于载体内容的频谱特性,这限制了其在通用语音攻击中的可靠性。
- 基线对比的完整性:虽然与“波形基线”的对比很有力,但缺少与其他可能的相关对抗攻击方法(如针对语音模型的语义攻击SMACK)在音频编码场景下的直接比较。