ICLR 2026 - 语音增强 #对抗样本

1 篇论文

← 返回 ICLR 2026 总览


排名论文评分分档
🥇Are Deep Speech Denoising Models Robust to Adversarial Noise8.5分前25%

📋 论文详情

🥇 Are Deep Speech Denoising Models Robust to Adversarial Noise?

🔥 8.5/10 | 前25% | #语音增强 #对抗样本 | #信号处理 | #语音增强 #对抗样本

👥 作者与机构

  • 第一作者:Will Schwarzer(马萨诸塞大学阿默斯特分校)
  • 通讯作者:Will Schwarzer(马萨诸塞大学阿默斯特分校)
  • 作者列表:Will Schwarzer(马萨诸塞大学阿默斯特分校)、Philip S. Thomas(马萨诸塞大学阿默斯特分校)、Andrea Fanelli(Dolby Laboratories)、Xiaoyu Liu(Meta)

💡 毒舌点评

论文将音频对抗攻击的研究从简单的扰动约束推进到了考虑真实声学环境(模拟过空传播)和严格心理声学掩蔽的实用化设定,这是一项重要且扎实的安全研究。然而,攻击的成功高度依赖于白盒梯度访问,且论文坦承通用对抗扰动和跨模型迁移基本无效,这限制了其直接展示的“威胁”的即时实用性,更像是一份详尽的系统性风险报告。

🔗 开源详情

  • 代码:提供公开代码仓库链接:https://github.com/willschwarzer/adv-dns-public
  • 模型权重:论文研究的对象是四个已有公开检查点的开源DNS模型(Demucs/Denoiser, Full-SubNet+, FRCRN, MP-SENet),并详细列出了使用的具体版本和提交哈希(见附录G表4)。攻击本身是针对这些模型生成的,未提及公开攻击模型权重。
  • 数据集:使用来自ICASSP 2022 DNS Challenge 4公开数据集的音频(干净语音、噪声、RIR),并注明了引用和许可(CC-BY-4.0 for 数据, MIT for 代码)。
  • Demo:论文中未提及在线演示。但提供了指向攻击样本在线试听页面的链接(https://sites.google.com/view/adv-dns/),用于评估主观不可感知性和攻击效果。
  • 复现材料:提供了极其详尽的复现信息,包括:所有实验设置(SNR, 混响, 模型)、优化算法及超参数(Adam, 学习率, 梯度裁剪, 迭代次数)、心理声学模型具体参数、STFT参数、人类研究协议、统计检验方法等。代码仓库应包含运行实验所需脚本。
  • 论文中引用的开源项目:OpenAI Whisper(用于ASR评估和过滤数据)、MP-SENet、Denoiser (Demucs)、FRCRN (ClearerVoice-Studio)、FullSubNet-Plus、MaskGCT(用于生成目标攻击语音)、DNS-Challenge数据集与代码、DNSMOS P.835、NISQA、ViSQOL。所有引用的项目及其版本、许可证在附录G的表4中详细列出。

📌 核心摘要

  1. 问题:深度语音去噪(DNS)模型在安全关键应用(如助听器、应急通信)中广泛使用,但其对抗鲁棒性尚未被充分研究。论文旨在评估这些模型是否对精心设计的、人耳难以察觉的对抗噪声脆弱。
  2. 方法:核心方法是提出一个基于心理声学掩蔽的对抗攻击框架。该框架通过计算掩蔽阈值(包括频率掩蔽和时域前后掩蔽)来约束扰动的功率谱密度,使其在原始语音信号中“隐藏”。优化采用投影梯度下降,损失函数为短时客观可懂度(STOI)。此外,框架通过维纳解卷积和梯度下降投影来模拟和应对扰动在房间脉冲响应(RIR)下的传播,以实现模拟过空攻击。
  3. 创新:与已有工作(如使用简单p范数约束或未充分考虑感知掩蔽)相比,该工作的创新在于:a) 集成了增强的、包含时域掩蔽的心理声学模型,并引入偏移量调节掩蔽阈值,更好地平衡攻击成功率与不可感知性;b) 系统性地将攻击扩展到模拟真实声学环境(混响、不同背景噪声水平、过空传播);c) 对多种开源DNS模型在不同设置下的鲁棒性进行了全面的机制分析,揭示了梯度流动(而非模型大小)是关键因素。
  4. 主要实验结果:论文测试了Demucs, Full-SubNet+, FRCRN, MP-SENet四个模型。关键发现:a) 所有模型都能在人耳无法察觉的扰动下被驱动输出无意义语音(STOI提升从正值变为负值,见图1);b) 攻击在从极干净(70dB SNR)到嘈杂、混响的环境下均成功;c) Full-SubNet+因梯度爆炸展现出一定“伪鲁棒性”,但此保护机制已知可被绕过;d) 人类研究(15名音频专家)证实攻击后的音频几乎无法转写,且扰动通常不可察觉;e) 模拟过空攻击对除Full-SubNet+外的模型同样有效(见图5);f) 简单的高斯噪声防御仅能部分缓解,但攻击者可能自适应(见图4)。通用扰动和跨模型迁移效果有限。

无目标攻击导致的可懂度下降对比图 图1:在不同背景信噪比(SNR)和混响条件下,四个DNS模型在加入不可察觉的对抗扰动前后,其输出相对于干净语音的STOI变化(ΔSTOI)。攻击成功地将ΔSTOI从正值(增强)变为负值(劣化),表明模型输出变得比含噪输入更不可懂。

不同感知约束下的攻击成功度与音频质量对比 图2:归一化后的五种语音质量与可懂度指标(STOI,ViSQOL,NISQA,DNSMOS,ASR准确率)在攻击前、攻击后输入、攻击后模型输出的平均值。攻击导致所有质量指标显著下降。

跨Demucs检查点的留一法迁移攻击结果 图3:使用不同Demucs检查点训练的攻击在留一法评估下的迁移性。迁移攻击仅造成轻微性能下降,远弱于白盒攻击。

高斯白噪声防御效果 图4:对攻击后音频添加不同强度的高斯白噪声(以SNR衡量)作为防御。防御能部分提升STOI,但只有在噪声强度足以损害正常语音性能时才有效。

模拟过空攻击结果 图5:在模拟过空传播(使用混合的合成和真实RIR)设置下的攻击结果。除Full-SubNet+外,攻击对其他模型依然有效。

人类研究:转写准确率与ABX辨别准确率 图6:人类研究结果。(a)转写任务词准确率:攻击输出几乎无法转写。(b)ABX任务准确率:参与者区分攻击样本与原始样本的准确率接近随机水平(50%),表明扰动难以察觉。

目标攻击的可懂度分析 图7:目标攻击中,目标语音在攻击后输入与模型输出中的相对可懂度(Δtarget)。正值表示模型输出使目标短语比原始干净语音更清晰。

  1. 实际意义:研究明确指出了开源DNS模型在安全关键应用中部署的重大隐患。攻击者可通过不可察觉的扰动使通信中断或语音识别系统失效。论文强调,在缺乏更强大防御(如对抗训练)的情况下,应谨慎使用开源DNS模型。
  2. 主要局限性:a) 攻击为白盒攻击,需要模型梯度信息;b) 通用扰动和跨模型迁移攻击效果有限;c) 目标攻击虽在指标上成功,但人耳仅能听到微弱痕迹;d) 模拟过空传播仍为线性模型,未考虑非线性失真、增益控制等;e) Full-SubNet+的“伪鲁棒性”源于梯度爆炸,此漏洞可能被专门攻击绕过。