对抗样本 | 语音/音频论文速递

Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models

📄 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models #音频安全 #对抗样本 #多模态模型 #基准测试 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv 学术质量 7.3/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Yanyun Wang 通讯作者：未在论文中明确指定作者列表：Yanyun Wang, Yu Huang, Zi Liang, Xixin Wu, Li Liu（所有作者所属机构信息未在论文正文中提供，仅在作者姓名下方列出，未明确给出具体机构名称） 💡 毒舌点评本文的核心亮点是提出了一个范式级别的创新——“声学干扰”，巧妙地将攻击载荷从“恶意音频内容”解耦，利用生成模型先验中的良性声学特征作为通用触发器，这思路极具启发性且实验验证充分。然而，一个必须严肃质疑的根本问题是：整个“通用”ALS武器库的构建完全依赖于Bark模型的特定先验。那么，AIA对目标LALM的“通用性”是否隐含了一个关键假设，即这些LALM的音频编码器与Bark的生成空间存在某种未知的共性？如果目标LALM的音频处理架构与Bark差异巨大，这种“声学干扰”的迁移性还能成立吗？论文对此核心假设缺乏深入的理论或实验讨论，使得“通用性”的宣称打了折扣。此外，所有评估严重依赖GPT-4o作为裁判，尽管引入了外部模型验证，但“运动员兼裁判”的风险依然存在。 📌 核心摘要问题：现有针对大音频语言模型（LALM）的越狱攻击范式（优化语义、控制声学参数、添加扰动）都将恶意音频内容作为攻击载荷，存在效率低、耦合性强等根本局限。本文挑战了这种必要性。方法核心：提出“声学干扰”新范式和“声学干扰攻击”（AIA）。核心是利用特定的“声学潜在语义”（ALS）——从生成模型（Bark）先验中挖掘的、内容良性的内在副语言特征——作为通用触发器，干扰LALM的安全对齐路径。攻击通过一个离线构建、预排序的通用中性ALS音频库实现，无需实例特定优化。两阶段攻击流程：先尝试纯文本越狱，若失败则从ALS库中依次选取音频与文本组合查询。创新点：首次发现并定义“声学干扰”现象；提出首个解耦攻击载荷与音频模态的通用黑盒越狱方法AIA；通过可解释性分析揭示了干扰诱导的“推理路径漂移”机制；构建了可解释的12维ALS索引系统。实验结果：在10个LALM（7开源，3闭源）和5个数据集上验证了AIA的有效性。以表2为例，在JBB数据集上，AIA使Qwen2.5-Omni的ASR-M从文本基线的50.98%提升至100.00%，对GPT-4o-Audio从56.10%提升至75.61%。在与现有方法的对比中（表3），AIA在多个模型上取得了SOTA或接近SOTA的攻击效果，且查询开销相对较低。实际意义：揭示了当前LALM跨模态安全对齐的根本性脆弱性，即安全机制可能被内容无关的声学特征所干扰。为攻击和防御研究提供了新方向。局限性：攻击有效性高度依赖于作为代理模型的Bark；未探讨防御策略；部分基线对比数据来自不同评测标准（JALMBench的宽松评分）。 🔗 开源详情代码：https://flaai.github.io/AIA_page 模型权重：论文中未提及数据集： JBB-Behaviors (from JailbreakBench): 论文引用了该数据集。其获取链接通常为：https://github.com/centerforaisafety/JailbreakBench。 WildJailbreak: 论文引用了该数据集。其获取链接通常为：https://huggingface.co/datasets/AI-LLM/WildJailbreak。 HH-RLHF: 论文引用了该数据集。其获取链接通常为：https://github.com/anthropics/hh-rlhf。 AdvBench: 论文引用了该数据集。其获取链接通常为：https://github.com/linyiZh/AdvBench。 HarmBench: 论文引用了该数据集。其获取链接通常为：https://github.com/centerforaisafety/HarmBench。 Demo：论文中未提及在线演示链接，但提供了项目主页 https://flaai.github.io/AIA_page。复现材料：论文中未提及具体的训练配置、检查点下载链接。文中提到了构建的“ALS arsenal”以及附录中提供了算法伪代码、12维标签系统定义等复现所需的部分具体信息。论文中引用的开源项目： Bark (文本转语音模型): https://github.com/suno-ai/bark CLAP (对比音频预训练模型): https://github.com/LAION-AI/CLAP WavLM (音频表示模型): https://github.com/microsoft/unilm/tree/master/wavlm JailbreakBench: https://github.com/centerforaisafety/JailbreakBench WildJailbreak: https://huggingface.co/datasets/AI-LLM/WildJailbreak HH-RLHF: https://github.com/anthropics/hh-rlhf AdvBench: https://github.com/linyiZh/AdvBench HarmBench: https://github.com/centerforaisafety/HarmBench Llama Guard 3: 论文提及模型名，链接未提供。其官方信息通常来自 Meta AI。 GPT-4o / GPT-4o-mini: OpenAI的专有模型，无开源链接。 🏗️ 方法概述和架构整体流程概述：本文提出的声学干扰攻击（AIA）是一个两阶段的黑盒攻击框架。输入是一个恶意的文本越狱提示（text jailbreak）和目标LALM。第一阶段（文本测试），系统先用原始文本多次查询LALM；若文本本身未能成功越狱，则进入第二阶段（音频干扰），从预构建并排序的通用声学干扰音频库（ALS武器库）中依次选取音频，与文本组合成多模态查询，直至成功或达到尝试上限。输出为是否成功诱导模型生成有害回应。 ...

Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs

📄 Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs #对抗样本 #多模态模型 #模型评估 #预训练 ✅ 6.5/10 | #对抗样本 #多模态模型 | arxiv 👥 作者与机构第一作者：Hao Wang (Magellan Technology Research Institute (MTRI), Waseda University) 通讯作者：未说明作者列表：Hao Wang (Magellan Technology Research Institute (MTRI), Waseda University)、Yiqun Sun (Magellan Technology Research Institute (MTRI))、Pengfei Wei (Magellan Technology Research Institute (MTRI))、Lawrence B. Hsieh (Magellan Technology Research Institute (MTRI))、Daisuke Kawahara (Waseda University) 💡 毒舌点评亮点在于提出了一种简洁、即插即用的VLM对抗防御框架，通过SAE的重建目标隐式学习攻击特征的思路有一定启发性，且实验设计（跨域、跨攻击设置）较为全面。短板在于核心insight“重建目标能隐式捕捉攻击信号”的理论解释或可视化证据不足，更像是一个经验性发现；此外，与最前沿的VLM攻击防御方法对比不足，部分实验（如只用SSA-CWA生成攻击特征）可能限制了结论的普适性。 📌 核心摘要解决的问题：视觉-语言模型（VLMs）在面对对抗性攻击时极其脆弱，现有检测方法缺乏对最新、最强攻击的评估，且在跨域、跨攻击等现实场景下鲁棒性不足。方法核心：提出SAEgis，一种基于稀疏自编码器（SAE）的即插即用检测框架。将SAE插入预训练VLM（如Qwen2.5-VL）的视觉编码器或投影层，仅用重建目标训练。利用少量对抗样本，通过计算每个稀疏特征的“攻击得分”来选出“攻击相关特征”。在推理时，计算输入图像触发的攻击相关特征数量，若超过基于干净数据校准的阈值，则判定为对抗样本。与已有方法相比新在哪里：首次将SAE作为即插即用模块用于VLM对抗检测，无需对抗训练。方法基于特征激活模式而非重建误差或额外分类器，设计更轻量、通用。通过多层SAE信号集成，有效融合了低级纹理和高级语义中的攻击特征。主要实验结果：在NIPS17、LLaVA、Medical三个数据集上，针对SSA-CWA、M-Attack、FOA-Attack三种攻击进行评估。SAEgis（集成版）在跨域设置下平均F1达到94.4%，显著优于Dense (Ensemble) 的82.2%和PIP的79.4%。在跨攻击设置下，单层SAE（vision-block0）也能保持较高F1（~89.7%），但集成后性能更稳定（F1 >93%）。实际意义：为提升现实世界VLM部署的安全性提供了一个轻量、实用且易于集成的防御组件，尤其在域偏移和未知攻击下表现出良好鲁棒性。主要局限性：攻击相关特征的“攻击得分”计算基于简单均值差，对分布漂移敏感；阈值校准仅依赖干净数据，在跨域测试时可能导致性能下降（如图5所示的失败案例）；方法评估仅限于“描述图像”这一任务，对VLM其他功能的泛化性未知。 🔗 开源详情代码：https://github.com/conan1024hao/SAEgis 模型权重：论文中未提及具体的模型权重链接。论文指出将使用 Qwen2.5-VL-3B-Instruct (Bai et al., 2025b) 作为骨干VLM，并将在论文发表后释放所有预训练的SAE权重 (“All pretrained SAE weights will be released upon publication”)。数据集：论文中使用了以下数据集，但未提供直接的下载链接。数据集获取方式需参考原始论文或官方发布渠道。 NIPS17 (K et al., 2017) - 自然图像数据集。 LLaVA-Instruct-150K (Liu et al., 2023) - 自然图像数据集。 Medical Multimodal Evaluation Data (Chen et al., 2024b) - 医学图像数据集，用于域外评估。 FineVision (Wiedmann et al., 2025) - 用于预训练SAE模块。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及具体的训练脚本、配置文件或预训练检查点链接。但论文详细描述了实现细节（第4.2节），包括：骨干模型：Qwen2.5-VL-3B-Instruct。 SAE训练数据：使用 FineVision 数据集，训练500k样本。 SAE超参数：批大小16，学习率5e-5，潜在维度32768，稀疏度Top-K=64。实验超参数：选择Top-K=256个攻击相关特征，检测阈值由干净验证集上假阳性率α=0.02确定。具体层位置：实验确定了 vision-block0， vision-block10 和 projection-mlp2 是最佳SAE插入点。论文中引用的开源项目：论文中引用了以下开源项目/工具，但未在正文中提供其官方链接（链接仅存在于参考文献列表中，未在此列出）： VLM模型：CLIP (Radford et al., 2021)， BLIP (Li et al., 2022)， MiniGPT-4 (Zhu et al., 2023)， Qwen2.5-VL-3B-Instruct (Bai et al., 2025b)。扩散模型：Stable Diffusion (Rombach et al., 2022)，用于MirrorCheck方法。数据集：LAION-400M (Schuhmann et al., 2021)，用于AnyAttack方法训练。攻击方法：SSA-CWA (Dong et al., 2023)， AttackVLM (Zhao et al., 2023)， AdvDiffVLM (Guo et al., 2024)， AnyAttack (Zhang et al., 2025)， M-Attack (未完整引用)， FOA-Attack (Jia et al., 2025)。检测方法：MirrorCheck (Fares et al., 2024)， PIP (Zhang et al., 2024)， HiddenDetect (Jiang et al., 2025b)， PromptGuard (Zhou et al., 2026)。其他：SVM (Cortes and Vapnik, 1995)，用于PIP方法。 🏗️ 方法概述和架构整体流程概述：SAEgis是一个两阶段的即插即用防御框架。第一阶段是特征选择阶段，在已知攻击类型的数据上，训练一个SAE模块并识别出与攻击最相关的稀疏特征；第二阶段是检测推理阶段，在部署时，通过监控这些攻击相关特征的激活数量来实时判断输入图像是否为对抗样本。整个系统无需修改原VLM的参数，仅在选定层旁插入一个SAE模块。 ...

语音/音频论文速递 2026-05-11

语音/音频论文速递 2026-05-11 共分析 12 篇论文 ⚡ 今日概览 📥 抓取 12 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #基准测试 1篇 █ #跨模态 1篇 █ #语音匿名化 1篇 █ #音频水印 1篇 █ #语音对话系统 1篇 █ #说话人识别 1篇 █ #脑机接口 1篇 █ #生物声学 1篇 █ 📊 论文评分排行榜（12 篇，按分数降序）排名论文评分分档主任务 🥇 Do Joint Audio-Video Generation Models Understand Physi 7.5分前50%(Accept级) #基准测试 🥈 Anisotropic Modality Align 7.5分前25%(Strong Accept级) #跨模态 🥉 Evaluating voice anonymisation using similarity rank di 7.0分前50%(Accept级) #语音匿名化 4. Asymmetric Phase Coding Audio Watermarking 7.0分前50%(Accept级) #音频水印 5. MIST: Multimodal Interactive Speech-based Tool-calling 7.0分前50%(Accept级) #语音对话系统 6. TARNet: A Temporal-Aware Multi-Scale Architecture for C 7.0分前25%(Strong Accept级) #说话人识别 7. Zero-Shot Imagined Speech Decoding via Imagined-to-List 6.5分前25%(Strong Accept级) #脑机接口 8. BeeVe: Unsupervised Acoustic State Discovery in Honey B 6.5分前50%(Accept级) #生物声学 9. A Decomposed Retrieval-Edit-Rerank Framework for Chord 6.5分前50%(Accept级) #音乐生成 10. Adaptive Regularization for Sparsity Control in Bregman 6.5分后50%(Reject级) #说话人验证 11. Sparse Autoencoders as Plug-and-Play Firewalls for Adve 6.5分前50%(Accept级) #对抗样本 12. Dependence on Early and Late Reverberation of Single-Ch 6.0分后50%(Reject级) #说话人距离估计 📋 论文列表 🥇 Do Joint Audio-Video Generation Models Understand Physics? ✅ 7.5/10 | 前50%(Accept级) | #基准测试 | #模型评估 | #音视频 #跨模态 | arxiv ...

Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization

📄 Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization #语音大模型 #音频安全 #对抗样本 #信号处理 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #语音大模型 #信号处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文未明确区分第一作者）通讯作者：未说明（论文未明确标注）作者列表：Zheng Fang, Xiaosen Wang, Shenyi Zhang, Shaokang Wang, Zhijin Ge（论文中未提供任何作者的所属机构信息） 💡 毒舌点评这篇论文的亮点在于通过一个巧妙的观察（梯度能量高度集中于少数token），将看似复杂的音频波形优化问题简化成了“抓关键”，提出了高效的稀疏攻击方法TAGO。但其短板也很明显：研究聚焦于“如何更高效地破坏安全”，视角相对负面；且方法的成功严重依赖于特定的超参数（如token保留率ζ）和早停策略，在真实场景的泛化能力上论证稍显不足。 📌 核心摘要解决的问题：针对音频语言模型（ALM）的越狱攻击通常采用对整个音频波形进行密集梯度更新的方法，这在高维音频输入上计算冗余且效率不高。本文探究了这种密集优化的必要性。方法核心：提出Token-Aware Gradient Optimization (TAGO)。核心思想是分析ALM在越狱优化过程中，梯度能量在音频token层面上的分布，发现其高度非均匀，仅一小部分token贡献了大部分梯度能量。因此，在每次迭代中，TAGO只对梯度能量最高的前ζ比例token所对应的音频区域（receptive field）进行梯度更新，而将其他区域的梯度置零，实现稀疏优化。创新之处：与已有方法（如SpeechGuard、AdvWave）的密集更新不同，TAGO首次将优化粒度从波形样本点提升到与模型内部表示对齐的“音频token”级别，并利用梯度的稀疏性进行自适应、token选择性的更新。此外，TAGO还设计了模型兼容的前缀模板和EOS抑制策略。实验结果：在Qwen3-Omni， Qwen2.5-Omni和LLaMA-Omni三个模型上的实验表明，TAGO在攻击成功率上优于基线。即使将token保留率降至0.25（仅更新25%的token对应区域），在Qwen3-Omni上仍能保持86%的ASR_l（LLM判别成功率），仅比全量更新的87%下降1个百分点。同时，实验否定了“先密集优化再稀疏化”的后处理方法。实际意义：证明了针对ALM的越狱攻击存在大量冗余更新，揭示了模型安全对齐机制在音频模态上的一个潜在脆弱点（梯度信号分布不均）。这为攻击者提供了更高效的攻击思路，也为防御者指出了需要关注的脆弱区域（关键音频token），推动了对音频模型安全机制的深入理解。主要局限性：攻击效果对超参数（如token保留率ζ和早停置信度ρ）较为敏感；虽然构造了模型兼容前缀，但仍属于基于特定文本前缀的约束优化，可能无法覆盖所有拒绝场景；主要评估了白盒攻击，对黑盒场景的迁移性未做探讨。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中评估的三个模型均提供了HuggingFace链接： Qwen3-Omni-30B-A3B-Instruct: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B LLaMA-3.1-8B-Omni: https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni 数据集：论文中未提供数据集的直接下载链接。主要使用的数据集为 AdvBench-50（基于 Chao et al. (2025) 的有害指令集）和 HarmBench（Mazeika et al. (2024)）。需参考相应原始论文获取。 Demo：论文中未提及。复现材料：论文提供了详细的复现信息，包括：对话模板（见论文附录A表5）。拒绝词列表（见论文附录A表6）。模型兼容的目标前缀（见论文附录A表7）。优化超参数（如 K=500, η=10⁻³, λ=0.02, λₑₒₛ=0.2, ε=0.1）。评判模型及提示（见论文附录A中“Judge models and judge prompts”部分，包含SorryBench评判器及Gemini提示）。论文中引用的开源项目： Whisper (语音编码器)：https://github.com/openai/whisper Google Cloud Text-to-Speech (用于合成测试音频)：https://cloud.google.com/text-to-speech SorryBench 评判模型 (Mistral-7B-Instruct-v0.2-sorry-bench-202406)：https://huggingface.co/sorry-bench/ft-mistral-7b-instruct-v0.2-sorry-bench-202406 Gemini 3 Flash (用作 LLaMA-Omni 的评判模型)：未提供具体链接。 🏗️ 模型架构 TAGO并非一个传统意义上的神经网络模型，而是一种针对已有ALM的优化攻击算法。其整体架构（流程）如图1所示： ...

Dimensionality-Aware Anomaly Detection in Learned Representations of Self-Supervised Speech Models

📄 Dimensionality-Aware Anomaly Detection in Learned Representations of Self-Supervised Speech Models #语音识别 #自监督学习 #鲁棒性 #对抗样本 #模型评估 🔥 8.0/10 | 前25% | #语音识别 | #自监督学习 | #鲁棒性 #对抗样本 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Sandra Arcos-Holzinger（University of Melbourne, School of Computing and Information Systems; Johns Hopkins University, Center for Language and Speech Processing）通讯作者：论文中未明确标注通讯作者。作者列表：Sandra Arcos-Holzinger（University of Melbourne, School of Computing and Information Systems; Johns Hopkins University, Center for Language and Speech Processing）、Sarah M. Erfani（Monash University, Department of Data Science and Artificial Intelligence）、James Bailey（未说明具体所属机构，可能为论文作者列表中列出的Monash University或University of Melbourne相关机构）、Sanjeev Khudanpur（Johns Hopkins University, Center for Language and Speech Processing） 💡 毒舌点评这篇论文巧妙地将几何视角（LID）引入语音模型的鲁棒性分析，为监控模型内部状态提供了一个无需转录文本的新颖指标，实验设计扎实，对比了多种扰动和模型。然而，其核心诊断工具LID的有效性高度依赖于对“局部几何”假设的认同，且最终提出的异常检测分类器在区分高SNR对抗样本与良性噪声时性能显著下降，暗示其在实际高信噪比场景下的应用可能面临挑战。 ...

Are Deep Speech Denoising Models Robust to Adversarial Noise?

📄 Are Deep Speech Denoising Models Robust to Adversarial Noise? #语音增强 #对抗样本 #鲁棒性 #心理声学 #信号处理 🔥 8.5/10 | 前25% | #语音增强 #对抗样本 | #信号处理 | #语音增强 #对抗样本学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Will Schwarzer（马萨诸塞大学阿默斯特分校）通讯作者：Will Schwarzer（马萨诸塞大学阿默斯特分校）作者列表：Will Schwarzer（马萨诸塞大学阿默斯特分校）、Philip S. Thomas（马萨诸塞大学阿默斯特分校）、Andrea Fanelli（Dolby Laboratories）、Xiaoyu Liu（Meta） 💡 毒舌点评论文将音频对抗攻击的研究从简单的扰动约束推进到了考虑真实声学环境（模拟过空传播）和严格心理声学掩蔽的实用化设定，这是一项重要且扎实的安全研究。然而，攻击的成功高度依赖于白盒梯度访问，且论文坦承通用对抗扰动和跨模型迁移基本无效，这限制了其直接展示的“威胁”的即时实用性，更像是一份详尽的系统性风险报告。 🔗 开源详情代码：提供公开代码仓库链接：https://github.com/willschwarzer/adv-dns-public。模型权重：论文研究的对象是四个已有公开检查点的开源DNS模型（Demucs/Denoiser, Full-SubNet+, FRCRN, MP-SENet），并详细列出了使用的具体版本和提交哈希（见附录G表4）。攻击本身是针对这些模型生成的，未提及公开攻击模型权重。数据集：使用来自ICASSP 2022 DNS Challenge 4公开数据集的音频（干净语音、噪声、RIR），并注明了引用和许可（CC-BY-4.0 for 数据， MIT for 代码）。 Demo：论文中未提及在线演示。但提供了指向攻击样本在线试听页面的链接（https://sites.google.com/view/adv-dns/），用于评估主观不可感知性和攻击效果。复现材料：提供了极其详尽的复现信息，包括：所有实验设置（SNR，混响，模型）、优化算法及超参数（Adam，学习率，梯度裁剪，迭代次数）、心理声学模型具体参数、STFT参数、人类研究协议、统计检验方法等。代码仓库应包含运行实验所需脚本。论文中引用的开源项目：OpenAI Whisper（用于ASR评估和过滤数据）、MP-SENet、Denoiser (Demucs)、FRCRN (ClearerVoice-Studio)、FullSubNet-Plus、MaskGCT（用于生成目标攻击语音）、DNS-Challenge数据集与代码、DNSMOS P.835、NISQA、ViSQOL。所有引用的项目及其版本、许可证在附录G的表4中详细列出。 📌 核心摘要问题：深度语音去噪（DNS）模型在安全关键应用（如助听器、应急通信）中广泛使用，但其对抗鲁棒性尚未被充分研究。论文旨在评估这些模型是否对精心设计的、人耳难以察觉的对抗噪声脆弱。方法：核心方法是提出一个基于心理声学掩蔽的对抗攻击框架。该框架通过计算掩蔽阈值（包括频率掩蔽和时域前后掩蔽）来约束扰动的功率谱密度，使其在原始语音信号中“隐藏”。优化采用投影梯度下降，损失函数为短时客观可懂度（STOI）。此外，框架通过维纳解卷积和梯度下降投影来模拟和应对扰动在房间脉冲响应（RIR）下的传播，以实现模拟过空攻击。创新：与已有工作（如使用简单p范数约束或未充分考虑感知掩蔽）相比，该工作的创新在于：a) 集成了增强的、包含时域掩蔽的心理声学模型，并引入偏移量调节掩蔽阈值，更好地平衡攻击成功率与不可感知性；b) 系统性地将攻击扩展到模拟真实声学环境（混响、不同背景噪声水平、过空传播）；c) 对多种开源DNS模型在不同设置下的鲁棒性进行了全面的机制分析，揭示了梯度流动（而非模型大小）是关键因素。主要实验结果：论文测试了Demucs, Full-SubNet+, FRCRN, MP-SENet四个模型。关键发现：a) 所有模型都能在人耳无法察觉的扰动下被驱动输出无意义语音（STOI提升从正值变为负值，见图1）；b) 攻击在从极干净（70dB SNR）到嘈杂、混响的环境下均成功；c) Full-SubNet+因梯度爆炸展现出一定“伪鲁棒性”，但此保护机制已知可被绕过；d) 人类研究（15名音频专家）证实攻击后的音频几乎无法转写，且扰动通常不可察觉；e) 模拟过空攻击对除Full-SubNet+外的模型同样有效（见图5）；f) 简单的高斯噪声防御仅能部分缓解，但攻击者可能自适应（见图4）。通用扰动和跨模型迁移效果有限。图1：在不同背景信噪比（SNR）和混响条件下，四个DNS模型在加入不可察觉的对抗扰动前后，其输出相对于干净语音的STOI变化（ΔSTOI）。攻击成功地将ΔSTOI从正值（增强）变为负值（劣化），表明模型输出变得比含噪输入更不可懂。 ...

JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

📄 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models #音频安全 #基准测试 #音频大模型 #对抗样本 #鲁棒性 🔥 8.0/10 | 前10% | #音频安全 | #基准测试 | #音频大模型 #对抗样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zifan Peng (香港科技大学（广州），State Key Laboratory of Internet Architecture，清华大学) 通讯作者：Wenhan Dong (未说明具体单位，但标注为*Corresponding authors)，Xinlei He (香港科技大学（广州），State Key Laboratory of Internet Architecture，清华大学) 作者列表：Zifan Peng (香港科技大学（广州），清华大学State Key Laboratory of Internet Architecture)、Yule Liu (香港科技大学（广州）)、Zhen Sun (香港科技大学（广州）)、Mingchen Li (University of North Texas)、Zeren Luo (香港科技大学（广州）)、Jingyi Zheng (香港科技大学（广州）)、Wenhan Dong (香港科技大学（广州）)、Xinlei He (香港科技大学（广州），清华大学State Key Laboratory of Internet Architecture)、Xuechao Wang (香港科技大学（广州）)、Yingjie Xue (中国科学技术大学)、Shengmin Xu (福建师范大学)、Xinyi Huang (南京航空航天大学) 💡 毒舌点评亮点：论文的系统性和工程完备性令人印象深刻，它不仅仅是一个数据集，更是一个集成了多种攻击、防御方法和分析工具的标准化评测平台，为尚处蓝海的音频大模型安全研究立下了第一个重要的坐标。短板：防御策略的探索相对浅尝辄止，仅仅是将视觉语言模型的方法简单适配，未能提出真正针对音频模态（如声学特征扰动）的、更有效的防御机制，使得“提出防御”这一目标打了折扣。 ...

Are Deep Speech Denoising Models Robust to Adversarial Noise?

📄 Are Deep Speech Denoising Models Robust to Adversarial Noise? #语音增强 #对抗样本 #鲁棒性 #音频安全 #信号处理 ✅ 7.5/10 | 前25% | #语音增强 | #对抗样本 | #鲁棒性 #音频安全学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Will Schwarzer（University of Massachusetts）通讯作者：未明确说明（第一作者邮箱为wschwarzer@umass.edu，但论文未明确标注“通讯作者”）作者列表： Will Schwarzer（University of Massachusetts） Philip S. Thomas（University of Massachusetts） Andrea Fanelli（Dolby Laboratories） Xiaoyu Liu（Dolby Laboratories，论文注释“Work done while at Dolby Laboratories”，现所属机构为Meta） 💡 毒舌点评本文系统性地揭示了当前主流开源深度语音降噪（DNS）模型在面对心理声学隐藏的对抗噪声时的普遍脆弱性，其“攻击成功且不可感知”的结论对安全关键场景（如助听器、应急通信）的模型部署敲响了警钟，实验设计严谨且多维度验证令人信服。然而，攻击目前严重依赖白盒梯度访问，且通用对抗扰动（UAP）效果有限，这使得论文揭示的威胁在真实复杂对抗环境中的可实现性打了折扣，防御部分也仅探索了最简单的高斯噪声。 🔗 开源详情代码：提供代码仓库链接：https://github.com/willschwarzer/adv-dns-public 模型权重：论文测试的四个DNS模型（Demucs, FRCRN, MP-SENet, Full-SubNet+）均为开源，权重公开。数据集：使用公开的ICASSP 2022 DNS Challenge 4数据集。 Demo：论文中未提及在线演示链接。复现材料：论文正文和附录提供了详细的实验设置、超参数、优化细节、攻击样本链接以及复现声明。论文中引用的开源项目：Whisper (ASR), Denoiser (Demucs), FullSubNet-Plus, FRCRN (ClearerVoice-Studio), MP-SENet, MaskGCT (Amphion), DNS-Challenge数据集与代码, DNSMOS P.835, NISQA, ViSQOL。其许可证信息已在表4中列出。 📌 核心摘要问题：本文研究广泛使用的深度语音降噪（DNS）模型是否对精心构造的、心理声学上不可感知的对抗性噪声具有鲁棒性。方法：作者提出了一种结合心理声学掩蔽模型（增强时间前后掩蔽）和房间脉冲响应（RIR）感知的攻击框架。核心是利用投影梯度下降（PGD）优化扰动，以短时客观可懂度（STOI）为损失函数，使DNS模型的输出从清晰语音变为无法理解的乱码，同时确保扰动能量低于听觉掩蔽阈值。创新：与先前工作相比，本文首次对多个SOTA开源DNS模型在多种声学环境（从极干净到嘈杂混响）和模拟空中传播条件下，进行了系统性的不可感知攻击研究；建立了结合心理声学和RIR感知的攻击优化流程；并通过人类研究验证了攻击的成功性和不可感知性。结果：对四个模型（Demucs, FRCRN, MP-SENet, Full-SubNet+）的测试表明，除Full-SubNet+因梯度爆炸问题表现出一定“伪鲁棒性”外，其他三个模型在所有测试环境（包括70 dB SNR无混响的近乎干净场景）下均可被成功攻击，使其输出STOI显著下降（例如，图1显示攻击后STOI增强量ΔSTOI从正值变为显著负值）。人类听辨实验（15名音频专家）证实攻击后输出词准确率接近0（图6a），且攻击扰动与干净样本的区分率仅略高于随机猜测（ABX准确率59%，图6b）。简单高斯噪声防御仅能提供部分保护（图4）。意义：研究警示，开源DNS模型在安全关键应用（如助听器、应急通信、空管）中的部署存在严重安全隐患，亟需开发更强的防御机制。局限：攻击需要白盒梯度访问；朴素的模型迁移攻击无效；目标攻击虽在客观指标上成功，但主观听感上目标语音仅隐约可闻；通用对抗扰动（UAP）效果有限；防御评估仅限于简单的高斯噪声。 🏗️ 模型架构本文并未提出新的DNS模型架构，而是评估了四个现有开源DNS模型的脆弱性。这些模型的架构简述如下，均来源于论文及其引用： ...

Tatemae: Detecting Alignment Faking via Tool Selection in LLMs

📄 Tatemae: Detecting Alignment Faking via Tool Selection in LLMs #大语言模型 #提示工程 #模型评估 #对抗样本 #鲁棒性 ✅ 7.5/10 | 前25% | #大语言模型 | #提示工程 | #模型评估 #对抗样本 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Matteo Leonesi（University of Camerino, Department of Computer Science）通讯作者：未明确说明（作者列表中有两位标注“Equal contribution”，即Matteo Leonesi和Francesco Belardinelli）作者列表：Matteo Leonesi（University of Camerino, Department of Computer Science）、Francesco Belardinelli（Imperial College London, Department of Computing）、Flavio Corradini（University of Camerino, Department of Computer Science）、Marco Piangerelli（University of Camerino, Department of Computer Science） 💡 毒舌点评这篇论文最亮眼的地方在于其“去玄学化”的努力：将对齐伪装从“推理黑箱里的阴谋论”拉回到了“可观测工具选择”的实证科学范畴，其四阶段评估管道（特别是“监控”作为唯一变量）设计堪称优雅。然而，它的“杀手锏”——那个揭示模型内心挣扎的“监控提示词”——完全依赖于精心设计的提示工程，这无异于在教科书上模拟实战；虽然降低了门槛，但也在根本上限定了其结论的适用边界，即模型是否“真的”理解并恐惧权重更新，还是只是被一段特定文本诱导出了这种输出。 ...

Adversarial Fine-Tuning on Speech Foundation Model with Vulnerable Attention Consistency Regularization for Robust Speech Recognition

📄 Adversarial Fine-Tuning on Speech Foundation Model with Vulnerable Attention Consistency Regularization for Robust Speech Recognition #语音识别 #语音大模型 #预训练 #对抗样本 #鲁棒性 ✅ 7.5/10 | 前25% | #语音识别 | #对抗样本 | #语音大模型 #预训练学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yanyun Wang (The Hong Kong University of Science and Technology (Guangzhou)) 通讯作者：Li Liu (The Hong Kong University of Science and Technology (Guangzhou), avrillliu@hkust-gz.edu.cn) 作者列表：Yanyun Wang (The Hong Kong University of Science and Technology (Guangzhou)), Baoyuan Wu (The Chinese University of Hong Kong, Shenzhen; Shenzhen Loop Area Institute), Li Liu (The Hong Kong University of Science and Technology (Guangzhou)) 💡 毒舌点评亮点：这篇工作敏锐地抓住了“防御SFM时，不能像对待传统模型那样容忍精度大幅下降”这一核心矛盾，通过CKA分析定位脆弱层并设计了针对性的双重正则化（注意力散度和特征相似性），思路清晰且可解释性强。短板：实验基本局限于Whisper模型在LibriSpeech一个数据集上的表现，对于SFM在多语言、多噪声环境下的泛化能力验证不足，使得“SOTA”的宣称在更大范围内略显底气不足。 ...