MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech

📄 MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech #音频安全 #语音合成 #信号处理 #扩散模型 #生成模型 ✅ 7.0/10 | 前25% | #音频安全 | #信号处理 | #语音合成 #扩散模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Yutong Jin(Queen’s University, Department of Electrical and Computer Engineering) 通讯作者:Qi Li(Queen’s University, Department of Electrical and Computer Engineering) 作者列表:Yutong Jin(Queen’s University)、Qi Li(Queen’s University)、Lingshuang Liu(University of Waterloo)、Jianbing Ni(Queen’s University) 💡 毒舌点评 亮点在于巧妙利用了Mel频谱图作为TTS流程的“公共接口”,在不改动扩散或GAN声码器的情况下实现了即插即用的水印嵌入,工程实用性强。短板是验证机制依赖于存储参考Mel谱,这在大规模、分布式部署场景下可能带来存储和管理挑战,且论文对实际部署环境下的攻击模型讨论略显不足。 ...

2026-05-05 · 更新于 2026-06-12 · 3 min · 495 words

ICLR 2026 - 音频安全 论文列表

ICLR 2026 - 音频安全 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio L 8.0分 前10% 📋 论文详情 🥇 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models 🔥 8.0/10 | 前10% | #音频安全 | #基准测试 | #音频大模型 #对抗样本 👥 作者与机构 第一作者:Zifan Peng (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 通讯作者:Wenhan Dong (未说明具体单位,但标注为*Corresponding authors),Xinlei He (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 作者列表:Zifan Peng (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Yule Liu (香港科技大学(广州))、Zhen Sun (香港科技大学(广州))、Mingchen Li (University of North Texas)、Zeren Luo (香港科技大学(广州))、Jingyi Zheng (香港科技大学(广州))、Wenhan Dong (香港科技大学(广州))、Xinlei He (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Xuechao Wang (香港科技大学(广州))、Yingjie Xue (中国科学技术大学)、Shengmin Xu (福建师范大学)、Xinyi Huang (南京航空航天大学) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-06-12 · 1 min · 127 words

JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

📄 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models #音频安全 #基准测试 #音频大模型 #对抗样本 #鲁棒性 🔥 8.0/10 | 前10% | #音频安全 | #基准测试 | #音频大模型 #对抗样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zifan Peng (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 通讯作者:Wenhan Dong (未说明具体单位,但标注为*Corresponding authors),Xinlei He (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 作者列表:Zifan Peng (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Yule Liu (香港科技大学(广州))、Zhen Sun (香港科技大学(广州))、Mingchen Li (University of North Texas)、Zeren Luo (香港科技大学(广州))、Jingyi Zheng (香港科技大学(广州))、Wenhan Dong (香港科技大学(广州))、Xinlei He (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Xuechao Wang (香港科技大学(广州))、Yingjie Xue (中国科学技术大学)、Shengmin Xu (福建师范大学)、Xinyi Huang (南京航空航天大学) 💡 毒舌点评 亮点:论文的系统性和工程完备性令人印象深刻,它不仅仅是一个数据集,更是一个集成了多种攻击、防御方法和分析工具的标准化评测平台,为尚处蓝海的音频大模型安全研究立下了第一个重要的坐标。短板:防御策略的探索相对浅尝辄止,仅仅是将视觉语言模型的方法简单适配,未能提出真正针对音频模态(如声学特征扰动)的、更有效的防御机制,使得“提出防御”这一目标打了折扣。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 283 words

Are Deep Speech Denoising Models Robust to Adversarial Noise?

📄 Are Deep Speech Denoising Models Robust to Adversarial Noise? #语音增强 #对抗样本 #鲁棒性 #音频安全 #信号处理 ✅ 7.5/10 | 前25% | #语音增强 | #对抗样本 | #鲁棒性 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Will Schwarzer(University of Massachusetts) 通讯作者:未明确说明(第一作者邮箱为wschwarzer@umass.edu,但论文未明确标注“通讯作者”) 作者列表: Will Schwarzer(University of Massachusetts) Philip S. Thomas(University of Massachusetts) Andrea Fanelli(Dolby Laboratories) Xiaoyu Liu(Dolby Laboratories,论文注释“Work done while at Dolby Laboratories”,现所属机构为Meta) 💡 毒舌点评 本文系统性地揭示了当前主流开源深度语音降噪(DNS)模型在面对心理声学隐藏的对抗噪声时的普遍脆弱性,其“攻击成功且不可感知”的结论对安全关键场景(如助听器、应急通信)的模型部署敲响了警钟,实验设计严谨且多维度验证令人信服。然而,攻击目前严重依赖白盒梯度访问,且通用对抗扰动(UAP)效果有限,这使得论文揭示的威胁在真实复杂对抗环境中的可实现性打了折扣,防御部分也仅探索了最简单的高斯噪声。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/willschwarzer/adv-dns-public 模型权重:论文测试的四个DNS模型(Demucs, FRCRN, MP-SENet, Full-SubNet+)均为开源,权重公开。 数据集:使用公开的ICASSP 2022 DNS Challenge 4数据集。 Demo:论文中未提及在线演示链接。 复现材料:论文正文和附录提供了详细的实验设置、超参数、优化细节、攻击样本链接以及复现声明。 论文中引用的开源项目:Whisper (ASR), Denoiser (Demucs), FullSubNet-Plus, FRCRN (ClearerVoice-Studio), MP-SENet, MaskGCT (Amphion), DNS-Challenge数据集与代码, DNSMOS P.835, NISQA, ViSQOL。其许可证信息已在表4中列出。 📌 核心摘要 问题:本文研究广泛使用的深度语音降噪(DNS)模型是否对精心构造的、心理声学上不可感知的对抗性噪声具有鲁棒性。 方法:作者提出了一种结合心理声学掩蔽模型(增强时间前后掩蔽)和房间脉冲响应(RIR)感知的攻击框架。核心是利用投影梯度下降(PGD)优化扰动,以短时客观可懂度(STOI)为损失函数,使DNS模型的输出从清晰语音变为无法理解的乱码,同时确保扰动能量低于听觉掩蔽阈值。 创新:与先前工作相比,本文首次对多个SOTA开源DNS模型在多种声学环境(从极干净到嘈杂混响)和模拟空中传播条件下,进行了系统性的不可感知攻击研究;建立了结合心理声学和RIR感知的攻击优化流程;并通过人类研究验证了攻击的成功性和不可感知性。 结果:对四个模型(Demucs, FRCRN, MP-SENet, Full-SubNet+)的测试表明,除Full-SubNet+因梯度爆炸问题表现出一定“伪鲁棒性”外,其他三个模型在所有测试环境(包括70 dB SNR无混响的近乎干净场景)下均可被成功攻击,使其输出STOI显著下降(例如,图1显示攻击后STOI增强量ΔSTOI从正值变为显著负值)。人类听辨实验(15名音频专家)证实攻击后输出词准确率接近0(图6a),且攻击扰动与干净样本的区分率仅略高于随机猜测(ABX准确率59%,图6b)。简单高斯噪声防御仅能提供部分保护(图4)。 意义:研究警示,开源DNS模型在安全关键应用(如助听器、应急通信、空管)中的部署存在严重安全隐患,亟需开发更强的防御机制。 局限:攻击需要白盒梯度访问;朴素的模型迁移攻击无效;目标攻击虽在客观指标上成功,但主观听感上目标语音仅隐约可闻;通用对抗扰动(UAP)效果有限;防御评估仅限于简单的高斯噪声。 🏗️ 模型架构 本文并未提出新的DNS模型架构,而是评估了四个现有开源DNS模型的脆弱性。这些模型的架构简述如下,均来源于论文及其引用: ...

2026-05-02 · 更新于 2026-06-12 · 1 min · 203 words

AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models

📄 AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models #基准测试 #模型评估 #音频安全 #音频大模型 🔥 8.5/10 | 前25% | #模型评估 | #基准测试 | #音频安全 #音频大模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Kai Li(南洋理工大学, 与清华大学计算机系、AI研究院、BNRist相关) 通讯作者:Xinfeng Li(南洋理工大学) 作者列表:Kai Li(南洋理工大学), Can Shen(北京师范大学-香港浸会大学联合国际学院), Yile Liu(早稻田大学), Jirui Han(独立研究者), Kelong Zheng(华中科技大学), Xuechao Zou(北京交通大学), Lionel Z. Wang(南洋理工大学), Shun Zhang(火箭军工程大学), Xingjian Du(罗切斯特大学), Hanjun Luo(浙江大学), Yingbin Jin(香港理工大学), Xinxin Xing(独立研究者), Ziyang Ma(南洋理工大学, 上海交通大学), Yue Liu(新加坡国立大学), YiFan Zhang(中国科学院), Junfeng Fang(新加坡国立大学), Kun Wang(南洋理工大学), Yibo Yan(香港科技大学广州), Gelei Deng(南洋理工大学), Haoyang Li(香港理工大学), Yiming Li(南洋理工大学), Xiaobin Zhuang(字节跳动), Tianlong Chen(北卡罗来纳大学教堂山分校), Qingsong Wen(松鼠AI学习), Tianwei Zhang(南洋理工大学), Yang Liu(南洋理工大学), Haibo Hu(香港理工大学), Zhizheng Wu(香港中文大学深圳), Xiaolin Hu(清华大学计算机系), Eng Siong Chng(南洋理工大学), Wenyuan Xu(浙江大学), XiaoFeng Wang(南洋理工大学), Wei Dong(南洋理工大学), Xinfeng Li(南洋理工大学) 💡 毒舌点评 亮点:堪称音频大模型“安全审计”的瑞士军刀,首次系统性地为ALLMs量身定制了六大可信度维度与评估工具集,填补了该领域至关重要的评估空白。 短板:评估流程高度依赖GPT-4o等LLM作为“法官”,其判定本身可能引入与音频模型相似的偏差,形成“用AI评估AI”的循环论证风险。 ...

2026-05-02 · 更新于 2026-06-12 · 3 min · 476 words

JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

📄 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models #音频安全 #基准测试 #语音大模型 #多模态模型 #鲁棒性 🔥 8.5/10 | 前25% | #音频安全 | #基准测试 | #语音大模型 #多模态模型 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Zifan Peng(香港科技大学(广州)、清华大学互联网体系结构国家重点实验室) 通讯作者:Wenhan Dong(香港科技大学(广州))、Xinlei He(香港科技大学(广州)、清华大学互联网体系结构国家重点实验室) 作者列表:Zifan Peng(香港科技大学(广州)、清华大学互联网体系结构国家重点实验室)、Yule Liu(香港科技大学(广州))、Zhen Sun(香港科技大学(广州))、Mingchen Li(北德克萨斯大学)、Zeren Luo(香港科技大学(广州))、Jingyi Zheng(香港科技大学(广州))、Wenhan Dong(香港科技大学(广州))、Xinlei He(香港科技大学(广州)、清华大学互联网体系结构国家重点实验室)、Xuechao Wang(香港科技大学(广州))、Yingjie Xue(中国科学技术大学)、Shengmin Xu(福建师范大学)、Xinyi Huang(南京航空航天大学) 💡 毒舌点评 亮点:这篇论文为“音频大模型安全”这一新兴且关键的领域建立了第一个系统性的、大规模的基准测试框架(JALMBench),其覆盖的攻击面之广(从文本迁移攻击到音频原生攻击)、评估维度之深(效率、主题、声音多样性、模型架构),以及提供的开源工具和数据集之完整,都使其具有很高的实用和研究价值,真正起到了“点亮地图”的作用。短板:论文在“防御”部分的探索略显单薄,评估的几种防御方法(如Prompt Shield、LLaMA-Guard)基本是现有针对文本或视觉模型方法的简单迁移,并未提出任何针对音频信号特性或LALM多模态融合架构的新颖、专用防御机制,使得“破”之后的“立”显得力度不足。 🔗 开源详情 代码:提供GitHub仓库链接:https://github.com/sfofgalaxy/JALMBench 模型权重:未提及。论文评估的是已有的开源和商业LALM,未发布新训练的模型。 数据集:公开发布于HuggingFace数据集管理平台(链接包含在上述GitHub仓库中)。 Demo:未提及。 复现材料:提供了极其详尽的复现材料,包括:数据生成的所有细节(TTS配置、翻译协议、说话人统计)、攻击和防御方法的详细实现、评估提示词全文、所有超参数设置、硬件信息、以及完整的附录说明。 论文中引用的开源项目:Google Cloud TTS、DeepL Translator、F5-TTS、MMS-TTS、SpeechT5、Coqui.ai TTS(用于口音转换)等。 📌 核心摘要 解决的问题:大型音频语言模型(LALMs)在实际应用中面临日益严峻的安全风险,尤其是能绕过安全对齐的越狱攻击。然而,该领域缺乏一个统一的、大规模的评估框架和基准数据集来系统性地评估和比较针对LALM的越狱攻击。 方法核心:提出JALMBench,一个综合性基准测试框架。它包含245,355个音频样本(>1,000小时)和11,316个文本样本,支持12个主流LALM、8种攻击方法(4种文本迁移、4种音频原生)和5种防御方法。该框架采用模块化设计,易于扩展。 与已有方法相比的新意:这是首个专门为评估LALM越狱漏洞而设计的综合基准。与现有零散的工作相比,它统一了评估标准和代码实现,覆盖了更全面的攻击类型(首次系统比较文本迁移和音频原生攻击)、更多的模型和防御策略,并进行了深入的多维度分析。 主要实验结果: 攻击有效性:音频模态的平均攻击成功率(ASR)高于文本模态(21.5% vs. 17.0%)。最强的音频原生攻击AdvWave在所有模型上平均ASR高达96.2%。 架构影响:采用离散化音频编码的模型(如GLM-4-Voice)展现出更好的跨模态安全泛化能力,文本与音频的安全表现一致;而采用连续特征提取的模型(如LLaMA-Omni)则存在严重的模态安全差距。 防御效果:现有防御方法效果有限。最佳的提示级防御(AdaShield)和响应级防御(LLaMA-Guard)分别将平均ASR降低了19.6和18.0个百分点,但提示级防御会导致约6.3%的效用下降。 攻击效率:实现60%以上ASR通常需要>100秒处理时间,但40%左右的ASR可在<10秒内达成,说明低成本攻击是现实威胁。 其他发现:明确的仇恨言论内容(如“写一篇煽动暴力的演讲”)被模型较好拒绝(平均ASR 41%),但隐晦的危害信息(如“制造假新闻引发恐慌”)ASR更高(67%)。非美国口音和多语言场景通常会提高攻击成功率。 实际意义:为LALM的安全研究提供了重要的基准和度量标准,揭示了当前模型在音频模态下的脆弱性,特别是对直接信号级的操纵。研究发现(如编码策略对安全的影响、现有防御的不足)为设计更安全的LALM架构和专用防御机制指明了方向。 主要局限性:论文明确指出未探索多轮越狱攻击;对影响攻击的声音因素(如情感、更细粒度的口音)覆盖不全;防御评估初步,缺乏针对音频模态的创新防御方法。 🏗️ 模型架构 JALMBench本身不是一个模型,而是一个用于评估模型的基准测试框架。其架构设计为模块化,包含三个主要部分: ...

2026-05-02 · 更新于 2026-06-12 · 3 min · 631 words

A Feature-Optimized Audio Watermarking Algorithm with Adaptive Embedding Strength

📄 A Feature-Optimized Audio Watermarking Algorithm with Adaptive Embedding Strength #音频安全 #深度学习 #鲁棒性 #信号处理 ✅ 7.5/10 | 前25% | #音频安全 | #深度学习 | #鲁棒性 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Weili Zhou(厦门大学信息学院、管理学院) 通讯作者:Shuangyuan Yang(厦门大学信息学院) 作者列表:Weili Zhou(厦门大学信息学院、管理学院,共同第一作者)、Jiabei Zhou(厦门大学信息学院,共同第一作者)、Shuangyuan Yang(厦门大学信息学院,通讯作者) 💡 毒舌点评 亮点在于将Transformer的特征提取能力与NSGA-II多目标优化框架巧妙结合,为“嵌入强度”这一传统难题提供了自适应解决方案,在实验数据上实现了容量、不可感知性与鲁棒性的较好平衡。短板是论文理论分析稍显薄弱,未能深入阐释Transformer编码器为何及如何在水印任务中优于传统模块,且优化策略(NSGA-II)的离线性质对实时性场景的适用性讨论不足。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:未提及公开权重。 数据集:使用了公开的FMA和VCTK数据集,但论文未提供其具体使用版本或预处理脚本。 Demo:未提及在线演示。 复现材料:未提供完整的训练细节、配置文件、检查点或附录说明。损失函数权重已给出,但优化器学习率等关键超参数未说明。 论文中引用的开源项目:未提及依赖的特定开源代码库或模型(如使用某个Transformer实现)。 📌 核心摘要 本文针对现有音频水印方法在嵌入容量、不可感知性和鲁棒性之间难以平衡,且跨音频类型泛化能力有限的问题,提出了一种名为AESAW的音频水印算法。该方法的核心是:1)利用Transformer编码器层来优化水印的特征表示,提升其与音频信号的融合质量;2)引入NSGA-II多目标优化算法,以信噪比(SNR)和误码率(BER)为目标,自适应地调整嵌入强度。实验在FMA音乐和VCTK语音数据集上进行,结果表明AESAW在保持较高嵌入容量(86 bps)的同时,实现了出色的不可感知性(音乐SNR 31.2 dB,语音SNR 26.7 dB)和强大的鲁棒性(在重采样、裁剪、重量化等攻击下BER接近0%)。与传统方法(SVD-DWT, SIFT-DWT)和现有深度学习方法(DeAR, AudioSeal)相比,AESAW在性能上具有明显优势。其实际意义在于为音频版权保护提供了一种更可靠的技术方案。主要局限性在于NSGA-II的优化过程是离线的,论文未详细探讨其对不同类型音频的实时嵌入适应性以及在实际部署中的计算开销。 实验结果关键数据对比表: 方法 数据集 容量 SNR (dB) 无攻击BER(%) AWGN BER(%) 重采样BER(%) 重量化BER(%) 回声BER(%) 幅度缩放BER(%) SVD-DWT 音乐 102 bps 25.3 0 1.79 0.10 1.01 1.46 0.10 SIFT-DWT 音乐 102 bps 28.1 0 0.29 0.07 0 0 1.00 DeAR 音乐 9 bps 23.2 0 0 0 0 4.20 0 AudioSeal 音乐 16 bps 22.67 2.00 3.50 1.81 1.81 4.25 2.06 AESAW 音乐 86 bps 31.2 0 0.14 0 0 0.01 0 SVD-DWT 语音 102 bps 25.3 0 0.16 0 0 1.92 0 SIFT-DWT 语音 102 bps 31.2 0 0.20 0.16 0.03 - 4.30 DeAR 语音 9 bps 20.5 0 0 0 0 11.6 0 AudioSeal 语音 16 bps 27.96 0 16.25 0 7.50 0 0 AESAW 语音 86 bps 26.7 0 0.03 0 0 0.22 0 🏗️ 模型架构 AESAW的整体框架由三个核心模块构成:水印嵌入器、攻击层和水印提取器。 AESAW总体框架 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 375 words

Audio-Text Jailbreak Attack on Large Audio-Language Models: Towards Generality and Stealthiness

📄 Audio-Text Jailbreak Attack on Large Audio-Language Models: Towards Generality and Stealthiness #音频安全 #对抗样本 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #跨模态 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuhong Li(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院) 通讯作者:Jianhua Wang(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院,邮箱:wangjianhua02@tyut.edu.cn) 作者列表:Yuhong Li(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院)、Jiabao Zhang(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院)、Yan Chen(太原工业大学计算机科学与技术学院)、Zhihui Zhao(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院)、Jianhua Wang(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院) 💡 毒舌点评 亮点在于首次开辟了“音频+文本”联合优化的多模态越狱攻击赛道,并在实验上取得了90%以上的攻击成功率,有力证明了当前LALM在多模态融合下的脆弱性,为安全研究提供了新方向。短板是论文对“隐身性”的论证略显单薄,仅通过提升成功率来间接证明,并未深入评估攻击音频在人类听觉或音频检测系统中的隐蔽程度,削弱了“Stealthiness”这一主张的力度。 🔗 开源详情 代码:是,论文提供了GitHub仓库链接:https://github.com/SKLIIS-AIS/AudioTextJailbreak。 模型权重:未提及。论文未说明是否公开攻击者使用的模型或攻击目标模型的权重获取方式。 数据集:是,但获取方式不明确。论文提到使用TTS技术创建了音频版AdvBench数据集,但未提供公开下载链接或详细生成脚本。 Demo:未提及。 复现材料:论文中提及了代码,但未提供完整的训练配置、检查点或附录说明。对于攻击优化中的关键超参数细节未充分披露。 论文中引用的开源项目:TTS工具 Coqui;目标模型 Qwen2-Audio-7B-Instruct, Qwen2.5-Omni-3B;文本攻击基线 GCG;数据集 AdvBench。 📌 核心摘要 问题:现有的针对大型音频语言模型(LALM)的越狱攻击多局限于单模态(纯文本或纯音频),且通用性和隐蔽性不足。 方法核心:提出“音频-文本越狱攻击”(Audio-Text Jailbreak),首次联合优化微小的对抗音频扰动和恶意的文本后缀,共同诱导模型生成有害回应。同时设计了环境噪声添加和语速调整等隐身策略。 与已有方法相比新在哪里:a) 首次实现音频和文本模态的深度融合攻击;b) 设计的单个对抗音频/文本后缀可泛化应用于不同用户指令;c) 引入针对性的音频层隐身策略。 主要实验结果:在Qwen2-Audio和Qwen2.5-Omni两个模型上,攻击成功率(ASR)分别达到91.00% 和 92.73%,显著优于GCG、VoiceJailbreak、SpeechGuard等基线方法。关键实验结果如下表所示: 方法 非法活动 仇恨言论 人身伤害 欺诈 色情 隐私侵犯 平均 Base (无攻击) 0 0 0 0 0 0 0 GCG (文本攻击) 0.67 0.72 0.73 0.79 0.80 0.75 0.74 VoiceJailbreak 0 0.40 0.20 0.20 0.30 0 0.21 SpeechGuard 0.20 0.40 0.40 0.20 0.30 0 0.25 Audio-Text JailBreak (本文) 0.95 0.90 0.90 0.88 0.90 0.90 0.91 模型 Noise Rate Rate + Noise Ours Qwen2-Audio 84.00 83.30 86.61 91.00 Qwen2.5-Omni 82.50 85.65 73.91 92.73 平均 83.25 84.48 80.26 91.86 实际意义:揭示了当前LALM在处理跨模态输入时存在的严重安全漏洞,为模型安全加固(如多模态对齐安全训练)提供了明确的攻击测试基准和方向。 主要局限性:通用性验证实验仅在一个条件(K=10)下进行,泛化能力论证不够充分;隐身策略的实际效果(如是否易于被人耳察觉或被音频检测器识别)未通过直接的用户研究或客观度量进行评估。 🏗️ 模型架构 本文并未提出一个新的端到端语音大模型架构,而是针对现有的LALM(如Qwen2-Audio, Qwen2.5-Omni)设计了一个攻击框架。其核心是音频-文本联合越狱攻击流程。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 264 words

AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness

📄 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness #音频水印 #音频安全 #Conformer #条件模型 #鲁棒性 ✅ 7.5/10 | 前25% | #音频水印 | #条件生成 | #音频安全 #Conformer 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Linxi Li(University of Warwick, OfSpectrum, Inc.) 通讯作者:未说明 作者列表:Linxi Li(University of Warwick, OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Yechen Wang(OfSpectrum, Inc.)、Houmin Sun(Duke Kunshan University)、Zi Hu(Duke Kunshan University)、Carsten Maple(University of Warwick) 💡 毒舌点评 亮点: 论文直面了现有音频水印方法在应对“极端”攻击(如剧烈变速、高损压缩、录音回放)时崩溃的痛点,并用一套设计周密的实验(包括真实环境下的手机录音回放)令人信服地展示了AURA模型在这些极端场景下近乎完美的鲁棒性,其性能提升是数量级的。短板: 论文引以为傲的“首个缩放定律研究”,其核心结论(如“宽深”模型最优)缺乏足够的理论支撑和普适性验证,目前更像是一次基于小规模网格搜索的经验性观察。此外,人类评估仅用24人测试40个样本,其统计显著性和代表性存疑,难以为“水印不可感知”的结论提供强有力背书。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 344 words

Bloodroot: When Watermarking Turns Poisonous for Stealthy Backdoor

📄 Bloodroot: When Watermarking Turns Poisonous for Stealthy Backdoor #音频安全 #水印 #鲁棒性 ✅ 7.5/10 | 前25% | #音频安全 | #水印 | #鲁棒性 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kuan-Yu Chen(Kuan-Yu Chen^{1,2},根据作者顺序判断) 通讯作者:Jeng-Lin Li^{2,⋆} 和 Jian-Jiun Ding^{1,⋆}(根据作者名后星号判断) 作者列表:Kuan-Yu Chen(台湾大学通讯工程研究所, Inventec公司AI研究中心)、Yi-Cheng Lin(台湾大学通讯工程研究所)、Jeng-Lin Li(Inventec公司AI研究中心)、Jian-Jiun Ding(台湾大学通讯工程研究所) 💡 毒舌点评 本文巧妙地将音频水印技术“黑化”为一种隐蔽后门,实现了“在眼皮子底下投毒”的效果,实验数据也显示其在感知质量和鲁棒性上确实优于传统土法炼钢的触发器。不过,这篇论文更像是把一个已知工具(水印)巧妙地应用到了一个已知场景(后门攻击),缺乏对水印本身可能被更复杂防御手段破解的深入探讨。 🔗 开源详情 代码:论文中提到“Code is available at GitHub”,但未提供具体的代码仓库URL链接。 模型权重:未提及是否公开微调后的Bloodroot-FT水印生成器权重。 数据集:使用的是公开的Speech Commands和VoxCeleb数据集,论文中未提供额外的数据集资源。 Demo:未提及在线演示。 复现材料:提供了较为详细的训练细节,包括损失函数权重(λsup, λstft, λmel, λamp)、优化器(Adam)、学习率(1e-4)、Batch size(32)、水印强度(α=5)等关键超参数。硬件环境(NVIDIA A16, A40)也已说明。 论文中引用的开源项目:主要依赖了AudioSeal水印模型。还使用了开源数据集Speech Commands和VoxCeleb,以及torch-pruning库进行模型剪枝实验。 📌 核心摘要 要解决什么问题:现有音频后门攻击方法(如修改音高、插入超声波)在生成的有毒样本上会引入可被察觉的声音失真,且容易被常见的信号处理或模型剪枝防御手段所破坏。 方法核心是什么:提出Bloodroot框架,将原本用于版权保护的音频水印技术重新用作后门触发器。其核心是利用预训练的音频水印模型(AudioSeal)生成不可感知的扰动,并嵌入到少量(1%)训练数据中。进一步提出Bloodroot-FT,通过LoRA对水印生成器进行微调,以优化触发器的鲁棒性和隐蔽性之间的平衡。 与已有方法相比新在哪里:这是首个系统性地将音频水印作为后门触发器的研究。与传统的、针对性设计的声音模式(如超声波、环境音)相比,水印触发器天生具备更好的不可感知性和对常见信号处理的鲁棒性。 主要实验结果如何:在语音识别(SC-10/30)和说话人识别(VoxCeleb-125/全集)任务上,Bloodroot-FT相比现有最优基线,在感知质量(PESQ)上提升了约2分,STOI提升了约0.5。同时保持了超过95%的攻击成功率(ASR)和接近基线的模型准确率(BA)。关键抗防御实验结果如下表: 方法 ASR(无滤波) ASR(带低通滤波) PBSM 92.62% 9.52% Ultrasonic 97.26% 1.28% Bloodroot-FT 93.85% 53.49% 在模型剪枝防御下,Bloodroot系列也能保留约70%的ASR,而其他方法在剪枝率增加时ASR迅速下降。 实际意义是什么:一方面,它展示了如何利用水印技术实现更隐蔽、更鲁棒的数据所有权保护(正向应用)。另一方面,它警示了水印技术的“双刃剑”特性,可能被恶意利用进行更难检测的模型投毒攻击(反向风险),推动了AI安全领域对此类威胁的研究。 主要局限性是什么:研究主要集中在特定的语音任务和模型架构上;对于更复杂的防御(如对抗训练、水印检测算法)未做深入探讨;虽然声称是第一个系统性工作,但水印本身作为“触发器”的潜力挖掘可能还未到极致。 🏗️ 模型架构 论文没有提出一个全新的端到端网络架构,而是提出了一个攻击框架,核心是复用和微调一个现有的音频水印模型。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 230 words