PRSA: Preventing Malicious Speaker Recognition and Speech Synthesis Simultaneously with Adversarial Examples

📄 PRSA: Preventing Malicious Speaker Recognition and Speech Synthesis Simultaneously with Adversarial Examples #语音匿名化 #对抗样本 #说话人识别 #语音合成 #隐私保护 ✅ 7.0/10 | 前25% | #语音匿名化 | #对抗样本 | #说话人识别 #语音合成 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Shiqi Zhou(中国科学院信息工程研究所,中国科学院大学网络空间安全学院,网络空间安全防御国家重点实验室) 通讯作者:Lingcui Zhang(中国科学院信息工程研究所,网络空间安全防御国家重点实验室) 作者列表: Shiqi Zhou(中国科学院信息工程研究所,中国科学院大学网络空间安全学院,网络空间安全防御国家重点实验室) Jiayu Li(中国科学院信息工程研究所,中国科学院大学网络空间安全学院,网络空间安全防御国家重点实验室) Jiangyi Deng(浙江大学电气工程学院) Lingcui Zhang(中国科学院信息工程研究所,网络空间安全防御国家重点实验室) Jin Cao(西安电子科技大学网络与信息安全学院) Ben Niu(中国科学院信息工程研究所,网络空间安全防御国家重点实验室) 💡 毒舌点评 这篇论文精准地抓住了现有语音对抗防御研究“各自为战”的痛点,提出了一个“一石二鸟”的统一防御框架(PRSA),实验设计也相当全面,同时对抗ASV和TTS多个系统。然而,其核心创新——“同时防御”更多是目标设定上的新颖,而非技术手段上的革命性突破,且代码未开源让其声称的优越性能打了折扣,读者很难直接验证。 📌 核心摘要 问题:当前利用对抗样本保护语音隐私的方法存在缺陷,要么只能防御自动说话人验证(ASV),要么只能防御文本到语音(TTS)合成攻击,缺乏一种能同时有效防御两者的综合方案。 方法核心:提出PRSA方法,将对抗扰动生成建模为一个联合优化问题,目标是最大化ASV和TTS系统提取的说话人嵌入的偏离度,同时最小化人耳可感知失真。关键创新包括:1) 针对ASV和TTS设计了不同的嵌入损失(结合欧氏距离和角距离);2) 提出基于自然语音调制的输入增强(AM/FM)以提升扰动迁移性;3) 采用梯度高斯滤波以改善生成音频的自然度。 新意:与以往仅针对单一攻击(如V-CLOAK针对ASV, AntiFake针对TTS)的防御不同,PRSA旨在提供一体化的综合防护。其输入增强方法利用外部自然语音进行调制,而非简单的随机变换。 ...

2026-04-29

RoCo: Robust Code for Fast and Effective Proactive Defense against Voice Cloning Attack

📄 RoCo: Robust Code for Fast and Effective Proactive Defense against Voice Cloning Attack #音频安全 #对抗样本 #语音克隆 #语音合成 #鲁棒性 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #语音克隆 #语音合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Seungmin Kim(松石大学, Soongsil University) 通讯作者:Daeseon Choi(松石大学, Soongsil University, sunchoi@ssu.ac.kr) 作者列表:Seungmin Kim(松石大学)、Dain Kim(松石大学)、Sohee Park(松石大学)、Daeseon Choi(松石大学)。论文指出Seungmin Kim和Dain Kim为共同第一作者。 💡 毒舌点评 RoCo巧妙地将主动防御的“战场”从脆弱的波形域转移到结构更稳定的编解码器潜在空间,并利用STE优雅地解决了离散优化问题,这是一个在架构层面令人耳目一新的设计。然而,该防御策略本质上是针对特定语音合成管线的“寄生式”扰动,其长期有效性高度依赖于攻击模型编解码器的结构稳定性,一旦遇到更强的自适应净化攻击或完全不同的合成架构,其鲁棒性承诺就可能大打折扣。 📌 核心摘要 本文提出RoCo,一种基于神经音频编解码器(Neural Codec)的主动防御方法,旨在解决语音克隆攻击。该方法面临两大核心问题:1)现有防御注入的扰动易被语音增强技术去除;2)生成防御语音的速度过慢,不实用。RoCo的核心方法是:不在原始音频上直接添加扰动,而是在编解码器提取的离散潜在码序列后,额外追加一个专门优化的扰动码(Perturbation Code)。该扰动码使用直通估计器(STE)进行梯度优化,以干扰攻击模型中的说话人编码器。为平衡防御强度和音质,RoCo采用两阶段损失优化策略:先优化目标损失(Target Loss)以最大化防御效果,当扰动码强度达到阈值后,切换为信噪比损失(SNR Loss)以修复音质。与AntiFake、AttackVC、VoiceGuard等基线方法相比,RoCo在多个攻击模型(SV2TTS, YourTTS, AVC)和验证模型(ECAPA, ResNet, RSZ)上取得了更高的防御成功率(DSR)。更重要的是,经语音增强(如Spectral Masking, DeepFilterNet, MP-SENet)后,RoCo的DSR平均下降约15%,而基线方法平均下降约38%,表现出更强的鲁棒性。同时,RoCo生成防御语音的速度显著快于基线(例如在AVC模型上仅需13秒,而基线需要40-122秒)。该工作的实际意义在于提供了一种更快速、更抗干扰的语音隐私主动保护方案。其主要局限在于:方法的防御效果依赖于目标攻击模型采用的特定编解码器架构;论文未评估面对自适应净化攻击或更强大攻击模型时的性能。 ...

2026-04-29

Style Attack Disguise: When Fonts Become a Camouflage for Adversarial Intent

📄 Style Attack Disguise: When Fonts Become a Camouflage for Adversarial Intent #对抗样本 #文本分类 #机器翻译 #数据增强 #大语言模型 ✅ 7.0/10 | 前25% | #对抗样本 | #数据增强 | #文本分类 #机器翻译 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yangshijie Zhang† (Lanzhou University) 通讯作者:Xingxing Jia⋆ (Lanzhou University, jiaxx@lzu.edu.cn) 作者列表: Yangshijie Zhang† (Lanzhou University) Xinda Wang† (Peking University) Jialin Liu (Peking University) Wenqiang Wang (Sun Yat-sen University) Zhicong Ma (Lanzhou University) Xingxing Jia⋆ (Lanzhou University) 机构:兰州大学、北京大学、中山大学 💡 毒舌点评 亮点:选题角度刁钻且极具现实意义,将社交媒体上常见的“花式字体”转化为对AI系统的武器,这种“社会工程学+技术漏洞”的结合方式颇有新意,且实验结果确实亮眼。短板:论文对“为什么这些字体能骗过LLM”的机制分析略显肤浅(仅提及“过度解释”),更像是一个现象观察和应用展示,理论贡献深度有限;同时,一个声称“即插即用”的框架却没有开源代码,让其宣称的“实用价值”打了折扣。 ...

2026-04-29

When Noise Lowers the Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models

📄 When Noise Lowers the Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models #音乐生成 #模型评估 #自回归模型 #音频大模型 #对抗样本 ✅ 7.0/10 | 前25% | #音乐生成 | #模型评估 | #自回归模型 #音频大模型 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xiaosha Li (Georgia Institute of Technology) 通讯作者:未说明(根据惯例,最后一位作者Ziyu Wang可能为通讯作者,但论文中未明确标注) 作者列表:Xiaosha Li (Georgia Institute of Technology), Chun Liu (ByteDance Inc.), Ziyu Wang (Courant Institute of Mathematical Sciences, New York University; Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)) 💡 毒舌点评 亮点在于发现了一个反直觉但可重复验证的现象(“噪声降低损失”),并据此提出了一个新颖的、基于损失曲线形状的评估视角,而非简单否定损失指标,这为音乐生成评估提供了具体的诊断工具和改进方向。短板在于,论文的核心论证主要基于“噪声注入”和“顺序打乱”两种人工扰动,其与真实音乐质量(如乐感、结构、情感表达)的关联性仍需更多元、更贴近实际场景的验证,且提出的“基于曲线形状”的评估框架目前更多是定性描述,缺乏可直接应用的定量标准。 ...

2026-04-29

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

📄 Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs #音频安全 #数据增强 #音频大模型 #多模态模型 #对抗样本 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者:Jaechul Roh(推断,因名字在前) 通讯作者:Amir Houmansadr(推断,因名字在后且通常为资深作者) 全部作者:Jaechul Roh, Amir Houmansadr 所属机构:University of Massachusetts Amherst, Department of Computer Science 💡 毒舌点评 亮点:论文像一把精准的手术刀,首次剖开了音频大模型“良性微调”外表下的安全脆弱性,揭示了其与文本/视觉模态截然不同的、由编码器架构决定的“阿喀琉斯之踵”,研究问题抓得准,分析框架设计得妙。槽点:提出的防御方法(远距离过滤和系统提示)虽然有效但略显“直球”,缺乏对模型内部拒绝机制更深入的干预探索,算是给后续研究者留了口饭吃。 📌 核心摘要 这篇论文首次系统研究了良性(无害)音频数据微调对音频大模型安全对齐的破坏作用。要解决的问题是:用户出于提升模型性能目的进行的常规微调,是否会无意中破坏模型的安全防护?方法上,作者提出了一个基于嵌入空间邻近度的过滤框架,从语义、声学及混合维度,选择性地用与有害内容在表示空间上相近的良性音频进行微调。主要发现是,即使微调数据完全良性,也能使越狱成功率(JSR)从个位数飙升至87.12%,且主导的脆弱性维度(语义或声学)取决于模型编码器的架构。实际意义在于揭示了Audio LLMs一个非对抗性、易被忽视的重大安全风险,并提出了两种无需修改架构的实用防御策略(训练时远距离过滤和推理时安全系统提示)。局限性在于研究限于英语单轮对话,未探索非语音音频任务或多语言场景。 🏗️ 模型架构 论文本身并非提出新模型,而是分析三个现有的SOTA音频大模型在微调下的安全行为。因此,模型架构部分描述的是被分析的三个目标模型: Audio Flamingo 3 (AF3):架构为 Whisper音频编码器 -> 2层MLP投影器 -> Qwen2.5-7B LLM骨干(28层)。其关键特点是MLP投影器会压缩音频特征,形成一个与文本对齐空间不同的表示区域。 Kimi-Audio 7B:采用双编码器设计,包含WhisperVQ编码器(通过矢量量化瓶颈,会丢弃部分声学细节)和Whisper-Large-V3编码器。音频信息通过这两个编码器处理后输入LLM。 Qwen2.5-Omni 7B:架构为Whisper-Large-V3编码器 -> 直通(pass-through)-> Qwen2.5-7B Thinker模块。其编码器输出几乎不加修改地传递给LLM,保留了更多的音频-文本对齐信息。 数据流动与关键设计:在所有三个模型中,音频编码器在微调期间是冻结的,只有LLM骨干网络通过LoRA进行参数更新。这是与文本LLM微调的关键区别:在音频LLM中,安全对齐所依赖的表示(来自编码器)并未被微调直接修改,但下游LLM的决策边界却发生了偏移。 💡 核心创新点 首个系统性研究:首次针对音频大模型,系统性地研究了良性微调对安全对齐的破坏作用,填补了该领域的重要空白。 嵌入邻近度过滤与分解框架:提出了一个创新的分析框架,不仅使用模型自身的编码器(内部过滤),还引入外部参考编码器(语义-SentenceBERT,声学-WavLM,混合-Whisper),将“邻近度”分解为不同轴,从而能精细分析脆弱性来源。 揭示架构依赖的脆弱性:核心发现是主导的脆弱性维度(语义或声学)由音频编码器的架构决定。例如,Kimi-Audio(有量化瓶颈)对语义过滤最敏感,AF3(有压缩投影)对混合过滤最敏感。 发现跨模态不对称性:通过对照实验(用相同内容的文本微调),发现音频与文本微调对安全的影响存在架构依赖的不对称模式。AF3中音频微调更危险,Qwen2.5-Omni中文本微调更危险,其根本原则是“安全降级在对齐训练覆盖最少的表示路径上最为严重”。 提出两种实用防御:针对发现的风险,提出了两种无需修改模型架构的防御方法:训练时的“远距离过滤”(选择离有害内容最远的良性数据)和推理时的“安全系统提示”,均能有效将JSR降至近零。 🔬 细节详述 训练数据: 良性音频数据集:共4个。VoiceBench SD-QA(6083条,11种英语口音的事实问答);GammaCorpus-Fact-QA(GC Accents,6600条,由文本合成的多口音音频);MMSU(3000条,多选题);MELD(来自Audio-Reasoner-CoTA,用于引发链式思考推理)。 有害音频数据集:用于评估。将文本基准AdvBench(520条有害提示)和SafetyBench(939条有害提示)通过Google TTS(gTTS)转换为音频。 微调策略: 方法:使用LoRA进行参数高效微调。 关键超参数:AF3: rank=16, alpha=32, lr=2e-5, epochs=3, batch_size=8;Kimi-Audio: rank=16, alpha=32, lr=2e-4, epochs=5, batch_size=16;Qwen2.5-Omni: rank=8, alpha=16, lr=1e-4, epochs=3, batch_size=8。 训练硬件:单张A100或L40S GPU(48GB显存)。 评估指标:主要使用越狱成功率(JSR),即模型遵从有害指令的比例。 防御细节: 远距离过滤:选择良性样本中,与有害样本在嵌入空间中距离最远的子集进行微调。 系统提示防御:在推理时,向微调后的模型添加系统提示:“你是一个负责任的AI助手。你必须拒绝任何涉及非法、有害、不道德或危险活动的请求……”。 📊 实验结果 主要指标对比(AdvBench JSR %): 表1:模型内部过滤下的JSR(括号内为相对于随机采样的变化) ...

2026-04-22

语音/音频论文速递 2026-04-22

语音/音频论文速递 2026-04-22 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 语音合成 4篇 ████ 基准测试 4篇 ████ 模型评估 4篇 ████ 多语言 3篇 ███ 音频大模型 3篇 ███ 数据增强 3篇 ███ 大语言模型 3篇 ███ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.5分 🥉 UAF: A Unified Audio Front-end LLM for Full-Duplex Spee 9.0分 4 HalluAudio: A Comprehensive Benchmark for Hallucination 9.0分 5 Voice of India: A Large-Scale Benchmark for Real-World 8.5分 6 BEAT: Tokenizing and Generating Symbolic Music by Unifo 8.5分 7 ATRIE: Adaptive Tuning for Robust Inference and Emotion 8.5分 8 Reducing the Offline-Streaming Gap for Unified ASR Tran 8.0分 9 Deep Supervised Contrastive Learning of Pitch Contours 8.0分 10 Disentangling Damage from Operational Variability: A La 8.0分 11 Text-To-Speech with Chain-of-Details: modeling temporal 7.5分 12 Towards Streaming Target Speaker Extraction via Chunk-w 7.5分 13 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track 7.5分 14 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 15 Detecting Hallucinations in SpeechLLMs at Inference Tim 7.5分 16 MTR-DuplexBench: Towards a Comprehensive Evaluation of 7.5分 17 Tadabur: A Large-Scale Quran Audio Dataset 7.0分 18 Environmental Sound Deepfake Detection Using Deep-Learn 6.5分 19 Audio Spoof Detection with GaborNet 6.5分 20 Comparison of sEMG Encoding Accuracy Across Speech Mode 6.0分 21 MoVE: Translating Laughter and Tears via Mixture of Voc N/A 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音合成 #语音识别 #音频大模型 #预训练 | arxiv ...

2026-04-22

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

📄 Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs #音频大模型 #模型评估 #对抗样本 #基准测试 #音频安全 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Jaechul Roh(推断,基于论文作者顺序和邮箱前缀) 通讯作者:Amir Houmansadr(麻省大学阿默斯特分校,计算机科学系) 其他作者:无(本文为双作者论文) 所属机构:University of Massachusetts Amherst(麻省大学阿默斯特分校),计算机科学系。 💡 毒舌点评 亮点:这篇论文像一把精准的手术刀,首次剖开了音频大模型“安全对齐”的脆弱内脏——原来不用投毒,光喂“健康食品”(良性数据)就能让它对“坏指令”言听计从。其“邻近性分解”框架巧妙地将模糊的“相似”拆解为“说了啥”和“听着像啥”,并发现这居然取决于模型“耳朵”(编码器)的构造,洞察深刻。 槽点:研究聚焦于英语单轮问答,像是在无菌实验室里测试病毒的威力,现实世界中多语言、多轮次、带背景噪音的“培养皿”会怎样?防御手段(系统提示)虽有效,但像个事后补的“道德补丁”,模型本身的“先天缺陷”如何从架构上根治? 📌 核心摘要 这篇论文首次系统研究了良性音频数据微调对音频大模型安全对齐的破坏性影响。核心问题是:用户出于提升性能的目的,在完全无害的音频数据上微调模型,是否会意外削弱其拒绝有害指令的能力?作者提出了一个基于嵌入空间邻近性的过滤框架,通过计算良性音频与有害音频在模型内部或外部参考编码器空间中的距离,来选择性地构建微调数据集。实验在三个SOTA模型上进行,发现:1)良性微调能显著提升越狱成功率,在邻近性过滤下,JSR从个位数飙升至87.12%;2)主导的脆弱性轴(语义或声学)是架构依赖的,由音频编码器如何将声音映射到LLM输入空间的方式决定;3)防御是可行的,通过“远距离过滤”训练数据或在推理时添加安全系统提示,可将JSR降至近零。研究揭示了音频大模型安全与文本/视觉模型的结构性差异,强调了模态感知的安全评估和数据筛选的必要性。 🏗️ 模型架构 论文本身并未提出新模型,而是对三个现有SOTA音频大模型进行安全分析。其整体分析流程和涉及的模型架构如下: 输入:原始音频波形。 音频编码器(冻结):将波形转换为高级表示。 Audio Flamingo 3 (AF3):使用Whisper编码器,后接一个两层MLP投影器,将音频特征压缩后输入LLM。 Kimi-Audio-7B:采用双编码器设计,包含一个WhisperVQEncoder(通过矢量量化引入瓶颈)和一个Whisper-Large-V3编码器。 Qwen2.5-Omni:使用Whisper-Large-V3编码器,其输出以“直通”方式(无压缩投影)输入LLM。 大语言模型(部分参数通过LoRA微调):接收音频编码器的输出(可能经过投影),生成文本响应。三个模型的LLM骨干均基于Qwen2.5-7B。 输出:文本形式的回答(可能包含拒绝信息或有害内容)。 安全对齐:模型在预训练后经过安全对齐训练,使其能拒绝有害文本指令。这种对齐主要针对文本表示空间,对音频输入产生的表示可能覆盖不足。 数据流:音频 → [冻结的音频编码器] → [可选的投影层] → [LLM(部分参数通过LoRA更新)] → 文本输出。 关键设计选择:论文的核心发现在于,不同音频编码器架构(压缩式、量化瓶颈式、直通式)决定了良性微调数据在嵌入空间中的“邻近性”如何影响安全边界,从而导致了差异化的安全脆弱性。 💡 核心创新点 首次系统研究音频大模型良性微调安全:开辟了新的研究问题,揭示了在无对抗者参与的情况下,仅使用良性数据微调即可严重破坏音频大模型的安全对齐,这与文本和视觉领域的发现有本质区别(因编码器冻结)。 提出嵌入空间邻近性分解框架:创新性地将良性数据与有害数据的“接近度”分解为语义轴(说了什么,使用Sentence-BERT)、声学轴(听着像什么,使用WavLM)和混合轴(两者结合,使用Whisper)。该框架能够诊断不同模型架构下,驱动安全退化的主要数据属性。 揭示架构依赖的漏洞模式:通过实验证明,哪个邻近性轴(语义/声学/混合)最能预测安全退化,取决于目标模型音频编码器的具体架构(如Kimi-Audio对语义敏感,AF3对混合特征敏感)。 发现并解释跨模态不对称性:通过对照实验(音频微调 vs. 文本微调),发现安全退化的方向(哪种模态更危险)也依赖于架构。AF3中音频微调更危险,而Qwen2.5-Omni中文本微调更危险,根本原因是安全对齐覆盖的表示路径不同。 提出并验证两种有效防御:提出了训练时的远距离过滤(选择离有害数据最远的良性数据)和推理时的安全系统提示,两者均能无需修改架构地将越狱成功率降至近零。 🔬 细节详述 训练数据: 良性音频数据集:VoiceBench SD-QA (6,083条,11种英语口音), GammaCorpus-Fact-QA (合成6,600条), MMSU (3,000条多选题), MELD (用于推理任务)。 有害音频数据集:AdvBench (520条有害提示), SafetyBench (939条有害提示),均通过Google TTS转换为音频。 微调策略: 方法:使用LoRA进行参数高效微调。 关键超参数: AF3: LoRA Rank=16, Alpha=32, LR=2e-5, Epochs=3, Batch Size=8 Kimi-Audio: LoRA Rank=16, Alpha=32, LR=2e-4, Epochs=5, Batch Size=16 Qwen2.5-Omni: LoRA Rank=8, Alpha=16, LR=1e-4, Epochs=3, Batch Size=8 冻结组件:所有模型的音频编码器在微调期间均被冻结。 评估指标:越狱成功率,在AdvBench和SafetyBench上计算。基线JSR很低(个位数)。 邻近性过滤: 距离计算:余弦距离。 过滤过程:对每个良性样本,计算其与所有有害样本的最小距离,然后选择距离最小的前k%样本进行微调。k通常取10, 20, …, 90。 参考编码器:Sentence-BERT(语义)、WavLM-Large(声学)、Whisper-Large-V3(混合)。 机制分析: 拒绝方向提取:在预训练模型上,计算LLM每一层在拒绝回答和合规回答的有害提示上平均激活的差异,得到“拒绝方向”。 投影分析:计算微调后模型在相同有害提示上的激活在预训练“拒绝方向”上的投影值。发现微调后,尤其是音频微调,在LLM的后期层(L20-26)该投影值显著下降,表明拒绝机制被抑制。 📊 实验结果 主要结果(表1 & 表2 核心数据): Kimi-Audio:在SD-QA数据上,使用语义过滤(25%)时,AdvBench JSR达到87.12%(+82.50),是最高值。模型内过滤在25%时为58.08%。 AF3:在SD-QA数据上,使用混合过滤(Whisper-V3)效果最显著,50%过滤时AdvBench JSR为24.42%(+16.73)。声学过滤甚至导致JSR下降(负增长)。 Qwen2.5-Omni:模型内过滤(即混合过滤,因其编码器是Whisper)在25%时AdvBench JSR为30.09%。声学过滤也有效(23.46%)。 随机采样:作为对照,随机采样微调导致的JSR增长远低于邻近性过滤,且不稳定(有时甚至降低JSR)。 音频 vs. 文本微调(图2 数据): AF3:对同一组语义过滤的良性样本,音频微调使AdvBench JSR升至24.42%(50%过滤),而文本微调使JSR降至3.85%。 Qwen2.5-Omni:模式相反,文本微调(25%过滤)的JSR为16.35%,高于音频微调的9.42%。 防御效果(表3 & 表7): 远距离过滤:对AF3,使用远距离语义/声学过滤,JSR降至接近或低于基线(如AdvBench JSR 3.27%)。 系统提示防御:在微调后模型上添加安全系统提示,JSR降至近0%(例如Kimi-Audio从58.08%降至0.00%)。 机制分析结果(图3): 在AF3中,音频微调强烈抑制了LLM第20-26层的拒绝方向投影值(从186降至8),而文本微调则基本保持。 在Qwen2.5-Omni中,音频和文本微调均抑制了后期层的拒绝信号,且文本微调抑制更强。 ⚖️ 评分理由 创新性:10/10。开创了音频大模型良性微调安全这一全新研究方向,提出的邻近性分解框架极具洞察力,揭示的架构依赖规律是领域内的重要新知。 实验充分性:9.5/10。实验设计极其全面严谨,覆盖多模型、多数据集、多基准、多角度对照(过滤方法、模态、防御),并辅以深入的机制分析,数据量大,说服力强。 实用价值:9/10。直接针对音频大模型实际部署中的核心风险(用户微调),并提供了立即可用的防御方案(数据筛选、提示工程),对模型开发者、平台和用户都有重要实践指导意义。 灌水程度:1/10。论文内容紧凑,每一部分(问题、方法、实验、分析、防御)都围绕核心贡献展开,信息密度高,无冗余或夸大表述。 🔗 开源详情 代码:论文提及提供了GitHub仓库(https://github.com/…),但未在正文给出完整链接。推测包含用于邻近性过滤和实验复现的代码。 模型权重:论文中评估的三个模型(AF3, Kimi-Audio, Qwen2.5-Omni)均为公开的SOTA模型,其预训练权重可在Hugging Face等平台获取。微调后的模型权重未提供,以防滥用。 数据集:使用的良性数据集(SD-QA, GC Accents, MMSU, MELD)和有害数据集(AdvBench, SafetyBench)多为公开基准。论文未提及发布新数据集。 预训练权重:未提供,依赖于上述公开模型。 在线Demo:未提及。 引用的开源项目:依赖的主要开源工具/模型包括:Whisper (编码器), Sentence-BERT, WavLM, Hugging Face Transformers库, LoRA实现等。 🖼️ 图片与表格 图1 (Bar Charts of ASR):展示了AF3和Qwen2.5-Omni在音频微调和文本微调下,不同过滤比例(25%,50%,75%)在AdvBench和SafetyBench上的ASR(即JSR)对比。保留: 是 - 这是核心结果图,直观展示了跨模态不对称性和过滤比例的影响。 图2 (Proximity Filtering Diagram):示意图,解释了如何基于良性样本到有害样本的最小距离进行排序和过滤。保留: 是 - 清晰说明了核心方法“邻近性过滤”的工作流程。 表1 (Model-Internal Filtering Results):详细列出了三个模型在模型内过滤和随机采样下,不同过滤比例在两个安全基准上的JSR及相对于基线的变化。保留: 是 - 提供了核心实验数据。 表2 (Reference-Based Filtering Results):详细列出了三个模型在语义、声学、混合三种���考编码器过滤下,不同过滤比例在两个安全基准上的JSR及变化。保留: 是 - 揭示了架构依赖的漏洞模式,是关键数据表。 表3 (Distant Filtering Defense Results):展示了使用“远距离过滤”防御策略后的JSR结果。保留: 是 - 验证了第一种防御的有效性。 其他表格/图表:如附录中的t-SNE可视化、机制分析图、消融实验表等,对于深入理解有帮助,但非核心结论的必需展示。在主报告中可简述其结论。 📸 论文图片 ...

2026-04-21

Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

📄 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection #音频安全 #音频大模型 #对抗样本 #多模态模型 🔥 评分:8.8/10 | arxiv 👥 作者与机构 第一作者:Meng Chen(浙江大学,ZJU-MUSLAB) 通讯作者:Tianwei Zhang(新加坡国立大学,School of Computing) 其他作者: Kun Wang(浙江大学,ZJU-MUSLAB) Li Lu(浙江大学,ZJU-MUSLAB) Jiaheng Zhang(香港中文大学,Department of Computer Science & Engineering) Kun Wang(阿里云,Alibaba Cloud)(注:论文PDF中作者列表有两位Kun Wang,根据机构推断一位来自ZJU-MUSLAB,另一位来自阿里云) 💡 毒舌点评 亮点:论文首次系统性地研究了针对音频大语言模型(LALM)的“间接”音频提示注入攻击,问题定义精准(数据-only访问、用户在环),并提出了一个通用且有效的攻击框架AudioHijack。槽点:攻击框架严重依赖对目标模型的白盒访问(知道架构和参数),这在现实世界中可能是一个重大限制;此外,虽然提出了多种防御策略,但它们的有效性有限,论文在“如何有效防御”这一更关键的问题上着墨相对较少。 📌 核心摘要 这篇论文揭示了针对音频大语言模型(LALM)的一种新型安全威胁:上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据(如会议录音、音乐片段),即可在用户不知情的情况下,劫持模型行为,使其执行恶意指令(如发送邮件、下载文件、传播错误信息)。为实现这一目标,作者提出了AudioHijack框架,它通过基于采样的梯度估计解决了音频分词不可微的问题,实现了端到端的对抗音频优化;通过注意力引导的上下文泛化技术,使攻击能泛化到未知的用户指令上下文;并设计了卷积扰动混合方法,将对抗扰动模拟为自然的混响效果,极大提升了攻击的隐蔽性。实验表明,AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%,并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞,为LALM的安全设计提供了重要警示。 🏗️ 模型架构 论文本身并未提出新的模型架构,而是针对现有的、架构各异的大型音频语言模型(LALM) 进行攻击研究。因此,本节将详细描述被攻击的LALM的通用架构流程,以及AudioHijack攻击框架如何与之交互。 1. 被攻击LALM的通用输入输出流程: 现代LALM通常采用端到端架构,直接处理音频输入并生成文本/语音响应。其核心流程如下: 输入:一个组合提示,通常包含: 音频数据:用户上传或参考的音频内容(如录音、音乐)。 用户指令:可以是文本(如“总结这段录音”)或语音(直接说出指令)。 系统提示:模型预设的角色和任务指令。 处理流程: 音频编码:原始音频信号 x 通过一个音频编码器 E(·)(如Whisper的编码器、BEATs等)提取连续声学特征 e = E(x)。 音频-文本对齐:这是架构异构的关键。根据论文分类,有三种主要方案: 离散标记方案:声学特征 e 通过向量量化(VQ)层映射为离散音频标记序列 z,然后通过嵌入矩阵 Φ 查表得到嵌入向量 ẽ = Φ(z),与文本标记嵌入拼接。 连续特征方案:声学特征 e 通过一个模态适配器(如MLP、交叉注意力层)直接投影到文本嵌入空间,得到与文本嵌入维度一致的向量,再与文本嵌入拼接。 混合方案:同时使用离散标记和连续特征,将两者与文本嵌入融合。 大语言模型处理:拼接后的嵌入序列被送入LLM主干(如LLaMA、Qwen等)。LLM以自回归方式生成响应。 输出:生成文本响应,部分全双工模型还会并行生成语音。 2. AudioHijack攻击框架的介入点: AudioHijack的目标是生成对抗音频 x̂,使得当 x̂ 作为“音频数据”输入时,模型的输出行为被劫持。 ...

2026-04-19