Adversarial Fine-Tuning on Speech Foundation Model with Vulnerable Attention Consistency Regularization for Robust Speech Recognition

📄 Adversarial Fine-Tuning on Speech Foundation Model with Vulnerable Attention Consistency Regularization for Robust Speech Recognition #语音识别 #语音大模型 #预训练 #对抗样本 #鲁棒性 ✅ 7.5/10 | 前25% | #语音识别 | #对抗样本 | #语音大模型 #预训练 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yanyun Wang (The Hong Kong University of Science and Technology (Guangzhou)) 通讯作者:Li Liu (The Hong Kong University of Science and Technology (Guangzhou), avrillliu@hkust-gz.edu.cn) 作者列表:Yanyun Wang (The Hong Kong University of Science and Technology (Guangzhou)), Baoyuan Wu (The Chinese University of Hong Kong, Shenzhen; Shenzhen Loop Area Institute), Li Liu (The Hong Kong University of Science and Technology (Guangzhou)) 💡 毒舌点评 亮点:这篇工作敏锐地抓住了“防御SFM时,不能像对待传统模型那样容忍精度大幅下降”这一核心矛盾,通过CKA分析定位脆弱层并设计了针对性的双重正则化(注意力散度和特征相似性),思路清晰且可解释性强。短板:实验基本局限于Whisper模型在LibriSpeech一个数据集上的表现,对于SFM在多语言、多噪声环境下的泛化能力验证不足,使得“SOTA”的宣称在更大范围内略显底气不足。 ...

2026-04-29

Are Modern Speech Enhancement Systems Vulnerable to Adversarial Attacks?

📄 Are Modern Speech Enhancement Systems Vulnerable to Adversarial Attacks? #语音增强 #对抗样本 #扩散模型 #鲁棒性 ✅ 7.5/10 | 前25% | #语音增强 | #对抗样本 | #扩散模型 #鲁棒性 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Rostislav Makarov (汉堡大学信号处理组) 通讯作者:未说明 作者列表:Rostislav Makarov(汉堡大学信号处理组)、Lea Schönherr(CISPA亥姆霍兹信息安全中心)、Timo Gerkmann(汉堡大学信号处理组) 💡 毒舌点评 论文系统性地揭示了现代语音增强系统在对抗攻击下的脆弱性,并令人信服地论证了扩散模型因其随机采样机制而具备的“先天”鲁棒性,这是一个有价值的安全视角。然而,实验完全基于白盒攻击和合成攻击对,离验证真实世界(如助听器、通信系统)中的攻击场景还有很长距离,且代码和模型权重的未明确开源限制了结论的即时可验证性。 📌 核心摘要 问题:本文研究了一个新兴的安全问题:现代的、表达能力强大的语音增强(SE)系统是否容易受到精心设计的、人耳难以察觉的对抗性噪声的攻击,从而输出与用户意图完全不同的语音内容。 方法核心:提出了一种针对语音增强系统的白盒对抗攻击框架。攻击者向原始混合语音(语音+噪声)中添加一个经优化的小扰动δ,目标是让SE系统的输出语音听起来像另一个指定的、攻击者选择的语音信号(Sattacker)。该扰动通过结合心理声学模型(MPEG-1)进行隐藏,使其不易被察觉,并使用PGD结合ℓ2范数约束进行优化。 新颖之处:首次系统性地将对抗攻击从语音识别(分类任务)扩展到语音增强(回归任务)。对比分析了三类主流SE模型(直接映射、复数掩膜、基于分数的扩散模型SGMSE+)在攻击下的脆弱性差异,并创新性地将心理声学隐藏技术适配到SE攻击场景。 主要实验结果:在EARS-WHAM-v2数据集上对100对样本进行攻击。结果显示,预测式模型(Direct Map, CRM)在适中约束下(λ=20dB, ε=10)能被有效攻击,输出语音与目标攻击语音高度相似(WER≈0.20, AS-POLQA≈1.81),同时扰动具有一定隐蔽性(SNR≈12.88 dB)。相比之下,扩散模型(Diffusion)更难攻击:即使在相同约束下,攻击成功率更低(WER≈0.80, AS-POLQA≈1.14),且扰动更明显(SNR≈7.90 dB)。消融实验进一步证明,扩散模型的随机采样步骤是其鲁棒性的关键来源(固定噪声路径后WER从0.47降至0.27)。 实际意义:本研究首次指出了语音增强系统存在被恶意操纵以篡改语义内容的安全风险,为未来SE系统的设计和安全评估提出了新挑战。其结论暗示,基于扩散模型的生成式SE可能因其随机性而更适合对安全性有要求的应用。 主要局限性:攻击场景为理想化的白盒攻击,且未考虑真实信道传输的影响;实验规模相对有限;攻击成功与否高度依赖于模型的可微性和攻击者对模型的完全控制。 🏗️ 模型架构 论文并未提出一个新的SE模型架构,而是评估和对比现有三类主流SE架构在对抗攻击下的表现。这三类架构都基于同一个骨干网络(NCSN++ U-Net),主要区别在于输出生成方式: ...

2026-04-29

Audio Classification Models are Vulnerable to Filter Perturbations

📄 Audio Classification Models are Vulnerable to Filter Perturbations #音频分类 #对抗样本 #鲁棒性 #信号处理 ✅ 7.5/10 | 前25% | #音频分类 | #对抗样本 | #鲁棒性 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Justin Dettmer(RWTH Aachen University, Chair for Artificial Intelligence Methodology) 通讯作者:未说明 作者列表: Justin Dettmer(RWTH Aachen University, Chair for Artificial Intelligence Methodology) Annelot Bosman(Leiden University, Leiden Institute of Advanced Computer Science) Igor Vatolkin(RWTH Aachen University, Chair for Artificial Intelligence Methodology) Holger Hoos(RWTH Aachen University, Chair for Artificial Intelligence Methodology; Leiden University, Leiden Institute of Advanced Computer Science) 💡 毒舌点评 本文最大的亮点在于将对抗扰动从“像素/采样点级噪声”升维到更具物理和语义意义的“频域滤波器”,使得攻击更贴近真实世界中录音设备差异造成的频谱失真,这种更现实的威胁建模思路值得肯定。然而,论文虽然证明了当前模型对此脆弱,但提出的对抗训练解决方案计算成本高达10倍,且缺乏与现有多样性音频增强(如FilterAugment)方法的直接鲁棒性对比,使得“防御有效性”的结论稍显单薄。 ...

2026-04-29

Audio-Text Jailbreak Attack on Large Audio-Language Models: Towards Generality and Stealthiness

📄 Audio-Text Jailbreak Attack on Large Audio-Language Models: Towards Generality and Stealthiness #音频安全 #对抗样本 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #跨模态 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuhong Li(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院) 通讯作者:Jianhua Wang(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院,邮箱:wangjianhua02@tyut.edu.cn) 作者列表:Yuhong Li(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院)、Jiabao Zhang(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院)、Yan Chen(太原工业大学计算机科学与技术学院)、Zhihui Zhao(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院)、Jianhua Wang(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院) 💡 毒舌点评 亮点在于首次开辟了“音频+文本”联合优化的多模态越狱攻击赛道,并在实验上取得了90%以上的攻击成功率,有力证明了当前LALM在多模态融合下的脆弱性,为安全研究提供了新方向。短板是论文对“隐身性”的论证略显单薄,仅通过提升成功率来间接证明,并未深入评估攻击音频在人类听觉或音频检测系统中的隐蔽程度,削弱了“Stealthiness”这一主张的力度。 📌 核心摘要 问题:现有的针对大型音频语言模型(LALM)的越狱攻击多局限于单模态(纯文本或纯音频),且通用性和隐蔽性不足。 方法核心:提出“音频-文本越狱攻击”(Audio-Text Jailbreak),首次联合优化微小的对抗音频扰动和恶意的文本后缀,共同诱导模型生成有害回应。同时设计了环境噪声添加和语速调整等隐身策略。 与已有方法相比新在哪里:a) 首次实现音频和文本模态的深度融合攻击;b) 设计的单个对抗音频/文本后缀可泛化应用于不同用户指令;c) 引入针对性的音频层隐身策略。 主要实验结果:在Qwen2-Audio和Qwen2.5-Omni两个模型上,攻击成功率(ASR)分别达到91.00% 和 92.73%,显著优于GCG、VoiceJailbreak、SpeechGuard等基线方法。关键实验结果如下表所示: 方法 非法活动 仇恨言论 人身伤害 欺诈 色情 隐私侵犯 平均 Base (无攻击) 0 0 0 0 0 0 0 GCG (文本攻击) 0.67 0.72 0.73 0.79 0.80 0.75 0.74 VoiceJailbreak 0 0.40 0.20 0.20 0.30 0 0.21 SpeechGuard 0.20 0.40 0.40 0.20 0.30 0 0.25 Audio-Text JailBreak (本文) 0.95 0.90 0.90 0.88 0.90 0.90 0.91 模型 Noise Rate Rate + Noise Ours Qwen2-Audio 84.00 83.30 86.61 91.00 Qwen2.5-Omni 82.50 85.65 73.91 92.73 平均 83.25 84.48 80.26 91.86 实际意义:揭示了当前LALM在处理跨模态输入时存在的严重安全漏洞,为模型安全加固(如多模态对齐安全训练)提供了明确的攻击测试基准和方向。 主要局限性:通用性验证实验仅在一个条件(K=10)下进行,泛化能力论证不够充分;隐身策略的实际效果(如是否易于被人耳察觉或被音频检测器识别)未通过直接的用户研究或客观度量进行评估。 🏗️ 模型架构 本文并未提出一个新的端到端语音大模型架构,而是针对现有的LALM(如Qwen2-Audio, Qwen2.5-Omni)设计了一个攻击框架。其核心是音频-文本联合越狱攻击流程。 ...

2026-04-29

Cooperative Multi-Agent Reinforcement Learning for Adaptive Aggregation in Semi-Supervised Federated Learning with non-IID Data

📄 Cooperative Multi-Agent Reinforcement Learning for Adaptive Aggregation in Semi-Supervised Federated Learning with non-IID Data #联邦学习 #强化学习 #音频分类 #对抗样本 #鲁棒性 ✅ 7.0/10 | 前50% | #联邦学习 | #强化学习 | #音频分类 #对抗样本 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Rene Glitza(波鸿鲁尔大学通信声学研究所) 通讯作者:论文中未明确指出,未说明 作者列表:Rene Glitza(波鸿鲁尔大学通信声学研究所)、Luca Becker(波鸿鲁尔大学通信声学研究所)、Rainer Martin(波鸿鲁尔大学通信声学研究所) 💡 毒舌点评 本文巧妙地将TD3算法应用于联邦学习的服务器与客户端双层决策,构建了一个能同时“抵御坏人”和“发展个性”的自适应系统,实验设计考虑了三种非独立同分布场景和对抗设置,相当全面。但实验仅局限于一个450k参数的小型音频Transformer预训练任务,就宣称“适用于真实世界部署”略显仓促,且未与同样使用强化学习的FedAA、FedDRL进行充分直接的性能对比,说服力打了折扣。 📌 核心摘要 本文旨在解决联邦学习在非独立同分布数据下全局模型性能下降及模型偏差问题,以及对抗性客户端威胁模型鲁棒性的挑战。核心方法是提出pFedMARL,一个多智能体强化学习框架,使用Twin Delayed DDPG(TD3) 算法。该框架包含一个服务器端代理,动态调整客户端聚合权重以优化全局模型鲁棒性;以及客户端代理,平衡全局与局部更新以实现个性化模型,且无需预训练代理。与传统方法(如FedAvg)相比,其新在将联邦学习过程建模为多智能体协同决策问题,实现了聚合策略的动态自适应。与Ditto相比,其新在通过强化学习自动学习个性化平衡参数,并额外增强了对抗鲁棒性。主要实验结��(见下表)表明,在三种非独立同分布数据场景下,pFedMARL在本地数据和全局数据上的MSE和F1-score指标上均优于或媲美FedAvg和Ditto,并能有效抑制对抗性客户端的影响。其实际意义在于为隐私敏感、数据异构的真实世界(如IoT设备协同训练)提供了一个灵活、可扩展的联邦学习解决方案。主要局限性在于验证局限于单一的半监督音频预训练任务,且缺乏对更多标准联邦学习基准(如计算机视觉数据集)的验证。 关键实验结果表1:客户端模型在本地测试集(L)和全局测试集(G)上的平均性能(部分) 算法 数据场景 MSE Mean ↓ (L) MSE Mean ↓ (G) F1 Mean ↑ (L) F1 Mean ↑ (G) pFedMARL QS 0.10 0.11 0.77 0.73 LS 0.10 0.11 0.87 0.60 CS 0.06 0.12 0.96 0.21 Ditto QS 0.17 0.17 0.75 0.71 LS 0.17 0.18 0.69 0.34 CS 0.15 0.19 0.91 0.19 FedAvg QS 1.17 1.17 0.17 0.17 LS 0.96 0.96 0.13 0.13 CS 1.25 1.25 0.02 0.02 Local QS 0.10 0.10 0.84 0.80 LS 0.08 0.11 0.92 0.59 CS 0.03 0.07 0.98 0.21 关键实验结果表2:服务器模型在全局测试集上的F1分数 ...

2026-04-29

Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

📄 Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations #音频大模型 #音频安全 #对抗样本 #语音合成 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #音频大模型 #语音合成 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Bo-Han Feng(台湾大学)、Chien-Feng Liu(台湾大学)、Yu-Hsuan Li Liang(台湾大学)(注:论文标明三位为共同第一作者) 通讯作者:Hung-yi Lee(台湾大学)(注:论文未明确标注通讯作者,Hung-yi Lee为资深作者,按惯例推断) 作者列表:Bo-Han Feng(台湾大学)、Chien-Feng Liu(台湾大学)、Yu-Hsuan Li Liang(台湾大学)、Chih-Kai Yang(台湾大学)、Szu-Wei Fu(NVIDIA)、Zhehuai Chen(NVIDIA)、Ke-Han Lu(台湾大学)、Sung-Feng Huang(NVIDIA)、Chao-Han Huck Yang(NVIDIA)、Yu-Chiang Frank Wang(NVIDIA)、Yun-Nung Chen(台湾大学)、Hung-yi Lee(台湾大学) 💡 毒舌点评 这篇论文的“问题嗅觉”非常灵敏,精准地抓住了大型音频语言模型在“情绪化表达”这一软肋上的安全漏洞,并用一套严谨的控制变量实验(同一指令、同一说话人、不同情绪与强度)给出了令人信服的实证证据,这是其最大亮点。然而,论文在揭示问题后戛然而止,未能进一步探索漏洞产生的原因(如数据偏差、模型架构缺陷)或提出任何防御/改进方案,使其研究深度略显不足,更像是一个扎实的“安全审计报告”,而非一个完整的“攻防研究”。此外,模型评估的全面性可以进一步加强。 📌 核心摘要 问题:大型音频语言模型(LALMs)的安全对齐在面对说话人情感(副语言信息)变化时,存在尚未被系统研究的脆弱性。 ...

2026-04-29

ICASSP 2026 - 对抗样本 论文列表

ICASSP 2026 - 对抗样本 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Style Attack Disguise: When Fonts Become a Camouflage for Ad 7.0分 前25% 📋 论文详情 🥇 Style Attack Disguise: When Fonts Become a Camouflage for Adversarial Intent ✅ 7.0/10 | 前25% | #对抗样本 | #数据增强 | #文本分类 #机器翻译 👥 作者与机构 第一作者:Yangshijie Zhang† (Lanzhou University) 通讯作者:Xingxing Jia⋆ (Lanzhou University, jiaxx@lzu.edu.cn) 作者列表: Yangshijie Zhang† (Lanzhou University) Xinda Wang† (Peking University) Jialin Liu (Peking University) Wenqiang Wang (Sun Yat-sen University) Zhicong Ma (Lanzhou University) Xingxing Jia⋆ (Lanzhou University) 机构:兰州大学、北京大学、中山大学 💡 毒舌点评 ...

2026-04-29

Impact of Phonetics on Speaker Identity in Adversarial Voice Attack

📄 Impact of Phonetics on Speaker Identity in Adversarial Voice Attack #说话人验证 #对抗样本 #语音识别 #音频安全 ✅ 7.0/10 | 前50% | #说话人验证 | #对抗样本 | #语音识别 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中作者按字母顺序列出,未明确标注第一作者) 通讯作者:未说明(论文中未提供通讯作者信息) 作者列表:Daniyal Kabir Dar(密歇根州立大学计算机科学与工程系)、Qiben Yan(密歇根州立大学计算机科学与工程系)、Li Xiao(密歇根州立大学计算机科学与工程系)、Arun Ross(密歇根州立大学计算机科学与工程系) 💡 毒舌点评 亮点在于将对抗扰动的分析从单纯的转录错误(WER/CER)提升到了语音学特征(元音、辅音)和说话人身份表征的层面,提出了“身份漂移”这个直观且有意义的概念。短板是整个研究框架(白盒攻击+评估指标)相对常规,对“为什么某些语音结构更容易引发漂移”这一核心问题的分析深度有限,更多是相关性观察而非因果解释。 📌 核心摘要 本文研究了针对自动语音识别(ASR)系统的对抗性语音攻击,如何同时影响说话人身份验证。论文的核心问题是:这些旨在改变转录文本的微小扰动,是否会破坏用于区分说话人的声学指纹?方法上,作者以DeepSpeech为攻击目标,采用基于梯度的白盒攻击方法生成对抗样本,并创新性地从语音学角度(如元音中心化、辅音替换)分析扰动模式。与以往只关注转录准确率的工作不同,本文的核心贡献在于系统评估了对抗攻击对说话人验证系统(使用ECAPA-TDNN和ResNet模型)的影响,提出了“身份漂移”概念。实验结果显示,在VCTK数据集上,攻击的成功率与目标短语的语音复杂度和长度强相关:短元音丰富的短语(如“yes”)身份漂移很小(TMR=100%, d’≈9.6),而长且包含复杂辅音丛的短语(如pangrams)会导致严重的身份漂移(TMR低至44%, d’降至约3.0)。该研究的实际意义在于揭示了语音对抗攻击的双重危害,提示了未来防御系统需要同时考虑转录安全和身份安全。主要局限性在于研究仅限于理想化的白盒攻击设置,未探讨更现实的黑盒或过空气攻击场景。 🏗️ 模型架构 本文并未提出一个新的模型架构,而是分析现有系统在对抗攻击下的行为。整体攻击与分析框架如图1所示。 攻击流程:输入为干净音频波形x。攻击算法(基于梯度迭代优化)生成扰动δ,满足∥δ∥较小。输出为对抗音频x' = x + δ。x'在感知上与x相似,但会使ASR模型输出目标文本y_t。 评估流程: ASR评估:将x'输入DeepSpeech模型,得到对抗转录,与y_t对比。 说话人验证评估:将x和x'分别输入说话人嵌入提取器(ECAPA-TDNN或ResNet),得到嵌入f(x)和f(x')。计算两者余弦相似度,下降即表明“身份漂移”。同时,使用验证集评估在攻击后系统的区分能力(TMR@0.1%FMR和d’指标)。 关键组件: 目标ASR模型:DeepSpeech(基于CTC损失的端到端模型)。这是攻击的白盒目标。 攻击优化器:采用Carlini & Wagner式的迭代优化,最小化∥δ∥₂² + c · CTC-Loss(x + δ, y_t)。 说话人嵌入模型:ECAPA-TDNN和ResNet-based模型,用于提取说话人身份表征。 语音学分析:研究者手动或半自动分析对抗样本在音素级别产生的混淆模式(如元音、辅音的替换)。 💡 核心创新点 引入“身份漂移”概念来量化对抗攻击对说话人验证的影响:以往研究多孤立地看待ASR攻击或说话人验证攻击。本文明确将两者联系起来,指出针对ASR的扰动会附带地破坏说话人身份信息,并提出了系统的量化评估方法(d’, TMR)。 从语音学视角系统分析对抗扰动的模式:超越了简单的扰动幅度(SNR)度量,深入到语音的基本单位(音素),分析了扰动如何导致系统性的语音混淆(如元音中心化、摩擦音不稳定),并建立了语音学结构(如短语长度、音素类型)与攻击效果(身份漂移程度)之间的关联。 设计并评估了覆盖广泛语音现象的目标短语集:为了系统研究语音结构的影响,作者精心设计了16个目标短语(从单音节词到复杂的pangram),确保覆盖不同的元音、辅音、音节结构和重音模式,使实验分析更具说服力。 🔬 细节详述 训练数据: 数据集:VCTK Corpus [31],包含109位母语为英语的说话人的录音,具有多样化的口音。 数据使用:为每位说话者选择干净的源音频(未指定具体选择标准),生成109(说话者)× 16(目标短语)个源-目标攻击对。 预处理/增强:未在论文中详细说明。 损失函数: 攻击损失:L = ∥δ∥₂² + c · CTC-Loss(x + δ, y_t)。其中c是平衡系数,用于控制扰动大小与攻击成功率,具体值未说明。 训练策略: 攻击是优化过程,而非模型训练。采用迭代梯度方法进行优化直至收敛。优化器具体参数(如学习率、步长)未说明。 关键超参数: 扰动幅度约束:x + δ ∈ [-M, M],其中M为最大音频振幅,具体值未说明。 扭曲度量:使用信噪比(SNR, dB)来确保扰动不可感知。 训练硬件:在GPU上进行,具体型号和数量未说明。 推理/攻击细节:对每个源-目标对独立生成对抗样本。说话人验证评估使用标准协议,报告TMR@0.1%FMR和判别指数d’ [30]。 评估指标: TMR@0.1%FMR:在0.1%错误接受率下的真实匹配率。 d’(判别指数):衡量真实和冒名得分分布的分离度,值越小表示区分能力越差,身份漂移越严重。 SNR(dB):衡量扰动强度。 📊 实验结果 主要评估结果如下表所示(节选自Table I): ...

2026-04-29

Listen, But Don't Leak: Sensitive Data Protection for Privacy Aware Automatic Speech Recognition with Acoustic Triggers

📄 Listen, But Don’t Leak: Sensitive Data Protection for Privacy Aware Automatic Speech Recognition with Acoustic Triggers #语音识别 #对抗样本 #隐私保护 #模型微调 ✅ 7.5/10 | 前25% | #语音识别 | #对抗样本 | #隐私保护 #模型微调 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Trinita Roy(斯图加特大学自然语言处理研究所) 通讯作者:未说明 作者列表:Trinita Roy(斯图加特大学自然语言处理研究所)、Ngoc Thang Vu(斯图加特大学自然语言处理研究所) 💡 毒舌点评 这篇论文巧妙地将“攻击”变成了“防御”,把原本用于欺骗ASR的声学触发器,扭转为用户手中一个明确的“隐私保护”开关,这种概念转换本身就很有趣且实用。然而,它的“防御工事”是建立在特定训练数据和中小规模模型上的,如果现实世界中的ASR系统(比如GPT-4o、Gemini等)遇到一个未经此类训练的、更鲁棒的“触发器”或者根本忽略了这个高频信号,那所谓的“保护”可能就形同虚设了。 📌 核心摘要 要解决什么问题:随着自动语音识别(ASR)系统的广泛应用,其无意中转录用户的敏感或私人信息引发了严重的隐私担忧。现有的隐私保护方法多为后处理,难以在保护隐私和维持转录效用之间取得良好平衡。 方法核心是什么:本文提出了一种名为“保护性声学触发”(Protective Acoustic Triggering, PAT)的新方法。其核心是在音频输入中前置一个由双音合成的高频声学触发信号,并通过微调ASR模型(如Whisper),使其在检测到该触发信号时,自动将后续语音内容替换为特殊的<REDACTED>令牌,从而实现内置的、用户可控的隐私编辑。 与已有方法相比新在哪里:传统方法(如差分隐私、后处理过滤)是被动且滞后的。本文的创新在于:1) 范式转化:首次将用于攻击的声学对抗触发器,重新定义为一种主动的、防御性的隐私控制机制。2) 用户可控:触发器作为显式控制信号,让用户能实时、灵活地开启或关闭隐私保护模式。3) 端到端嵌入:将隐私意识直接嵌入ASR模型内部,而非依赖外部模块。 主要实验结果如何:在句子级编辑任务中,Whisper-small模型达到了99.47%的编辑成功率(RSR)。在更精细的短语级编辑任务中,该模型成功保护了97.7%的测试样本(即其中超过一半的敏感短语被编辑),对敏感短语的保护精度(PRA)为90.6%,同时在非敏感内容上的词错误率(WER)仅为10.9%,接近基线水平。关键实验结果如下: 模型 RSR (%) (句子级) WER (句子级) SRP (%) SRR (%) RSRp (%) PRA (%) WER (短语级) Whisper-tiny 98.70 10.2 92.8 90.4 96.4 86.2 11.1 Whisper-base 99.00 9.8 94.5 93.9 97.1 88.3 10.5 Whisper-small 99.47 9.6 95.3 94.2 97.7 90.6 10.9 实际意义是什么:该工作为构建隐私感知的ASR系统提供了一种新的思路。它赋予了用户对自身语音数据转录行为的显式控制权,有望应用于智能音箱、实时字幕、医疗/法律语音记录等对隐私敏感的场景,平衡了服务便利性与隐私安全。 主要局限性是什么:1) 模型与数据规模验证有限:实验仅在Whisper的tiny、base、small三个较小模型上进行,且使用了大量合成数据,其在更大、更强的ASR模型及真实、复杂对话数据上的有效性和鲁棒性尚未可知。2) 触发信号鲁棒性存疑:论文承认高频触发信号可能被简单的滤波器过滤或自然噪声干扰,其实际部署的可靠性面临挑战。3) 评估场景单一:评估基于朗读或合成语音,未涉及自发对话、多人重叠、远场拾音等更现实的复杂声学环境。 🏗️ 模型架构 论文描述了一种基于现有Whisper模型的微调方案,而非设计全新架构。其核心思想是在模型的输入和输出端分别进行适配,以学习“触发信号 -> 编辑行为”的映射。 ...

2026-04-29

Membership Inference Attack against Music Diffusion Models via Generative Manifold Perturbation

📄 Membership Inference Attack against Music Diffusion Models via Generative Manifold Perturbation #音频安全 #扩散模型 #对抗样本 #鲁棒性 ✅ 7.5/10 | 前25% | #音频安全 | #扩散模型 | #对抗样本 #鲁棒性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yuxuan Liu(未明确标注,按署名顺序为首位) 通讯作者:未明确标注 作者列表:Yuxuan Liu, Peihong Zhang, Rui Sang, Zhixin Li, Yizhou Tan, Yiqiang Cai, Shengchen Li(均来自Xi’an Jiaotong-Liverpool University, Suzhou, China) 💡 毒舌点评 亮点:首次系统性地将成员推断攻击聚焦于音乐扩散模型,并聪明地将对抗鲁棒性差异转化为Membership Inference的信号,其提出的LSA-Probe在低误报率关键指标上取得了显著且一致的提升。 短板:攻击方法依赖于多轮二分搜索和PGD优化,计算开销巨大,这使其在现实世界中作为大规模审计工具的可行性大打折扣;同时,攻击效果的绝对数值(例如DiffWave上最高的20% TPR@1%FPR)距离“可靠”的审计标准仍有相当差距。 📌 核心摘要 问题:扩散模型在音乐生成中表现出色,但其训练数据可能涉及版权与隐私问题。如何有效判断一段特定的音乐片段是否被用于训练某个音乐扩散模型(成员推断攻击,MIA),成为审计生成式音乐模型合规性的关键挑战。传统基于损失信号的MIA方法在音频领域效果不佳。 方法核心:本文提出Latent Stability Adversarial Probe(LSA-Probe),一种白盒攻击方法。其核心思想是:训练集中的“成员”样本位于模型生成流形的更稳定区域。该方法通过测量在反向扩散过程的中间潜状态中,使生成质量下降到一个固定感知阈值所需的最小归一化扰动预算(对抗成本)来评估这种稳定性。成员样本需要更大的扰动成本才能被降质。 创新点:与已有工作相比,LSA-Probe放弃了单一的端点重建损失信号,转而探测沿生成轨迹的动态几何稳定性。它是首个针对音乐扩散模型(包括波形DDPM和潜扩散模型LDM)的系统性MIA研究,并建立了局部生成稳定性与成员身份之间的联系。 主要结果:在DiffWave和MusicLDM两个模型,以及MAESTRO v3和FMA-Large两个数据集上的实验表明,在匹配计算量的前提下,LSA-Probe在低误报率(FPR=1%)下的真阳性率(TPR)比最佳基线方法高3-8个百分点。例如,在DiffWave/MAESTRO上,TPR@1%FPR从0.12提升至0.20。消融实验显示,中段扩散时间步、中等扰动预算以及感知度量(CDPAM/MR-STFT)的效果最优。 实际意义:为音乐版权持有者和审计方提供了一种潜在的技术工具,用于检测AI音乐生成模型是否未经授权使用了其作品进行训练,有助于规范生成式AI的发展。 主要局限性:攻击方法计算成本高(涉及多次PGD优化和反向传播);其有效性阈值(如TPR@1%FPR)虽有提升,但绝对值仍不高,在需要极低误报率的严格审计场景下实用性受限;评估模型和数据集范围有限。 🏗️ 模型架构 本文未提出新的生成模型架构,而是针对现有音乐扩散模型(DiffWave和MusicLDM)设计一种成员推断攻击方法。因此,架构描述主要围绕LSA-Probe攻击框架的流程。 LSA-Probe是一个双层循环优化过程(图1): ...

2026-04-29