ICASSP 2026 - 音频安全 论文列表

ICASSP 2026 - 音频安全 共 11 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems 8.5分 前25% 🥈 RoCo: Robust Code for Fast and Effective Proactive Defense a 7.5分 前25% 🥉 Membership Inference Attack against Music Diffusion Models v 7.5分 前25% 4. A Feature-Optimized Audio Watermarking Algorithm with Adapti 7.5分 前25% 5. Co-Initialization of Control Filter and Secondary Path via M 7.5分 前25% 6. LenslessMic: Audio Encryption and Authentication via Lensles 7.5分 前25% 7. Bloodroot: When Watermarking Turns Poisonous for Stealthy Ba 7.5分 前25% 8. Emotional Damage: Investigating Safety Vulnerabilities of La 7.5分 前25% 9. Audio-Text Jailbreak Attack on Large Audio-Language Models: 7.0分 前25% 10. PRoADS: Provably Secure And Robust Audio Diffusion Steganogr 6.5分 前50% 11. Linguard: Authenticating Speech Recordings Using Speech Reco 6.5分 前50% 📋 论文详情 🥇 HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems 🔥 8.5/10 | 前25% | #音频安全 | #时频分析 | #端到端 #工业应用 ...

2026-04-29

Impact of Phonetics on Speaker Identity in Adversarial Voice Attack

📄 Impact of Phonetics on Speaker Identity in Adversarial Voice Attack #说话人验证 #对抗样本 #语音识别 #音频安全 ✅ 7.0/10 | 前50% | #说话人验证 | #对抗样本 | #语音识别 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中作者按字母顺序列出,未明确标注第一作者) 通讯作者:未说明(论文中未提供通讯作者信息) 作者列表:Daniyal Kabir Dar(密歇根州立大学计算机科学与工程系)、Qiben Yan(密歇根州立大学计算机科学与工程系)、Li Xiao(密歇根州立大学计算机科学与工程系)、Arun Ross(密歇根州立大学计算机科学与工程系) 💡 毒舌点评 亮点在于将对抗扰动的分析从单纯的转录错误(WER/CER)提升到了语音学特征(元音、辅音)和说话人身份表征的层面,提出了“身份漂移”这个直观且有意义的概念。短板是整个研究框架(白盒攻击+评估指标)相对常规,对“为什么某些语音结构更容易引发漂移”这一核心问题的分析深度有限,更多是相关性观察而非因果解释。 📌 核心摘要 本文研究了针对自动语音识别(ASR)系统的对抗性语音攻击,如何同时影响说话人身份验证。论文的核心问题是:这些旨在改变转录文本的微小扰动,是否会破坏用于区分说话人的声学指纹?方法上,作者以DeepSpeech为攻击目标,采用基于梯度的白盒攻击方法生成对抗样本,并创新性地从语音学角度(如元音中心化、辅音替换)分析扰动模式。与以往只关注转录准确率的工作不同,本文的核心贡献在于系统评估了对抗攻击对说话人验证系统(使用ECAPA-TDNN和ResNet模型)的影响,提出了“身份漂移”概念。实验结果显示,在VCTK数据集上,攻击的成功率与目标短语的语音复杂度和长度强相关:短元音丰富的短语(如“yes”)身份漂移很小(TMR=100%, d’≈9.6),而长且包含复杂辅音丛的短语(如pangrams)会导致严重的身份漂移(TMR低至44%, d’降至约3.0)。该研究的实际意义在于揭示了语音对抗攻击的双重危害,提示了未来防御系统需要同时考虑转录安全和身份安全。主要局限性在于研究仅限于理想化的白盒攻击设置,未探讨更现实的黑盒或过空气攻击场景。 🏗️ 模型架构 本文并未提出一个新的模型架构,而是分析现有系统在对抗攻击下的行为。整体攻击与分析框架如图1所示。 攻击流程:输入为干净音频波形x。攻击算法(基于梯度迭代优化)生成扰动δ,满足∥δ∥较小。输出为对抗音频x' = x + δ。x'在感知上与x相似,但会使ASR模型输出目标文本y_t。 评估流程: ASR评估:将x'输入DeepSpeech模型,得到对抗转录,与y_t对比。 说话人验证评估:将x和x'分别输入说话人嵌入提取器(ECAPA-TDNN或ResNet),得到嵌入f(x)和f(x')。计算两者余弦相似度,下降即表明“身份漂移”。同时,使用验证集评估在攻击后系统的区分能力(TMR@0.1%FMR和d’指标)。 关键组件: 目标ASR模型:DeepSpeech(基于CTC损失的端到端模型)。这是攻击的白盒目标。 攻击优化器:采用Carlini & Wagner式的迭代优化,最小化∥δ∥₂² + c · CTC-Loss(x + δ, y_t)。 说话人嵌入模型:ECAPA-TDNN和ResNet-based模型,用于提取说话人身份表征。 语音学分析:研究者手动或半自动分析对抗样本在音素级别产生的混淆模式(如元音、辅音的替换)。 💡 核心创新点 引入“身份漂移”概念来量化对抗攻击对说话人验证的影响:以往研究多孤立地看待ASR攻击或说话人验证攻击。本文明确将两者联系起来,指出针对ASR的扰动会附带地破坏说话人身份信息,并提出了系统的量化评估方法(d’, TMR)。 从语音学视角系统分析对抗扰动的模式:超越了简单的扰动幅度(SNR)度量,深入到语音的基本单位(音素),分析了扰动如何导致系统性的语音混淆(如元音中心化、摩擦音不稳定),并建立了语音学结构(如短语长度、音素类型)与攻击效果(身份漂移程度)之间的关联。 设计并评估了覆盖广泛语音现象的目标短语集:为了系统研究语音结构的影响,作者精心设计了16个目标短语(从单音节词到复杂的pangram),确保覆盖不同的元音、辅音、音节结构和重音模式,使实验分析更具说服力。 🔬 细节详述 训练数据: 数据集:VCTK Corpus [31],包含109位母语为英语的说话人的录音,具有多样化的口音。 数据使用:为每位说话者选择干净的源音频(未指定具体选择标准),生成109(说话者)× 16(目标短语)个源-目标攻击对。 预处理/增强:未在论文中详细说明。 损失函数: 攻击损失:L = ∥δ∥₂² + c · CTC-Loss(x + δ, y_t)。其中c是平衡系数,用于控制扰动大小与攻击成功率,具体值未说明。 训练策略: 攻击是优化过程,而非模型训练。采用迭代梯度方法进行优化直至收敛。优化器具体参数(如学习率、步长)未说明。 关键超参数: 扰动幅度约束:x + δ ∈ [-M, M],其中M为最大音频振幅,具体值未说明。 扭曲度量:使用信噪比(SNR, dB)来确保扰动不可感知。 训练硬件:在GPU上进行,具体型号和数量未说明。 推理/攻击细节:对每个源-目标对独立生成对抗样本。说话人验证评估使用标准协议,报告TMR@0.1%FMR和判别指数d’ [30]。 评估指标: TMR@0.1%FMR:在0.1%错误接受率下的真实匹配率。 d’(判别指数):衡量真实和冒名得分分布的分离度,值越小表示区分能力越差,身份漂移越严重。 SNR(dB):衡量扰动强度。 📊 实验结果 主要评估结果如下表所示(节选自Table I): ...

2026-04-29

LenslessMic: Audio Encryption and Authentication via Lensless Computational Imaging

📄 LenslessMic: Audio Encryption and Authentication via Lensless Computational Imaging #音频安全 #无透镜成像 #神经音频编码 #音频分类 ✅ 7.5/10 | 前25% | #音频安全 | #无透镜成像 | #神经音频编码 #音频分类 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Petr Grinberg (Audiovisual Communications Laboratory, EPFL) 通讯作者:未说明(作者列表未标注,邮箱为共通格式 first.last@epfl.ch) 作者列表:Petr Grinberg (EPFL), Eric Bezzam (EPFL), Paolo Prandoni (EPFL), Martin Vetterli (EPFL)。所有作者均隶属于 EPFL 的 Audiovisual Communications Laboratory。 💡 毒舌点评 亮点:本文巧妙地将“无透镜相机的视觉隐私”这一特性,逆向思维用于“音频的隐私保护”,构建了一个从声到光再到密文的全新物理安全链路,构思颇具巧思。短板:系统实用性受制于笨重的硬件原型(需要显示器作为光源)和缓慢的采集速度,其宣称的“物理层安全”优势,在“已知明文攻击”下可能因音频帧尺寸过小而受到挑战,迫使采用更复杂(且效果更差)的帧分组策略来弥补。 📌 核心摘要 要解决什么问题:数字音频的安全传输目前主要依赖软件加密算法(如AES),论文旨在探索一种新的、基于物理硬件的补充性安全方案,为音频数据提供额外的保护层,以应对潜在的深度伪造、窃听等威胁。 方法核心是什么:提出LenslessMic,一个混合硬件-软件系统。其核心流程是:将音频信号通过神经音频编码器(NAC,具体使用DAC)压缩为潜在表示,将该表示重塑为图像帧;利用无透镜相机(一个基于可编程掩模的低成本原型DigiCam)对这些图像帧进行拍摄,得到多重散射的测量值(密文)。解密时,必须使用正确的点扩散函数(PSF,由掩模图案决定)对测量值进行逆向重建,恢复出潜在表示图像,再输入音频解码器恢复音频。 与已有方法相比新在哪里:(1) 跨模态安全范式:首次将无透镜成像的视觉隐私特性应用于音频加密,开辟了光学物理层安全在音频领域的新应用。(2) 融合架构创新:结合了NAC的鲁棒性(尤其是残差向量量化RVQ的容错能力)与无透镜成像的安全性,提出了完整的端到端加密-解密流程。(3) 主动安全机制:通过可编程掩模动态改变PSF,并结合帧分组(g)技术,主动增强系统对各类攻击的抵抗力。 主要实验结果如何:论文在多个数据集上进行了验证。关键结果如表2所示:使用在域数据(train-clean)训练的Learned模型,解密语音的ViSQOL为4.50,STOI达0.96,接近无加密的Ground-truth。安全性方面,图2显示当正确PSF像素比例W=7%时,WER已达100%,搜索空间等效于AES-256。认证实验(图3)显示,正确PSF与随机PSF的恢复结果在WER和UTMOS指标上可完美区分,认证准确率达100%。帧分组消融表明,g=2足以防御已知明文攻击(NoPSF模型WER=100%),但会轻微降低重建质量。 实际意义是什么:该研究为音频数据安全提供了一种新的防御维度——物理层安全。它证明了光学加密可以与先进的音频编码技术结合,在保证解密质量的同时,提供强大的加密强度和用户认证能力。其开源贡献有助于推动该交叉领域的研究。 主要局限性是什么:(1) 硬件实用性:当前原型依赖电脑显示器作为光源,体积大,不适合实际部署;采集速度慢,存储开销大于原始音频。(2) 质量与安全的权衡:增强安全性(如增大g)会导致解密质量下降。(3) 泛化能力:模型在跨音频类型(语音到音乐)和跨编码器(DAC到X-Codec)时性能有下降,表明系统对特定编码格式有依赖性。(4) 潜在攻击面:论文承认小尺寸音频帧可能使已知明文攻击在理论上可行,尽管通过增大g进行了缓解。 🏗️ 模型架构 LenslessMic是一个端到端的音频加密与认证系统,其架构包含编码、加密(物理拍摄)、解密(重建)和解码四个主要阶段。 ...

2026-04-29

Linguard: Authenticating Speech Recordings Using Speech Recognition and Watermark

📄 Linguard: Authenticating Speech Recordings Using Speech Recognition and Watermark #音频安全 #语音识别 #说话人验证 #信号处理 ✅ 6.5/10 | 前50% | #音频安全 | #信号处理 | #语音识别 #说话人验证 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Shameer Faziludeen(University College Cork, School of Computer Science and Information Technology) 通讯作者:未明确说明(论文提供的是所有作者的邮箱,未指定通讯作者) 作者列表: Shameer Faziludeen(University College Cork) Arun Sankar M. S.(South East Technological University, Department of Electronics and Communication Engineering) Phillip L. De Leon(University of Colorado Denver, Department of Electrical Engineering) Utz Roedig(University College Cork) 💡 毒舌点评 亮点:系统架构设计巧妙,将数字签名、水印和语音处理技术解耦又紧密结合,实现了“内容签名”而非“信号签名”的理念,概念上清晰且实用。 短板:实验部分过于依赖单一数据集(TIMIT)且规模较小,缺乏对抗真实世界复杂攻击(如高质量语音克隆替换)的评估,结论的普适性存疑;同时,系统各环节的容错与性能边界分析不足。 ...

2026-04-29

Membership Inference Attack against Music Diffusion Models via Generative Manifold Perturbation

📄 Membership Inference Attack against Music Diffusion Models via Generative Manifold Perturbation #音频安全 #扩散模型 #对抗样本 #鲁棒性 ✅ 7.5/10 | 前25% | #音频安全 | #扩散模型 | #对抗样本 #鲁棒性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yuxuan Liu(未明确标注,按署名顺序为首位) 通讯作者:未明确标注 作者列表:Yuxuan Liu, Peihong Zhang, Rui Sang, Zhixin Li, Yizhou Tan, Yiqiang Cai, Shengchen Li(均来自Xi’an Jiaotong-Liverpool University, Suzhou, China) 💡 毒舌点评 亮点:首次系统性地将成员推断攻击聚焦于音乐扩散模型,并聪明地将对抗鲁棒性差异转化为Membership Inference的信号,其提出的LSA-Probe在低误报率关键指标上取得了显著且一致的提升。 短板:攻击方法依赖于多轮二分搜索和PGD优化,计算开销巨大,这使其在现实世界中作为大规模审计工具的可行性大打折扣;同时,攻击效果的绝对数值(例如DiffWave上最高的20% TPR@1%FPR)距离“可靠”的审计标准仍有相当差距。 📌 核心摘要 问题:扩散模型在音乐生成中表现出色,但其训练数据可能涉及版权与隐私问题。如何有效判断一段特定的音乐片段是否被用于训练某个音乐扩散模型(成员推断攻击,MIA),成为审计生成式音乐模型合规性的关键挑战。传统基于损失信号的MIA方法在音频领域效果不佳。 方法核心:本文提出Latent Stability Adversarial Probe(LSA-Probe),一种白盒攻击方法。其核心思想是:训练集中的“成员”样本位于模型生成流形的更稳定区域。该方法通过测量在反向扩散过程的中间潜状态中,使生成质量下降到一个固定感知阈值所需的最小归一化扰动预算(对抗成本)来评估这种稳定性。成员样本需要更大的扰动成本才能被降质。 创新点:与已有工作相比,LSA-Probe放弃了单一的端点重建损失信号,转而探测沿生成轨迹的动态几何稳定性。它是首个针对音乐扩散模型(包括波形DDPM和潜扩散模型LDM)的系统性MIA研究,并建立了局部生成稳定性与成员身份之间的联系。 主要结果:在DiffWave和MusicLDM两个模型,以及MAESTRO v3和FMA-Large两个数据集上的实验表明,在匹配计算量的前提下,LSA-Probe在低误报率(FPR=1%)下的真阳性率(TPR)比最佳基线方法高3-8个百分点。例如,在DiffWave/MAESTRO上,TPR@1%FPR从0.12提升至0.20。消融实验显示,中段扩散时间步、中等扰动预算以及感知度量(CDPAM/MR-STFT)的效果最优。 实际意义:为音乐版权持有者和审计方提供了一种潜在的技术工具,用于检测AI音乐生成模型是否未经授权使用了其作品进行训练,有助于规范生成式AI的发展。 主要局限性:攻击方法计算成本高(涉及多次PGD优化和反向传播);其有效性阈值(如TPR@1%FPR)虽有提升,但绝对值仍不高,在需要极低误报率的严格审计场景下实用性受限;评估模型和数据集范围有限。 🏗️ 模型架构 本文未提出新的生成模型架构,而是针对现有音乐扩散模型(DiffWave和MusicLDM)设计一种成员推断攻击方法。因此,架构描述主要围绕LSA-Probe攻击框架的流程。 LSA-Probe是一个双层循环优化过程(图1): ...

2026-04-29

Mitigating Data Replication in Text-to-Audio Generative Diffusion Models Through Anti-Memorization Guidance

📄 Mitigating Data Replication in Text-to-Audio Generative Diffusion Models Through Anti-Memorization Guidance #音频生成 #扩散模型 #音频安全 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音频安全 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Francisco Messina(米兰理工大学,电子、信息与生物工程系) 通讯作者:未说明 作者列表:Francisco Messina(米兰理工大学,电子、信息与生物工程系)、Francesca Ronchini(米兰理工大学,电子、信息与生物工程系)、Luca Comanducci(米兰理工大学,电子、信息与生物工程系)、Paolo Bestagini(米兰理工大学,电子、信息与生物工程系)、Fabio Antonacci(米兰理工大学,电子、信息与生物工程系) 💡 毒舌点评 这篇论文的亮点在于其明确的现实关切和扎实的工程实现:首次系统性地将反记忆化指导框架引入音频生成领域,并通过详尽的消融实验证明了其有效性,为解决AIGC的版权困境提供了即插即用的思路。然而,其短板也十分明显:核心方法(AMG)并非原创,只是适配和应用,且实验仅限于单一模型(Stable Audio Open)和相对基础的指标,缺乏与更前沿的音频生成系统(如AudioLDM 2、MusicLM)的对比,说服力打了折扣。 📌 核心摘要 要解决什么问题:文本到音频扩散模型在推理时可能无意中生成与训练数据高度相似甚至完全复制的音频片段,引发数据记忆化问题,对版权和知识产权构成威胁。 方法核心是什么:采用反记忆化指导(AMG)框架,在推理时的去噪过程中监测生成内容与训练集的相似度。当相似度超过阈值时,通过三种策略引导生成过程远离记忆化样本:减少过于具体的提示词影响(Despecification Guidance)、将重复的提示词作为负面条件(Caption Deduplication Guidance)、以及主动在嵌入空间中远离最近邻(Dissimilarity Guidance)。 与已有方法相比新在哪里:这是首次将AMG框架应用于音频生成模型的缓解数据记忆化研究。与需要重训练或修改提示词的方法相比,AMG是一种纯推理时的后处理方案,无需重新训练模型,具有即插即用的优势。 主要实验结果如何: 定量结果(消融实验,见Table 1):与无缓解策略的基线(Mean Similarity CLAP: 0.69)相比,完整AMG方法(Full AMG)将平均相似度显著降低至0.40(CLAPlaion)和0.89(MERT)。其中,差异性指导(gsim)单独作用效果最强。 定性结果:图1(频谱图)显示,经AMG生成的音频在时频结构上与原训练音频明显不同。图2(结构相似性矩阵)表明,应用AMG后,生成音频与训练音频的逐帧高相似度区域从对角线偏移。图3(t-SNE可视化)显示,应用AMG的生成样本在嵌入空间中与原始训练数据分布分离,更加分散。 音频质量与提示遵循度:消融实验显示,在降低相似度的同时,提示遵循度(CLAPScore)从基线的0.32下降至Full AMG的0.14,存在权衡。但值得注意的是,FAD(Fréchet Audio Distance)指标反而从基线的4.27(CLAPlaion)改善至2.57,表明生成音频的多样性可能增加,更接近整体数据分布。 实际意义是什么:为构建更负责任、更合规的文本到音频生成系统提供了一种有效的、无需重训练的推理时工具,有助于缓解生成式AI的版权风险。 主要局限性是什么:方法的核心组件并非原创;实验仅在单一的开源模型和数据集上进行,泛化性有待验证;在降低记忆化的同时,可能会牺牲一部分提示遵循度;框架的计算开销(需要计算相似度和梯度)尚未详细讨论。 🏗️ 模型架构 论文研究的对象是潜在扩散模型(Latent Diffusion Model, LDM),其架构分为两个部分:编码器-解码器对和扩散模型本身。本文的贡献不在于设计新架构,而是提出一种适用于现有架构的推理时干预框架。 ...

2026-04-29

Multi-Task Transformer for Explainable Speech Deepfake Detection via Formant Modeling

📄 Multi-Task Transformer for Explainable Speech Deepfake Detection via Formant Modeling #语音伪造检测 #多任务学习 #Transformer #音频安全 ✅ 7.5/10 | 前25% | #语音伪造检测 | #多任务学习 | #Transformer #音频安全 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Viola Negroni (Politecnico di Milano, 意大利米兰理工大学电子、信息与生物工程系) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Viola Negroni (Politecnico di Milano), Luca Cuccovillo† (Fraunhofer IDMT), Paolo Bestagini (Politecnico di Milano), Patrick Aichroth† (Fraunhofer IDMT), Stefano Tubaro (Politecnico di Milano)。 和 † 对应其所属机构。 💡 毒舌点评 这篇论文的亮点在于其“设计即解释”的思路,通过引入共振峰预测和发声区域检测作为辅助任务,让模型决策过程更具物理意义,而非纯粹的黑箱分类。然而,其短板也十分明显:与自身前代模型的对比固然重要,但若想在领域内立足,缺少与 AASIST、RawNet2 等经典基线的直接较量,说服力难免打折扣;更致命的是,全文只字未提开源计划,让“可复现性”在实践中沦为一句空话。 ...

2026-04-29

PADAM: Perceptual Audio Defect Assessment Model

📄 PADAM: Perceptual Audio Defect Assessment Model #音频分类 #对比学习 #预训练 #音频安全 ✅ 7.0/10 | 前50% | #音频分类 | #对比学习 | #预训练 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Alex Mackin, Pratha Khandelwal(共同贡献,论文中未明确区分第一作者) 通讯作者:论文中未明确标注通讯作者 作者列表:Alex Mackin (Amazon Prime Video), Pratha Khandelwal (Amazon Prime Video), Veneta Haralampieva (Amazon Prime Video), Michael Lau (Amazon Prime Video), Benoit Vallade (Amazon Prime Video), David Higham (Amazon Prime Video), Josh Anderson (Amazon Prime Video) 💡 毒舌点评 亮点:合成缺陷生成流程设计得相当扎实,考虑了从源到转码的整个制作管道,并针对七种缺陷给出了具体的生成算法和参数范围,这使得模型训练数据更贴近真实的工业场景。短板:模型在区分“技术缺陷”和“创意意图”上表现拙劣(生产评估中68.1%的“问题”实为创意意图),这暴露了纯信号层面检测的根本局限,也让“无参考感知评估”的“感知”二字打了折扣。 ...

2026-04-29

PRoADS: Provably Secure And Robust Audio Diffusion Steganography With Latent Optimization And Backward Euler Inversion

📄 PRoADS: Provably Secure And Robust Audio Diffusion Steganography With Latent Optimization And Backward Euler Inversion #音频安全 #扩散模型 #音频生成 ✅ 6.5/10 | 前50% | #音频安全 | #扩散模型 | #音频生成 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Yongpeng Yan(武汉大学国家网络安全学院) 通讯作者:Yanzhen Ren(武汉大学国家网络安全学院) 作者列表:Yongpeng Yan(武汉大学国家网络安全学院),Yanan Li(武汉大学国家网络安全学院),Qiyang Xiao(武汉大学国家网络安全学院),Yanzhen Ren(武汉大学国家网络安全学院,武汉大学航空航天信息安全与可信计算教育部重点实验室) 💡 毒舌点评 亮点: 本文精准地抓住了“初始噪声嵌入式”扩散隐写方法在逆向提取时的痛点——重建误差,并针对性地提出了“潜在空间优化”和“后向欧拉反演”两个技术改进,实验结果也清晰地证明了其有效性(BER显著降低),是一篇问题导向明确、解决方案扎实的改进型工作。 短板: 论文最大的软肋在于其核心实验基础——EzAudio模型——的复现信息几乎完全缺失,且未开源任何代码,这使得其宣称的“可复现”和“高效”大打折扣;同时,提取过程的高计算开销(106秒 vs 6.8秒)限制了其实时应用场景,论文对此的讨论也较为轻描淡写。 📌 核心摘要 本文旨在解决基于扩散模型的生成式音频隐写术中,由于扩散模型逆向过程误差导致的秘密消息提取比特错误率(BER)过高的问题。其核心方法是提出PRoADS框架,通过正交矩阵投影将消息嵌入扩散模型初始噪声,并引入两项关键技术来最小化逆向误差:一是在编码器将隐写音频转为潜在表示后,进行潜在空间梯度优化以逼近原始潜在变量;二是采用更精确的后向欧拉迭代法替代朴素的DDIM反演来求解扩散逆过程。与现有方法(如Hu[17])相比,本文的主要新意在于同时从“潜在变量重构”和“扩散逆过程求解”两个层面减少误差。实验表明,在EzAudio模型上,PRoADS在64 kbps MP3压缩攻击下实现了0.15%的低BER,相比基线方法有显著提升(例如在DPMSolver下,较Hu[17]降低约0.5%)。该工作的实际意义在于为生成式音频隐写提供了更高鲁棒性的解决方案,主要局限性是提取过程计算开销大(106秒),且未提供开源代码和详细模型参数,限制了复现与应用。 🏗️ 模型架构 本文提出的PRoADS是一个音频隐写框架,其完整流程如下: 消息嵌入与隐写音频生成: 输入:秘密消息二进制比特流、一个预训练的音频扩散模型(EzAudio)及其编码器E(·)和解码器D(·)。 过程:首先,通过正交矩阵投影将消息映射为一个噪声矩阵,并填充、置乱、重塑为与模型潜在空间匹配的初始噪声zs。然后,使用标准的音频扩散模型生成过程(与正常生成完全相同)将zs转换为隐写音频x。 输出:隐写音频x。 秘密消息提取: 输入:接收到的(可能被攻击的)隐写音频x、相同的扩散模型及参数。 过程: 潜在空间优化(Latent Optimization):使用编码器E(·)将音频x编码为潜在表示z。由于编码器非完美可逆,通过梯度下降优化z,使其解码后尽可能还原x,得到优化后的潜在变量z。此步骤由Algorithm 1(功率法/梯度下降)实现。 后向欧拉反演(Backward Euler Inversion):将优化后的z作为扩散逆过程的起点。采用后向欧拉迭代法(而非标准DDIM的显式近似)逐步逆向求解扩散ODE,以更高精度恢复初始噪声z_hat_t0。论文提供了基于DDIM的一阶求解器(Algorithm 2)和基于DPM-Solver的二阶求解器(Algorithm 3)两种实现。 消息恢复:对恢复的初始噪声z_hat_t0执行与嵌入过程相反的操作(逆置乱、裁剪、正交矩阵逆投影)得到原始消息比特M。 输出:提取的秘密消息M。 图1展示了上述框架。左侧为嵌入与生成流程:消息M经投影、填充、置乱、重塑得到zs,再通过扩散模型生成x。右侧为提取流程:对x进行潜在空间优化得到z*,然后通过后向欧拉反演恢复初始噪声,最后经逆操作得到消息M。图中明确区分了正常生成(虚线箭头)与隐写过程(实线箭头),并突出了潜在优化和后向欧拉反演两个核心模块。 💡 核心创新点 潜在空间优化以减少编码器重构误差:针对潜在扩散模型中编码器-解码器非完美对偶性导致的潜在变量重建误差,提出在消息提取前对编码后的潜在表示进行基于梯度的迭代优化,使其更接近原始生成时的潜在状态,从而减少后续逆向过程的输入误差。 后向欧拉反演替代朴素扩散逆向:指出并解决现有初始噪声嵌入方法所使用的朴素逆向(如DDIM反演)在数值求解上的不精确性。通过引入隐式求解的后向欧拉迭代法,将相邻时间步的误差控制在阈值ϵ内,显著提高了初始噪声的恢复精度。论文为此提供了针对一阶(DDIM)和二阶(DPM-Solver)求解器的具体算法。 适用于音频潜在空间的嵌入算法适配:对基于正交矩阵的消息嵌入算法进行调整,以适应音频扩散模型通常具有的不同形状的潜在空间(如[E, T]),引入了填充(Padding)和重塑(Reshape)操作。 🔬 细节详述 训练数据:使用了AudioCaps数据集进行实验。论文未说明训练集、验证集、测试集的划分,也未说明数据预处理细节(如音频长度、采样率统一化方法)。 损失函数:论文中未提及训练损失函数。本文工作是免训练的,其核心方法(潜在优化、后向欧拉反演)应用于预训练好的扩散模型(EzAudio),无需针对隐写任务进行重新训练。 训练策略:不适用。论文未进行任何模型训练。 关键超参数: 潜在优化:迭代步数n和步长h(未说明具体数值)。 后向欧拉反演:迭代步长h和收敛阈值ϵ(未说明具体数值)。 嵌入容量:统一为57344(14 × 64 × 64)比特。 扩散模型调度器:对比了DDIM和DPM-Solver。 训练硬件:未说明。 推理细节: 生成端:生成10秒24kHz音频耗时6.8秒,与正常生成过程无异。 提取端:由于需要迭代求解逆向过程,提取过程耗时106秒。论文承认计算开销大,但认为准确性更重要。 正则化或稳定训练技巧:不适用。 📊 实验结果 论文在AudioCaps数据集上,使用EzAudio模型评估了多种攻击下的比特错误率(BER)。 ...

2026-04-29

RoCo: Robust Code for Fast and Effective Proactive Defense against Voice Cloning Attack

📄 RoCo: Robust Code for Fast and Effective Proactive Defense against Voice Cloning Attack #音频安全 #对抗样本 #语音克隆 #语音合成 #鲁棒性 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #语音克隆 #语音合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Seungmin Kim(松石大学, Soongsil University) 通讯作者:Daeseon Choi(松石大学, Soongsil University, sunchoi@ssu.ac.kr) 作者列表:Seungmin Kim(松石大学)、Dain Kim(松石大学)、Sohee Park(松石大学)、Daeseon Choi(松石大学)。论文指出Seungmin Kim和Dain Kim为共同第一作者。 💡 毒舌点评 RoCo巧妙地将主动防御的“战场”从脆弱的波形域转移到结构更稳定的编解码器潜在空间,并利用STE优雅地解决了离散优化问题,这是一个在架构层面令人耳目一新的设计。然而,该防御策略本质上是针对特定语音合成管线的“寄生式”扰动,其长期有效性高度依赖于攻击模型编解码器的结构稳定性,一旦遇到更强的自适应净化攻击或完全不同的合成架构,其鲁棒性承诺就可能大打折扣。 📌 核心摘要 本文提出RoCo,一种基于神经音频编解码器(Neural Codec)的主动防御方法,旨在解决语音克隆攻击。该方法面临两大核心问题:1)现有防御注入的扰动易被语音增强技术去除;2)生成防御语音的速度过慢,不实用。RoCo的核心方法是:不在原始音频上直接添加扰动,而是在编解码器提取的离散潜在码序列后,额外追加一个专门优化的扰动码(Perturbation Code)。该扰动码使用直通估计器(STE)进行梯度优化,以干扰攻击模型中的说话人编码器。为平衡防御强度和音质,RoCo采用两阶段损失优化策略:先优化目标损失(Target Loss)以最大化防御效果,当扰动码强度达到阈值后,切换为信噪比损失(SNR Loss)以修复音质。与AntiFake、AttackVC、VoiceGuard等基线方法相比,RoCo在多个攻击模型(SV2TTS, YourTTS, AVC)和验证模型(ECAPA, ResNet, RSZ)上取得了更高的防御成功率(DSR)。更重要的是,经语音增强(如Spectral Masking, DeepFilterNet, MP-SENet)后,RoCo的DSR平均下降约15%,而基线方法平均下降约38%,表现出更强的鲁棒性。同时,RoCo生成防御语音的速度显著快于基线(例如在AVC模型上仅需13秒,而基线需要40-122秒)。该工作的实际意义在于提供了一种更快速、更抗干扰的语音隐私主动保护方案。其主要局限在于:方法的防御效果依赖于目标攻击模型采用的特定编解码器架构;论文未评估面对自适应净化攻击或更强大攻击模型时的性能。 ...

2026-04-29