AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness

📄 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness #音频水印 #音频安全 #Conformer #条件模型 #鲁棒性 ✅ 7.5/10 | 前25% | #音频水印 | #条件生成 | #音频安全 #Conformer 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Linxi Li(University of Warwick, OfSpectrum, Inc.) 通讯作者:未说明 作者列表:Linxi Li(University of Warwick, OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Yechen Wang(OfSpectrum, Inc.)、Houmin Sun(Duke Kunshan University)、Zi Hu(Duke Kunshan University)、Carsten Maple(University of Warwick) 💡 毒舌点评 亮点: 论文直面了现有音频水印方法在应对“极端”攻击(如剧烈变速、高损压缩、录音回放)时崩溃的痛点,并用一套设计周密的实验(包括真实环境下的手机录音回放)令人信服地展示了AURA模型在这些极端场景下近乎完美的鲁棒性,其性能提升是数量级的。短板: 论文引以为傲的“首个缩放定律研究”,其核心结论(如“宽深”模型最优)缺乏足够的理论支撑和普适性验证,目前更像是一次基于小规模网格搜索的经验性观察。此外,人类评估仅用24人测试40个样本,其统计显著性和代表性存疑,难以为“水印不可感知”的结论提供强有力背书。 ...

2026-04-29

ICASSP 2026 - 音频水印 论文列表

ICASSP 2026 - 音频水印 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with 7.5分 前25% 📋 论文详情 🥇 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness ✅ 7.5/10 | 前25% | #音频水印 | #条件生成 | #音频安全 #Conformer 👥 作者与机构 第一作者:Linxi Li(University of Warwick, OfSpectrum, Inc.) 通讯作者:未说明 作者列表:Linxi Li(University of Warwick, OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Yechen Wang(OfSpectrum, Inc.)、Houmin Sun(Duke Kunshan University)、Zi Hu(Duke Kunshan University)、Carsten Maple(University of Warwick) 💡 毒舌点评 ...

2026-04-29

The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures

📄 The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures #音频深度伪造检测 #领域适应 #知识蒸馏 #音频水印 #音频安全 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #领域适应 | #知识蒸馏 #音频水印 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhenshan Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心) 通讯作者:Ming Li(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心, ming.li369@dukekunshan.edu.cn) 作者列表:Zhenshan Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心)、Xueping Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心)、Yechen Wang(OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Ming Li(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心) 💡 毒舌点评 亮点:选题填补了一个重要的认知空白——系统量化了“水印”这种合法但普遍存在的人为扰动对反欺骗系统的“无差别攻击”效果,实验设计严谨(控制水印比例、类型分布),结论可靠。提出的KPWL框架在“已知水印”适应上取得了立竿见影的效果,思路清晰实用。 短板:在“未见水印”场景下的性能反而下降,暴露了当前方法对水印特异性的过拟合,极大限制了其在真实世界(水印类型未知且多样)中的应用价值,也说明“领域适应”的本质挑战并未被彻底解决。 📌 核心摘要 问题:本文首次研究了广泛使用的音频水印技术(为版权保护设计)对语音反欺骗(深度伪造检测)系统性能的影响,发现这种影响之前被完全忽视。 方法核心:构建了包含多种手工和DNN水印的“Watermark-Spoofing”数据集,并系统评估了现有模型性能下降的程度。提出名为“知识保留水印学习”(KPWL)的适应框架,通过在冻结前端(XLSR)和分类器的情况下微调中间层,并结合对称知识蒸馏与参数锚定,使模型能适应水印引入的分布偏移。 创新:首次揭示了音频水印是反欺骗系统面临的一种新的、未被研究的领域偏移源;首次构建了用于评估和缓解此问题的专用数据集与基准;提出了首个旨在同时适应水印并保留原始域检测能力的专用框架。 实验结果:在ASVspoof 2021 LA数据集上,当75%的样本被水印时,基线模型(XLSR+SLS)的EER从3.02%上升至3.68%。KPWL模型在相同条件下将EER降至3.21%,同时在干净数据上保持3.06%(与基线3.02%接近)。然而,在“未见水印”评估中,基线模型在75%水印(LA21)下EER为9.94%,而KPWL模型恶化至11.22%。 实际意义:提醒反欺骗系统开发者需考虑水印带来的鲁棒性挑战;为构建抗水印污染的反欺骗系统提供了首个基准和初步解决方案;揭示了水印技术可能对语音安全生态产生的意外副作用。 主要局限性:KPWL框架在应对未见过的水印类型时效果不佳甚至有害,表明当前方法的适应能力局限于训练时接触过的特定水印,泛化能力有待突破。 🏗️ 模型架构 本文的核心模型架构并非提出一种全新的端到端神经网络,而是提出了一种训练策略与框架(KPWL),用于适应现有的反欺骗模型以应对水印干扰。以论文中作为骨干的 XLSR+SLS 模型为例,其整体流程与KPWL框架的适配如下: ...

2026-04-29