A Feature-Optimized Audio Watermarking Algorithm with Adaptive Embedding Strength
📄 A Feature-Optimized Audio Watermarking Algorithm with Adaptive Embedding Strength #音频安全 #深度学习 #鲁棒性 #信号处理 ✅ 7.5/10 | 前25% | #音频安全 | #深度学习 | #鲁棒性 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Weili Zhou(厦门大学信息学院、管理学院) 通讯作者:Shuangyuan Yang(厦门大学信息学院) 作者列表:Weili Zhou(厦门大学信息学院、管理学院,共同第一作者)、Jiabei Zhou(厦门大学信息学院,共同第一作者)、Shuangyuan Yang(厦门大学信息学院,通讯作者) 💡 毒舌点评 亮点在于将Transformer的特征提取能力与NSGA-II多目标优化框架巧妙结合,为“嵌入强度”这一传统难题提供了自适应解决方案,在实验数据上实现了容量、不可感知性与鲁棒性的较好平衡。短板是论文理论分析稍显薄弱,未能深入阐释Transformer编码器为何及如何在水印任务中优于传统模块,且优化策略(NSGA-II)的离线性质对实时性场景的适用性讨论不足。 📌 核心摘要 本文针对现有音频水印方法在嵌入容量、不可感知性和鲁棒性之间难以平衡,且跨音频类型泛化能力有限的问题,提出了一种名为AESAW的音频水印算法。该方法的核心是:1)利用Transformer编码器层来优化水印的特征表示,提升其与音频信号的融合质量;2)引入NSGA-II多目标优化算法,以信噪比(SNR)和误码率(BER)为目标,自适应地调整嵌入强度。实验在FMA音乐和VCTK语音数据集上进行,结果表明AESAW在保持较高嵌入容量(86 bps)的同时,实现了出色的不可感知性(音乐SNR 31.2 dB,语音SNR 26.7 dB)和强大的鲁棒性(在重采样、裁剪、重量化等攻击下BER接近0%)。与传统方法(SVD-DWT, SIFT-DWT)和现有深度学习方法(DeAR, AudioSeal)相比,AESAW在性能上具有明显优势。其实际意义在于为音频版权保护提供了一种更可靠的技术方案。主要局限性在于NSGA-II的优化过程是离线的,论文未详细探讨其对不同类型音频的实时嵌入适应性以及在实际部署中的计算开销。 实验结果关键数据对比表: 方法 数据集 容量 SNR (dB) 无攻击BER(%) AWGN BER(%) 重采样BER(%) 重量化BER(%) 回声BER(%) 幅度缩放BER(%) SVD-DWT 音乐 102 bps 25.3 0 1.79 0.10 1.01 1.46 0.10 SIFT-DWT 音乐 102 bps 28.1 0 0.29 0.07 0 0 1.00 DeAR 音乐 9 bps 23.2 0 0 0 0 4.20 0 AudioSeal 音乐 16 bps 22.67 2.00 3.50 1.81 1.81 4.25 2.06 AESAW 音乐 86 bps 31.2 0 0.14 0 0 0.01 0 SVD-DWT 语音 102 bps 25.3 0 0.16 0 0 1.92 0 SIFT-DWT 语音 102 bps 31.2 0 0.20 0.16 0.03 - 4.30 DeAR 语音 9 bps 20.5 0 0 0 0 11.6 0 AudioSeal 语音 16 bps 27.96 0 16.25 0 7.50 0 0 AESAW 语音 86 bps 26.7 0 0.03 0 0 0.22 0 🏗️ 模型架构 AESAW的整体框架由三个核心模块构成:水印嵌入器、攻击层和水印提取器。 AESAW总体框架 ...