Latent Secret Spin: Keyed Orthogonal Rotations for Blind Speech Watermarking in Anisotropic Latent Spaces

📄 Latent Secret Spin: Keyed Orthogonal Rotations for Blind Speech Watermarking in Anisotropic Latent Spaces #音频水印 #主成分分析 #潜在空间操作 #神经编解码器 #鲁棒性 📝 5.5/10 | 前50% | #音频水印 | #主成分分析 | #潜在空间操作 #神经编解码器 | arxiv 学术质量 5.5/8 | 影响力 0.5/2 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Emma Coletta (EURECOM) 通讯作者:未明确说明(论文中未明确指定通讯作者,通常通讯作者为资深作者,但未显式标注) 作者列表:Emma Coletta (EURECOM)、Massimiliano Todisco (EURECOM)、Michele Panariello (EURECOM)、Antonio Faonio (EURECOM)、Nicholas Evans (EURECOM) 💡 毒舌点评 LSS的核心思想——在PCA空间利用各向异性进行微小旋转来诱导协方差变化——确实优雅且具备可解释性,为神经水印提供了一个纯几何的、无需训练的新视角。然而,其“轻量级”光环在很大程度上是以牺牲对更复杂、更贴近实战的攻击(如自适应攻击、裁剪拼接)的严格评估为代价的,使得该方法在安全关键应用中的可靠性存疑。 📌 核心摘要 问题:随着AI生成语音的泛滥,可靠的盲语音水印技术对于内容溯源和真实性验证至关重要。现有学习型水印方法(如WavMark, AudioSeal)虽然有效,但需要端到端训练,且部分方法(如AudioSeal)的负载固定,鲁棒性依赖训练数据覆盖。 方法核心:提出Latent Secret Spin (LSS),一种基于几何操作的盲语音水印框架。其核心是在预训练神经语音编解码器(如EnCodec)的潜在空间中,首先通过PCA获得一组正交基(主成分)。嵌入时,根据密钥生成的伪随机调度,在选定的主成分平面(各向异性平面)内对潜在特征施加微小的正交旋转。这些旋转会在平面的协方差矩阵中引入可预测的离对角项变化。检测时,在相同密钥控制下,重新计算这些特定平面上的归一化协方差,并与已知的负载和芯片序列进行累积,形成一个检测分数,分数超过阈值则判定存在水印。 新颖性:LSS是首个明确利用在主成分空间中通过几何旋转诱导可控协方差模式来进行语音水印和负载嵌入的方法。它完全不需要训练嵌入器或检测器网络,仅依赖于一个预训练编解码器和一组固定的PCA基,实现了水印嵌入/检测与编解码器的解耦,提供了更好的可解释性和跨模型泛化潜力。 实验结果:实验在VoxPopuli和ASVspoof5数据集上进行,内外部域场景下检测AUC均超过99.3%。在非恶意扰动(滤波、压缩、加噪)下,LSS的平均AUC为95.6%,略低于AudioSeal(97.2%),但在低通滤波(1kHz)场景下优于后者。感知质量方面,水印引入的平均PESQ下降小于0.2。 操纵类型 条件 LSS AUC (%) AudioSeal AUC (%) 无操纵 - 99.6 100.0 低通滤波 fc=1kHz 96.5 67.8 低通滤波 fc=1.5kHz 98.1 100.0 高通滤波 fc=1kHz 87.3 100.0 高通滤波 fc=1.5kHz 80.3 100.0 带通滤波 500Hz – 5kHz 97.4 100.0 MP3压缩 32kbps 99.5 100.0 重采样 24->16->24 kHz 99.7 100.0 白噪声 SNR = 5dB 94.8 99.8 白噪声 SNR = 20dB 99.3 100.0 粉噪声 SNR = 5dB 95.6 99.9 粉噪声 SNR = 20dB 99.4 100.0 平均 95.6 97.2 实际意义:LSS为语音水印领域引入了一种可解释、轻量级且灵活(负载可调)的新范式。它不依赖特定模型训练,降低了部署门槛,并可能启发其他在表示学习空间中进行几何操作的安全应用。 局限性:论文评估仅限于良性、非恶意的信号处理扰动,未评估针对水印的自适应对抗攻击(如梯度攻击去除水印)。对时间轴上的篡改(如剪切、拼接)的鲁棒性未充分研究。感知质量仅依赖客观指标PESQ,缺乏主观听力测试验证。 🔗 开源详情 代码:https://github.com/eurecom-asp/lss (论文第5.2节脚注明确指出代码和示例音频在此仓库) 模型权重:论文中未提及 数据集: VoxPopuli:论文中提到使用其英文子集(100小时无标注数据用于PCA估计,10k条用于评估)。获取方式通常通过官方途径(如申请),但论文中未提供具体链接。 ASVspoof 5:论文中提到使用其评估分区中的无压缩真实语音(约35k条,其中10k用于评估,25k用于PCA估计)。获取方式需遵循ASVspoof挑战赛的官方数据发布渠道,论文中未提供具体链接。 Demo:论文中未提及 复现材料:论文在“5.2 Configuration”节提供了详细的复现参数,包括:使用预训练的EnCodec编解码器(24kHz,6.0kbps目标带宽);特征维度n=128;帧率75Hz;分块大小M=32帧;子块大小L=8帧;使用P=24个平面;旋转角度θ=0.18 rad。这些信息已足以复现实验结果。 论文中引用的开源项目: EnCodec:论文使用的预训练神经音频编解码器。脚注中提供了其官方代码链接:https://github.com/facebookresearch/encodec。 WavMark:论文在相关工作部分提及的语音水印方法,但未提供其代码链接。 AudioSeal:论文在相关工作及实验比较部分提及的语音水印方法,但未提供其代码链接。 🏗️ 方法概述和架构 图2:LSS水印嵌入与检测流程概览。在嵌入时,输入信号x被编码为潜在特征F,投影到主成分空间为Z,经水印处理后得到Z*,映射回潜在空间F*,最后解码回水印语音x*。检测时,待测信号同样被编码并投影到相同空间,然后进行水印检测。 ...

2026-05-12 · 更新于 2026-05-19 · 3 min · 446 words

Asymmetric Phase Coding Audio Watermarking

📄 Asymmetric Phase Coding Audio Watermarking #音频水印 #音频安全 #信号处理 #鲁棒性 ✅ 7.0/10 | #音频水印 #音频安全 | arxiv 👥 作者与机构 第一作者:Guang Yang (University of California, Los Angeles) 通讯作者:未说明 作者列表:Guang Yang (University of California, Los Angeles), Amir Ghasemian (University of California, Los Angeles), Ninareh Mehrabi (Meta), Homa Hosseinmardi (University of California, Los Angeles) 💡 毒舌点评 亮点:该工作成功地将公钥密码学(Ed25519签名)与信号处理(相位编码、QIM)结合,提出了一种无需训练、可解释且具有不可否认性的音频水印方案,填补了传统信号水印缺乏认证能力和神经网络水印需训练且易伪造的空白。短板:其核心方法“相位编码”并非全新,与已有相位编码水印(论文也承认了)的区分度主要体现在结合了公钥签名和更精细的鲁棒性设计上,且为获得鲁棒性牺牲了相当可观的主观音质(PESQ下降约0.5),在“不可感知”这一水印关键指标上存在明显妥协。 📌 核心摘要 问题:深度伪造音频威胁语音认证,被动检测器易受生成模型演化和信道失真影响。现有音频水印方案要么缺乏密码学不可否认性(如经典方法),要么需要大量数据训练且验证长度短(如神经网络方法)。 方法核心:提出非对称相位编码(APC)方案。它是一个免训练的密码学签名层,通过伪随机选择STFT相位频点(相位通道)和相邻对数幅度差量化(幅度-QIM通道)并行嵌入同一个经Ed25519签名、Reed-Solomon编码的1160比特负载(包含64字节签名)。提取时利用公钥重新生成频点并解码,任一通道验证通过即认证成功。 与已有方法区别:相较于经典信号处理水印,APC通过集成公钥签名实现了密码学级别的非否认性。相较于神经网络水印(AudioSeal, WavMark),APC免训练、无模型依赖、行为确定性,并支持完整的非对称签名(64字节 vs 16-32位),但牺牲了部分音质和绝对鲁棒性。 主要实验结果:在1000条LibriSpeech测试集上,经MP3/OGG 128kbps等8种攻击后,混合编码器的密码验证率保持在97.5%-98.3%(详见下表)。主观质量(PESQ)平均为3.02,低于神经网络基线约1.2-1.5点。白盒擦除攻击表明,验证率在相位随机化强度α≥0.5时才崩溃,此时PESQ已下降1.3点。 攻击类型 验证率 (%) PESQ 无处理 98.3 3.02 MP3 128kbps 97.5 3.02 OGG 128kbps 97.5 3.03 FLAC 98.0 3.02 重采样16kHz 97.7 3.02 8kHz低通 97.7 3.03 截断10% 98.3 2.28 截断20% 98.1 1.80 实际意义:为C2PA等媒体来源标准提供了信号层面的可审计实现,尤其适用于捕获时签名、后续可能经历有损压缩的场景。它可作为神经网络水印的补充层,为其添加密码学签名。 主要局限性:1) 为鲁棒性妥协了音质(PESQ 3.02)。2) 目前仅在单一数据集(LibriSpeech)上评估,且未考虑更复杂的攻击链(如模拟空洞、完整平台转码)。3) 未与所有最强神经网络水印在完全相同的测试条件下进行端到端的签名负载对比。 🔗 开源详情 代码:论文中明确表示将为用于论文的混合相位+幅度量化索引调制(QIM)编码器发布所有代码、密钥和元数据,但未提供具体的 GitHub 等代码仓库链接。 模型权重:论文中未提及。该方法为“无训练”方法,不涉及模型权重发布。 数据集:使用 LibriSpeech test-clean 数据集。论文未直接提供数据集链接,但该数据集为公开的常用语音数据集,常见获取地址为:https://huggingface.co/datasets/openslr/librispeech_asr 。 Demo:论文中未提及在线演示链接。 复现材料:论文中明确表示发布的归档文件包含两个编码器(相位编码器和混合编码器)、负载管理器、八攻击基准测试驱动器、白盒擦除攻击、绘图脚本、精确的测试集文件路径列表(seed=42)、负载哈希、公钥、所有 STFT/QIM 参数、FFmpeg 调用命令、库版本以及每个样本的失败阶段标签,并以三个 JSON 信封形式发布。但未提供该归档文件的具体下载链接。 论文中引用的开源项目: C2PA (Coalition for Content Provenance and Authenticity):论文引用了其实施指南[3],并将其作为 APC 方法的目标应用场景。C2PA 项目主页为:https://c2pa.org/,其 GitHub 仓库为:https://github.com/contentauth 。 论文还引用了 WavMark [5]、AudioSeal [22]、SilentCipher [24] 等作为神经网络水印基线方法,但论文中未提供这些项目或代码的具体链接。 🏗️ 方法概述和架构 该论文提出了一个名为非对称相位编码(Asymmetric Phase Coding, APC)的免训练音频水印框架。其核心是一个端到端的混合信号处理流水线,旨在将完整的公钥密码学签名不可感知地嵌入音频波形中,实现内容认证。 ...

2026-05-11 · 更新于 2026-05-19 · 3 min · 429 words

AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness

📄 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness #音频水印 #音频安全 #Conformer #条件模型 #鲁棒性 ✅ 7.5/10 | 前25% | #音频水印 | #条件生成 | #音频安全 #Conformer 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Linxi Li(University of Warwick, OfSpectrum, Inc.) 通讯作者:未说明 作者列表:Linxi Li(University of Warwick, OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Yechen Wang(OfSpectrum, Inc.)、Houmin Sun(Duke Kunshan University)、Zi Hu(Duke Kunshan University)、Carsten Maple(University of Warwick) 💡 毒舌点评 亮点: 论文直面了现有音频水印方法在应对“极端”攻击(如剧烈变速、高损压缩、录音回放)时崩溃的痛点,并用一套设计周密的实验(包括真实环境下的手机录音回放)令人信服地展示了AURA模型在这些极端场景下近乎完美的鲁棒性,其性能提升是数量级的。短板: 论文引以为傲的“首个缩放定律研究”,其核心结论(如“宽深”模型最优)缺乏足够的理论支撑和普适性验证,目前更像是一次基于小规模网格搜索的经验性观察。此外,人类评估仅用24人测试40个样本,其统计显著性和代表性存疑,难以为“水印不可感知”的结论提供强有力背书。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 344 words

ICASSP 2026 - 音频水印 论文列表

ICASSP 2026 - 音频水印 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with 7.5分 前25% 📋 论文详情 🥇 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness ✅ 7.5/10 | 前25% | #音频水印 | #条件生成 | #音频安全 #Conformer 👥 作者与机构 第一作者:Linxi Li(University of Warwick, OfSpectrum, Inc.) 通讯作者:未说明 作者列表:Linxi Li(University of Warwick, OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Yechen Wang(OfSpectrum, Inc.)、Houmin Sun(Duke Kunshan University)、Zi Hu(Duke Kunshan University)、Carsten Maple(University of Warwick) 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 148 words

The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures

📄 The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures #音频深度伪造检测 #领域适应 #知识蒸馏 #音频水印 #音频安全 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #领域适应 | #知识蒸馏 #音频水印 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhenshan Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心) 通讯作者:Ming Li(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心, ming.li369@dukekunshan.edu.cn) 作者列表:Zhenshan Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心)、Xueping Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心)、Yechen Wang(OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Ming Li(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心) 💡 毒舌点评 亮点:选题填补了一个重要的认知空白——系统量化了“水印”这种合法但普遍存在的人为扰动对反欺骗系统的“无差别攻击”效果,实验设计严谨(控制水印比例、类型分布),结论可靠。提出的KPWL框架在“已知水印”适应上取得了立竿见影的效果,思路清晰实用。 短板:在“未见水印”场景下的性能反而下降,暴露了当前方法对水印特异性的过拟合,极大限制了其在真实世界(水印类型未知且多样)中的应用价值,也说明“领域适应”的本质挑战并未被彻底解决。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/Alphawarheads/Watermark_Spoofing.git。 模型权重:论文未提及是否公开预训练的模型权重(如基线XLSR+SLS或KPWL适应后的模型)。 数据集:论文指出构建了“Watermark-Spoofing”数据集,并提供了获取方式(通过上述GitHub仓库),表明数据集是公开的。 Demo:论文中未提及在线演示。 复现材料:论文详细说明了数据集构建协议(水印方法、比例)、训练配置(优化器、学习率、轮数、损失函数超参数)、评估设置,复现信息充分。 论文中引用的开源项目:引用了ASVspoof 2019/2021数据集[12,20]、In-the-Wild数据集[21]、多种水印方法(WavMark[4], Timbre[5], AudioSeal[13]等)、反欺骗模型(XLSR[6], SLS[9], Nes2Net[10])以及数据增强工具RawBoost[28]。 📌 核心摘要 问题:本文首次研究了广泛使用的音频水印技术(为版权保护设计)对语音反欺骗(深度伪造检测)系统性能的影响,发现这种影响之前被完全忽视。 方法核心:构建了包含多种手工和DNN水印的“Watermark-Spoofing”数据集,并系统评估了现有模型性能下降的程度。提出名为“知识保留水印学习”(KPWL)的适应框架,通过在冻结前端(XLSR)和分类器的情况下微调中间层,并结合对称知识蒸馏与参数锚定,使模型能适应水印引入的分布偏移。 创新:首次揭示了音频水印是反欺骗系统面临的一种新的、未被研究的领域偏移源;首次构建了用于评估和缓解此问题的专用数据集与基准;提出了首个旨在同时适应水印并保留原始域检测能力的专用框架。 实验结果:在ASVspoof 2021 LA数据集上,当75%的样本被水印时,基线模型(XLSR+SLS)的EER从3.02%上升至3.68%。KPWL模型在相同条件下将EER降至3.21%,同时在干净数据上保持3.06%(与基线3.02%接近)。然而,在“未见水印”评估中,基线模型在75%水印(LA21)下EER为9.94%,而KPWL模型恶化至11.22%。 实际意义:提醒反欺骗系统开发者需考虑水印带来的鲁棒性挑战;为构建抗水印污染的反欺骗系统提供了首个基准和初步解决方案;揭示了水印技术可能对语音安全生态产生的意外副作用。 主要局限性:KPWL框架在应对未见过的水印类型时效果不佳甚至有害,表明当前方法的适应能力局限于训练时接触过的特定水印,泛化能力有待突破。 🏗️ 模型架构 本文的核心模型架构并非提出一种全新的端到端神经网络,而是提出了一种训练策略与框架(KPWL),用于适应现有的反欺骗模型以应对水印干扰。以论文中作为骨干的 XLSR+SLS 模型为例,其整体流程与KPWL框架的适配如下: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 390 words