📄 Feature-Aligned Speech Watermarking for Robustness to Reconstruction Distortions

#鲁棒性 #生成对抗网络

7.1/10 | 创新 1.7/2 | 严谨 0/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5

✅ 7.1/10 | 前25% | #鲁棒性 | #生成对抗网络 | arxiv

👥 作者与机构

作者：Haiyun Li (1, 2), Shuhai Peng (1), Zhisheng Zhang (1), Jingran Xie (1), Xiaofeng Xie (3), Hanyang Peng (2), Zhiyong Wu (1, 2) 机构：1. 香港中文大学（深圳）; 2. 深圳大学; 3. 未在摘要中明确列出具体机构（原文中仅标注数字3）。

💡 毒舌点评

这篇论文瞄准了一个实际且重要的痛点——语音重建模型对现有水印的破坏，这一点抓得很准。方法的核心创新点（特征对齐）思路清晰，且有合理的理论支撑（利用重建模型的先验）。实验也覆盖了多种重建模型和传统失真，比较全面。但作为一个挑剔的审稿人，必须指出：1）所谓的“特征对齐”高度依赖所选的预训练编解码器（SpeechTokenizer），其有效性是否在其他编解码器上依然成立？论文仅将其用于生成伪水印和计算潜在损失，但并未验证该编解码器本身的重建保真度。2）在传统失真（特别是压缩、裁剪）上，方法并非全面碾压，甚至在某些情况下不如最简单的WavMark，这与声称的“在大多数条件下表现可比或更优”略有出入，需要更谨慎地描述。3）论文的工程贡献和开源程度严重不足，代码、模型权重、预训练检查点均未提供，极大阻碍了可复现性和社区验证，这是扣分的主要原因。4）消融实验虽然做了，但“w/o Spectrogram Fusion”和“w/o Feature Pyramid”的对比并不能完全解释特征对齐机制的贡献，缺少对伪语音生成模块本身的消融。

📌 核心摘要

该论文针对现代语音应用中广泛使用的语音重建模型（如降噪器、神经编解码器、声码器）会破坏或移除音频水印的问题，提出了一种特征对齐的语音水印新方法。其核心思想是，不再单纯通过限制水印能量来保证不可感知性（这会导致鲁棒性差），而是主动让水印的特征分布与原始语音对齐。具体地，方法使用一个冻结的预训练语音编解码器（SpeechTokenizer），通过一个适配器注入水印信息，生成“伪语音水印”，然后将其与原始音频的频谱图进行自适应融合。训练过程中，引入VAD损失、听觉掩蔽损失、说话人相似度损失等多重感知约束，并设计特征金字塔解码器，引导水印集中在语音的有声区域嵌入和提取。实验表明，该方法在6种语音重建模型下，其解码准确率和误归因率显著优于5种现有前沿方法，同时在感知不可察觉性上与主流嵌入式方法（WavMark， AudioSeal）相当。

🔗 开源详情

代码：论文中未提供自身方法的代码链接。
模型权重：论文中未提供训练好的模型权重或预训练检查点。
数据集：论文使用了三个公开数据集：VCTK、LibriSpeech和LJSpeech。这些是广泛使用的公开数据集，获取方式标准。
Demo：论文中未提及在线演示。
复现材料：论文在“III-A Experimental Setups”部分提供了详细的训练配置信息，包括：
- 模型架构细节：适配器使用6层2D CNN；积分器使用STFT（256 FFT点，跳点64，窗长256）和4层2D CNN；检测器使用1D卷积；提取器使用2D卷积，具体核大小、步长、通道数等参数见原文。
- 训练设置：使用Adam优化器，学习率为\(5 \times 10^{-5}\)，训练300个epoch，选择验证损失最低的检查点。
- 损失函数权重：各项损失的权重系数已详细列出（\(\lambda_{\text{vad}}=1.0, \lambda_{\text{am}}=0.1, \lambda_{\text{spk}}=0.1, \lambda_{\text{lat}}=0.1, \lambda_{\ell1}=0.01, \lambda_{\text{mel}}=0.1, \lambda_{\text{adv}}=0.5, \lambda_{\text{si-snr}}=0.01, \lambda_{\text{dec}}=4.0\)）。（注：缺少训练脚本、数据预处理代码、预训练模型权重文件。）
论文中引用的开源项目：
1. SpeechTokenizer：作为预训练语音编解码模型。链接：https://github.com/isslxn/SpeechTokenizer
2. EnCodec：神经编解码器。链接：https://huggingface.co/facebook/encodec_24khz
3. FACodec：神经编解码器模型。链接：https://github.com/Plachtaa/Fast-Codec
4. HiFiGAN：声码器模型。通常指：https://github.com/jik876/hifi-gan
5. Vocos：声码器模型。链接：https://github.com/goodfellowliu/Vocos
6. ClearerVoice：语音处理工具包。链接：https://github.com/alibaba-damo-academy/ClearerVoice-Studio
7. Resemblyzer：用于计算说话人嵌入的工具库。链接：https://github.com/resemble-ai/Resemblyzer
8. WavMark：基线水印方法。通常指：https://github.com/JuliangLi/WavMark
9. AudioSeal：水印方法。链接：https://github.com/facebookresearch/audioseal
10. TimbreWM：基线水印方法。根据作者信息推测为：https://github.com/LiHaiyun/TimbreWM
11. VoiceMark：基线水印方法。根据作者信息推测为：https://github.com/LiHaiyun/VoiceMark
12. WMCodec：基线水印方法。根据作者信息推测为：https://github.com/LiHaiyun/WMCodec

🏗️ 方法概述和架构

本文提出的方法由水印嵌入器和水印解码器两大部分组成，架构如图2所示。

水印嵌入器：
- 伪语音生成：首先，使用冻结的预训练语音编解码器编码器（SpeechTokenizer）从原始音频 \(x\) 中提取潜在特征 \(z\)。为了嵌入一个 \(n\) 位的水印 \(w\)，将每个比特映射为嵌入向量并求和得到 \(w_e\)，将其广播并拼接到 \(z\) 上形成 \(z_w\)。接着，一个由6层2D CNN构成的适配器 \(\mathcal{A}\) 对 \(z_w\) 进行处理，输出修改后的潜在表示 \(z'\)。最后，通过冻结的解码器 \(\mathcal{D}\) 将 \(z'\) 转换回波形域，生成与原始语音特征分布对齐的伪语音水印 \(x'\)。这一设计的动机是：由于 \(x'\) 在特征空间上接近原始语音，即使携带更高能量的水印，也能在听感上保持自然。
- 频谱图融合：为了进一步融合水印并保持不可感知性，原始音频 \(x\) 和伪语音水印 \(x'\) 通过短时傅里叶变换（STFT）转换为复数谱 \(\mathbf{s}_x\) 和 \(\mathbf{s}_{x'}\)。两者被拼接后，输入一个由4层2D CNN构成的积分器 \(\mathcal{I}\)，该积分器预测每个时频点的融合权重 \(\alpha\)。最终的水印音频谱通过加权融合计算：\(\mathbf{s}_{w} = \mathbf{s}_{x'} \cdot \alpha + \mathbf{s}_{x} \cdot (1 - \alpha)\)。通过逆STFT得到最终水印音频 \(\hat{x}\)。积分器的设计允许模型自适应地学习最优融合区域。
水印解码器：
- 特征编码：水印音频 \(\hat{x}\) 经过一系列可微分失真处理后得到增强训练用的 \(\tilde{x}\)。一个初始化自冻结编解码器编码器的特征编码器 \(\mathcal{E}'\) 提取潜在特征 \(\hat{z}\)。
- 时间权重预测：一个4层1D卷积的检测器从 \(\hat{z}\) 中预测时间权重 \(p\)（公式1），该权重表示每一帧属于有声区域的概率。这个 \(p\) 用于指导嵌入器和解码器都将重点放在有声帧上。
- 特征金字塔提取：为了从融合了水印的语音特征中有效解码，一个6层2D CNN的提取器采用多尺度设计，生成多尺度特征图 \(\hat{z}_i\)（公式2）。每个 \(\hat{z}_i\) 通过一个全连接层投影，得到时间对齐的特征 \(f_i\)（公式3）。所有 \(f_i\) 被拼接成一个统一的特征金字塔 \(f\)。这种多尺度设计旨在捕捉不同层级的细粒度水印信息。
- 水印解码：特征金字塔 \(f\) 被输入一个2层MLP，输出帧级对数几率 \(w_f\)。最终水印通过时间权重 \(p\) 对 \(w_f\) 进行加权求和得到 \(\hat{w}\)，再经过argmax和进制转换得到 \(n\) 位水印比特。
训练损失：总损失 \(\mathcal{L}_{\text{total}}\)（公式4）是多项损失的加权和，包括：
- VAD损失 \(\mathcal{L}_{\text{vad}}\)：监督时间权重 \(p\) 学习有声区域，鼓励水印嵌入和提取集中在这些区域。
- 感知损失：包括听觉掩蔽损失 \(\mathcal{L}_{\text{am}}\)（控制水印能量不超过掩蔽阈值）、说话人相似度损失 \(\mathcal{L}_{\text{spk}}\)（保持说话人身份）和潜在相似度损失 \(\mathcal{L}_{\text{lat}}\)（约束伪水印特征不偏离原始语音太远）。
- 保真度损失：包括L1损失、梅尔频谱损失、对抗损失和SI-SNR损失，但权重较小（如 \(\lambda_{\ell1}=0.01\)），表明设计上允许一定的保真度让步以换取鲁棒性。
- 解码损失 \(\mathcal{L}_{\text{dec}}\)：十六进制分类的交叉熵损失，权重最大（\(\lambda_{\text{dec}}=4.0\)），是优化的主要目标。

💡 核心创新点

范式创新：提出通过“特征对齐”来解决水印鲁棒性-保真度权衡的新思路。不同于传统方法（如WavMark, AudioSeal）的低能量约束，本文通过让水印模仿语音特征分布，从而允许嵌入更高能量的水印来抵抗重建模型的抑制，同时保持听感自然。
架构创新：设计了一个基于预训练语音编解码器和频谱图融合的水印框架。具体包括：使用预训练编解码器生成“伪语音水印”的组件；通过可学习权重进行自适应频谱图融合的积分器；以及在解码端采用特征金字塔来提取多尺度水印特征。
训练策略创新：引入VAD损失和多种感知损失（听觉掩蔽、说话人相似度、潜在相似度）进行联合训练，系统性地引导水印在时间和频谱维度上嵌入到最优区域（有声区域），这是对现有水印训练目标的有效改进。

📊 实验结果

鲁棒性评估（重建模型）：在6种语音重建模型（ClearerVoice, EnCodec, FACodec, SpeechTokenizer, Vocos, HiFiGAN）上的平均结果（Table I）显示，本文方法（Ours）的平均解码准确率（ACC）为0.97，误归因率（FAR）为0.11，显著优于所有基线。例如，在最具挑战性的EnCodec下，本文ACC为0.99（FAR 0.02），而第二好的VoiceMark ACC仅为0.96（FAR 0.16）。本文方法在所有单独模型上均取得最佳或并列最佳性能。
鲁棒性评估（传统失真）：在15种传统失真上的平均结果（Table II）显示，本文方法平均ACC为0.99，FAR为0.02，总体表现优异。具体来看，在15种失真中的11种，本文方法达到最佳（ACC=1.00或0.99）。但在“Speed Change”失真上，ACC为0.94，低于TimbreWM的1.00；在“Lowpass”失真上，ACC为1.00，但TimbreWM的ACC为0.85，AudioSeal的为1.00，表明在某些特定传统失真上，现有方法仍具竞争力。
感知质量评估：
- 主观ABX测试（图3）：本文方法得分接近50%，与WavMark、AudioSeal等嵌入式方法相当，表明不可察觉性好。VoiceMark等生成式方法得分显著高于50%，感知差异更明显。
- 客观VISQOL MOS（图4）：本文方法得分为4.44，略低于AudioSeal（4.54）和VoiceMark（4.55），但高于WavMark（4.38）和TimbreWM（4.41）。这表明其在神经网络感知特征上与原始音频相似度高。
- 其他客观指标（Table III）：在NISQA（自然度）上得分4.31，仅次于VoiceMark。在PESQ、STOI、SI-SNR等保真度指标上，本文方法得分介于嵌入式和生成式方法之间（例如PESQ 3.03，高于VoiceMark的2.19），证实了其设计目标——在保持可比不可感知性的同时，允许一定的保真度让步。
消融研究（Table IV）：对平均性能的消融显示，移除频谱图融合、VAD损失或特征金字塔均导致性能下降。其中，移除特征金字塔导致ACC从0.98降至0.76，下降最显著，证明多尺度特征提取对解码至关重要。移除VAD损失导致PESQ大幅下降（3.03至1.89），表明其对维持感知质量的关键作用。

⚖️ 评分理由

创新性 (1.7/2)：问题定义清晰且重要（语音重建对水印的威胁），“特征对齐”的解决思路新颖且合理，不同于主流的低能量或生成式范式。将预训练编解码器作为特征对齐工具并结合频谱图融合，构成了一个完整的新框架。扣分点在于“特征对齐”的具体实现高度依赖单一的预训练模型（SpeechTokenizer），其普适性未得到充分验证。
技术严谨性 (1.2/1/5)：方法描述清晰，架构图（图2）有助于理解。训练损失设计周全，各损失项的作用和权重设置有合理解释。消融实验验证了关键模块的作用。但存在不足：1）对“特征对齐”机制的理论或实证分析（如伪水印与真实语音在潜在空间的分布对比）缺失。2）实验部分，对于Table I中“SpeechTokenizer†”列为“未见失真”的说明（表格注释）在分析中未被提及。3）未讨论所使用预训练编解码器（SpeechTokenizer）自身的重建能力对方法的影响。
实验充分性 (1.5/2)：实验设置全面，覆盖了6种重建模型和15种传统失真，并与5种SOTA方法进行了全面对比。评估指标包括了鲁棒性（ACC, FAR）、主观感知（ABX）和多种客观指标（VISQOL, PESQ, NISQA等）。消融研究支持了核心组件的有效性。扣分点：1）未提供不同水印比特长度下的性能对比。2）未在跨语言或不同语音质量（如不同信噪比）条件下评估泛化性。3）案例分析（图5）的差异谱图是定性展示，缺乏定量分析来支持“能量更高但更集中”的结论。
清晰度 (1.3/1.5)：论文整体写作清晰，方法章节（II）对嵌入器和解码器的描述，特别是伪语音生成、频谱图融合、特征金字塔等部分，步骤分明。公式表述准确。图2和图3、5有助于理解。扣分点在于：部分专业术语（如“skip-gated blocks”在适配器中的使用）未做充分解释；实验部分（III-B）对传统失真结果的讨论中，“改进了音高、速度变化和加性噪声下的性能”与表格数据（如Pitch Shift下ACC为1.00但TimbreWM为0.54）的对应关系可以更明确。
影响力 (1.2/2)：该工作直接针对现代语音应用（通话、会议、社交平台）中水印被破坏的实际问题，具有明确的应用价值和潜在影响力。方法在对抗语音重建方面取得了显著进步。扣分点：1）影响力受限于其完全依赖于特定的预训练编解码器（SpeechTokenizer），如果该模型被更新或替换，方法有效性可能受影响。2）作为音频水印方法，其更广泛的应用（如图像、视频水印）需要重新设计，因此跨领域影响有限。3）缺乏开源严重限制了其实际影响力。
开源 (0.4/1.5)：论文未提供自身方法的代码、预训练模型或训练配置文件的链接。虽然引用了多个开源项目（SpeechTokenizer, Resemblyzer等）作为基线和工具，但核心贡献的可复现性无法保证。在严格评审下，这是一个重大缺陷。
可复现性 (1.3/1.5)：论文在III-A节提供了相对详细的实验设置，包括模型架构参数（适配器、积分器、检测器、提取器的具体层和通道数）、训练超参数（优化器、学习率、epoch）、数据集划分（VCTK, LibriSpeech, LJSpeech的使用方式）和损失权重。这为复现提供了重要信息。主要障碍是缺少源代码和预训练权重，导致仅凭文字描述难以完全复现。
工程/实践价值 (0.8/1.5)：方法的核心思想（特征对齐）和框架设计具有工程上的启发性，可能启发后续的水印或音频隐写工作。在对抗语音重建方面展现出的优越性，对实际部署有积极意义。但工程价值被两点显著削弱：1）对预训练大模型（SpeechTokenizer）的依赖可能带来计算开销和部署复杂度。2）缺乏开源实现和优化（如推理速度、模型大小）的讨论，使其离实用部署尚有距离。

🚨 局限与问题

性能局限：在传统失真场景下，方法并非全面最优。例如，在“Speed Change”失真上，其ACC（0.94）低于TimbreWM（1.00）；在“Lowpass”失真上，与AudioSeal（1.00）和TimbreWM（0.85）相比也未占优。这表明其鲁棒性提升主要针对特定类型的失真（语音重建模型），对于信号处理类失真的优势不绝对。
方法依赖性与泛化性：核心组件高度依赖冻结的SpeechTokenizer预训练模型。该方法的有效性是否在其他预训练编解码器（如不同架构、不同语言、不同带宽）上同样成立，是未验证的关键问题。此外，水印解码器的特征金字塔虽然强大，但其设计与特定的编解码器潜在维度绑定，更换编解码器可能需要重新设计解码器。
感知分析的不足：论文通过ABX和VISQOL证明了不可察觉性，但缺乏对感知失真模式的深入分析。例如，频谱图融合引入的伪语音成分是否会在特定内容（如齿擦音、呼吸声）上产生可闻伪影？VAD损失引导水印嵌入有声区，是否在无声段的边界处引入了不连续性？这些细节需要更细致的听辨和分析。
“特征对齐”的模糊性：论文提出了“特征对齐”的概念，但具体的对齐是通过潜在相似度损失 \(\mathcal{L}_{\text{lat}}\) 和伪语音生成过程间接实现的。然而，\(\mathcal{L}_{\text{lat}}\) 的权重仅为0.1，而伪语音生成本身并不直接约束 \(x'\) 与 \(x\) 的相似度（仅通过编解码器的重建能力隐式保证）。因此，“特征对齐”的实际约束强度可能不足，其作用机制需要更深入的剖析。
实验设计的潜在问题：
- 训练与测试数据：论文使用VCTK的一部分训练，其余测试，但未说明说话人是否在训练和测试集中重叠。如果重叠，可能高估了对说话人变化的鲁棒性。
- 失真参数：对于传统失真（如压缩、滤波），论文未提供具体的参数设置（如MP3的比特率、滤波器的截止频率），这影响了结果的可比性和可复现性。
- 基线对比的公平性：在与TimbreWM对比时，因其不提供16位模型而使用其10位版本，这可能略微低估了TimbreWM在16位设置下的性能。论文未讨论不同位长对性能的影响。

📷 论文图片

← 返回 2026-06-11 语音/音乐/音频论文速递

📄 Feature-Aligned Speech Watermarking for Robustness to Reconstruction Distortions#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📷 论文图片#

📎 相关论文