📄 DuraMark: Duration-Embedded Watermarking in LLM-based TTS
#生成模型
8.7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5
🔥 8.7/10 | 前25% | #生成模型 | #生成模型 | arxiv
👥 作者与机构
第一作者:Zhenwei Mou (zwmu@mail.ustc.edu.cn) 通讯作者:Liping Chen (lipchen@ustc.edu.cn) 作者列表:Zhenwei Mou, Weili Jiang, Liping Chen, Zhen-Hua Ling, Kong Aik Lee, Kai Gao, Boyu Zhao 机构:
- University of Science and Technology of China, China
- Institute of Forensic Science, Ministry of Public Security, China
- The Hong Kong Polytechnic University, China 注:论文明确指出通讯作者为Liping Chen。
💡 毒舌点评
这篇论文抓住了LLM-TTS时代水印安全性的核心痛点——信号级水印在面对神经网络重合成攻击时的脆弱性。思路清晰,将水印信息从脆弱的信号层面提升到相对稳定的语义/信息层面(时长),这是一个聪明的避实击虚策略。论文的实验部分非常扎实,对生成式攻击的鲁棒性优势展示得很有说服力。但它的“信息级”水印本质上是依赖一个极其精细且脆弱的TTS生成流程来“硬编码”信息,一旦攻击者对生成过程进行任何形式的微调或插件式干预,水印的稳定性可能就会崩塌。此外,盲检测场景对ASR的强依赖,在现实世界的对抗中可能成为一个致命弱点。论文在讨论局限性时显得有些轻描淡写,尤其是关于时长编辑对韵律和自然度影响的讨论,这对于一个以“信息级”操作为核心的方法而言,其代价和边界本应被更深入地剖析。总体而言,这是一篇方法扎实、实验充分的强工作,但在对抗设计的深度和方法普适性的论证上还有提升空间。
📌 核心摘要
DuraMark是一种针对LLM-based TTS模型的鲁棒语音水印框架,其核心思想是在信息层面嵌入水印,以抵御以神经网络重合成(如神经音频编解码器和声码器)为代表的生成式攻击。该方法通过一个时长可控的LLM-TTS模型,在合成语音时精确编辑每个音节的持续时长(以帧为单位)来编码水印比特(偶数为‘0’,奇数为‘1’)。检测阶段,一个时长提取器从待测语音和对应文本中恢复出音节时长序列,并通过与目标水印序列的相关性计算来判断水印是否存在。实验表明,DuraMark在各类生成式攻击下保持了超过95%的真阳性率(TPR),显著优于AudioSeal、Timbre和WavMark等信号级基线方法,同时维持了与无水印语音相当的自然度。
🔗 开源详情
- 代码:论文未提供作者自己实现的DuraMark代码仓库链接。仅说明“采用了CosyVoice框架,并使用其开源实现”。
- 模型权重:论文未提供预训练模型权重下载链接。
- 数据集:
- WenetSpeech: 训练数据集。开源地址: https://github.com/wenet-e2e/WenetSpeech。
- AISHELL-3: 测试数据集。开源地址: https://www.openslr.org/93/。
- Demo:音频样本演示页面: https://muzw.github.io/duramark_demo/。
- 复现材料:论文提供了详细的实验设置(第4.1节),包括优化器、学习率、硬件、损失权重和采样参数,但未提供配置文件或检查点下载。
- 论文中引用的开源项目:
- CosyVoice: https://github.com/FunAudioLLM/CosyVoice
- Montreal Forced Aligner (MFA): https://github.com/MontrealCorpusTools/Montreal-Forced-Aligner
- EnCodec: https://github.com/facebookresearch/encodec
- DAC: https://github.com/descriptinc/descript-audio-codec
- SpeechTokenizer: https://github.com/zhangyongxu/SpeechTokenizer
- FACodec: 未提及链接。
- BigVGAN: https://github.com/kan-bayashi/BigVGAN
- Vocos: https://github.com/gemelo-ai/vocos
- HiFi-GAN: https://github.com/jik876/hifi-gan
- Demucs: https://github.com/facebookresearch/demucs
- FRCRN: 未提及链接。
- Whisper: https://github.com/openai/whisper
- AudioSeal: 未提及链接。
- Timbre: 未提及链接。
- WavMark: 未提及链接。
🏗️ 方法概述和架构
DuraMark框架包含两个核心组件:时长可控的LLM-based TTS模型(用于水印嵌入)和时长提取器(用于水印检测)。其架构如论文图1所示。
时长可控的LLM-TTS模型:该模型集成了一个自回归LLM和一个基于流匹配(Flow Matching)的解码器,实现了对音节时长的显式、精确控制。
- LLM部分:给定音节文本嵌入序列 \(\bm{E}\) 和说话人嵌入 \(\bm{g}\),LLM按音节顺序生成。对于第 \(i\) 个音节,它首先预测一个时长token \(d_i\)(表示该音节包含的语音帧数),然后再生成 \(d_i\) 个语音token \(\bm{s}_i\)。时长 \(d_i\) 和语音token序列 \(\bm{s}_i\) 的概率分布分别由式(1)和式(2)定义。训练目标为式(3)的交叉熵损失,其中 \(w_{\text{llm}}\) 控制时长预测和语音token生成的损失权重。
- 流匹配解码器:接收LLM生成的时长序列 \(\bm{d}\)、语音token序列 \(\bm{S}\) 和说话人嵌入 \(\bm{g}\) 作为条件,通过最优传输条件流匹配(OT-CFM)技术合成Mel谱图。其核心训练损失包含两部分:标准的流匹配损失 \(\mathcal{L}_{\text{CFM}}\)(式6)和一个关键的时长引导损失 \(\mathcal{L}_{\text{guide}}\)(式8)。引导损失通过一个冻结的时长提取器来强制解码器合成的语音严格遵循输入的时长序列 \(\bm{d}\),这是实现时长精确控制的关键。最终损失为式(9)的加权和。 时长编辑(水印嵌入):在推理时,对于每个音节,LLM先从预测的时长分布中采样一个初始时长 \(d_i\)。若 \(d_i\) 的奇偶性与水印位 \(w_i\) 不符,则将其修改为概率更高的相邻候选时长(\(d_i+1\) 或 \(d_i-1\)),得到编辑后的时长 \(d_i^\)。然后,LLM基于 \(d_i^\) 生成语音token,最终解码器使用编辑后的时长序列 \(\bm{d}^\) 合成包含水印的语音。
时长提取器:一个基于Transformer的序列标注模型。
- 输入:音节文本序列 \(\bm{E}\) 和待测语音的Mel谱图 \(\bm{M}\)。
- 结构:将编码后的文本特征和Mel谱图特征拼接后输入Transformer。对于每一帧,模型预测其属于每个音节的概率分布 \(\bm{a}_t\)。
- 输出:通过对所有帧的概率求和(式5),得到每个音节的估计时长 \(\hat{d}_i\)。该模型在流匹配解码器的训练中作为冻结的引导模块,在水印检测中用于提取语音的时长序列。
水印检测:给定语音、文本和目标水印序列 \(\bm{w}\),提取器得到估计时长序列 \(\hat{\bm{d}}\)。通过非线性映射(式10,式11)将 \(\bm{w}\) 和 \(\hat{\bm{d}}\) 映射到 \([-1, 1]\) 区间,计算余弦相似度得分 \(\mathcal{T}\)(式12)。当 \(\mathcal{T}\) 超过阈值 \(\tau\) 时,判定存在水印。
数据流与交互:文本 \(\bm{E}\) 和说话人 \(\bm{g}\) -> 时长可控LLM -> (在嵌入阶段进行时长编辑)-> 输出编辑后的时长 \(\bm{d}^*\) 和语音token \(\bm{S}\) -> 流匹配解码器(受冻结的时长提取器引导训练)-> 合成语音 \(\hat{\bm{O}}\)。检测时,语音 \(\bm{O}\) 和文本 \(\bm{E}\) -> 时长提取器 -> 估计时长 \(\hat{\bm{d}}\) -> 相似度计算与决策。


💡 核心创新点
- 提出信息级水印新范式:将水印信息从易受攻击的信号层面(波形/频谱)提升到相对稳定的信息层面(音节时长),为对抗生成式攻击提供了一种新思路。
- 设计时长可控的LLM-TTS架构:创新性地结合了自回归LLM与流匹配解码器,并通过时长引导损失 \(\mathcal{L}_{\text{guide}}\) 实现了对合成语音音节时长的精确、可控编辑,这是实现水印嵌入的工程基础。
- 实现卓越的生成式攻击鲁棒性:通过全面的实验验证,证明了所提方法在面对神经音频编解码器(EnCodec, DAC, SpeechTokenizer, FACodec)和神经声码器(BigVGAN, Vocos, HiFiGAN)重合成攻击时,其性能(TPR)显著优于当时最先进的信号级水印基线(AudioSeal, Timbre, WavMark),平均TPR达到0.993(盲检测0.978)。
📊 实验结果
论文在普通话数据集上进行了全面的实验评估,主要结果如下:
表1:语音长度对检测性能(TPR@1%FPR)的影响
| 长度(音节数) | DuraMark-Info | DuraMark-Blind |
|---|---|---|
| 17–32 | 0.981 | 0.942 |
| 33–64 | 0.998 | 0.987 |
| 65–100 | 0.998 | 0.992 |
| 结果表明,更长的语音包含更多嵌入比特,检测性能更好。后续实验采用33-64音节区间。 |
表2:抗攻击鲁棒性对比(TPR@1%FPR)
| 攻击类别 | 攻击方式 | 参数 | AudioSeal | Timbre | WavMark | DuraMark-Info | DuraMark-Blind |
|---|---|---|---|---|---|---|---|
| 无 | 原始 | - | 1.000 | 1.000 | 1.000 | 0.998 | 0.987 |
| 神经编解码器 | EnCodec | 6.0k | 0.773 | 0.124 | 0.015 | 0.991 | 0.968 |
| 12.0k | 1.000 | 0.551 | 0.010 | 0.994 | 0.970 | ||
| DAC | 3.0k | 0.096 | 0.414 | 0.007 | 0.994 | 0.980 | |
| 4.5k | 0.512 | 0.832 | 0.002 | 0.996 | 0.979 | ||
| SpeechTokenizer | 4.0k | 0.004 | 0.047 | 0.017 | 0.984 | 0.966 | |
| FACodec | 2.4k | 0.013 | 0.036 | 0.010 | 0.994 | 0.977 | |
| 神经声码器 | BigVGAN | - | 0.908 | 1.000 | 0.012 | 0.997 | 0.987 |
| Vocos | - | 0.005 | 1.000 | 0.010 | 0.997 | 0.979 | |
| HiFiGAN | - | 0.013 | 1.000 | 0.007 | 0.994 | 0.985 | |
| 语音增强 | FRCRN | - | 1.000 | 1.000 | 1.000 | 0.999 | 0.989 |
| Demucs | - | 1.000 | 1.000 | 1.000 | 0.998 | 0.983 | |
| 有损压缩 | MP3 | 32k | 1.000 | 1.000 | 1.000 | 0.998 | 0.983 |
| Opus | 16k | 0.986 | 1.000 | 0.665 | 0.994 | 0.983 | |
| 量化 | \(2^{6}\) | 1.000 | 1.000 | 0.010 | 0.995 | 0.982 | |
| 信号处理 | 高斯噪声 | 20dB | 1.000 | 0.999 | 0.050 | 0.994 | 0.979 |
| 背景噪声 | 20dB | 1.000 | 1.000 | 0.905 | 0.987 | 0.965 | |
| 低通滤波 | 4.8kHz | 1.000 | 1.000 | 1.000 | 0.973 | 0.961 | |
| 平滑 | 18 | 1.000 | 1.000 | 0.945 | 0.995 | 0.978 | |
| 平均 | 0.701 | 0.790 | 0.403 | 0.993 | 0.978 | ||
| 结论:DuraMark在面对神经编解码器和声码器等生成式攻击时,TPR保持在0.95以上,显著优于信号级基线。基线方法在某些特定攻击下(如WavMark对抗所有神经攻击,AudioSeal对抗DAC 3.0k)表现脆弱。 |
表3:自然度评估
| 方法 | CER (%) ↓ | MOS ↑ |
|---|---|---|
| Ground Truth | 5.44 | 4.35 ± 0.11 |
| Unwatermarked | 8.73 | 4.05 ± 0.09 |
| AudioSeal | 8.15 | 4.07 ± 0.08 |
| Timbre | 8.56 | 4.03 ± 0.07 |
| WavMark | 9.25 | 3.97 ± 0.08 |
| DuraMark | 8.54 | 4.04 ± 0.07 |
| 结论:DuraMark与基线方法一样,对语音的清晰度(CER)和自然度(MOS)影响很小,表明时长编辑水印未明显损害语音质量。 |
表4:架构消融实验(TPR@1%FPR)
| 方法 | Informed | Blind |
|---|---|---|
| DuraMark | 0.998 | 0.987 |
| w/o duration input | 0.455 | 0.473 |
| w/o \(\mathcal{L}_{\text{guide}}\) | 0.327 | 0.342 |
| 结论:移除时长输入或时长引导损失均导致性能急剧下降,证明这两个组件对精确时长控制至关重要。 |
⚖️ 评分理由
- 创新性 (1.6/2):将水印从信号级提升到信息级(时长)的想法具有原创性和前瞻性,有效避开了生成式攻击的核心作用域。时长可控LLM-TTS的设计为信息级操作提供了可靠工具。但在“信息级”的定义上,与仅编辑基频(pitch)的早期工作有一定继承性,且“时长”作为一种 prosody 特征,其稳定性和抗修改性相对于其他语义特征(如文本内容)仍有讨论空间。
- 技术严谨性 (1.3/1.5):方法框架完整,理论推导清晰(特别是流匹配中的时长引导损失)。实验设计全面,覆盖了多种主流攻击。消融实验有力证明了关键组件的必要性。轻微不足在于,时长编辑策略(±1帧)的选择和阈值 \(\tau\) 的设定更多是经验性的,其最优性未做深入分析;对“盲检测”性能下降的原因(ASR引入的误差如何传播到时长估计)也未做定量分析。
- 实验充分性 (1.8/2):实验非常充分。测试集规模大(AISHELL-3测试集,214人),攻击类型多样且具有代表性(特别是神经网络重合成),对比基线是当前SOTA。提供了详细的数值结果(表2)和自然度评估(表3)。消融实验(表4)有效支撑了设计选择。唯一的小遗憾是未提供水印容量(比特率)与检测性能、自然度之间的定量权衡曲线。
- 清晰度 (1.3/1.5):论文结构清晰,问题陈述、方法和实验逻辑连贯。核心算法(Algorithm 1)描述详尽。图���(图1)有助于理解架构。但部分内容(如2.3节中引导损失的引入方式)略显紧凑,需要读者仔细思考才能完全理解其设计动机。
- 影响力 (1.6/2):该工作针对的是AI合成语音滥用这一重大社会安全问题,研究动机强,应用前景明确。提出的“生成过程内嵌入”思路可能启发更多与模型架构深度结合的水印/溯源方法。然而,其效果高度依赖于对TTS模型(特别是时长预测模块)的控制,在开放生态中,如果攻击者使用完全不同的TTS模型或对生成过程进行后处理,该水印的生存能力可能受限。
- 开源 (1.0/1.5):论文提供了详细的实验设置、依赖的开源项目列表和演示页面。然而,论文未提供作者自己实现的DuraMark代码、预训练模型权重或复现脚本的直接链接。 这显著降低了可复现性和社区验证的便利性,是重要的扣分项。
- 可复现性 (1.0/1.5):虽然论文描述了使用CosyVoice框架和详细训练参数,但由于核心代码和模型未开源,读者难以独立复现其主要结果,特别是时长可控TTS模型和时长提取器的训练。依赖外部项目(如CosyVoice)的特定版本和内部修改,增加了复现的不确定性。
- 工程/实践价值 (1.3/1.5):该方法为LLM-TTS服务商提供了一种内置的、抗重合成的版权/来源标识方案,具有直接的工程应用潜力。其鲁棒性优势在实际部署中价值高。但检测阶段需要对应的文本(即使是盲检测也需要ASR输出),这在一些流式、匿名或低资源场景下可能构成限制。
🚨 局限与问题
- 信息级水印的“脆弱性转移”:该方法虽然规避了信号级攻击,但其安全性完全绑定在“时长序列”在TTS模型和后续处理链中保持不变这一假设上。攻击者若能对TTS生成过程进行微调(如更换时长预测器)或进行影响时长的后处理(如语速变换、基于深度学习的韵律迁移),水印可能被破坏或移除,而论文未评估此类“模型级”或“韵律级”攻击。
- 盲检测的强依赖与误差传播:盲检测场景依赖ASR转录。论文未分析ASR的字符错误率(CER)如何转化为音节边界和时长的估计误差,并最终影响检测性能。在实际应用中,ASR模型的选择和质量将成为水印系统可靠性的关键瓶颈。
- 时长编辑对韵律的潜在影响:论文指出时长编辑对整体MOS影响小,但未深入分析其对韵律自然度、情感表达等细微方面的具体影响。将多个音节的时长强制调整为奇偶性要求,可能在某些语句中产生不自然的节奏,尤其是在文学或情感丰富的朗读场景中。
- 容量与效率限制:每个音节仅嵌入1比特信息,容量受限于文本长度。对于极短的语音(如关键词),水印可能无效。同时,嵌入过程需要LLM自回归生成,推理效率可能低于直接的信号处理水印方法,尽管论文未报告相关数据。
- 评估范围的局限性:实验仅在普通话(单音节语言)和单一TTS框架(CosyVoice)上进行。对于多音节语言(如英语)或形态复杂的语言,音节划分、时长变异性和嵌入策略是否同样有效,需要进一步验证。