📄 CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding

#语音编码 #语音合成 #语音识别 #对比学习

8.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5

👥 作者与机构

Eugene Kwek (Pennsylvania State University), Feng Liu (Drexel University), Rui Zhang (Pennsylvania State University), Wenpeng Yin (Pennsylvania State University)。

💡 毒舌点评

这篇文章确实提出了一个很巧的“感知引导”思路，通过联合训练语音增强任务来迫使模型只关注“干净”信息。在12.5 t/s这个极低的令牌率下能取得不错的SIM和WER，证明了其设计方向的有效性。特别是将TitaNet说话人嵌入引入全局编码器作为条件，是个有创意的点。然而，论文的局限性部分过于轻描淡写。所谓的“高效”和“鲁棒”在多大程度上依赖于训练数据的噪声分布？如果真实部署环境的噪声类型与训练集差异很大，这个“选择性信息瓶颈”会不会反而丢掉重要信息？论文没有讨论。另外，虽然对比了多个SOTA，但表格一和表二中Qwen3-TTS-Tokenizer在50 t/s时的表现突然下降得非常厉害，这暗示某些基线可能没有被充分调优或配置不一致，使得CleanCodec的优势看起来比实际更大。开源承诺仅有代码，没有权重，对于这个参数量的模型，实际可复现性要打折扣。

📌 核心摘要

本文将音频标记化重构为一个选择性信息瓶颈问题，提出了CleanCodec，一种去噪音频编解码器。其核心思想是，理想的编解码器应只编码感知上重要的信息（如语言内容、音色），并丢弃背景噪声、录音伪影等感知上不重要的特征，从而在极低比特率下最大化感知质量。为实现此目标，本文提出了一种新颖的联合训练框架，将标准的音频重建任务与语音增强任务相结合。通过向训练语音添加各种退化（混响、噪声、滤波、重采样、MP3压缩），并监督模型重建原始干净信号，迫使模型忽略这些不重要信息。此外，文章引入了基于TitaNet说话人验证模型的全局编码器条件化机制，以更好地保留说话人音色信息。实验表明，在仅12.5 tokens/秒的令牌率下，CleanCodec在说话人相似度（SIM）和语音可懂度（WER）上显著超越了现有编解码器，并在下游的语音转换和文本到语音任务中展现出优越的性能和高达17倍的推理加速。

🔗 开源详情

代码：论文中明确指出代码将在GitHub上发布（“Inference and training code will be released on Github.”），但论文中未提及具体的GitHub仓库链接。
模型权重：论文中未提及任何模型权重的托管平台链接（如HuggingFace、ModelScope）。
数据集：论文中未提供具体的数据集下载链接。训练与评估使用的数据集信息如下：
- 训练集：LibriTTS-R（585小时），Emilia-YODAS（1800小时子集）。这些是公开数据集，可通过其官方渠道获取。
- 评估集：LibriTTS测试集、Expresso、AISHELL-3、CML-TTS、VCTK、Seed-TTS-eval、VoxCeleb-1。这些也是公开数据集。
Demo：论文中未提及在线演示链接。
复现材料：论文在附录A（Appendix A）中提供了详细的训练超参数（Training Hyperparameters），包括模型架构尺寸、训练步数、优化器设置、学习率等具体配置信息。但未提及提供预训练检查点（Checkpoints）。
论文中引用的开源项目：论文中明确提及的第三方开源项目/工具如下（论文正文未提供所有项目的具体链接，故仅列出名称及论文中提到的关联）：
- WavLM：自监督学习模型，用于生成语义特征（WavLM-large）。
- HuBERT：自监督学习模型，用于语义编码。
- wav2vec2：自监督学习模型，用于语义编码。
- Vocos：声码器（Vocoder），用于将梅尔频谱图转换为波形。
- pyroomacoustics：用于模拟房间脉冲响应（RIR）以生成混响。
- AudioSet：用于添加背景噪声的数据集。
- FSD50K：用于添加背景噪声的数据集。
- WHAM!：用于添加背景噪声的数据集。
- TitaNet (TitaNet-large)：自监督说话人识别模型，用于全局编码器条件化。
- ReDimNet-M：说话人验证模型，用于评估。
- Parakeet (parakeet-tdt-0.6B-v2)：语音识别模型，用于评估WER/CER。
- UTMOS：语音质量评估指标。
- Torchaudio-Squim：提供SI-SDR等评估指标的工具包。
- AdamW：优化器。
- LLaMA：提到的Transformer架构风格。

🏗️ 方法概述和架构

CleanCodec的整体架构如图2所示，它由四个主要组件构成：局部编码器、全局编码器、语义-声学双解码器以及独立的Vocos声码器。该系统首先将输入的音频波形转换为对数梅尔谱图，然后通过编解码器处理，最终将重建的梅尔谱图再转换回波形。这种以梅尔谱图为中心的设计避免了依赖SSL特征作为输入可能导致的非语言信息丢失，同时梅尔谱图更接近人类对音频的感知。

局部编码器：采用全卷积的1D ConvNeXt架构。输入梅尔谱图经过编码器处理后，进一步进行5倍下采样以达到目标令牌率（例如12.5 t/s）。然后，使用有限标量量化（FSQ）对编码器输出进行量化。FSQ是单码book、无参数的，避免了传统VQ中可能出现的码本塌缩问题。论文中使用的代码本级别为[8, 8, 8, 8, 8]，总共产生8^5 = 32768个可能的离散码。局部编码器负责捕获时间上变化的语言和声学内容信息。
全局编码器：受Kanade启发，使用改进的ConvNeXt块（源自NeXt-TDNN）。它处理整个语音片段，并通过注意力统计池化（attentive statistics pooling）生成一个固定长度的全局嵌入向量（维度为256）。这个全局嵌入旨在捕获说话人身份等时不变特征。该全局嵌入在解码阶段会与离散的音频令牌拼接。
语义-声学双解码器：接收融合了全局嵌入的音频令牌序列后，首先进行上采样以恢复原始梅尔谱图的时间分辨率（62.5 Hz）。然后，计算路径分为两个分支：
- 声学解码器：重建原始的对数梅尔谱图。
- 语义解码器：重建由预训练的WavLM-large模型提取的自监督学习（SSL）特征。这种双解码器设计确保离散令牌表示同时包含声学和语义信息，从而实现高质量的重建。两个解码器均采用与编码器类似的1D ConvNeXt块构建。
声码器：采用基于Vocos的架构，将声学解码器重建的梅尔谱图转换回音频波形。为了提升重建质量，论文作者训练了一个比原始Vocos更深更宽的自定义Vocos模型。

训练框架与策略：训练采用独特的两阶段策略以解决对抗训练不稳定的问题。

第一阶段：独立训练自编码器和声码器。关键的是，受瓶颈约束的自编码器此阶段不使用对抗损失进行训练，避免了早期重建误差大导致的训练崩溃。
第二阶段：在两者分别收敛后，将它们连接起来进行端到端的联合微调。这极大地提升了训练稳定性。

核心的感知引导训练通过三个关键组件实现：

语音增强训练：在训练时，对干净语音施加一系列概率为50%的退化处理：1）使用pyroomacoustics模拟混响；2）从AudioSet、FSD50K、WHAM!中随机采样背景噪声并以15-30dB的SNR加入；3）应用2-8kHz的低通滤波；4）重采样至16或22.05kHz再重采样回24kHz；5）应用比特率32-245kbps的MP3压缩。模型被监督去重建原始的干净语音，从而学习忽略这些非重要的退化信息。
全局条件化：使用预训练的TitaNet-large说话人验证模型对全局编码器进行条件化。具体方法是在全局嵌入上应用一个可学习的线性投影，投影到TitaNet的嵌入空间，并训练编码器最大化其输出与TitaNet嵌入的余弦相似度。这提供了更强的梯度信号，帮助全局编码器更好地保留说话人音色。
训练损失：自编码器部分包含三个损失：1）声学解码器输出与原始梅尔谱图之间的L2损失 $\mathcal{L}_{\text{mel}}$；2）语义解码器输出与WavLM特征之间的余弦损失 $\mathcal{L}_{\text{ssl}} = 1 - \cos(s, \hat{s})$；3）全局编码器投影输出与TitaNet嵌入之间的余弦损失 $\mathcal{L}_{\text{emb}} = 1 - \cos(g, p(\hat{g}))$。声码器的损失则沿用Vocos的多周期、多频带判别器的对抗训练配方。

$图1$

💡 核心创新点

选择性信息瓶颈框架：最核心的创新在于将音频标记化问题重新定义为“选择性信息瓶颈”。这突破了传统编解码器试图保留所有信号信息的范式，主张只编码感知上显著的信息。这一理念通过具体的联合训练框架得以实现。
联合优化的训练目标：提出了一种新颖的、将音频重建与语音增强任务耦合的训练框架。通过向训练数据注入受控的噪声和退化，并监督模型恢复干净信号，有效地引导模型学习忽略感知上不重要的信息，从而在有限的令牌预算下优先保留关键特征。
基于说话人验证模型的全局条件化：创新性地使用预训练的说话人验证模型（TitaNet）来条件化全局编码器。这比传统的SSL特征条件化更能针对性地保留和强化说话人音色信息，提升了分离效果。

📊 实验结果

主要重建性能 (表1)： CleanCodec@12.5在极低的12.5 t/s令牌率下，于LibriTTS test-clean和test-other两个测试集上均取得了领先性能。在说话人相似度（SIM）和词错误率（WER）两项关键指标上，它显著优于同速率及更高速率的基线。例如，在test-clean上，CleanCodec@12.5的SIM为0.86，WER为2.7%，而同为12.5 t/s的Kanade和FocalCodec的SIM分别仅为0.65和0.45，WER分别为4.0%和8.3%。即使与令牌率更高的BiCodec (50 t/s)和XCodec2 (50 t/s)相比，CleanCodec@12.5也展现出竞争力甚至更优的结果。

模型	令牌率 (t/s)	WER (↓)	CER (↓)	SIM (↑)	UTMOS (↑)	SI-SDR (↑)	Mel L1 (↓)
GT	–	0.0	0.0	1.00	4.20	26.49	0.00
Token Rate ≥ 50 t/s
Mimi	100	3.5	1.9	0.72	3.86	17.48	0.56
Qwen3	100	2.6	1.4	0.72	3.92	19.45	0.38
BiCodec	50	2.6	1.3	0.78	4.25	26.49	0.55
XCodec2	50	2.6	1.5	0.77	4.20	23.51	0.39
CleanCodec@62.5	62.5	1.3	0.6	0.90	4.23	22.94	0.29
CleanCodec@31.25	31.25	1.7	0.9	0.88	4.27	22.02	0.33
Token Rate < 50 t/s
WavTokenizer	40	9.0	5.0	0.62	3.81	19.98	0.46
FocalCodec	12.5	8.3	4.5	0.45	4.21	25.19	0.78
Kanade	12.5	4.0	2.1	0.65	4.22	23.60	0.57
CleanCodec@12.5	12.5	2.7	1.4	0.86	4.32	21.96	0.44

域外鲁棒性 (表2)：在Expresso（表现力）、AISHELL-3（多语言）、CML-TTS（野外）等域外数据集上，CleanCodec@12.5表现出强大的鲁棒性，其性能下降幅度远小于其他低令牌率基线。例如，在CML-TTS上，其WER为12.1%，而Kanade和FocalCodec分别高达42.1%和54.4%。

模型	令牌率 (t/s)	WER (↓)	CER (↓)	SIM (↑)	UTMOS (↑)	SI-SDR (↑)	Mel L1 (↓)
Expresso
GT	–	0.0	0.0	1.00	3.43	24.15	0.00
WavTokenizer	40	19.7	11.4	0.49	2.95	16.56	0.53
FocalCodec	12.5	21.0	11.3	0.34	3.75	22.53	0.89
Kanade	12.5	9.3	4.9	0.55	3.38	22.81	0.61
CleanCodec@12.5	12.5	3.9	1.9	0.82	3.55	22.99	0.45
AISHELL-3
GT	–	–	0.0	1.00	2.68	21.78	0.00
WavTokenizer	40	–	6.1	0.50	2.45	18.90	0.52
FocalCodec	12.5	–	15.0	0.24	3.68	25.43	0.79
Kanade	12.5	–	7.5	0.47	3.18	24.45	0.58
CleanCodec@12.5	12.5	–	1.5	0.84	3.04	22.41	0.39
CML-TTS
GT	–	0.0	0.0	1.00	3.03	22.55	0.00
WavTokenizer	40	29.6	14.8	0.58	2.71	20.51	0.47
FocalCodec	12.5	54.4	29.9	0.35	3.58	24.94	0.75
Kanade	12.5	42.1	21.4	0.57	3.42	23.98	0.59
CleanCodec@12.5	12.5	12.1	5.1	0.78	3.47	22.11	0.65

解耦有效性 (表3)：在专门评估解耦能力的说话人验证（SV）和语音识别（ASR）任务上，CleanCodec系列模型取得了最好的性能，表明其能更有效地分离语言内容和说话人特征。

模型	令牌率 (t/s)	SV: ACC (↑)	SV: EER (↓)	ASR: WER (↓)	ASR: CER (↓)
BiCodec	50	99.15	1.52	6.2	3.4
Kanade	12.5	96.82	3.38	8.1	4.0
CleanCodec@62.5	62.5	99.99	0.23	4.7	2.6
CleanCodec@31.25	31.25	99.98	0.22	4.8	2.7
CleanCodec@12.5	12.5	99.92	0.58	5.6	3.0

下游语音转换 (表4)：在VC任务中，CleanCodec@12.5取得了最高的说话人相似度（SIM=0.81），远超基线。不过，随着令牌率增加，其SIM和UTMOS有所下降，表明部分说话人信息也可能泄漏到局部令牌中。

模型	令牌率 (t/s)	SIM (↑)	UTMOS (↑)	WER (↓)	CER (↓)
BiCodec	50	0.47	3.87	1.3	0.7
Kanade	12.5	0.52	4.21	2.2	1.1
CleanCodec@62.5	62.5	0.70	3.93	0.8	0.3
CleanCodec@31.25	31.25	0.76	3.95	0.9	0.4
CleanCodec@12.5	12.5	0.81	4.09	1.4	0.7

下游文本到语音 (表5)：在TTS任务中，CleanCodec@12.5在训练时间（1小时）和推理速度（RTF 0.170）上具有压倒性效率优势，同时实现了最佳的SIM（0.56）和WER（3.9%）。其训练和推理速度与令牌率成反比，凸显了低令牌率模型在效率上的巨大好处。

模型	令牌率 (t/s)	训练时间 (↓)	RTF (RTFx) (↓,↑)	SIM (↑)	WER (↓)
Qwen3	200	10:02	2.930 (0.3x)	0.36	9.1
Mimi	100	05:11	1.452 (0.7x)	0.34	10.8
XCodec2	50	02:44	0.688 (1.5x)	0.40	4.9
BiCodec	50	02:49	0.691 (1.4x)	0.51	5.2
WavTokenizer	40	02:19	0.552 (1.8x)	0.37	16.6
FocalCodec	12.5	00:58	0.172 (5.8x)	0.31	12.2
Kanade	12.5	00:59	0.169 (5.9x)	0.45	5.6
CleanCodec	12.5	01:00	0.170 (5.9x)	0.56	3.9

消融研究 (表6)：消融实验验证了每个关键组件的重要性：1）两阶段训练对于稳定性至关重要；2）移除SSL语义解码分支导致WER/CER急剧上升3倍；3）移除TitaNet全局条件化损害了SIM；4）不使用语音增强训练导致多数指标中度下降。

设计选择	WER (↓)	CER (↓)	SIM (↑)	UTMOS (↑)	SI-SDR (↑)	Mel L1 (↓)
基线	2.7	1.4	0.86	4.32	21.96	0.44
单阶段训练	4.1	2.2	0.80	4.01	18.58	0.57
用HuBERT进行SSL条件化	2.9	1.4	0.85	4.32	22.03	0.45
无SSL条件化	8.1	4.3	0.84	4.34	22.56	0.42
用WavLM进行全局条件化	2.9	1.5	0.77	4.32	21.55	0.44
无全局条件化	2.8	1.5	0.74	4.33	21.88	0.43
无去噪训练	3.4	1.7	0.82	4.24	20.55	0.41

⚖️ 评分理由

创新性 (1.5/2)：将音频标记化问题明确重构为“选择性信息瓶颈”，并设计出通过联合语音增强训练来实现这一目标的具体框架，思路清晰且有效。使用说话人验证模型进行全局条件化也是一个新颖的点。但核心思想（通过增强数据训练去噪模型）并非完全独创，其理论深度有进一步挖掘的空间。
技术严谨性 (1.3/1.5)：方法描述清晰，架构选择（FSQ、双解码器、两阶段训练）有理有据。消融实验验证了各组件有效性。然而，对“感知引导”的量化分析不足，模型选择性丢弃的“不可感知信息”边界如何界定？论文未提供理论分析或可视化证据。此外，实验中对基线模型（如Qwen3）在不同令牌率下性能波动巨大的现象缺乏讨论，可能影响对比的公平性。
实验充分性 (1.3/1.5)：在标准重建任务、多个域外数据集以及两个关键下游任务（VC， TTS）上进行了广泛评估，覆盖全面。提供了详尽的消融研究。主要缺陷在于：1）未提供模型在真实世界、未见过的复杂噪声环境下的测试结果；2）TTS实验仅使用了一个简单的decoder-only transformer作为声学模型，未与当前更复杂的TTS系统集成评估。
清晰度 (1.4/1.5)：论文写作流畅，结构清晰，图表（如图1、2）有效地辅助了理解。方法各部分（编码器、解码器、损失、训练策略）的描述逻辑性强。不足之处是部分公式符号（如 $\hat{g}$, $p(\cdot)$）的定义可以更醒目地呈现。
影响力 (1.3/1.5)：在语音编解码领域，提出一个能显著提升低令牌率下性能的实用框架，对推动语音大模型（如LLM-based TTS）的效率有积极意义。其“选择性编码”的理念可能启发相关工作。但影响范围目前主要限于语音领域，跨领域的通用性未探讨。
开源 (0.5/1.5)：论文明确承诺将发布训练和推理代码，这是重要的积极信号。然而，代码仓库链接未提供，也未提供任何预训练模型权重的下载地址。对于一个471M参数的大模型，缺失权重严重限制了社区的即时复现和直接应用。
可复现性 (1.0/1.5)：论文在附录中提供了详细的训练超参数和部分评估设置，为复现提供了基础。但完整的复现仍需依赖未公开的代码和预训练权重。训练依赖于特定规模的数据集（2400小时），对计算资源（1x A100一周）也有明确要求，这些因素构成了复现的门槛。
工程/实践价值 (1.4/1.5)：CleanCodec@12.5在极低令牌率下实现了高质量的重建和强大的下游任务性能，同时推理速度极快（总RTF 0.0045），这对于部署在资源受限的环境或需要实时处理的应用（如语音通信、实时TTS）具有很高的实用价值。其架构相对简洁（单码book），也便于集成。

🚨 局限与问题

除了作者提到的局限性（解耦效果随令牌率下降、计算预算可扩展性），本文还存在以下潜在问题值得深入探讨：

“感知引导”的边界与脆弱性：模型的“选择性”高度依赖于训练时所使用的退化管道。如果部署环境的噪声类型（如突发性机械噪声、特定人声干扰）与训练集中的（稳态环境噪声、混响）差异很大，模型可能无法正确区分“重要”与“不重要”信息，导致过度丢弃或保留不该保留的内容。论文缺乏对此鲁棒边界的分析。
全局编码器的信息泄漏风险：尽管使用了TitaNet进行条件化，但消融实验显示，移除全局条件化仅轻微影响SIM。结合VC实验中SIM随令牌率增加而下降的现象，这强烈暗示说话人信息并非完全被隔离在全局编码中，部分泄漏到了局部令牌里。这可能限制更精细的语音编辑（如独立修改音色和内容）。
评估指标的单一性与潜在偏差：主要依赖WER（使用单一ASR模型Parakeet）和SIM（使用ReDimNet）进行评估。WER对语言模型能力敏感，SIM对说话人嵌入模型敏感。结果可能部分反映了评估模型本身的特性，而非纯粹的重建质量。缺乏如PESQ、POLQA等更全面的主观感知客观评估。
基线选择的潜在不公平性：表1中，Qwen3-TTS-Tokenizer在50 t/s时性能急剧恶化（WER 7.9%），而100 t/s时性能正常（2.6%）。这种非单调行为异常，可能暗示该基线未被公平调优或配置。这可能会在对比中放大CleanCodec的优势。论文应对此现象进行解释或提供更合理的基线设置。
下游任务评估的局限性：TTS评估仅基于一个简单的自回归声学模型。现代TTS系统（如基于扩散的、或更复杂的自回归模型）可能对令牌表征有不同的需求和敏感性。CleanCodec产生的令牌在这些更复杂系统中的实际效能尚未验证。

← 返回 2026-06-04 语音/音乐/音频论文速递

📄 CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📎 相关论文