📄 ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning

#语音识别 #强化学习 #生成模型

🔥 评分：9.0/10 | arxiv

👥 作者与机构

第一作者：Junyi Wang（清华大学，华为技术有限公司）
通讯作者：Zengrui Jin（清华大学），Chao Zhang（清华大学）
其他作者：Chi Zhang（清华大学），Jing Qian（华为技术有限公司），Haifeng Luo（华为技术有限公司），Hao Wang（华为技术有限公司）

💡 毒舌点评

亮点是把强化学习“硬塞”进了语音编码的量化环节，用WER当奖励信号，在200bps的极限压榨下还把清晰度拉高了13%，思路很野。槽点是模型参数量（301M）对于卫星/水下通信这种“寸资源寸金”的场景可能还是太“胖”了，而且非流式架构带来的延迟问题在论文里只提了一嘴，算是留了个“未来工作”的经典坑。

🔗 开源详情

代码：论文中提供了GitHub链接：https://github.com/demo941/ClariCodec，表明代码已开源。
在线Demo：论文提供了音频样本演示页面：https://demo941.github.io/ClariCodec/。
模型权重：论文中未明确提及是否公开预训练模型权重。
数据集：训练和评估使用了公开数据集Libriheavy和LibriSpeech。
预训练权重/依赖：论文中引用了多个开源项目作为基线或组件，包括：ConvNeXt V2、Vocos声码器、NVIDIA的NeMo Conformer-Transducer和Parakeet TDT-CTC ASR模型、WavLM用于说话人验证。

📌 核心摘要

这篇论文旨在解决卫星、水下等极端带宽受限场景下（如200bps）语音通信清晰度严重下降的问题。传统编解码器以波形重建为目标，在超低比特率下会将宝贵的比特分配给不必要的声学细节，而非核心语义信息。为此，作者提出了ClariCodec，一个采用两阶段训练的神经语音编解码器。第一阶段使用改进的有限标量量化（iFSQ）和可逆层归一化（ILN）进行基于重建的预训练，建立稳定的离散表示。核心创新在于第二阶段：作者将量化过程重新表述为一个随机策略，并利用强化学习（GRPO算法）以词错率（WER）的负值作为奖励信号，直接对编码器进行微调，以优化语义保留能力，同时冻结解码器和声码器以保持声学质量。实验表明，即使在无RL的第一阶段，ClariCodec在LibriSpeech测试集上已取得3.68%的WER，具有竞争力；经过RL优化后，WER进一步降至3.20%（测试集清洁子集）和8.93%（测试集其他子集），实现了约13%的相对提升，且感知质量（UTMOS）未受损，性能超越了数倍于其比特率（如400bps）的基线模型。

🏗️ 模型架构

模型的整体流程是一个端到端的神经语音编解码系统，分为编码、量化、解码和声码四个核心阶段，并采用两阶段训练策略。

完整输入输出流程：

输入：16kHz单通道原始语音波形。
特征提取：提取对数梅尔频谱图，窗口长度200样本（12.5ms），跳跃长度200样本（12.5ms）。
编码器：基于ConvNeXt V2的编码器对梅尔频谱进行压缩。通过三个连续的2倍下采样层（交错ConvNeXt V2块），将时间分辨率降低8倍，同时将通道维度加倍，最终得到10Hz的潜在帧率。
量化器：采用随机残差有限标量量化（Stochastic R-FSQ）。包含两个残差层，每层的量化级别维度为ℒ=[8, 5, 5, 5]，对应每层10比特。关键设计：量化过程被重构为一个随机策略。对于潜在向量z_d，不进行确定性舍入，而是将到每个网格点的负平方距离（加上Gumbel噪声）作为logits，通过Gumbel-Softmax采样得到量化索引。这使得量化过程可微，可用于后续的强化学习优化。
解码器：与编码器对称的ConvNeXt V2解码器，通过三个2倍上采样块恢复时间分辨率，从离散令牌序列重建对数梅尔频谱图。
声码器：使用从头训练的Vocos声码器，将重建的梅尔频谱图转换为最终的16kHz波形输出。

组件间连接与数据流动：

数据流：波形 → 梅尔频谱 → 编码器特征 → 随机R-FSQ离散令牌 → 解码器重建梅尔频谱 → Vocos重建波形。
第一阶段（预训练）：所有组件（编码器、量化器、解码器、声码器）联合训练，优化重建损失、对抗损失和特征匹配损失。
第二阶段（RL优化）：冻结量化器、解码器和声码器的所有参数，仅训练编码器。编码器被视为策略网络π_θ，其输出（通过随机量化）产生的离散令牌序列，经冻结的解码器-声码器管道生成重建波形。该波形与原始波形一同送入预训练的ASR模型，得到WER作为奖励，通过GRPO算法更新编码器参数。

关键设计选择理由：

ConvNeXt V2：作为强大的卷积骨干网络，提供高效的特征提取。
随机FSQ：将确定性量化转变为随机采样，使其可微并可作为RL策略，是连接编码器与RL优化的关键桥梁。
两阶段训练：先通过重建损失建立良好的声学基础，再通过RL专注于优化语义（清晰度），避免了端到端RL训练可能导致的声学质量崩溃。
冻结非训练组件：在RL阶段固定解码器和声码器，确保了声学重建管道不变，RL优化仅改变编码器向该管道输入的“指令”（令牌），从而在提升清晰度的同时稳定住感知质量。

💡 核心创新点

首次将强化学习引入神经语音编解码器训练：
- 是什么：将语音编解码器的量化过程建模为随机策略，并使用基于策略梯度的强化学习（GRPO）进行优化。
- 之前的方法：所有神经语音编解码器均使用基于重建损失（如L1、对抗损失）的监督学习进行训练，无法直接优化非微分的离散评估指标（如WER）。
- 如何解决：通过随机量化使编码器输出可采样、可微分，从而能够以WER的负值为奖励信号，通过RL直接最大化语义信息的保留。
- 实际效果：在200bps下，RL优化带来了13%的相对WER降低（从3.68%到3.20%），且未损害感知质量。
两阶段训练框架与“声学锚点”策略：
- 是什么：第一阶段进行基于重建的预训练以建立声学基础；第二阶段在RL优化中引入梅尔频谱重建损失作为正则化项。
- 之前的方法：通常为单阶段端到端训练。若直接用RL优化，容易为了提升WER而牺牲说话人相似度和音质。
- 如何解决：第一阶段确保模型具备基本的语音重建能力。第二阶段在RL损失（推动语义优化）旁添加一个λ_mel * L_mel损失项，约束重建的梅尔频谱与原始梅尔频谱接近，从而将策略“锚定”在原始声学特征附近。
- 实际效果：消融实验表明，仅使用RL损失会导致PESQ（2.05→1.91）和SIM（0.57→0.54）下降；加入梅尔锚点后，PESQ恢复至1.98，SIM恢复至0.56，有效缓解了声学质量的退化。
针对超低比特率（200bps）的专用架构与稳定化技术：
- 是什么：设计了总下采样因子为8x、潜在帧率为10Hz的编码-解码架构，并结合了改进的FSQ（iFSQ）和可逆层归一化（ILN）来稳定极低比特率下的量化过程。
- 之前的方法：大多数神经编解码器针对更高比特率（如6kbps）设计，直接缩放至200bps会导致表示崩溃。
- 如何解决：通过精心设计的下采样路径达到目标比特率。iFSQ使用分布匹配的sigmoid激活替代tanh，提升码本利用率；ILN在每个残差阶段量化前进行归一化，量化后反转，缓解了多级残差量化中的幅度衰减问题。
- 实际效果：消融实验显示，移除ILN会导致WER从3.68%急剧上升至10.5%，PESQ从2.05降至1.56，证明了其对维持性能至关重要。
将非微分评估指标（WER）直接作为优化目标：
- 是什么：通过RL框架，使得以离散、非微分的词错率（WER）作为训练信号成为可能。
- 之前的方法：在监督学习中，只能使用可微的代理损失（如交叉熵）来间接提升ASR性能，与最终目标存在差距。
- 如何解决：RL不依赖于损失函数的微分性，而是通过采样动作（量化索引）、计算奖励（-WER）、估计优势函数来更新策略（编码器）。
- 实际效果：实现了编解码器优化目标与最终通信任务（语音识别）指标的直接对齐，在超低比特率下取得了SOTA的清晰度表现。

🔬 细节详述

训练数据：
- 训练集：Libriheavy的大子集，包含50，000小时语音。
- 评估集：LibriSpeech的test-clean和test-other子集。
- 预处理：所有音频为单通道16kHz。训练时随机裁剪音频段（第一阶段约3.2秒，第二阶段约5秒）。
损失函数：
- 第一阶段（L_G）：
  1. 重建损失（L_rec）：重建与真实对数梅尔频谱图之间的L1距离。权重λ_rec=15。
  2. 对抗损失（L_adv）：采用Hinge GAN目标，包含三个判别器：
    - 多周期判别器（MPD）作用于原始波形。
    - 多分辨率判别器（MRD）作用于复杂STFT表示。
    - 多尺度判别器（MSD）作用于对数梅尔频谱图。
    - 公式：L_adv = L_adv-msd + L_adv-mpd + λ_mrd * L_adv-mrd。权重λ_adv=1， λ_mrd=0.2。
  3. 特征匹配损失（L_fm）：最小化真实与重建样本在判别器中间层表示上的L1距离。公式结构与L_adv类似，权重λ_fm=1。
- 第二阶段（L_total）：
  1. RL策略梯度损失：基于GRPO。对每个输入x采样G=16个令牌序列{o_i}，计算每个序列的奖励r_i = -WER。优势函数Â_i通过组内奖励标准化计算。损失为策略对数概率加权优势函数的期望的负值。权重λ_RL=10。
  2. 梅尔重建损失（L_mel）：作为声学锚点，计算重建与真实梅尔频谱的L1距离。权重λ_mel=1。
训练策略：
- 优化器：AdamW， β1=0.8， β2=0.9。
- 学习率计划：单周期学习率计划，前5%步数为余弦预热，之后余弦衰减。
- 学习率：第一阶段生成器峰值1e-3，判别器峰值1e-3；第二阶段峰值1e-5。
- 批次大小：第一阶段128（在16张H200 GPU上），第二阶段10（在4张H200 GPU上）。
- 训练步数：第一阶段200k步，第二阶段50k步。
关键超参数：
- 量化级别：R-FSQ每层ℒ=[8, 5, 5, 5]。
- 潜在帧率：10 Hz。
- 比特率：200 bps。
- GRPO组大小G：16。
- Gumbel-Softmax温度τ：未明确给出具体值，但为关键参数。
- ASR奖励模型：使用NVIDIA 1.1B参数的Hybrid FastConformer TDT-CTC模型计算WER。
训练硬件：
- 第一阶段：16 NVIDIA H200 GPU。
- 第二阶段：4 NVIDIA H200 GPU。
推理细节：推理时，编码器进行前向传播。在RL优化后的模型中，量化采用确定性方式（取logits最大值对应的索引），而非训练时的随机采样。
数据增强/正则化：主要依靠随机裁剪作为数据增强。正则化体现在第二阶段的梅尔重建损失（L_mel）上，它起到了防止策略偏离声学基础太远的锚定作用。

📊 实验结果

主要指标对比表（表1核心数据复述）：

模型	比特率(bps)	test-clean WER(%) ↓	test-clean PESQ ↑	test-clean UTMOS ↑	test-other WER(%) ↓
Ground Truth	-	1.50	4.64	4.09	2.81
EnCodec	750	16.1	1.25	1.25	36.4
StableCodec-400	400	4.88	1.92	4.31	14.4
FlexiCodec	640	2.57	2.20	4.15	4.69
SAC	525	2.00	2.16	4.27	4.15
WavTokenizer	480	7.38	1.63	3.57	21.1
ClariCodec (w/o RL)	200	3.68	2.05	3.99	9.97
ClariCodec	200	3.20	1.98	4.03	8.93

消融实验：
1. ILN消融（表2）：
  - 完整模型（Stage 1）：WER 3.68%， PESQ 2.05， STOI 0.88。
  - 移除ILN：WER 10.5%， PESQ 1.56， STOI 0.84。性能全面显著下降。
2. 第二阶段训练策略消融（表3）：
  - Stage 1基线：WER 3.68%， PESQ 2.05， SIM 0.57。
  - 仅RL损失：WER 3.22%， PESQ 1.91， SIM 0.54。WER改善，但声学指标下降。
  - Mel + RL损失（最终方案）：WER 3.20%， PESQ 1.98， SIM 0.56。WER进一步微改善，声学指标部分恢复。
与SOTA方法对比：
- 在清晰度（WER）上：ClariCodec（3.20%）在200bps下显著优于所有对比模型，包括比特率是其2-3倍的模型，如StableCodec-400（4.88%）、WavTokenizer（7.38%）、LSCodec（19.7%）。与更高比特率的SAC（2.00%@525bps）和FlexiCodec（2.57%@640bps）相比，虽有差距，但比特率仅为后者的1/3到1/2.5。
- 在感知质量（PESQ/UTMOS）上：ClariCodec的PESQ（1.98）低于高比特率模型（如FlexiCodec的2.20），但UTMOS（4.03）与高比特率模型（如StableCodec-400的4.31， FlexiCodec的4.15）相当甚至更优，表明其在整体听感自然度上保持良好。
- 在说话人相似度（SIM）上：ClariCodec（0.56）低于SAC（0.78）和FlexiCodec（0.71），这是为超低比特率和清晰度优化付出的代价。
在不同数据集下的细分结果：论文提供了test-clean和test-other两个子集的结果。ClariCodec在更难的test-other上也表现出一致的RL优化收益（WER从9.97%降至8.93%）。

🖼️ 图片与表格

图1: 模型架构与两阶段训练示意�� | 保留: 是 - 理由：这是论文的核心架构图，清晰地展示了第一阶段（端到端预训练）和第二阶段（RL优化）的数据流、组件冻结/训练状态以及损失函数构成，对于理解方法至关重要。
表1: 主实验结果对比表 | 保留: 是 - 理由：这是论文的核心结果表，包含了所有对比模型在多个关键指标（WER， PESQ， UTMOS， SIM）上的具体数值，是支撑论文主张的主要证据。
表2: ILN消融实验表 | 保留: 是 - 理由：通过具体数字展示了ILN组件的关键作用，是验证模型设计有效性的重要证据。
表3: 第二阶段训练策略消融实验表 | 保留: 是 - 理由：通过对比揭示了RL损失与梅尔重建损失结合的必要性，阐明了第二阶段训练策略的设计原理。

📸 论文图片

← 返回 2026-04-19 论文速递

📄 ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

🖼️ 图片与表格#

📸 论文图片#

📎 相关论文