📄 ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning
#语音识别 #强化学习 #生成模型
🔥 评分:9.0/10 | arxiv
👥 作者与机构
- 第一作者:Junyi Wang(清华大学,华为技术有限公司)
- 通讯作者:Zengrui Jin(清华大学),Chao Zhang(清华大学)
- 其他作者:Chi Zhang(清华大学),Jing Qian(华为技术有限公司),Haifeng Luo(华为技术有限公司),Hao Wang(华为技术有限公司)
💡 毒舌点评
亮点是把强化学习“硬塞”进了语音编码的量化环节,用WER当奖励信号,在200bps的极限压榨下还把清晰度拉高了13%,思路很野。槽点是模型参数量(301M)对于卫星/水下通信这种“寸资源寸金”的场景可能还是太“胖”了,而且非流式架构带来的延迟问题在论文里只提了一嘴,算是留了个“未来工作”的经典坑。
📌 核心摘要
这篇论文旨在解决卫星、水下等极端带宽受限场景下(如200bps)语音通信清晰度严重下降的问题。传统编解码器以波形重建为目标,在超低比特率下会将宝贵的比特分配给不必要的声学细节,而非核心语义信息。为此,作者提出了ClariCodec,一个采用两阶段训练的神经语音编解码器。第一阶段使用改进的有限标量量化(iFSQ)和可逆层归一化(ILN)进行基于重建的预训练,建立稳定的离散表示。核心创新在于第二阶段:作者将量化过程重新表述为一个随机策略,并利用强化学习(GRPO算法)以词错率(WER)的负值作为奖励信号,直接对编码器进行微调,以优化语义保留能力,同时冻结解码器和声码器以保持声学质量。实验表明,即使在无RL的第一阶段,ClariCodec在LibriSpeech测试集上已取得3.68%的WER,具有竞争力;经过RL优化后,WER进一步降至3.20%(测试集清洁子集)和8.93%(测试集其他子集),实现了约13%的相对提升,且感知质量(UTMOS)未受损,性能超越了数倍于其比特率(如400bps)的基线模型。
🏗️ 模型架构
模型的整体流程是一个端到端的神经语音编解码系统,分为编码、量化、解码和声码四个核心阶段,并采用两阶段训练策略。
完整输入输出流程:
- 输入:16kHz单通道原始语音波形。
- 特征提取:提取对数梅尔频谱图,窗口长度200样本(12.5ms),跳跃长度200样本(12.5ms)。
- 编码器:基于ConvNeXt V2的编码器对梅尔频谱进行压缩。通过三个连续的2倍下采样层(交错ConvNeXt V2块),将时间分辨率降低8倍,同时将通道维度加倍,最终得到10Hz的潜在帧率。
- 量化器:采用随机残差有限标量量化(Stochastic R-FSQ)。包含两个残差层,每层的量化级别维度为ℒ=[8, 5, 5, 5],对应每层10比特。关键设计:量化过程被重构为一个随机策略。对于潜在向量z_d,不进行确定性舍入,而是将到每个网格点的负平方距离(加上Gumbel噪声)作为logits,通过Gumbel-Softmax采样得到量化索引。这使得量化过程可微,可用于后续的强化学习优化。
- 解码器:与编码器对称的ConvNeXt V2解码器,通过三个2倍上采样块恢复时间分辨率,从离散令牌序列重建对数梅尔频谱图。
- 声码器:使用从头训练的Vocos声码器,将重建的梅尔频谱图转换为最终的16kHz波形输出。
组件间连接与数据流动:
- 数据流:波形 → 梅尔频谱 → 编码器特征 → 随机R-FSQ离散令牌 → 解码器重建梅尔频谱 → Vocos重建波形。
- 第一阶段(预训练):所有组件(编码器、量化器、解码器、声码器)联合训练,优化重建损失、对抗损失和特征匹配损失。
- 第二阶段(RL优化):冻结量化器、解码器和声码器的所有参数,仅训练编码器。编码器被视为策略网络π_θ,其输出(通过随机量化)产生的离散令牌序列,经冻结的解码器-声码器管道生成重建波形。该波形与原始波形一同送入预训练的ASR模型,得到WER作为奖励,通过GRPO算法更新编码器参数。
关键设计选择理由:
- ConvNeXt V2:作为强大的卷积骨干网络,提供高效的特征提取。
- 随机FSQ:将确定性量化转变为随机采样,使其可微并可作为RL策略,是连接编码器与RL优化的关键桥梁。
- 两阶段训练:先通过重建损失建立良好的声学基础,再通过RL专注于优化语义(清晰度),避免了端到端RL训练可能导致的声学质量崩溃。
- 冻结非训练组件:在RL阶段固定解码器和声码器,确保了声学重建管道不变,RL优化仅改变编码器向该管道输入的“指令”(令牌),从而在提升清晰度的同时稳定住感知质量。
💡 核心创新点
首次将强化学习引入神经语音编解码器训练:
- 是什么:将语音编解码器的量化过程建模为随机策略,并使用基于策略梯度的强化学习(GRPO)进行优化。
- 之前的方法:所有神经语音编解码器均使用基于重建损失(如L1、对抗损失)的监督学习进行训练,无法直接优化非微分的离散评估指标(如WER)。
- 如何解决:通过随机量化使编码器输出可采样、可微分,从而能够以WER的负值为奖励信号,通过RL直接最大化语义信息的保留。
- 实际效果:在200bps下,RL优化带来了13%的相对WER降低(从3.68%到3.20%),且未损害感知质量。
两阶段训练框架与“声学锚点”策略:
- 是什么:第一阶段进行基于重建的预训练以建立声学基础;第二阶段在RL优化中引入梅尔频谱重建损失作为正则化项。
- 之前的方法:通常为单阶段端到端训练。若直接用RL优化,容易为了提升WER而牺牲说话人相似度和音质。
- 如何解决:第一阶段确保模型具备基本的语音重建能力。第二阶段在RL损失(推动语义优化)旁添加一个λ_mel * L_mel损失项,约束重建的梅尔频谱与原始梅尔频谱接近,从而将策略“锚定”在原始声学特征附近。
- 实际效果:消融实验表明,仅使用RL损失会导致PESQ(2.05→1.91)和SIM(0.57→0.54)下降;加入梅尔锚点后,PESQ恢复至1.98,SIM恢复至0.56,有效缓解了声学质量的退化。
针对超低比特率(200bps)的专用架构与稳定化技术:
- 是什么:设计了总下采样因子为8x、潜在帧率为10Hz的编码-解码架构,并结合了改进的FSQ(iFSQ)和可逆层归一化(ILN)来稳定极低比特率下的量化过程。
- 之前的方法:大多数神经编解码器针对更高比特率(如6kbps)设计,直接缩放至200bps会导致表示崩溃。
- 如何解决:通过精心设计的下采样路径达到目标比特率。iFSQ使用分布匹配的sigmoid激活替代tanh,提升码本利用率;ILN在每个残差阶段量化前进行归一化,量化后反转,缓解了多级残差量化中的幅度衰减问题。
- 实际效果:消融实验显示,移除ILN会导致WER从3.68%急剧上升至10.5%,PESQ从2.05降至1.56,证明了其对维持性能至关重要。
将非微分评估指标(WER)直接作为优化目标:
- 是什么:通过RL框架,使得以离散、非微分的词错率(WER)作为训练信号成为可能。
- 之前的方法:在监督学习中,只能使用可微的代理损失(如交叉熵)来间接提升ASR性能,与最终目标存在差距。
- 如何解决:RL不依赖于损失函数的微分性,而是通过采样动作(量化索引)、计算奖励(-WER)、估计优势函数来更新策略(编码器)。
- 实际效果:实现了编解码器优化目标与最终通信任务(语音识别)指标的直接对齐,在超低比特率下取得了SOTA的清晰度表现。
🔬 细节详述
训练数据:
- 训练集:Libriheavy的大子集,包含50,000小时语音。
- 评估集:LibriSpeech的test-clean和test-other子集。
- 预处理:所有音频为单通道16kHz。训练时随机裁剪音频段(第一阶段约3.2秒,第二阶段约5秒)。
损失函数:
- 第一阶段(L_G):
- 重建损失(L_rec):重建与真实对数梅尔频谱图之间的L1距离。权重λ_rec=15。
- 对抗损失(L_adv):采用Hinge GAN目标,包含三个判别器:
- 多周期判别器(MPD)作用于原始波形。
- 多分辨率判别器(MRD)作用于复杂STFT表示。
- 多尺度判别器(MSD)作用于对数梅尔频谱图。
- 公式:L_adv = L_adv-msd + L_adv-mpd + λ_mrd * L_adv-mrd。权重λ_adv=1, λ_mrd=0.2。
- 特征匹配损失(L_fm):最小化真实与重建样本在判别器中间层表示上的L1距离。公式结构与L_adv类似,权重λ_fm=1。
- 第二阶段(L_total):
- RL策略梯度损失:基于GRPO。对每个输入x采样G=16个令牌序列{o_i},计算每个序列的奖励r_i = -WER。优势函数Â_i通过组内奖励标准化计算。损失为策略对数概率加权优势函数的期望的负值。权重λ_RL=10。
- 梅尔重建损失(L_mel):作为声学锚点,计算重建与真实梅尔频谱的L1距离。权重λ_mel=1。
- 第一阶段(L_G):
训练策略:
- 优化器:AdamW, β1=0.8, β2=0.9。
- 学习率计划:单周期学习率计划,前5%步数为余弦预热,之后余弦衰减。
- 学习率:第一阶段生成器峰值1e-3,判别器峰值1e-3;第二阶段峰值1e-5。
- 批次大小:第一阶段128(在16张H200 GPU上),第二阶段10(在4张H200 GPU上)。
- 训练步数:第一阶段200k步,第二阶段50k步。
关键超参数:
- 量化级别:R-FSQ每层ℒ=[8, 5, 5, 5]。
- 潜在帧率:10 Hz。
- 比特率:200 bps。
- GRPO组大小G:16。
- Gumbel-Softmax温度τ:未明确给出具体值,但为关键参数。
- ASR奖励模型:使用NVIDIA 1.1B参数的Hybrid FastConformer TDT-CTC模型计算WER。
训练硬件:
- 第一阶段:16 NVIDIA H200 GPU。
- 第二阶段:4 NVIDIA H200 GPU。
推理细节:推理时,编码器进行前向传播。在RL优化后的模型中,量化采用确定性方式(取logits最大值对应的索引),而非训练时的随机采样。
数据增强/正则化:主要依靠随机裁剪作为数据增强。正则化体现在第二阶段的梅尔重建损失(L_mel)上,它起到了防止策略偏离声学基础太远的锚定作用。
📊 实验结果
主要指标对比表(表1核心数据复述):
模型 比特率(bps) test-clean WER(%) ↓ test-clean PESQ ↑ test-clean UTMOS ↑ test-other WER(%) ↓ Ground Truth - 1.50 4.64 4.09 2.81 EnCodec 750 16.1 1.25 1.25 36.4 StableCodec-400 400 4.88 1.92 4.31 14.4 FlexiCodec 640 2.57 2.20 4.15 4.69 SAC 525 2.00 2.16 4.27 4.15 WavTokenizer 480 7.38 1.63 3.57 21.1 ClariCodec (w/o RL) 200 3.68 2.05 3.99 9.97 ClariCodec 200 3.20 1.98 4.03 8.93 消融实验:
- ILN消融(表2):
- 完整模型(Stage 1):WER 3.68%, PESQ 2.05, STOI 0.88。
- 移除ILN:WER 10.5%, PESQ 1.56, STOI 0.84。性能全面显著下降。
- 第二阶段训练策略消融(表3):
- Stage 1基线:WER 3.68%, PESQ 2.05, SIM 0.57。
- 仅RL损失:WER 3.22%, PESQ 1.91, SIM 0.54。WER改善,但声学指标下降。
- Mel + RL损失(最终方案):WER 3.20%, PESQ 1.98, SIM 0.56。WER进一步微改善,声学指标部分恢复。
- ILN消融(表2):
与SOTA方法对比:
- 在清晰度(WER)上:ClariCodec(3.20%)在200bps下显著优于所有对比模型,包括比特率是其2-3倍的模型,如StableCodec-400(4.88%)、WavTokenizer(7.38%)、LSCodec(19.7%)。与更高比特率的SAC(2.00%@525bps)和FlexiCodec(2.57%@640bps)相比,虽有差距,但比特率仅为后者的1/3到1/2.5。
- 在感知质量(PESQ/UTMOS)上:ClariCodec的PESQ(1.98)低于高比特率模型(如FlexiCodec的2.20),但UTMOS(4.03)与高比特率模型(如StableCodec-400的4.31, FlexiCodec的4.15)相当甚至更优,表明其在整体听感自然度上保持良好。
- 在说话人相似度(SIM)上:ClariCodec(0.56)低于SAC(0.78)和FlexiCodec(0.71),这是为超低比特率和清晰度优化付出的代价。
在不同数据集下的细分结果:论文提供了test-clean和test-other两个子集的结果。ClariCodec在更难的test-other上也表现出一致的RL优化收益(WER从9.97%降至8.93%)。
🔗 开源详情
- 代码:论文中提供了GitHub链接:
https://github.com/demo941/ClariCodec,表明代码已开源。 - 在线Demo:论文提供了音频样本演示页面:
https://demo941.github.io/ClariCodec/。 - 模型权重:论文中未明确提及是否公开预训练模型权重。
- 数据集:训练和评估使用了公开数据集Libriheavy和LibriSpeech。
- 预训练权重/依赖:论文中引用了多个开源项目作为基线或组件,包括:ConvNeXt V2、Vocos声码器、NVIDIA的NeMo Conformer-Transducer和Parakeet TDT-CTC ASR模型、WavLM用于说话人验证。
🖼️ 图片与表格
- 图1: 模型架构与两阶段训练示意�� | 保留: 是 - 理由:这是论文的核心架构图,清晰地展示了第一阶段(端到端预训练)和第二阶段(RL优化)的数据流、组件冻结/训练状态以及损失函数构成,对于理解方法至关重要。
- 表1: 主实验结果对比表 | 保留: 是 - 理由:这是论文的核心结果表,包含了所有对比模型在多个关键指标(WER, PESQ, UTMOS, SIM)上的具体数值,是支撑论文主张的主要证据。
- 表2: ILN消融实验表 | 保留: 是 - 理由:通过具体数字展示了ILN组件的关键作用,是验证模型设计有效性的重要证据。
- 表3: 第二阶段训练策略消融实验表 | 保留: 是 - 理由:通过对比揭示了RL损失与梅尔重建损失结合的必要性,阐明了第二阶段训练策略的设计原理。
📸 论文图片
