ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning
📄 ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning #语音识别 #强化学习 #生成模型 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Junyi Wang(清华大学,华为技术有限公司) 通讯作者:Zengrui Jin(清华大学),Chao Zhang(清华大学) 其他作者:Chi Zhang(清华大学),Jing Qian(华为技术有限公司),Haifeng Luo(华为技术有限公司),Hao Wang(华为技术有限公司) 💡 毒舌点评 亮点是把强化学习“硬塞”进了语音编码的量化环节,用WER当奖励信号,在200bps的极限压榨下还把清晰度拉高了13%,思路很野。槽点是模型参数量(301M)对于卫星/水下通信这种“寸资源寸金”的场景可能还是太“胖”了,而且非流式架构带来的延迟问题在论文里只提了一嘴,算是留了个“未来工作”的经典坑。 🔗 开源详情 代码:论文中提供了GitHub链接:https://github.com/demo941/ClariCodec,表明代码已开源。 在线Demo:论文提供了音频样本演示页面:https://demo941.github.io/ClariCodec/。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:训练和评估使用了公开数据集Libriheavy和LibriSpeech。 预训练权重/依赖:论文中引用了多个开源项目作为基线或组件,包括:ConvNeXt V2、Vocos声码器、NVIDIA的NeMo Conformer-Transducer和Parakeet TDT-CTC ASR模型、WavLM用于说话人验证。 📌 核心摘要 这篇论文旨在解决卫星、水下等极端带宽受限场景下(如200bps)语音通信清晰度严重下降的问题。传统编解码器以波形重建为目标,在超低比特率下会将宝贵的比特分配给不必要的声学细节,而非核心语义信息。为此,作者提出了ClariCodec,一个采用两阶段训练的神经语音编解码器。第一阶段使用改进的有限标量量化(iFSQ)和可逆层归一化(ILN)进行基于重建的预训练,建立稳定的离散表示。核心创新在于第二阶段:作者将量化过程重新表述为一个随机策略,并利用强化学习(GRPO算法)以词错率(WER)的负值作为奖励信号,直接对编码器进行微调,以优化语义保留能力,同时冻结解码器和声码器以保持声学质量。实验表明,即使在无RL的第一阶段,ClariCodec在LibriSpeech测试集上已取得3.68%的WER,具有竞争力;经过RL优化后,WER进一步降至3.20%(测试集清洁子集)和8.93%(测试集其他子集),实现了约13%的相对提升,且感知质量(UTMOS)未受损,性能超越了数倍于其比特率(如400bps)的基线模型。 🏗️ 模型架构 模型的整体流程是一个端到端的神经语音编解码系统,分为编码、量化、解码和声码四个核心阶段,并采用两阶段训练策略。 完整输入输出流程: 输入:16kHz单通道原始语音波形。 特征提取:提取对数梅尔频谱图,窗口长度200样本(12.5ms),跳跃长度200样本(12.5ms)。 编码器:基于ConvNeXt V2的编码器对梅尔频谱进行压缩。通过三个连续的2倍下采样层(交错ConvNeXt V2块),将时间分辨率降低8倍,同时将通道维度加倍,最终得到10Hz的潜在帧率。 量化器:采用随机残差有限标量量化(Stochastic R-FSQ)。包含两个残差层,每层的量化级别维度为ℒ=[8, 5, 5, 5],对应每层10比特。关键设计:量化过程被重构为一个随机策略。对于潜在向量z_d,不进行确定性舍入,而是将到每个网格点的负平方距离(加上Gumbel噪声)作为logits,通过Gumbel-Softmax采样得到量化索引。这使得量化过程可微,可用于后续的强化学习优化。 解码器:与编码器对称的ConvNeXt V2解码器,通过三个2倍上采样块恢复时间分辨率,从离散令牌序列重建对数梅尔频谱图。 声码器:使用从头训练的Vocos声码器,将重建的梅尔频谱图转换为最终的16kHz波形输出。 组件间连接与数据流动: 数据流:波形 → 梅尔频谱 → 编码器特征 → 随机R-FSQ离散令牌 → 解码器重建梅尔频谱 → Vocos重建波形。 第一阶段(预训练):所有组件(编码器、量化器、解码器、声码器)联合训练,优化重建损失、对抗损失和特征匹配损失。 第二阶段(RL优化):冻结量化器、解码器和声码器的所有参数,仅训练编码器。编码器被视为策略网络π_θ,其输出(通过随机量化)产生的离散令牌序列,经冻结的解码器-声码器管道生成重建波形。该波形与原始波形一同送入预训练的ASR模型,得到WER作为奖励,通过GRPO算法更新编码器参数。 关键设计选择理由: ...