Optimising Neural Speech Codecs for 300bps Communication using Reinforcement Learning
📄 Optimising Neural Speech Codecs for 300bps Communication using Reinforcement Learning #音频编码 #强化学习 #语音可懂度 ✅ 7/10 | 前30% | #音频编码 | #强化学习 | #语音可懂度 | arxiv 学术质量 5.9/8 | 影响力 0.7/1 | 可复现性 0.4/1 | 置信度 中高 👥 作者与机构 第一作者:Junyi Wang(清华大学,未明确具体院系) 通讯作者:未明确说明(论文列出了多个联系邮箱,未指明通讯作者) 作者列表:Junyi Wang(清华大学),Chi Zhang(华为技术有限公司),Jing Qian(华为技术有限公司),Haifeng Luo(华为技术有限公司),Hao Wang(华为技术有限公司),Zengrui Jin(清华大学),Chao Zhang(清华大学) 💡 毒舌点评 亮点:将强化学习引入极低比特率神经语音编解码器的训练,以直接优化语音可懂度(WER),是一个清晰且有价值的创新。通过将量化过程重构为可微分的随机策略,实现了对非可微指标的直接优化,这一方法论本身具有启发性。在300bps的极端条件下,其WER性能优于更高比特率的基线,证明了“可懂度优先”策略的有效性。 短板:论文的核心贡献局限于单一数据集(LibriSpeech)和单一下游任务(ASR)的评估,缺乏对不同语言、说话风格、噪声环境等场景的验证,泛化性存疑。声称“首次”将RL应用于编解码器训练需谨慎。模型未开源,严重限制了可复现性和社区验证。 📌 核心摘要 解决的问题:在卫星、水下等带宽受限的通信环境中,需要在极低比特率(如300bps)下传输语音,此时首要目标是保证语音可懂度(语义清晰度)。传统神经语音编解码器通常优化波形或频谱重建损失,这在极低比特率下会分配比特去拟合不必要的声学细节,从而损害可懂度。 方法核心:提出ClariCodec,一个两阶段训练的神经语音编解码器。第一阶段使用改进的有限标量量化(iFSQ)和重建损失(L1 mel、对抗、特征匹配)进行预训练,建立基础的离散语音表示。第二阶段,将量化过程重新表述为随机策略,冻结除编码器外的所有模块,使用基于组相对策略优化(GRPO)的强化学习,以预训练ASR模型输出的词错误率(WER)的负值作为奖励信号,直接微调编码器以最大化可懂度。为平衡可懂度与声学质量,在RL损失中引入梅尔重建损失作为正则项。 与已有方法的新颖之处:首次将强化学习应用于训练神经语音编解码器(根据作者声称),实现了对非可微指标(WER)的直接优化。提出了“随机残差量化”的概念,通过Gumbel-Softmax技巧使量化过程可微分,从而可作为RL策略。在300bps这一极低比特率下,证明了“可懂度优先”的训练策略能有效补偿比特率劣势。 主要实验结果: 在LibriSpeech test-clean上,ClariCodec(无RL)在300bps下WER为4.64%,已优于工作在400bps(4.88%)和466bps(5.59%)的基线。加入RL微调后,WER降至3.55%,实现了约23.5%的相对改进。 在更具挑战性的test-other上,WER从13.3%降至10.4%(约21.8%相对改进)。 声学质量指标(PESQ, UTMOS, SIM)在RL微调后基本保持稳定或略有改善(如test-clean UTMOS从4.12升至4.16),证明可懂度提升并非以严重牺牲声学质量为代价。 消融实验证明,单独的RL优化会轻微损害PESQ(从1.88降至1.83),而加入梅尔重建损失正则化后,PESQ得以部分恢复(至1.87),同时保留了大部分可懂度收益。STOI, UTMOS, SIM保持稳定。 主要结果表格(Table 1): 模型 #参数 #训练小时数 帧率 比特率 (bps) test-clean WER(%) ↓ test-other WER(%) ↓ test-clean PESQ ↑ test-clean UTMOS ↑ test-clean SIM ↑ Ground Truth - - - - 1.50 2.81 4.64 4.09 1.00 EnCodec (第一层) 15M 17.5k 10 750 16.1 36.4 1.25 1.25 0.25 StableCodec-700 950M 105k 25 700 3.91 12.0 1.92 4.31 0.58 FlexiCodec 450M 54k 6.25 640 2.57 4.69 2.20 4.15 0.71 SAC 533M 20k 12.5/25 525 2.00 4.15 2.16 4.27 0.78 WavTokenizer 72M 8k 40 480 7.38 21.1 1.63 3.57 0.51 SoCodec 54M 7.2k 8.3 466 5.59 10.6 1.28 2.50 0.39 StableCodec-400 950M 105k 25 400 4.88 14.4 1.92 4.31 0.53 SemantiCodec 507M 37.6k 12.5/12.5 312.5 22.7 40.2 1.38 2.72 0.34 ClariCodec (w/o RL) 301M 50k 12.5 300 4.64 13.3 1.88 4.12 0.50 ClariCodec (RL) 301M 50k 12.5 300 3.55 10.4 1.87 4.16 0.50 消融实验表格(Table 2): 配置 STOI ↑ PESQ ↑ UTMOS ↑ SIM ↑ WER(%) ↓ Stage 1 (无RL) 0.87 1.88 4.12 0.50 4.64 仅RL损失 0.87 1.83 4.15 0.50 3.54 Mel + RL损失 0.87 1.87 4.16 0.50 3.55 实际意义:为卫星、水下等极端带宽受限场景下的语音通信提供了一种新思路,强调了在不同应用场景下目标函数(优化可懂度而非音质)选择的重要性。 主要局限性:评估仅限于英语ASR任务和LibriSpeech数据集,对不同语言、说话风格、噪声环境的泛化能力未知;未评估对下游生成任务(如TTS、语音LLM)的影响;RL训练依赖特定的ASR模型作为奖励来源,其泛化性和稳定性是潜在风险;当前模型是非因果的,存在延迟,不适合实时应用。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及使用 Libriheavy(大子集,50,000 小时)进行训练,在 LibriSpeech 的 test-clean 和 test-other 子集上进行评估。这些数据集均为公开数据集,但论文未提供具体获取链接。 Demo:https://demo941.github.io/ClariCodec/ 复现材料:论文中提及了具体的训练配置(例如:使用8张NVIDIA H200 GPU,批次大小、训练步数、学习率、损失函数权重等)。未提及提供额外的检查点或附录。 论文中引用的开源项目: NeMo Conformer-Transducer: 用于计算WER。链接:https://huggingface.co/nvidia/stt_en_conformer_transducer_xlarge WavLM: 用于计算说话人相似度(SIM)的声纹验证模型。链接:https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification Hybrid FastConformer TDT-CTC: 用于生成WER奖励信号的ASR模型。链接:https://huggingface.co/nvidia/parakeet-tdt_ctc-1.1b 🏗️ 方法概述和架构 整体流程概述 ClariCodec是一个端到端的神经语音编解码器,采用两阶段训练策略。系统输入为原始波形(16kHz单声道),输出为重建波形。核心流程:输入波形提取对数梅尔频谱图(窗长160样本,即10ms),经过基于ConvNeXt V2的编码器压缩为低帧率(12.5Hz)的离散token序列,再由对称结构的解码器从token序列重建出对数梅尔频谱图,最后由从头训练的Vocos声码器将频谱图转换回波形。第一阶段通过重建损失联合训练整个流水线以建立基础声学质量;第二阶段冻结解码器、量化器和声码器的参数,仅使用强化学习微调编码器,使其输出的token序列能最大化下游ASR模型给出的奖励(即最小化WER)。 ...