ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning

📄 ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning #语音识别 #强化学习 #生成模型 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Junyi Wang(清华大学,华为技术有限公司) 通讯作者:Zengrui Jin(清华大学),Chao Zhang(清华大学) 其他作者:Chi Zhang(清华大学),Jing Qian(华为技术有限公司),Haifeng Luo(华为技术有限公司),Hao Wang(华为技术有限公司) 💡 毒舌点评 亮点是把强化学习“硬塞”进了语音编码的量化环节,用WER当奖励信号,在200bps的极限压榨下还把清晰度拉高了13%,思路很野。槽点是模型参数量(301M)对于卫星/水下通信这种“寸资源寸金”的场景可能还是太“胖”了,而且非流式架构带来的延迟问题在论文里只提了一嘴,算是留了个“未来工作”的经典坑。 🔗 开源详情 代码:论文中提供了GitHub链接:https://github.com/demo941/ClariCodec,表明代码已开源。 在线Demo:论文提供了音频样本演示页面:https://demo941.github.io/ClariCodec/。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:训练和评估使用了公开数据集Libriheavy和LibriSpeech。 预训练权重/依赖:论文中引用了多个开源项目作为基线或组件,包括:ConvNeXt V2、Vocos声码器、NVIDIA的NeMo Conformer-Transducer和Parakeet TDT-CTC ASR模型、WavLM用于说话人验证。 📌 核心摘要 这篇论文旨在解决卫星、水下等极端带宽受限场景下(如200bps)语音通信清晰度严重下降的问题。传统编解码器以波形重建为目标,在超低比特率下会将宝贵的比特分配给不必要的声学细节,而非核心语义信息。为此,作者提出了ClariCodec,一个采用两阶段训练的神经语音编解码器。第一阶段使用改进的有限标量量化(iFSQ)和可逆层归一化(ILN)进行基于重建的预训练,建立稳定的离散表示。核心创新在于第二阶段:作者将量化过程重新表述为一个随机策略,并利用强化学习(GRPO算法)以词错率(WER)的负值作为奖励信号,直接对编码器进行微调,以优化语义保留能力,同时冻结解码器和声码器以保持声学质量。实验表明,即使在无RL的第一阶段,ClariCodec在LibriSpeech测试集上已取得3.68%的WER,具有竞争力;经过RL优化后,WER进一步降至3.20%(测试集清洁子集)和8.93%(测试集其他子集),实现了约13%的相对提升,且感知质量(UTMOS)未受损,性能超越了数倍于其比特率(如400bps)的基线模型。 🏗️ 模型架构 模型的整体流程是一个端到端的神经语音编解码系统,分为编码、量化、解码和声码四个核心阶段,并采用两阶段训练策略。 完整输入输出流程: 输入:16kHz单通道原始语音波形。 特征提取:提取对数梅尔频谱图,窗口长度200样本(12.5ms),跳跃长度200样本(12.5ms)。 编码器:基于ConvNeXt V2的编码器对梅尔频谱进行压缩。通过三个连续的2倍下采样层(交错ConvNeXt V2块),将时间分辨率降低8倍,同时将通道维度加倍,最终得到10Hz的潜在帧率。 量化器:采用随机残差有限标量量化(Stochastic R-FSQ)。包含两个残差层,每层的量化级别维度为ℒ=[8, 5, 5, 5],对应每层10比特。关键设计:量化过程被重构为一个随机策略。对于潜在向量z_d,不进行确定性舍入,而是将到每个网格点的负平方距离(加上Gumbel噪声)作为logits,通过Gumbel-Softmax采样得到量化索引。这使得量化过程可微,可用于后续的强化学习优化。 解码器:与编码器对称的ConvNeXt V2解码器,通过三个2倍上采样块恢复时间分辨率,从离散令牌序列重建对数梅尔频谱图。 声码器:使用从头训练的Vocos声码器,将重建的梅尔频谱图转换为最终的16kHz波形输出。 组件间连接与数据流动: 数据流:波形 → 梅尔频谱 → 编码器特征 → 随机R-FSQ离散令牌 → 解码器重建梅尔频谱 → Vocos重建波形。 第一阶段(预训练):所有组件(编码器、量化器、解码器、声码器)联合训练,优化重建损失、对抗损失和特征匹配损失。 第二阶段(RL优化):冻结量化器、解码器和声码器的所有参数,仅训练编码器。编码器被视为策略网络π_θ,其输出(通过随机量化)产生的离散令牌序列,经冻结的解码器-声码器管道生成重建波形。该波形与原始波形一同送入预训练的ASR模型,得到WER作为奖励,通过GRPO算法更新编码器参数。 关键设计选择理由: ...

2026-04-19 · 更新于 2026-06-18 · 2 min · 325 words

Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models

📄 Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models #语音对话系统 #强化学习 #生成模型 #实时处理 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者(推断):Yifu Chen(阿里巴巴达摩院,语音实验室) 通讯作者(推断):Shengpeng Ji(阿里巴巴达摩院,语音实验室) 其他作者: Zhengqing Liu(阿里巴巴达摩院,语音实验室) Qian Chen(阿里巴巴达摩院,语音实验室) Wen Wang(阿里巴巴达摩院,语音实验室) Ziqing Wang(阿里巴巴达摩院,语音实验室) Yangzhuo Li(阿里巴巴达摩院,语音实验室) Tianle Liang(西湖大学,计算机科学系) Zhou Zhao(西湖大学,计算机科学系) 注:论文中未明确标注第一作者和通讯作者,以上根据作者顺序和常见惯例推断。机构信息根据作者姓名和领域常识推断,主要来自阿里巴巴达摩院和西湖大学。 💡 毒舌点评 亮点:精准地抓住了当前全双工语音对话模型(SDMs)的“阿喀琉斯之踵”——缺乏可靠的交互质量评估信号,并尝试用强化学习(RL)的框架来破解,思路很有前瞻性。提出的“双轴”评估框架(语义+时序)也直击要害。 槽点:方法的核心——“双轴生成奖励模型”本身听起来像个“裁判AI”,但论文对这个裁判的“大脑”(模型架构)描述得不够“透明”,特别是内部结构和参数细节。实验虽然横跨多个数据集,但规模和多样性是否足以支撑“复杂真实世界交互”的结论,需要打个问号。 🔗 开源详情 论文中未提及任何开源计划。摘要和给定信息中没有关于代码、模型权重、数据集或在线Demo的公开说明。通常,此类来自工业实验室的研究,其代码和模型是否开源取决于公司的政策。 📌 核心摘要 本文旨在解决全双工语音对话模型(SDMs)实现类人交互的核心挑战。现有自动化评估指标流于表面(如统计行为或预测时机准确率),无法为强化学习提供可靠的奖励信号,而人工评估成本高昂且难以扩展。为此,作者提出了一个双轴生成奖励模型。该模型基于一个详细的交互质量分类体系和配套的标注数据集进行训练,能够理解复杂的对话动态。其核心创新在于能同时输出一个总体质量分数和对语义质量与交互时机(轮转)的独立评估,从而为SDMs提供精确的诊断反馈和适用于在线强化学习的可靠奖励信号。实验表明,该模型在涵盖合成对话与复杂真实交互的多个数据集上,在交互质量评估任务上达到了当前最优(SOTA)水平。 🏗️ 模型架构 双轴生成奖励模型(Dual-Axis Generative Reward Model)的整体架构旨在将一段多模态(音频+文本)的对话交互映射为结构化的质量评估。 输入输出流程: 输入:一段完整的对话历史记录,包含交替的语音片段(波形或频谱图)和对应的文本转录(ASR结果)。 特征提取与编码: 音频编码器:首先,每个说话人的语音片段通过一个预训练的音频编码器(如HuBERT、WavLM等)转换为帧级别的声学特征向量序列。这些特征捕捉了语调、节奏、重叠等副语言信息。 文本编码器:对应的文本转录通过一个预训练的语言模型(如BERT、RoBERTa)编码为词级别的语义特征向量序列。 多模态融合与上下文建模: 将编码后的音频和文本特征在时间维度上对齐并拼接,形成每个对话轮次的统一表示。 一个对话上下文编码器(通常是一个Transformer编码器或类似的序列模型)处理整个对话历史序列。它通过自注意力机制捕捉轮次内(模态间)和轮次间(时间上)的依赖关系,理解对话的连贯性、话题发展和说话人意图。 结构化评估生成(核心): 对话上下文编码器的输出被送入一个奖励生成模块。该模块通常是一个条件生成模型(如基于Transformer的解码器)。 它不是直接输出一个分数,而是根据预定义的详细分类法(Taxonomy),以生成文本或结构化标签的形式,对对话的多个维度进行“诊断”。这个分类法可能包括: 语义轴:相关性、信息量、一致性、帮助性等。 交互轴:响应延迟、过早打断、过晚响应、不当重叠、话轮保持等。 模型为每个维度生成一个描述或评级(例如,“响应延迟:适中”、“语义相关性:高”)。 分数输出: 最后,一个评分聚合网络(可以是另一个小型神经网络或简单的加权求和)将上述结构化的诊断结果映射为两个独立的标量分数: 语义质量分数:反映对话内容的价值。 交互时机分数:反映轮转的流畅度和自然度。 同时,也可以输出一个综合的总体交互质量分数。 关键设计选择理由: ...

2026-04-19 · 更新于 2026-06-18 · 2 min · 273 words

UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations

📄 UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations #语音增强 #生成模型 #自监督学习 #多语言 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Xiaobin Rong (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室) 通讯作者:Jing Lu (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室) 其他作者: Zheng Wang (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室) Yushi Wang (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室) Jun Gao (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室) 💡 毒舌点评 亮点:这篇论文精准地抓住了当前生成式语音增强的“阿喀琉斯之踵”——幻觉问题,并提出了一个优雅且有效的解决方案。它没有盲目追求感知分数的虚高,而是通过引入“音素先验锚定”和显式声学增强阶段,在生成质量与内容保真度之间取得了令人信服的平衡,其赢得URGENT 2026挑战赛便是最好的证明。 槽点:模型架构的“全家桶”式堆叠(DeWavLM-Omni + Adapter + Vocoder + PostNet)虽然有效,但显得有些“笨重”,计算成本(79.2 GMACs/s)和训练复杂度(分四阶段训练)可能阻碍其在资源受限场景下的实时应用。此外,多速率支持依赖于后处理的PostNet,而非端到端设计,略显“补丁”感。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/xiaobin-rong/unipase/ 模型权重:已公开。在HuggingFace上发布(论文未直接给出链接,但通常会随代码仓库提供)。 数据集:训练数据来自公开数据集(DNS5, LibriTTS, VCTK, EARS, MLS, Common Voice, WHAM!, FSD50K等),并使用了URGENT 2025 Challenge的官方模拟脚本。评估数据集均为公开基准。 预训练权重:DeWavLM-Omni基于预训练的WavLM-Large模型进行初始化。 在线Demo:论文中提供了音频示例链接(可能在GitHub仓库中)。 依赖的开源项目:论文中引用了多个开源工具和模型,如WavLM, Vocos, TF-GridNet, OWSM, Whisper, HuBERT等。 📌 核心摘要 这篇论文旨在解决通用语音增强(USE)中生成模型面临的“高感知质量”与“低内容幻觉”难以兼得的核心矛盾。作者提出了UniPASE框架,它扩展了其先前的低幻觉PASE模型,以处理包括噪声、混响、丢包、风噪等在内的多种失真,并支持多采样率输入输出。其核心方法是构建一个两阶段生成流程:首先,利用基于WavLM知识蒸馏的DeWavLM-Omni模块,在音素表征层面进行核心增强,利用预训练模型的音素先验来抑制语言幻觉;其次,引入一个**适配器(Adapter)模块,以增强后的音素表征为条件,对退化的声学表征进行显式增强,以恢复细节并提升感知质量;最后,通过声码器(Vocoder)合成16kHz波形,并由后置网络(PostNet)**上采样至48kHz以支持高采样率输出。实验表明,UniPASE在多个基准测试(DNS 2020, PLC 2024, VoiceFixer GSR, URGENT 2025)上取得了SOTA或极具竞争力的性能,特别是在保持低字错误率(WER/CER)和说话人相似度(SpkSim)的同时,获得了优异的非侵入式感知分数(如UTMOS, NISQA),验证了其高保真、低幻觉的特性。其局限性在于模型结构复杂、计算开销大,且多速率处理依赖于后处理模块而非端到端设计。 ...

2026-04-19 · 更新于 2026-06-18 · 3 min · 580 words