IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter-Band Prediction

📄 IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter-Band Prediction #语音编码 #语音合成 #信号处理 #轻量模型 #流式处理 ✅ 7.0/10 | 前25% | #语音编码 | #信号处理 | #语音合成 #轻量模型 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Peng Zhou(北京理工大学) 通讯作者:Shenghui Zhao*(北京理工大学) 作者列表:Peng Zhou(北京理工大学),Xiaojiao Chen(北京理工大学),Pincheng Lu(北京理工大学),Jing Wang(北京理工大学),Shenghui Zhao*(北京理工大学) 💡 毒舌点评 亮点:论文精准抓住了“低比特率下低频更重要”这一经典信号处理直觉,并将其与神经网络结合,通过一个轻量的带间预测模块(IBPM)在解码端“猜”出高频,以极小的计算代价(0.35 GMACs)实现了有竞争力的性能,这种“巧劲”值得在资源受限场景下借鉴。 短板:IBPM目前的结构(三层逐点卷积)过于简单,其预测能力存在明显天花板(当P=0.5时质量下降),本质上仍是低频信息的线性外推,论文未探讨更强大的生成式预测模型(如扩散模型)的可能性;此外,模型在1 kbps下的绝对质量(PESQ 2.2)距离“可用”仍有距离,创新性更多是工程上的巧妙设计而非原理性突破。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:使用了LibriTTS和VCTK公开数据集,但论文中未提供具体的数据预处理脚本或说明。 Demo:论文中未提及。 复现材料:论文中提供了详细的训练硬件(单卡RTX 3090)、优化器参数、学习率调度、STFT参数、模型结构配置(层数、通道数、卷积核大小等),复现指导较为充分。 引用的开源项目:论文提到了FunCodec、FocalCodec、Hifi-codec等开源工具或相关工作,但未明确说明IBPCodec的代码是否基于或借鉴了这些项目。 📌 核心摘要 这篇论文针对当前神经语音编解码器计算复杂度过高、难以在边缘设备部署的问题,提出了一种名为IBPCodec的低比特率轻量级语音编解码器。其核心方法是优先对输入语音的低频部分(占比P=75%)进行编码和量化传输,在解码端利用一个轻量的带间预测模块(IBPM)从解码出的低频信息中预测高频成分,从而恢复完整语音。与先前直接丢弃高频或整体编码的方法相比,该创新点在于将频带优先传输与神经预测相结合。实验结果显示,在16 kHz采样率、1-3 kbps比特率下,IBPCodec的计算复杂度仅为0.35 GMACs(远低于DAC的55.66G和SpeechTokenizer的17.09G),其PESQ、SI-SDR等客观指标及MUSHRA主观评分均优于或持平FreqCodec、SpeechTokenizer等基线。该工作的实际意义在于为低功耗设备上的实时语音通信提供了一种高效的编解码方案。其主要局限性在于IBPM的预测能力有限,在更低频带占比(P=0.5)时性能下降,且模型在极低比特率下的绝对语音质量仍有提升空间。 ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 357 words

ICASSP 2026 - 语音编码 论文列表

ICASSP 2026 - 语音编码 共 5 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Lisa: Lightweight Yet Superb Neural Speech Coding 8.5分 前25% 🥈 FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via C 8.0分 前25% 🥉 CodecSlime: Temporal Redundancy Compression of Neural Speech 7.5分 前10% 4. Speaking Clearly: A Simplified Whisper-Based Codec for Low-B 7.5分 前25% 5. IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter 7.0分 前25% 📋 论文详情 🥇 Lisa: Lightweight Yet Superb Neural Speech Coding 🔥 8.5/10 | 前25% | #语音编码 | #信号处理 | #向量量化 #实时处理 ...

2026-04-29 · 更新于 2026-07-03 · 3 min · 515 words

Lisa: Lightweight Yet Superb Neural Speech Coding

📄 Lisa: Lightweight Yet Superb Neural Speech Coding #语音编码 #向量量化 #信号处理 #实时处理 🔥 8.5/10 | 前25% | #语音编码 | #信号处理 | #向量量化 #实时处理 学术质量 8.5/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiankai Huang (南京大学) 通讯作者:Xun Cao (南京大学), Zhan Ma (南京大学) 作者列表:Jiankai Huang (南京大学), Junteng Zhang (南京大学), Ming Lu (南京大学), Xun Cao (南京大学), Zhan Ma (南京大学) 💡 毒舌点评 论文提出的“调节残差使其更利于量化”这一核心思想非常巧妙且实用,直击传统RVQ在后续阶段效率低下的痛点,最终实现了在超低比特率下用极小的模型超越一众巨型模型(如参数量4.98M vs 872M的SemantiCodec)。不过,实验部分略显“基础”,虽然对比了多个模型,但缺乏对更复杂噪声环境、不同语言或说话人风格下鲁棒性的分析,也缺乏直接的主观听感(MOS)测试,说服力上稍打折扣。 🔗 开源详情 代码:提供代码仓库链接:https://arsx958.github.io/Lisa-Lightweight-Yet-Superb-Neural-Speech-Coding/ 模型权重:提供预训练模型下载(论文中提及“pretrained model can be downloaded from our GitHub repository”)。 数据集:使用公开的LibriTTS数据集,未说明是否提供额外处理后的数据。 Demo:论文页面链接可能包含演示,但文中未明确说明。 复现材料:提供了详细的训练配置(数据集、优化器、学习率、步长、硬件),足以支持复现。代码仓库应包含模型定义和训练脚本。 引用的开源项目:论文引用了多个作为基线的开源项目/工具,如FunCodec [12]。 📌 核心摘要 问题:现有神经语音编码器在低/超低比特率下,编码效率受限于特征表示能力和量化过程的不足,特别是传统残差向量量化(RVQ)在初始阶段后,残差变得不规则,导致量化损失高、效率低下。 方法核心:提出轻量级编码器-解码器Lisa,其核心是引入两个创新模块:(1) 带Inception残差块(IRB)的因果频域编码器,用于提取多尺度特征;(2) 受调节残差向量量化(R-RVQ),在每个量化阶段前通过一个可学习模块将残差“调节”为更规整、更适合量化的形式。 新在哪里:R-RVQ首次在量化前主动对残差进行结构化重塑,而非被动处理原始残差。这与传统RVQ直接堆叠量化器有本质区别,确保了每个阶段都能有效降低量化误差。 实验结果:在LibriTTS数据集上,Lisa在500 bps时ViSQOL达3.90,在1500 bps时达4.43,超越了FunCodec、MUFFIN、StreamCodec等基线模型,同时模型参数仅4.98M,计算量为2.83G MACs,适合实时流式应用。 实际意义:为在极低带宽下实现高质量、低延迟的实时语音通信(如视频会议、云游戏)提供了高效可行的解决方案。 主要局限性:实验主要在干净语音(LibriTTS)上验证,对噪声、失真或实际网络传输环境的鲁棒性未作评估;评估指标依赖客观分数,缺少主观听感测试;对模型在极低延迟(<10ms)场景下的性能未做专门探讨。 🏗️ 模型架构 Lisa的整体架构遵循“编码-量化-解码”的经典范式,但全程在时频域(STFT域)操作以利用多分辨率特征。其完整流程如下: ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 371 words

Speaking Clearly: A Simplified Whisper-Based Codec for Low-Bitrate Speech Coding

📄 Speaking Clearly: A Simplified Whisper-Based Codec for Low-Bitrate Speech Coding #语音编码 #语音增强 #预训练 #Whisper模型 ✅ 7.5/10 | 前25% | #语音编码 | #预训练 | #语音增强 #Whisper模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xin Zhang(武汉理工大学计算机与人工智能学院) 通讯作者:Lin Li(武汉理工大学计算机与人工智能学院) 作者列表:Xin Zhang(武汉理工大学计算机与人工智能学院)、Lin Li(武汉理工大学计算机与人工智能学院)、Xiangni Lu(武汉理工大学计算机与人工智能学院)、Jianquan Liu(NEC Corporation)、Kong Aik Lee(香港理工大学电机及电子工程学系) 💡 毒舌点评 亮点是思路清奇,反其道而行之,没有在声学编解码器上叠加语义监督,而是把一个现成的ASR模型(Whisper)“改造”成编解码器,通过简单的架构简化(去掉GELU和位置编码)就解锁了其声学建模能力,实验结果也相当能打。短板在于,这种“简化”本质上是针对特定任务(编解码)的工程化调整,其理论解释(位置编码影响注意模式、GELU抑制频谱细节)略显粗浅,且论文声称的“State-of-the-art”结论仅在英语数据集(LibriSpeech)上得到验证,对于多语言、噪声环境等更复杂场景的泛化能力未做探讨。 🔗 开源详情 代码:是,提供GitHub仓库链接:https://github.com/ZhangXinWhut/SimWhisper-Codec。 模型权重:论文中未明确提及是否公开简化后的Whisper编码器或完整编解码器的预训练权重。 数据集:使用的是公开的LibriSpeech和LJSpeech数据集,但未提供处理后的数据或特定数据集的链接。 Demo:论文中未提及在线演示。 复现材料:论文详细说明了模型架构、训练数据、损失函数、训练策略(优化器、学习率、步数)和关键超参数(模型大小、FSQ配置)。这些信息对于复现是充足的,但未提供具体的配置文件或检查点下载链接。 论文中引用的开源项目:提到了依赖或对比的开源项目,包括:HiFiGAN、Vocos、FSQ(来自“Low frame-rate speech codec”),以及基线模型EnCodec, DAC-RVQ3, SpeechTokenizer, Mimi-RVQ8, BigCodec, XCodec2.0, XY-Tokenizer等。 📌 核心摘要 问题:当前语音编解码器面临语义内容保留和声学保真度之间的固有冲突,尤其在低比特率下更为突出。主流方法通过复杂的外部语义监督(如HuBERT蒸馏、多任务学习)来缓解此冲突。 ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 397 words