语音编码 | 语音/音乐/音频论文速递

Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction

📄 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction #语音编码 #条件流匹配 #生成模型 🔥 9.9/10 | 前25% | #语音编码 | #条件流匹配 | #生成模型 | arxiv 学术质量 6.5/7 | 影响力 1.6/2 | 可复现性 1.8/2 | 置信度高 👥 作者与机构作者：Hui-Peng Du, Yang Ai, Xiao-Hang Jiang, Yuan Tian, Zhen-Hua Ling 机构：中国科学技术大学，语音及语言信息处理国家工程研究中心资助：国家自然科学基金 (Grant 62301521) 通讯作者：Yang Ai 💡 毒舌点评说声码器轻量，但Table IV里HiFi-GAN吃掉了88.7%的GFLOPs。这就像说自己造的发动机省油，但没提整车油耗大头是轮胎摩擦力。 245小时训练数据 vs. FocalCodec的586小时，然后声称公平比较。这好比用校队训练量去挑战省队，赢了也得打个问号。论文花大量篇幅论证在250 bps下的“优势”，但Table I中BigCodec在16kHz的NMOS（3.74）其实略高于FMelCodec（3.72），SMOS（3.17）则低于FMelCodec（3.51）。所谓“持平或优于”的结论需要更精确的限定。 48kHz实验中，FMelCodec在几乎所有指标上都优于BigCodec，但后者参数量是其6倍。论文对此“效率-质量”权衡的讨论显得轻描淡写，反而用大篇幅对比更弱的基线。完全忽略流式处理，却大谈“卫星通信”等应用前景。对于实时通信，延迟是硬约束，这个框架目前根本无法满足。 📌 核心摘要论文主题：提出FMelCodec，一种基于梅尔频谱图的三阶段（编码-精修-重构）超低比特率神经语音编码框架。核心方法：在梅尔域进行激进压缩（单码本VQ），通过条件流匹配（CFM）精修被量化的梅尔图，最后用HiFi-GAN声码器重建波形。关键技术包括在线聚类VQ（OC-VQ）和自一致性CFM训练。主要创新：1）将编码目标推向250 bps（16kHz）的极低水平；2）OC-VQ有效解决单码本VQ的码本坍塌问题；3）提出自一致性损失，使CFM推理仅需4步ODE求解。实验设置：在16kHz的LibriTTS和48kHz的VCTK数据集上，将FMelCodec与多种代表性基线（波形域、谱域、SSL域）在匹配比特率及更高比特率下进行全面对比。实验结果：在超低比特率下，FMelCodec在重建质量（NMOS, ViSQOL）和说话人相似性（SMOS）方面均优于或持平于大多数基线，同时保持较低的模型复杂度（27M参数）。在48kHz下，其性能接近或优于复杂度高得多的BigCodec。潜在用途：适用于带宽受限场景（如卫星、物联网）的语音通信与压缩。论文也指出其作为“语音作为智能体通信接口”中音频编解码器的潜力。计算复杂度：核心编码与精修模块（\(\phi_{\text{cod}}\) 和 \(\phi_{\text{ref}}\)）的总GFLOPs仅占系统约11%，但声码器 \(\phi_{\text{voc}}\) 占据了88.7%的计算量。整体RTF为0.022（约44.8倍实时）。代码与数据：提供了完整的代码、预训练模型和Demo页面。 🔗 开源详情代码：https://github.com/redmist328/FMelCodec 模型权重：检查点（Checkpoints）可从上述代码仓库获取。数据集：LibriTTS（16 kHz）、VCTK（48 kHz）。论文描述了实验中使用的子集和划分方式，但未提供下载链接。 Demo：https://redmist328.github.io/FMelCodec 复现材料：论文中详细描述了三个阶段的模型架构、超参数配置和训练流程（Section III & IV-B），提供了足够的信息进行复现。代码仓库应包含完整实现。论文中引用的开源项目： HiFi-GAN：https://github.com/jik876/hifi-gan ConvNeXt v2：论文引用文献[44]，未提供独立链接。 DAC：https://github.com/descriptinc/descript-audio-codec BigCodec：https://github.com/Aria-K-Alethia/BigCodec WavTokenizer：https://github.com/jishengpeng/WavTokenizer FlowDec：https://github.com/facebookresearch/FlowDec FocalCodec：https://github.com/lucadellalib/focalcodec SemantiCodec：https://github.com/haoheliu/SemantiCodec-inference 🏗️ 方法概述和架构 FMelCodec采用三阶段“编码-精修-重构”（CRR）框架，所有操作均在梅尔频谱图域进行。 ...

AffectCodec: Emotion-Preserving Neural Speech Codec with Block-Diagonal Residual FSQ

📄 AffectCodec: Emotion-Preserving Neural Speech Codec with Block-Diagonal Residual FSQ #语音编码 🔥 10/10 | 前10% | #语音编码 | #有限标量量化 #块对角投影 | arxiv 学术质量 6.6/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度 0.9 👥 作者与机构作者：Zhaoyang Meng, Zhengyao Ma, Kecan Mao, Yingming Gao, Ya Li 机构：北京邮电大学邮箱：{mengzy, mazhyao, mao_kecan, yingming.gao, yli01}@bupt.edu.cn 通讯作者：Ya Li 💡 毒舌点评这篇工作抓住了神经语音编解码器在情感信息保存上的一个实际痛点，并提出了一个结构上清晰、理论上有一定保证的解决方案（BD-RFSQ）。作者不仅指出了问题（情感信息因重建驱动的比特分配和跨流泄漏而损失），还通过形式化证明（附录B）和精心设计的实验（包括跨流泄漏的线性探测实验，附录C）来支撑其核心论点，这在顶会论文中是值得称赞的严谨。然而，其创新性更多体现在对现有技术（FSQ，残差量化，因子化投影）的巧妙组合与针对性改进上，而非提出全新的量化范式。实验全面，结果令人信服，尤其在低比特率区间优势明显。不足之处在于，方法对超参数（如情感/声学分区维度）的手动选择依赖较强，且评估完全依赖外部SER模型，缺乏对下游语音语言模型的直接验证，这削弱了其声称的“通用属性保护”原则的实际影响力。开源情况也未完全承诺。 📌 核心摘要 AffectCodec 是一种以情感保持为核心目标的神经语音编解码器。其核心创新在于提出了块对角残差有限标量量化（BD-RFSQ）。该量化器通过可学习的块对角输入/输出投影，将情感与声学特征隔离到独立的子空间中进行量化，从而将比特分配从依赖损失函数驱动的隐式过程，转变为由网络结构显式保证的过程。同时，BD-RFSQ 保持了单一的 token 接口，兼容主流的平坦 token 语音语言模型架构。为配合此量化器，AffectCodec 还采用了多粒度情感条件（CEM模块）和一种多速率训练策略（包括多速率重建损失和偏向阶段丢弃），以在低比特率下实现稳健的情感信息保存。实验在多个情感语音基准测试集（IEMOCAP, CREMA-D, ESD）上进行，结果表明，AffectCodec 在低比特率（1.5，3.0 kbps）下的情感退化率（EDR）和V/A/D MSE指标显著优于 EnCodec、DAC、SpeechTokenizer、X-Codec 等现有基线，同时保持了有竞争力的声学质量和可懂度。消融实验验证了各组件的有效性，其中 BD-RFSQ 是性能提升的关键。 ...

DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick

📄 DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick #向量量化 #生成模型 #图像生成 #语音编码 #图像压缩 🔥 8.0/10 | 前25% | #生成模型 | #向量量化 | #图像生成 #语音编码学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Mohammad Hassan Vali（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland）通讯作者：未明确说明（论文提供了三位作者的共同邮箱，未指定单独通讯作者）作者列表：Mohammad Hassan Vali（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland）、Tom Bäckström（Department of Information and Communications Engineering, Aalto University, Finland）、Arno Solin（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland） 💡 毒舌点评这篇论文精准地“修理”了向量量化在深度学习应用中那个著名的老毛病——梯度消失，提出的DiVeQ和SF-DiVeQ方法就像是给量化层装了一个“梯度导管”，既保持了推理时硬编码的离散性，又让训练信号能顺畅回流，实验部分更是“地毯式轰炸”，在多个任务和数据集上全面碾压了包括NSVQ、RT在内的现有花式方案。不足之处在于SF-DiVeQ的初始化有点“娇气”，需要先跑几个epoch“热身”，而且虽然解决了码本错位问题，但本质上仍是在“码本空间”内做文章，对于如何突破固定码本大小的表达能力瓶颈并未触及。 ...

DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick

📄 DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick #向量量化 #语音编码 #模型评估 #开源工具 🔥 8.5/10 | 前25% | #语音编码 | #向量量化 | #模型评估 #开源工具学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Mohammad Hassan Vali（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland）通讯作者：未明确指定（论文提供了共同的学术邮箱 {mohammad.vali, tom.backstrom, arno.solin}@aalto.fi，未说明谁是通讯作者）作者列表：Mohammad Hassan Vali¹，Tom Bäckström²，Arno Solin¹ ¹ ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland ² Department of Information and Communications Engineering, Aalto University, Finland 💡 毒舌点评本文的亮点在于巧妙地将重参数化技巧应用于VQ，使DiVeQ在保留“硬分配”前向传播的同时实现了可微分，并通过SF-DiVeQ解决了码本坍缩和未充分利用的痛点，设计思路优雅且实验验证扎实。短板在于其“通用性改进”的定位虽强，但计算复杂度（如SF-DiVeQ需要对每条线段计算误差）相比原始VQ有所增加，且论文未深入分析在超大规模模型或极端离线场景下的效率影响。 ...

SPG-Codec: Exploring the Role and Boundaries of Semantic Priors in Ultra-Low-Bitrate Neural Speech Coding

📄 SPG-Codec: Exploring the Role and Boundaries of Semantic Priors in Ultra-Low-Bitrate Neural Speech Coding #语音合成 #自监督学习 #语音编码 #低资源 ✅ 7.5/10 | 前25% | #语音合成 | #自监督学习 | #语音编码 #低资源 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Mingyu Zhao (未说明具体机构，但标注了*) 通讯作者：Zhiyong Wu (标注†，未说明具体机构) 作者列表：Mingyu Zhao (未说明)、Zijian Lin (未说明)、Kun Wei (未说明)、Zhiyong Wu (未说明) 💡 毒舌点评亮点：论文系统性地量化了“语义退休”现象，揭示了不同层次先验（HuBERT vs. Whisper）在语音编码中的作用边界，为超低比特率编码提供了清晰的“设计指南”，其分析框架本身就是一个重要贡献。短板：提出的比特率调节策略（α阶梯衰减）过于简单，缺乏自适应或学习机制；实验部分缺少与近期强大的端到端生成式编码器（如Flow-Matching-based）的直接对比，使得“竞争力”的结论有所削弱。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开训练好的模型权重。数据集：使用公开的LibriSpeech数据集，但未提供处理脚本或特殊划分。 Demo：未提供在线演示。复现材料：给出了部分训练细节（数据集、epoch数、GPU型号、batch size），但缺少关键的优化器、学习率、具体网络层数/维度、RVQ码本配置等超参数，不足以完全复现。引用的开源项目：论文依赖并提到了以下开源模型：HuBERT-base, Whisper-base, Whisper-large-v2（用于评估）。骨干架构参考了SoundStream和EnCodec的设计。 📌 核心摘要问题：神经语音编码器在超低比特率（如≤1.5 kbps）下，因可用比特不足而导致“语义坍缩”，表现为语音可懂度严重下降。方法核心：提出SPG-Codec框架，将冻结的预训练语义先验模型（HuBERT/Whisper）作为辅助条件注入到标准神经语音编码器中，并设计了比特率感知的动态权重调节策略。创新点：首次系统定义并量化了“语义退休”（Semantic Retirement）现象：语义先验在≤3 kbps时至关重要，但在≥6 kbps后变得冗余甚至有害。同时揭示了声学丰富先验（HuBERT）与高级语言先验（Whisper）在保真度与鲁棒性之间的权衡关系。主要实验结果：在1.5 kbps下，引入HuBERT先验可将相对词错误率（WER）降低约10%，L1损失改善27.1%。在≥6.0 kbps时，语义先验对PESQ和WER的提升接近零，证实了“退休”边界。 Whisper先验能将清晰条件下的语音幻觉率降低26%，并将未见说话人（test-other）的WER泛化差距从35.9%缩小至19.7%。在噪声环境下（SNR 5dB），基线模型WER增加近50%，而带Whisper先验的模型表现稳健。实际意义：为设计面向语音大模型（SpeechLLMs）和极低带宽通信的下一代语音编解码器提供了原则性指导，强调在特定比特率下必须引入并合理利用外部语义信息。主要局限性：所提出的权重调节策略较为简单；研究主要基于LibriSpeech数据集和特定基线模型，结论的普适性有待更广泛验证；未开源代码。 🏗️ 模型架构 SPG-Codec是一个统一的分析与编码框架，包含三个核心模块： ...

CodecSlime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate

📄 CodecSlime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate #语音编码 #动态帧率 #VQ-GAN #插件式方法 #低比特率 ✅ 7.5/10 | 前10% | #语音编码 | #动态帧率 | #VQ-GAN #插件式方法学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hankun Wang（上海交通大学计算机科学与技术学院，X-LANCE实验室）通讯作者：Kai Yu（上海交通大学计算机科学与技术学院，X-LANCE实验室）作者列表：Hankun Wang（上海交通大学 X-LANCE实验室），Yiwei Guo（上海交通大学 X-LANCE实验室），Chongtian Shao（上海交通大学 X-LANCE实验室），Bohan Li（上海交通大学 X-LANCE实验室），Kai Yu（上海交通大学 X-LANCE实验室） 💡 毒舌点评亮点：CodecSlime 提出了一种优雅的“动态帧率”压缩方案，通过自适应地合并信息密度低的语音帧（如长元音），在不增加码本容量的前提下显著降低了重建WER（相对降低32%），为低比特率语音编码提供了新思路。短板：其训练过程需要两阶段的“熔化-冷却”微调，相比直接训练固定帧率模型增加了复杂度；且动态压缩比受限于最大合并窗口（U=4），对于超长冗余段的压缩能力可能有限。 🔗 开源详情代码：论文中提及训练代码基于BigCodec的官方实现（https://github.com/Aria-K-Alethia/BigCodec），并提供了CodecSlime的示例代码链接（https://x-lance.github.io/codecslime/）。未明确承诺提供CodecSlime独立的完整代码仓库。模型权重：未提及公开预训练模型权重。数据集：使用LibriSpeech和LibriTTS，均为公开数据集。评测使用UniCATS测试集B。 Demo：提供了在线音频样本演示页面（https://x-lance.github.io/codecslime/）。复现材料：论文中详细给出了骨干模型、CodecSlime各阶段的超参数设置、训练步数、硬件配置等，复现信息较为充分。引用的开源项目：明确引用了BigCodec、EnCodec等项目的代码实现，以及多种评估工具（NeMo ASR, pystoi, PESQ, Resemblyzer等）。 📌 核心摘要问题：当前主流的固定帧率（FFR）神经语音编码器在编码信息密度不均匀的语音信号（如长元音、静音段）时，会浪费大量token在冗余部分，导致编码效率低于理论极限。方法核心：提出了一种插件式方法CodecSlime，包含两个核心技术：ScheDFR（可调度动态帧率）在推理时利用动态规划算法自适应地合并特征相似的连续帧；Melt-and-Cool训练方案（包括后训练和微调）将预训练的FFR模型适配到动态帧率（DFR）模式。创新性：该方法完全无监督，且与编码器骨干架构无关。与此前尝试DFR的方法（如基于层次量化或依赖复杂语义蒸馏）相比，CodecSlime更简单、通用，且实现了端到端的重建质量优化，而非仅用于语义发现。实验结果：在以80Hz FFR骨干（VQ-GAN架构）为目标、推理时采用40Hz DFR的设定下，CodecSlime在标准测试集上的WER相比同等比特率的40Hz FFR基线降低了最高32%（相对值），其他指标（STOI, PESQ, UTMOS, MUSHRA）也具有竞争力。具体关键数据见下表：模型帧率(Hz) 内容码本大小内容比特率(kbps) WER(%)↓ MUSHRA↑ BigCodec-VQ8k (FFR) 40×1 8192 0.52 4.89 73.45±2.81 CodecSlime-VQ8k (DFR) 40×1 8192 0.52 4.25 84.01±1.59 BigCodec-FSQ18k (FFR) 40×1 18225 0.57 5.59 74.42±2.14 CodecSlime-FSQ18k (DFR) 40×1 18225 0.57 3.80 81.24±1.88 此外，单个CodecSlime模型在40-80Hz的多个目标帧率上进行推理时，性能均优于分别在各目标帧率上训练的FFR模型。实际意义：为语音编码器提供了更高效的时间压缩方式，能在相同重建质量下降低码率，或在相同码率下提升质量，对语音通信、大语言模型语音接口等低带宽/高效率场景有重要价值。主要局限性：训练需要两阶段微调，流程相对复杂；压缩能力受限于预设的最大合并窗口U；实验主要在LibriSpeech英文数据集上进行，跨语言泛化性虽有验证但程度有限。 🏗️ 模型架构整体架构：CodecSlime作为一个插件，附加在现有的固定帧率（FFR）VQ-GAN语音编码器骨干上。骨干模型本身包含编码器（Encoder）、量化器（Quantizer）和解码器（Decoder）三个核心部分，并通常使用判别器进行对抗训练。 ...

CodeSep: Low-Bitrate Codec-Driven Speech Separation with Base-Token Disentanglement and Auxiliary-Token Serial Prediction

📄 CodeSep: Low-Bitrate Codec-Driven Speech Separation with Base-Token Disentanglement and Auxiliary-Token Serial Prediction #语音分离 #语音编码 #多任务学习 #音频编解码 ✅ 7.5/10 | 前25% | #语音分离 | #多任务学习 | #语音编码 #音频编解码学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hui-Peng Du（中国科学技术大学，语音及语言信息处理国家工程研究中心）通讯作者：Yang Ai（中国科学技术大学，语音及语言信息处理国家工程研究中心）作者列表：Hui-Peng Du（中国科学技术大学）、Yang Ai*（中国科学技术大学）、Xiao-Hang Jiang（中国科学技术大学）、Rui-Chen Zheng（中国科学技术大学）、Zhen-Hua Ling（中国科学技术大学）。所有作者均隶属于“语音及语言信息处理国家工程研究中心，中国科学技术大学，合肥，中国”。 💡 毒舌点评论文精准地瞄准了“既要分离又要压缩”这个被忽略的实用场景，并设计了逻辑自洽的模型，实验也充分证明了其在极低码率下吊打简单级联方案。然而，模型本质上仍是Transformer、RVQ和LSTM等成熟模块的“拼接乐”，缺乏更底层的方法论创新；且实验仅限于两人说话，面对更复杂的多人鸡尾酒会能否保持住这个“1 kbps”的优势，恐怕要打个问号。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：使用了公开的Libri2Mix数据集，但未提及是否提供了处理后的版本或新的数据集。 Demo：提供了在线语音样本演示：https://redmist328.github.io/CodeSep/ 复现材料：论文给出了主要模型架构和超参数的大致描述，但未提供完整的训练脚本、配置文件或预训练检查点。论文中引用的开源项目：论文主要依赖了MDCTCodec [19]，并引用了Sepformer [10]作为基线，ConvNeXt v2 [20]，AdamW [22]等公开方法/工具。 📌 核心摘要问题：本文针对一个实际但未被充分研究的场景——同时进行语音分离与语音压缩。在在线会议、对话归档等应用中，需要从混合语音中分离出说话人，并将其表示为紧凑的离散token以便高效传输或存储。 ...

FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation

📄 FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation #语音编码 #流式处理 #知识蒸馏 #语音大模型 #低资源 🔥 8.0/10 | 前25% | #语音编码 | #知识蒸馏 | #流式处理 #语音大模型学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Luca Della Libera（Concordia University, Mila-Quebec AI Institute）通讯作者：未说明作者列表：Luca Della Libera（Concordia University, Mila-Quebec AI Institute），Cem Subakan（Universit´e Laval, Concordia University, Mila-Quebec AI Institute），Mirco Ravanelli（Concordia University, Mila-Quebec AI Institute） 💡 毒舌点评本文巧妙地将非流式的WavLM“蒸”成一个能实时处理的语音编码器，通过多阶段训练和一个轻巧的“精修工”模块，在80毫秒的低延迟下实现了比肩甚至超越同类流式编解码器的音质和下游性能，堪称工程实践的典范。不过，为了塞进WavLM这个大块头，模型参数量几乎翻倍（249M vs. 142M），其在资源受限设备上的部署可能是个挑战，且多语言泛化能力虽优于部分基线，但仍有明显下滑。 ...

IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter-Band Prediction

📄 IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter-Band Prediction #语音编码 #语音合成 #信号处理 #轻量模型 #流式处理 ✅ 7.0/10 | 前25% | #语音编码 | #信号处理 | #语音合成 #轻量模型学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Peng Zhou（北京理工大学）通讯作者：Shenghui Zhao*（北京理工大学）作者列表：Peng Zhou（北京理工大学），Xiaojiao Chen（北京理工大学），Pincheng Lu（北京理工大学），Jing Wang（北京理工大学），Shenghui Zhao*（北京理工大学） 💡 毒舌点评亮点：论文精准抓住了“低比特率下低频更重要”这一经典信号处理直觉，并将其与神经网络结合，通过一个轻量的带间预测模块（IBPM）在解码端“猜”出高频，以极小的计算代价（0.35 GMACs）实现了有竞争力的性能，这种“巧劲”值得在资源受限场景下借鉴。短板：IBPM目前的结构（三层逐点卷积）过于简单，其预测能力存在明显天花板（当P=0.5时质量下降），本质上仍是低频信息的线性外推，论文未探讨更强大的生成式预测模型（如扩散模型）的可能性；此外，模型在1 kbps下的绝对质量（PESQ 2.2）距离“可用”仍有距离，创新性更多是工程上的巧妙设计而非原理性突破。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：使用了LibriTTS和VCTK公开数据集，但论文中未提供具体的数据预处理脚本或说明。 Demo：论文中未提及。复现材料：论文中提供了详细的训练硬件（单卡RTX 3090）、优化器参数、学习率调度、STFT参数、模型结构配置（层数、通道数、卷积核大小等），复现指导较为充分。引用的开源项目：论文提到了FunCodec、FocalCodec、Hifi-codec等开源工具或相关工作，但未明确说明IBPCodec的代码是否基于或借鉴了这些项目。 📌 核心摘要这篇论文针对当前神经语音编解码器计算复杂度过高、难以在边缘设备部署的问题，提出了一种名为IBPCodec的低比特率轻量级语音编解码器。其核心方法是优先对输入语音的低频部分（占比P=75%）进行编码和量化传输，在解码端利用一个轻量的带间预测模块（IBPM）从解码出的低频信息中预测高频成分，从而恢复完整语音。与先前直接丢弃高频或整体编码的方法相比，该创新点在于将频带优先传输与神经预测相结合。实验结果显示，在16 kHz采样率、1-3 kbps比特率下，IBPCodec的计算复杂度仅为0.35 GMACs（远低于DAC的55.66G和SpeechTokenizer的17.09G），其PESQ、SI-SDR等客观指标及MUSHRA主观评分均优于或持平FreqCodec、SpeechTokenizer等基线。该工作的实际意义在于为低功耗设备上的实时语音通信提供了一种高效的编解码方案。其主要局限性在于IBPM的预测能力有限，在更低频带占比（P=0.5）时性能下降，且模型在极低比特率下的绝对语音质量仍有提升空间。 ...

ICASSP 2026 - 语音编码论文列表

ICASSP 2026 - 语音编码共 5 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Lisa: Lightweight Yet Superb Neural Speech Coding 8.5分前25% 🥈 FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via C 8.0分前25% 🥉 CodecSlime: Temporal Redundancy Compression of Neural Speech 7.5分前10% 4. Speaking Clearly: A Simplified Whisper-Based Codec for Low-B 7.5分前25% 5. IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter 7.0分前25% 📋 论文详情 🥇 Lisa: Lightweight Yet Superb Neural Speech Coding 🔥 8.5/10 | 前25% | #语音编码 | #信号处理 | #向量量化 #实时处理 ...