Low-Bandwidth High-Fidelity Speech Transmission with Generative Latent Joint Source-Channel Coding

📄 Low-Bandwidth High-Fidelity Speech Transmission with Generative Latent Joint Source-Channel Coding #语音增强 #语义通信 #端到端 #生成对抗网络 #流式处理 ✅ 7.5/10 | 前25% | #语音增强 | #端到端 | #语义通信 #生成对抗网络 学术质量 6.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Guangkuan Li(北京邮电大学) 通讯作者:Jincheng Dai(北京邮电大学) 作者列表:Guangkuan Li(北京邮电大学)、Shengshi Yao(北京邮电大学)、Sixian Wang(上海交通大学)、Zhenyu Liu(University of Surrey)、Kai Niu(北京邮电大学)、Jincheng Dai(北京邮电大学) 💡 毒舌点评 亮点:该工作聪明地将神经音频编解码器(RVQ-GAN)与联合源信道编码(JSCC)解耦后又紧密融合,利用生成模型在低带宽下提供先验信息,有效缓解了传统JSCC在极低带宽下的质量崩塌问题。短板:虽然声称“节省60%带宽”,但对比基线(Opus+LDPC, Encodec+LDPC)的配置细节(如Opus的码率、LDPC的开销)未在文中清晰界定,使得“节省”的绝对值在不同实际部署条件下可能有所变化。 📌 核心摘要 问题:现有的语音联合源信道编码(JSCC)方法在带宽极度受限时,感知质量会急剧下降,难以满足高保真传输需求。 核心方法:提出生成式潜在联合源信道编码(GL-JSCC)框架。该框架首先使用RVQ-GAN将语音压缩到一个与人感知对齐的潜在空间,然后在该潜在空间内使用流式Transformer执行JSCC,最后采用三阶段渐进式训练策略进行优化。 创新点:与传统在源空间或简单神经网络潜空间进行JSCC不同,本文在生成式潜在空间中进行JSCC,该空间具有更高的稀疏性和感知对齐性,且生成模型本身为低带宽下的重建提供了额外的先验知识。 主要实验结果:在AWGN和COST2100衰落信道下,GL-JSCC在低信噪比(SNR)和低带宽条件下均优于传统方法(Opus+LDPC, AMR-WB+LDPC)和神经网络基线(DeepSC-S, Encodec+LDPC)。例如,在SNR=2dB的AWGN信道下,GL-JSCC能达到与Opus+LDPC相同的感知质量(PESQ分数),但节省高达60%的带宽。主观MUSHRA测试也证实了其优越的听感。 实际意义:该框架为在带宽受限的弱网络(如工业物联网、偏远地区)中进行高质量语音传输提供了一种有效解决方案,推动了语义通信在音频领域的实用化。 主要局限性:性能上限受限于RVQ-GAN神经编解码器本身的重建质量(PESQ分数最高约4);实验主要基于英文语音数据集(LibriSpeech),在其他语言或声学环境下的泛化能力未验证。 🏗️ 模型架构 GL-JSCC的整体架构分为两个核心部分:生成式潜在编解码器(Latent Codec) 和 联合源信道编解码器(JSCC Codec),其流程如公式(1)所示:语音 x -> 潜在编码器 E -> 潜在表示 l -> JSCC编码器 J_e -> 发送符号 s -> 无线信道 -> 接收符号 ŝ -> JSCC解码器 J_d -> 潜在表示 l̂ -> 潜在解码器 D -> 重建语音 x̂。 ...

2026-04-29

MixGAN-based Non-blind Bandwidth Extension for Audio Codec

📄 MixGAN-based Non-blind Bandwidth Extension for Audio Codec #音频增强 #生成对抗网络 #音频编解码器 #非盲 #实时处理 🔥 8.0/10 | 前25% | #音频增强 | #生成对抗网络 | #音频编解码器 #非盲 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Hao Guo(华为中央媒体技术研究院,清华大学深圳国际研究生院) 通讯作者:Wenbo Ding(清华大学深圳国际研究生院,邮箱:ding.wenbo@sz.tsinghua.edu.cn) 作者列表:Hao Guo(华为中央媒体技术研究院,清华大学深圳国际研究生院)、BingYin Xia(华为中央媒体技术研究院)、Xiao-Ping Zhang(清华大学深圳国际研究生院)、Wenbo Ding(清华大学深圳国际研究生院) 💡 毒舌点评 本文首次将非盲AI带宽扩展(BWE)方案系统性地落地到音频编解码器框架中,并通过MixGAN创新性地解决了GAN训练在频谱扩展任务上易崩溃的难题,工程导向明确且效果显著。然而,论文对核心侧信息模型(side model)的“AI-based”部分描述过于简略(仅提到5个ConvM和1个MLP),且训练数据集描述模糊(“130小时以中文歌曲为主”),这给工作通用性的评估和完整复现埋下了隐患。 📌 核心摘要 问题:现有的AI带宽扩展(BWE)方法很少考虑集成到实际音频编解码器时面临的约束,如比特流兼容性、处理延迟和解码失真。 方法:本文提出了首个面向音频编解码器的非盲AI-BWE框架。该框架在编码端提取少量比特的侧信息(包括频带包络和侧特征),在解码端以低延迟帧处理方式(2048样本,43ms)利用该信息引导从低频重建高频。核心创新是提出了MixGAN框架(通过线性插值混合真实与生成帧来训练判别器)和三阶段训练策略(单帧预热、单帧对抗、重叠优化)。 创新点:1) 首个解决编解码器实际约束的非盲AI-BWE方案;2) MixGAN稳定了对抗训练,提升了重建保真度;3) 模型对量化失真具有固有鲁棒性。 实验:在8kHz->24kHz的BWE任务上,与多种AI方法(HiFi-GAN+, NU-Wave2)和标准方法(EVS)对比。在语音和音频测试集上,所提方法(Non-blind BWE)取得了最佳的MUSHRA主观评分(语音84.44,音频84.28)和最低的LSD客观指标(语音0.846,音频0.663)。同时,其浮点运算量(FLOPs)和实时因子(RTF)远低于其他AI基线,计算效率高。 方案 语音 MUSHRA↑ 语音 LSD↓ 音频 MUSHRA↑ 音频 LSD↓ 解码LF (基准) 55.25 1.418 46.75 3.055 HiFi-GAN+ 54.84 1.561 40.63 1.686 NU-Wave2 59.72 1.664 48.44 2.161 EVS (规则) 77.44 0.980 76.72 1.051 Blind BWE 74.66 1.077 74.56 0.840 Non-blind BWE (Vanilla) 69.52 0.915 66.32 0.725 Non-blind BWE (Proposed) 84.44 0.846 84.28 0.663 (图4显示,在复杂频谱结构的交响乐片段中,所提方法(e)能准确恢复谐波细节,而HiFi-GAN+(a)和NU-Wave2(b)表现较差。) ...

2026-04-29