CodeSep: Low-Bitrate Codec-Driven Speech Separation with Base-Token Disentanglement and Auxiliary-Token Serial Prediction
📄 CodeSep: Low-Bitrate Codec-Driven Speech Separation with Base-Token Disentanglement and Auxiliary-Token Serial Prediction #语音分离 #语音编码 #多任务学习 #音频编解码 ✅ 7.5/10 | 前25% | #语音分离 | #多任务学习 | #语音编码 #音频编解码 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hui-Peng Du(中国科学技术大学,语音及语言信息处理国家工程研究中心) 通讯作者:Yang Ai(中国科学技术大学,语音及语言信息处理国家工程研究中心) 作者列表:Hui-Peng Du(中国科学技术大学)、Yang Ai*(中国科学技术大学)、Xiao-Hang Jiang(中国科学技术大学)、Rui-Chen Zheng(中国科学技术大学)、Zhen-Hua Ling(中国科学技术大学)。所有作者均隶属于“语音及语言信息处理国家工程研究中心,中国科学技术大学,合肥,中国”。 💡 毒舌点评 论文精准地瞄准了“既要分离又要压缩”这个被忽略的实用场景,并设计了逻辑自洽的模型,实验也充分证明了其在极低码率下吊打简单级联方案。然而,模型本质上仍是Transformer、RVQ和LSTM等成熟模块的“拼接乐”,缺乏更底层的方法论创新;且实验仅限于两人说话,面对更复杂的多人鸡尾酒会能否保持住这个“1 kbps”的优势,恐怕要打个问号。 📌 核心摘要 问题:本文针对一个实际但未被充分研究的场景——同时进行语音分离与语音压缩。在在线会议、对话归档等应用中,需要从混合语音中分离出说话人,并将其表示为紧凑的离散token以便高效传输或存储。 方法核心:提出CodeSep模型,一个编解码器驱动的联合分离压缩框架。其核心组件包括:一个基于残差向量量化(RVQ)的神经语音编解码器(MDCTCodec),一个基础token解纠缠模块(BTD),以及并行的辅助token串行预测模块(ATSP)。 创新点:与先压缩再分离(FCTS)或先分离再压缩(FSTC)的级联方案不同,CodeSep采用联合分离压缩(JSAC) 策略。BTD模块直接从混合语音的梅尔谱中解纠缠出每个说话人的“基础token”(仅传输这些即可达到极低码率),ATSP模块则利用基础token串行预测出剩余的“辅助token”以提升重建质量。训练时利用RVQ提供的排列不变交叉熵和基于教师强迫的交叉熵损失。 主要实验结果:在Libri2Mix数据集上,CodeSep在仅1 kbps的比特率下,其分离语音的质量(UTMOS 3.14,DNSMOS 3.67)和说话人相似度显著优于同码率的FCTS和FSTC基线。甚至,CodeSep(1 kbps)的UTMOS和DNSMOS得分超过了FSTC方案在2 kbps、4 kbps乃至8 kbps下的结果(具体数据见下表)。 表1:1 kbps下各方法性能对比 ...