VChangeCodec: An Ultra Low-Complexity Neural Speech Codec with Built-In Voice Changer for Customized Real-Time Communication
📄 VChangeCodec: An Ultra Low-Complexity Neural Speech Codec with Built-In Voice Changer for Customized Real-Time Communication #语音转换 #语音增强 #端到端 #流式处理 #实时处理 🔥 8.0/10 | 前25% | #语音转换 #语音增强 | #端到端 | #语音转换 #语音增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xusheng Yang (⋆†) (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) 通讯作者:Yuexian Zou (⋆†B) (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) 作者列表: Xusheng Yang (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) Wei Xiao (⋄) (腾讯天籁音频实验室) Bang Yang (‡) (鹏城实验室) Shidong Shang (⋄) (腾讯天籁音频实验室) Yuexian Zou (⋆†B) (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) 💡 毒舌点评 本文提出的“编解码器内建变声器”架构确实是个聪明的集成创新,将语音转换从额外的级联模块变为编解码管道的一部分,从而将端到端延迟砍到了40ms,这对实时通信场景是实质性的提升。不过,论文在“超低复杂度”上做得更极致,但在“音质竞争力”和“变声效果竞争力”上更像是“足够好”而非“令人惊叹”,POLQA分数虽然不错但并未拉开与DAC等模型的差距,语音转换的自然度(N-MOS)也逊色于QuickVC。 ...