Sampling-Rate-Agnostic Speech Super-Resolution Based on Gaussian Process Dynamical Systems with Deep Kernel Learning

📄 Sampling-Rate-Agnostic Speech Super-Resolution Based on Gaussian Process Dynamical Systems with Deep Kernel Learning #语音增强 #高斯过程 #深度核学习 #鲁棒性 ✅ 6.5/10 | 前25% | #语音增强 | #高斯过程 | #深度核学习 #鲁棒性 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Aditya Arie Nugraha(RIKEN Center for Advanced Intelligence Project (AIP),日本) 通讯作者:未说明 作者列表:Aditya Arie Nugraha(RIKEN AIP,日本)、Diego Di Carlo(RIKEN AIP,日本)、Yoshiaki Bando(RIKEN AIP,日本)、Mathieu Fontaine(LTCI, T’el’ecom Paris, Institut Polytechnique de Paris,法国;RIKEN AIP,日本)、Kazuyoshi Yoshii(京都大学工学研究科,日本;RIKEN AIP,日本) 💡 毒舌点评 亮点:论文将语音超分辨率问题巧妙地重新定义为基于连续时间随机过程的统计逆问题,提出的GPDS-SR框架在理论上非常优雅,并首次实现了真正的采样率无关性(可输出如13931Hz、19391Hz等非标准采样率)和对缺失样本的鲁棒性。短板:然而,这种理论上的优雅并未完全转化为感知质量上的优势,在核心指标ViSQOL和LSD-LF上,GPDS-SR明显落后于NU-Wave 2和UDM+等扩散/变分模型,且频谱图显示其生成结果存在明显伪影,这削弱了其“更具数学严谨性”方法的实际竞争力。 ...

2026-04-29