G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior Matching
📄 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior Matching #语音增强 #说话人识别 #语音质量评估 #高斯混合模型 9.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.3/10 | 前50% | #语音增强 | #高斯混合模型 | #说话人识别 #语音质量评估 | arxiv 👥 作者与机构 作者:Yike Zhu, Ziqian Wang, Zikai Liu, Xingchen Li, Zhuangqi Chen, Xianjun Xia, Chuanzeng Huang, Lei Xie 机构:Audio, Speech and Language Processing Group (ASLP@NPU), School of Software, Northwestern Polytechnical University, Xi’an, China 💡 毒舌点评 这篇论文提出了一个解决特定痛点(无需注册语音的个性化增强)的巧妙工程方案,但离“重大突破”还有距离。其创新更多是“组合创新”而非“原理创新”——用现成的GMM和余弦匹配给噪声嵌入做个“整形手术”。最令人玩味的是实验设计:用在VBD上训练的模型去测DNS2020,然后宣称“跨域”效果显著,这本质上是在验证一个简单的假设:说话人嵌入空间在不同噪声分布下是相对稳定的。论文的诚意体现在开源了代码,但缺乏与同期更强大(如基于扩散模型)的语音增强方法的对比,让“state-of-the-art”的宣称显得底气不足。方法的“轻量”是优点,但也暗示了其天花板可能有限。 ...