MAGE: A Coarse-to-Fine Speech Enhancer with Masked Generative Model

📄 MAGE: A Coarse-to-Fine Speech Enhancer with Masked Generative Model #语音增强 #生成模型 #大语言模型 #掩码预测 #模型压缩 🔥 8.0/10 | 前25% | #语音增强 | #生成模型 | #大语言模型 #掩码预测 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Hieu Pham(AITech Lab, Ho Chi Minh City University of Technology, VNU-HCM, Vietnam) 通讯作者:Duc Dung Nguyen(AITech Lab, Ho Chi Minh City University of Technology, VNU-HCM, Vietnam) 作者列表:Hieu Pham (AITech Lab, 胡志明市技术大学), Tan Dat Nguyen (AITech Lab, 胡志明市技术大学), Phuong Thanh Tran (AITech Lab, 胡志明市技术大学), Joon Son Chung (韩国科学技术院), Duc Dung Nguyen (AITech Lab, 胡志明市技术大学) 💡 毒舌点评 亮点在于其“稀缺感知”的从粗到细掩码策略,为非均匀token分布下的掩码生成模型训练提供了优雅的解决方案,显著提升了样本效率;同时,将庞大的大语言模型裁剪至200M参数用于语音增强任务,展现了出色的架构工程能力。短板在于评估严重依赖DNSMOS这类非侵入式指标,完全缺乏PESQ、STOI等传统且客观的信号级评估指标,使得其声称的“感知质量提升”缺乏更全面的说服力,也让与传统方法的对比不够完整。 ...

2026-04-29