DiTSE: High-Fidelity Generative Speech Enhancement via Latent Diffusion Transformers
📄 DiTSE: High-Fidelity Generative Speech Enhancement via Latent Diffusion Transformers #语音增强 #扩散模型 #Transformer #高保真音频 🔥 8.5/10 | 前10% | #语音增强 | #扩散模型 | #Transformer #高保真音频 学术质量 8.5/7 | 选题价值 8.0/2 | 复现加成 8.0 | 置信度 高 👥 作者与机构 第一作者:Heitor R. Guimarães (INRS-EMT, Université du Québec, Montréal, Canada) 通讯作者:未明确说明(根据作者顺序和单位,通常最后一位或带有†标记的作者可能是通讯作者,但论文中未明确标注) 作者列表: Heitor R. Guimarães(INRS-EMT, Université du Québec, Montréal, Canada;其工作在Adobe Research实习期间完成) Jiaqi Su(Adobe Research, San Francisco, California, United States) Rithesh Kumar(Adobe Research, San Francisco, California, United States) Tiago H. Falk(INRS-EMT, Université du Québec, Montréal, Canada) Zeyu Jin(Adobe Research, San Francisco, California, United States) 💡 毒舌点评 亮点:该工作首次在主观评测中将语音增强的输出质量提升至与真实录音棚录音(DAPS数据集)“无法区分”的水平(MOS 4.34 vs. 4.30),这是生成式语音增强领域一个重要的里程碑。 短板:模型(335M参数)相比多数基线更庞大,且依赖32步的扩散采样,实时性可能受限,其“高保真”优势在资源受限场景下的实用性有待考量;此外,尽管使用了离散编解码器进行后处理,但核心的连续潜在空间扩散仍面临VAE重建瓶颈(如VBD数据集上VAE重建分数低于原生48kHz音频)。 ...