Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition
📄 Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition #音视频 #语音识别 #语音增强 #多任务学习 #端到端 ✅ 7.5/10 | 前25% | #语音识别 | #多任务学习 | #音视频 #语音增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Linzhi Wu (University of Electronic Science and Technology of China, Chengdu, China) 通讯作者:Xingyu Zhang (Defense Innovation Institute, Academy of Military Sciences, Beijing, China) 作者列表: Linzhi Wu (电子科技大学) Xingyu Zhang* (军事科学院国防创新研究院) Hao Yuan (北京大学) Yakun Zhang (军事科学院国防创新研究院) Changyan Zheng (High-tech Institute, Weifang, China) Liang Xie (军事科学院国防创新研究院) Tiejun Liu (电子科技大学) Erwei Yin (军事科学院国防创新研究院) 💡 毒舌点评 这篇论文提出了一个清晰的“先净化再融合”新范式,用端到端学习替代了脆弱的显式掩码生成,想法简洁有效,在LRS3数据集上也取得了不错的性能提升。然而,其最大的短板在于完全的“闭源”状态,没有提供代码、模型或训练细节,对于希望跟进或复现的读者来说,这意味着需要从零开始摸索架构细节和训练策略,极大增加了实践门槛。 ...