Noise-Robust AV-ASR Using Visual Features both in the Whisper Encoder and Decoder
📄 Noise-Robust AV-ASR Using Visual Features both in the Whisper Encoder and Decoder #语音识别 #预训练 #音视频 #鲁棒性 🔥 8.0/10 | 前25% | #语音识别 | #预训练 | #音视频 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhengyang Li(Technische Universität Braunschweig, Institute for Communications Technology) 通讯作者:未说明 作者列表:Zhengyang Li(Technische Universität Braunschweig, Institute for Communications Technology),Thomas Graave(Technische Universität Braunschweig, Institute for Communications Technology),Björn Möller(Technische Universität Braunschweig, Institute for Communications Technology),Zehang Wu(Technische Universität Braunschweig, Institute for Communications Technology),Matthias Franz(Technische Universität Braunschweig, Institute for Communications Technology),Tim Fingscheidt(Technische Universität Braunschweig, Institute for Communications Technology) 💡 毒舌点评 亮点:在LRS3基准的噪声测试(MUSAN babble, 0dB SNR)中,基于Whisper medium的“双用”方法相比强力的中间融合基线(Flamingo)取得了高达57%的相对错误率降低(4.07% vs. 9.53%),噪声鲁棒性提升非常显著且可复现。短板:方法的性能高度依赖于一个独立的、参数量庞大的预训练视觉编码器(AV-HuBERT large, 325M参数),这使得整个AV-ASR系统的总参数量远大于音频单模态Whisper,为实际部署(尤其是资源受限场景)带来了显著的计算开销。 ...