Assessing True Generalisability of Audio-Visual Speech Recognisers
📄 Assessing True Generalisability of Audio-Visual Speech Recognisers #语音识别 #自监督学习 #多模态模型 #基准测试 9.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.5/10 | 前10% | #语音识别 | #自监督学习 | #多模态模型 #基准测试 | arxiv 👥 作者与机构 作者:Zhaofeng Lin, Stavros Petridis, Maja Pantic, Naomi Harte 机构:1 Trinity College Dublin, Ireland;2 Imperial College London, UK 💡 毒舌点评 这篇论文根本不是在发明一个“更好”的AVSR模型,而是在无情地揭露当前AVSR领域集体自嗨的泡沫。它本质上是一篇“基准测评”论文,却起到了比很多模型创新论文更重要的作用——戳穿了LRS3基准带来的虚假繁荣。它的核心贡献是“破”而非“立”,但这种“破”恰恰是领域健康发展所急需的。作者通过近乎偏执的严谨方法(构建严格分布匹配的MV2LRS3集),得出了一个令人尴尬的结论:我们引以为傲的AVSR模型,在离开精心维护的LRS3温室后,表现得一塌糊涂。多模态融合不仅没帮忙,反而成了拖累。最讽刺的是,论文名为“评估真实泛化能力”,但其结论反而揭示了“泛化”这个概念本身在当前AVSR研究中可能被过度推广和误用。这篇论文应该被每一个致力于提升AVSR性能的研究者放在案头,用来审视自己工作的实际意义,而不是仅仅在LRS3刷榜。 ...