Polynomial Mixing for Efficient Self-Supervised Speech Encoders
📄 Polynomial Mixing for Efficient Self-Supervised Speech Encoders #语音识别 #自监督学习 #端到端 #低资源 #开源工具 🔥 8.0/10 | 前25% | #语音识别 | #自监督学习 | #端到端 #低资源 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eva Feillet (Université Paris-Saclay, CNRS, Laboratoire Interdisciplinaire des Sciences du Numériques; Miles team, Université Paris-Dauphine-PSL) 通讯作者:未说明 作者列表:Eva Feillet (Université Paris-Saclay, CNRS, LISN; Miles team, Université Paris-Dauphine-PSL), Ryan Whetten (Laboratoire Informatique d’Avignon, Avignon Université), David Picard (LIGM, École Nationale des Ponts et Chaussées), Alexandre Allauzen (Miles team, Université Paris-Dauphine-PSL) 💡 毒舌点评 亮点在于PoM的设计思想——用全局多项式状态来“总结”序列信息再广播回每个token,比简单的平均池化(SummaryMixing)理论上更具表达力,并被实验证实有效。短板是,尽管PoM在效率上实现了线性复杂度,但在最关键的WER指标上,它只是“接近”而非“超越”强MHA基线(如RelPosMHA),对于追求极致性能的应用场景,其吸引力可能有限;此外,论文中提出的“分割频率混合”等变体并未带来稳定收益,核心创新的增益边界尚未被完全厘清。 ...