HARNESS: Lightweight Distilled Arabic Speech Foundation Models
📄 HARNESS: Lightweight Distilled Arabic Speech Foundation Models #语音识别 #知识蒸馏 #自监督学习 #多语言 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Vrunda N. Sukhadia(Amazon India;推断其完成该工作时隶属于 Qatar Computing Research Institute, HBKU, Qatar) 其他作者:Shammur Absar Chowdhury(Qatar Computing Research Institute, HBKU, Qatar) 注:论文未明确标注通讯作者,未使用通信作者标记(如 * 或 †)。脚注表明“This work was carried out at QCRI”。 💡 毒舌点评 亮点:在阿拉伯语这个“方言万花筒”上从头炼出了能打的轻量级 SSL 模型,28M 参数的 HArnESS-ST 居然能在方言识别上把 300M 参数的 XLS-R 按在地上摩擦,部署党的福音。槽点:都写到 2026 年了(arXiv 日期疑似穿越),下游任务居然还停留在 frozen encoder 阶段,连端到端微调都不敢跑,是怕小模型露馅还是舍不得 H100 的算力?至于 PCA 压缩监督信号,本质上就是给老师的高维 embedding 做个降维再聚类,包装得像是发现了新大陆。 ...