NGPT | 语音/音乐/音频论文速递

📄 nGPT as a Scalable Architecture for Speech Recognition and Translation #语音识别 #语音翻译 #nGPT #多语言 #位置编码 ✅ 7.5/10 | 前25% | #语音识别 | #nGPT | #语音翻译 #多语言学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Nune Tadevosyan (NVIDIA, Santa Clara, CA 95051, USA) (论文中注明*贡献相等) 通讯作者：未说明作者列表：Nune Tadevosyan (NVIDIA), Nithin Rao Koluguri (NVIDIA), Monica Sekoyan* (NVIDIA), Piotr Zelasko (NVIDIA), Nikolay Karpov (NVIDIA), Jagadeesh Balam (NVIDIA), Boris Ginsburg (NVIDIA)。所有作者均隶属于NVIDIA公司。 💡 毒舌点评亮点：在将Transformer编码器稳定扩展到3B参数上展现了工程实力，nGPT架构在单阶段训练下即在X→EN翻译任务上展现出强泛化能力，这是一个扎实的架构贡献。短板：论文声称“首次将ALiBi应用于语音”，但核心贡献更像是将NLP领域成熟技术适配到语音任务，创新高度有限；同时，在ASR任务上，费尽心思提出的nGPT-3B在多阶段微调的1B FastConformer面前并未取得全面优势，削弱了其“可扩展性”叙事的部分说服力。 ...