In-Sync: Adaptation of Speech Aware Large Language Models for ASR with Word level timestamp predictions
📄 In-Sync: Adaptation of Speech Aware Large Language Models for ASR with Word level timestamp predictions #语音识别 #语音大模型 #多任务学习 #数据增强 ✅ 7.0/10 | 前50% | #语音识别 | #多任务学习 | #语音大模型 #数据增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Xulin Fan(University of Illinois Urbana-Champaign) 通讯作者:未说明 作者列表:Xulin Fan(University of Illinois Urbana-Champaign)、Vishal Sunder(IBM Research)、Samuel Thomas(IBM Research)、Mark Hasegawa-Johnson(University of Illinois Urbana-Champaign)、Brian Kingsbury(IBM Research)、George Saon(IBM Research) 💡 毒舌点评 亮点:论文提出的三个训练策略(长度增强、嵌入正则化、减少教师强制)逻辑清晰,且消融实验设计规范,清晰展示了每个模块的贡献与局限,为SpeechLLM的多任务适配提供了实用的工程经验。 短板:作为一篇ICASSP论文,其核心创新(尤其是高斯先验正则化)更像是一种“调参技巧”的系统化,而非算法层面的突破;此外,论文承认了正则化与减少教师强制“组合不佳”,这削弱了方法作为统一框架的完备性。 ...