Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences
📄 Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences #语音识别 #数据集 #大语言模型 #多模态模型 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #大语言模型 | #数据集 #多模态模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dmitrii Korzh(AXXX, Moscow, Russia;MTUCI, Moscow, Russia) 通讯作者:论文中未明确标注通讯作者 作者列表:Dmitrii Korzh(AXXX, MTUCI),Dmitrii Tarasov(FusionBrain Lab, AXXX; HSE University),Artyom Iudin(AXXX; MTUCI),Elvir Karimov(AXXX; MTUCI; Applied AI Institute),Matvey Skripkin(FusionBrain Lab, AXXX; Applied AI Institute),Nikita Kuzmin(AXXX; MTUCI; Applied AI Institute),Andrey Kuznetsov(FusionBrain Lab, AXXX; Innopolis University),Oleg Y. Rogov(AXXX; MTUCI; Applied AI Institute),Ivan Oseledets(AXXX; Applied AI Institute; Moscow State University) 💡 毒舌点评 亮点在于,论文贡献了一个规模空前、标注细致的开源S2L数据集,并系统性地探索了从ASR后校正到端到端Audio-LLM的多种技术路线,为这个细分领域确立了坚实的基准和评估框架。短板是,无论是ASR后校正还是端到端方法,模型架构本身均无显著创新,更多是现有技术的组合与应用,其性能提升很大程度上依赖于新构建的高质量数据集。 ...