Building a Multimodal Dataset of Academic Paper for Keyword Extraction
📄 Building a Multimodal Dataset of Academic Paper for Keyword Extraction #多模态模型 #语音识别 #条件随机场 5.2/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0.7/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 📝 5.2/10 | 后50% | #语音识别 | #条件随机场 | #多模态模型 | arxiv 👥 作者与机构 作者: 张静宇,南京理工大学信息管理系,中国,邮箱:zzjy@njust.edu.cn 阎欣怡,南京理工大学信息管理系,中国,邮箱:yanxinyi@njust.edu.cn 项轶,南京理工大学信息管理系,中国,邮箱:xiangyi@njust.edu.cn 张英亿,苏州大学档案与电子政务系,中国,邮箱:yyzhang9@suda.edu.cn 张成志*(通讯作者),南京理工大学信息管理系,中国,邮箱:zhangcz@njust.edu.cn 💡 毒舌点评 这篇论文像是一份详尽的数据集“说明书”,而非一篇具有显著方法论创新的研究。作者准确地识别了领域空白(缺乏多模态关键词提取数据集),并勤恳地完成了数据构建、预处理和描述性统计工作——这份“苦劳”值得肯定。然而,其“功劳”却止步于此:后续的实验更像是为数据集打上“可用性验证”的标签,而非对多模态关键词提取这一科学问题进行深入探索。所用的模型(SVM, CRF, BiLSTM-CRF)在单模态NLP任务中已是“上古神器”,缺乏与当前SOTA(如基于Transformer的多模态大模型)的对比,使得“多模态融合有效”的结论显得苍白无力且过时。最致命的是,所谓的“多模态融合”仅仅是简单拼接文本特征,完全忽略了论文中反复强调的图像布局、音频语调等“模态特有信息”,这无异于只吃菜叶子的沙拉却宣称自己领略了整片森林的滋味。数据集仅1000篇论文,且未开源,其实际影响力和社区价值大打折扣。总体而言,这是一篇合格的数据集发布短文,但距离一篇能推动多模态理解技术前进的研究论文还有很大差距。 📌 核心摘要 针对现有关键词提取研究主要依赖单一文本模态,且缺乏支持多模态任务数据集的问题,本文构建了一个包含1000个样本的多模态学术论文数据集。每个样本整合了论文文本、会议演讲幻灯片的图像文本、演讲者音频的文本以及作者提供的关键词,数据来源于VideoLectures和SPIE数字图书馆。为验证数据集有效性,作者在多种无监督(TF-IDF, TextRank, SVM)和监督(CRF, BiLSTM-CRF, BERT-BiLSTM-CRF)关键词提取模型上进行了系统实验,评估了单独使用论文文本、音频文本、图像文本以及三者文本拼接的性能。实验结果表明,论文文本单独使用时在多数模型上效果最佳,而将三种模态文本拼接后,能在SVM、BiLSTM-CRF等部分有监督模型中取得最优或接近最优的性能,初步验证了多模态信息融合的潜力。论文同时指出,当前工作仅利用了模态的文本信息,未来可探索视觉特征、音频声学特征、模态相关性以及大语言模型在该任务中的应用。 ...