PianoCoRe: Combined and Refined Piano MIDI Dataset
📄 PianoCoRe: Combined and Refined Piano MIDI Dataset #数据集 #数据清洗 #音乐信息检索 #钢琴表演建模 ✅ 7.5/10 | 前25% | #数据集 | #数据清洗 | #音乐信息检索 #钢琴表演建模 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Ilya Borovik(Skolkovo Institute of Science and Technology, Moscow, Russia) 通讯作者:未说明(论文中未明确指定通讯作者) 作者列表:Ilya Borovik(Skolkovo Institute of Science and Technology, Moscow, Russia) 💡 毒舌点评 亮点:该工作最大的价值在于其卓越的系统工程和开源精神——将零散、杂乱的现有钢琴MIDI语料库整合、清洗、对齐成一个开箱即用、分层合理的数据集,并配套发布了高质量的质量分类器和对齐优化工具,极大地降低了后续研究者的门槛。短板:核心创新更偏向“数据料理”而非“算法突破”,例如质量分类器和对齐精炼的启发式规则虽然有效,但方法本身缺乏更强的理论深度或新颖性,在某种程度上更像是一篇详尽的“技术手册”或“最佳实践指南”。 📌 核心摘要 要解决什么问题:现有的钢琴符号音乐数据集存在覆盖范围窄、缺乏多样性、缺少音符级对齐、命名格式不一致等问题,阻碍了大规模、高质量的钢琴表演分析与建模研究。 方法核心是什么:论文构建了PianoCoRe数据集,其核心方法包括:a) 一套多阶段、自动化的数据匹配与整合流程,将多个现有数据集(ASAP, ATEPP, GiantMIDI-Piano, PERiScoPe, Aria-MIDI)合并;b) 一个训练的MIDI质量分类器,用于识别损坏和类乐谱的转录;c) 一个名为RAScoP的对齐精炼流水线,用于清理时间对齐错误并插值缺失音符。 与已有方法相比新在哪里:新在首次将多个主流开源钢琴数据集整合并去重,发布为具有清晰层级(C/B/A/A*)的数据集,覆盖不同应用场景需求,这是之前不存在的。同时,配套的质量分类和对齐精炼工具链是此前缺乏的、易用的开源解决方案。 主要实验结果: MIDI质量分类器在平衡测试集上的宏平均F1分数达到89.1%。 ...