BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps
📄 BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps #音乐生成 #自回归模型 #实时处理 #数据集 #音频生成 🔥 评分:8.5/10 | arxiv 👥 作者与机构 根据论文标题页信息,作者为: 第一作者:Lekai Qian 通讯作者:Ziyu Wang (根据常规学术论文作者排序惯例推断,论文未明确标注) 其他作者:Haoyu Gu, Jingwei Zhao 论文未明确标注作者所属机构。根据arXiv论文的常见情况及作者姓名推测,作者可能来自中国的高校或研究机构(如清华大学、北京大学、中国科学院等),但论文正文中未提供明确信息。 💡 毒舌点评 亮点:把钢琴卷帘(Piano-roll)这种“笨重”的2D表示,巧妙地“压扁”成按拍(beat)分组的稀疏token序列,既保留了时间网格的规整性,又获得了堪比事件序列的紧凑性,这个“鱼与熊掌兼得”的思路非常优雅。 槽点:模型规模(150M)相对保守,在当今大模型时代略显“迷你”,限制了其性能上限和作为通用音乐表示的潜力;此外,实验主要集中在西方音乐传统(MIDI, 4/4拍),对其他音乐文化的普适性有待验证。 🔗 开源详情 代码:论文明确提供了GitHub仓库链接 (https://anonymous.4open.science/w/BEAT-349F/),表明代码将开源。 模型权重:论文提及了在线Demo页面,暗示预训练模型权重可能随代码一同发布。 数据集:使用了公开的Lakh MIDI Dataset和MuseScore Collection,但经过了特定的过滤和处理。论文未提及发布新的数据集。 在线 Demo:提供了匿名Demo页面 (https://anonymous.4open.science/w/BEAT-349F/) 供体验。 依赖的开源项目:论文中提及了MusPy(用于评估)、LLaMA(作为模型架构参考)等开源工具。 📌 核心摘要 本文针对符号音乐生成中主流的事件序列(event-based)tokenization方法隐含处理时间规律、导致模型需额外学习时间网格的问题,提出了一种名为BEAT的新型网格化tokenization框架。其核心思想是将音乐在时间上均匀离散化为“拍”(beat)作为基本单位,将每拍内每个音高的活动状态(起音、持续、静音)编码为一个“模式”(pattern)令牌,并与音高、力度信息组合,形成按拍组织的稀疏令牌序列。这种方法显式地融入了音乐时间均匀性的归纳偏置。实验表明,在音乐续写和实时伴奏生成任务上,BEAT在节奏一致性(JS GC)、分布相似性(FMD)等客观指标和主观听感评价上均优于REMI、Compound Word等基线方法。进一步分析显示,BEAT表示更紧凑、具有更好的可压缩性,能更有效地捕捉长程结构,并天然支持实时流式生成。该工作为符号音乐表示学习提供了一个兼具理论优雅性和实践有效性的新方向。 🏗️ 模型架构 BEAT的核心并非一个全新的模型架构,而是一种新的音乐表示(tokenization)方案,该方案可无缝接入标准的自回归Transformer语言模型。 完整输入输出流程: 输入:多轨符号音乐(如MIDI),被表示为三维张量 (轨道数 P, 时间步数 T) 的钢琴卷帘矩阵,每个元素取值 {0(静音), 1(起音), 2(持续)},并附带力度信息。 编码阶段(BEAT Encoding): 步骤1(拍内编码):以固定时间步长 τ(默认为4个十六分音符,即一拍)将钢琴卷帘分割为 N 个“拍段” B(i)。对于每个拍段内的每个音高 p,将其 τ 个时间步的状态向量通过三进制转整数编码为一个“模式令牌” PAT_x。同时,计算该音高在此拍内的平均力度,编码为“力度令牌” VEL_x。 步骤2(拍级组装):识别当前拍段内的活跃音高集合,按音高降序排列。第一个音高使用绝对音高索引作为“音高令牌” PIT_d,后续音高使用与前一音高的相对音程差作为音高令牌。这样,一个拍的内容被表示为一组 (PIT_d, PAT_s, VEL_v) 三元组的序列。若该拍全休止,则用一个特殊的 REST 令牌表示。 步骤3(序列构建):在每个拍的序列前插入 BEAT 令牌作为分隔符。在每小节开始处插入 BAR 令牌。对于多轨音乐,在每个拍的轨道内容前插入乐器令牌 INS_x。最终,所有拍的序列按时间顺序拼接,形成完整的令牌序列。 建模阶段:将上述令牌序列输入标准的16层Transformer解码器(150M参数,遵循LLaMA架构),使用自回归方式建模令牌的联合概率分布,训练时最小化交叉熵损失。 输出与解码:模型自回归生成令牌序列。解码器通过识别绝对/相对音高令牌来重建拍段和钢琴卷帘,最终还原为可播放的符号音乐。 关键设计选择理由: ...