📄 Rubato: Transcribing Piano Music with Timestamps

#音乐转录

7.5/10 | 前25% | #音乐转录 | #音乐转录 | arxiv

👥 作者与机构

Nazif Can Tamer, Victoria Ebert, Guang Yang, Noah A. Smith Paul G. Allen School of Computer Science & Engineering, University of Washington;Allen Institute for AI

💡 毒舌点评

这篇论文的工作扎实,解决了音乐转录中一个真实存在的“断裂”问题:从音频到可读乐谱的流水线在中间表示上丢失了太多信息。InterMo表示法的设计确实巧妙,将时序对齐和符号结构统一到序列建模中,这比简单地堆叠两个模型要优雅得多。实验也足够有力,甚至证明了即使给级联方法“开挂”(使用真实MIDI或下拍),也比不过端到端的Rubato。然而,论文的野心似乎被其应用场景限制住了——他们证明了在钢琴独奏上的优越性,但这离“通用音乐转录”还很远。此外,缺少人机交互评估是个遗憾,毕竟乐谱最终是给人看的,OMR-NED分数低不代表音乐家就觉得好用。总的来说,这是一篇在特定领域内做出显著改进的工作,但离“改变游戏规则”还有距离。

📌 核心摘要

本文提出Rubato,一个用于将钢琴音乐录音转录为带时间戳的、人类可读乐谱的端到端模型。其核心创新是设计了一种名为InterMo的全新文本音乐表示法,它将乐谱结构、时间戳和记谱信息统一编码为一维序列,支持多任务训练。Rubato基于提示条件编解码器架构,能够通过不同的提示生成不同的输出方言(如带时间戳的乐谱、MIDI音符、节拍标记)。实验证明,与所有级联基线(包括使用真实MIDI或下拍的神谕版本)相比,Rubato生成的乐谱在符号准确性(OMR-NED)上均表现更优。在下游的时间对齐任务(节拍/下拍检测、音符检测)上,其性能也与专用系统相当或更优。分析表明,级联方法的瓶颈在于中间表示的信息丢失,而非前端预测误差。此外,基于InterMo的转录结果在乐曲识别和演奏者识别检索任务上也展现出良好性能。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:论文中未提及模型权重链接。
  • 数据集:
    1. MAESTRO v3:论文未提供直接链接。论文中提及这是一个包含159小时真实钢琴音频和Disklavier MIDI时间戳的数据集,通常需从其官方渠道获取。
    2. (n)ASAP:论文未提供直接链接。论文中提及这是MAESTRO录音的一个子集,附加了节拍、降音、调号/拍号和乐谱标注。
    3. PDMX:论文未提供直接链接。论文中提及这是来自MuseScore的公共版权乐谱集合。论文明确表示已发布用于复现的乐谱片段和合成音频:“We release the score excerpts and synthesized utterances for reproducibility.” 但未给出具体的下载地址。
  • Demo:https://nctamer.github.io/rubato-transcription
  • 复现材料:
    • 论文中提供了详细的模型架构(基于Canary-180M-Flash)、训练方法(如子词正则化、时间戳标签平滑)、训练数据混合策略(表1)和推理设置等信息。
    • 论文未明确提供训练好的检查点或完整的训练脚本供下载。
    • 论文提及已发布用于复现的PDMX合成数据(见“数据集”部分)。
  • 论文中引用的开源项目:
    1. DawDreamer:用于从乐谱合成音频的音频合成引擎。论文未提供链接,项目通常托管于GitHub。
    2. VirtuosoNet:用于生成表现力渲染(时间偏差和音符不匹配)的模型。论文未提供链接,项目通常托管于GitHub。
    3. Verovio:用于将InterMo等文本表示渲染为可读乐谱的工具。论文未提供链接,项目主页为 https://www.verovio.org
    4. MuseScore:PDMX数据集的来源平台。项目主页为 https://musescore.org
    5. MidiTok:在附录C中提及的MIDI分词器库。项目主页为 https://github.com/Natooz/MidiTok

🏗️ 方法概述和架构

Rubato是一个基于提示条件(prompt-conditioned)的编码器-解码器模型,其核心架构和训练流程如下:

  1. 模型架构:采用Canary-180M-Flash架构,包含一个Fast Conformer编码器和一个Transformer解码器,总参数量约1.8亿。编码器处理输入音频,解码器以自回归方式生成目标序列。

  2. 核心表示:InterMo:这是论文的关键创新。InterMo是一种用于多声部乐谱的文本表示法,将乐谱序列化为一维的“区间-时刻”(Intervals-and-Moments)序列。

    • 时刻(Moments):表示音高的状态变化(音符的起始和结束),可直接从音频中发现,为时间对齐提供锚点。
    • 区间(Intervals):连接时刻序列,形成人类可读的乐谱。包括度量区间(编码连续时刻间的节拍时长,如1/8表示八分音符)和结构区间(时长为零,对应小节线,并包含拍号、调号等上下文,如|3/4k-4)。
    • 规范化:在每个时刻(moment)内,事件遵循固定的规范顺序:先偏移(offset)后起始(onset),按音高排序,并在声部切换时发出声部标记(如PR:, PL:)。这消除了多声部音乐的排列歧义,确保自回归生成的下一位置有明确目标。
    • 方言系统:InterMo定义了多种任务特定的“方言”,通过移除或保留某些组件(如时间戳、音高拼写、乐谱结构)派生而来。这使得同一模型可以利用不同标注级别的异构数据集进行多任务训练。
  3. 提示条件与多任务训练:

    • 模型通过提示token(如<|piano|><|score|><|timestamp|><|spell|>)选择输出方言(任务模式)。主要方言包括:
      • TAST:完整的时间对齐乐谱转录(包含乐谱结构、时间戳、音高拼写)。
      • A2S:音频到乐谱转录(包含乐谱结构,无时间戳)。
      • AMT:自动MIDI转录(仅包含带时间戳的音高事件)。
      • DBD:下拍和节拍检测(仅包含节拍结构和时间戳)。
      • 以及它们的变体(如lite版本去掉音高拼写)。
    • 不同数据集为不同方言提供监督信号:MAESTRO提供真实音频的AMT训练;(n)ASAP提供带节拍和乐谱标注的TAST/A2S/DBD训练;PDMX提供大规模合成音频的A2S/AMT/DBD训练。
  4. 分词(Tokenization):使用SentencePiece UnigramLM在InterMo的“区间边界”上进行预分词。学习到的合并包括音高标签、声部标记、度量分数等音乐子词。词表约8000个,包含3570个语义token和4430个控制token(如4000个时间戳token、129个MIDI控制token等)。

  5. 训练技巧:

    • 子词正则化:在训练时随机化分词,增强对罕见音高和时长组合的鲁棒性。
    • token权重归一化:对不同长度的序列,将交叉熵损失除以序列长度的平方根1/√|T|,防止长序列任务主导梯度更新。
    • 时间戳标签平滑:对时间戳token使用基于四次衰减窗口的标签平滑,以处理编码器帧率与解码器粒度的不匹配。
    • 离散铺砌:对短音频,均匀采样起始偏移,确保所有时间戳位置在训练中都被覆盖。
  6. 推理:对长音频,以40秒编码器窗口、50%重叠进行解码。时间戳token超过20秒会触发序列终止,解码器在20秒边界自然停止。额外的20秒上下文提供右侧声学前瞻。

图1

图2

💡 核心创新点

  1. InterMo表示法:设计了一种全新的、规范化的文本音乐表示法,它能将乐谱的符号结构(音高、时值、拍号、调号)与表演的时间对齐信息统一编码在一个一维序列中。其“区间-时刻”二元结构和规范化规则,使得多声部音乐能被无歧义地序列化,并支持自回归生成和多任务学习。
  2. 端到端时间对齐乐谱转录(TAST)任务:明确定义并首次实现了从音频直接生成带时间戳乐谱的端到端转录,避免了级联流水线中的信息丢失和误差传播问题。
  3. 基于方言的多任务学习框架:通过InterMo的方言系统,使单一模型能够利用多个标注级别和格式的异构数据集(从纯MIDI到带完整乐谱标注)进行联合训练,提升了模型的泛化能力和任务性能。

📊 实验结果

论文在三个真实钢琴录音测试集(ASAP, ASAP-Beyer, ATEPP)上评估了乐谱转录质量,并在ASAP和MAESTRO上评估了时间戳对齐精度。

表2:乐谱质量(OMR-NED,%,↓)

SystemATEPP (n=1495)ASAP (n=102)ASAP-Beyer (n=25)
End-to-End
Rubato (TAST)75.9±0.964.3±3.978.7±5.0
Gemini 3.1 Pro98.6±0.398.9±0.4
 + in-Context Learning97.6±0.497.9±0.6
Gemini 3.1 Pro (Reasoning)98.6±0.498.3±0.8
Cascade (db.)
Beat-This → Piano-A2S88.9±0.386.6±1.289.7±2.0
Cascade (MIDI)
Tkun → M2ST85.2±0.5∗69.1±3.9∗89.3±2.1
Bytedance → M2ST86.5±0.4∗76.5±3.2∗90.3±1.8
Aria → M2ST85.6±0.4∗76.6±3.2∗86.8±2.9
MT3 → M2ST88.8±0.3∗86.0±1.3∗90.6±1.7
Tkun → PM2S92.0±0.289.5±1.1∗92.7±1.6
Bytedance → PM2S92.5±0.290.8±1.1∗93.8±1.3
Aria → PM2S93.2±0.290.8±1.2∗94.1±1.3
MT3 → PM2S93.3±0.292.2±0.7∗93.1±1.8
Oracle (db.)
Oracle Db. → Piano-A2S77.8±2.587.7±2.8
Oracle (MIDI)
Oracle MIDI → M2ST∗69.3±3.687.9±3.0
Oracle MIDI → PM2S89.8±1.1∗92.6±2.1

表3:时间戳对齐精度(F1,%,↑)

ModelASAP
F1_downbeat
ASAP
F1_beat
ASAP
F1_note
MAESTRO
F1_note
MAESTRO
F1_note+vel
Timestamp Accuracy of Sheet Music Transcription
Rubato (TAST)67.8±3.175.8±2.9†91.0±1.887.1±2.0
Tkun → PM2S22.4±3.756.0±1.895.2±0.992.3±0.891.8±0.9
Beat Detection
Rubato (DBD)65.2±2.782.6±2.5
Beat-This64.9±2.579.9±2.6
MIDI Note Detection (AMT)
Rubato (AMT)97.3±0.597.0±0.494.0±0.6
Tkun98.8±0.298.3±0.297.9±0.3
Bytedance97.9±0.396.8±0.495.0±0.5
Aria-AMT98.3±0.397.6±0.396.4±0.5
MT395.6±0.695.7±0.4

表4:版本匹配(ATEPP,MAP,%,↑)

N-gram (InterMo)MAP_workMAP_performer
Rubato (TAST)97.4±0.559.3±2.0
 + relative timestamps96.6±0.672.3±1.9
Beat-This → Piano-A2S85.7±1.048.5±2.0
Tkun → M2ST96.1±0.648.5±2.0
Tkun → PM2S95.5±0.773.3±1.8
N-gram (external)
Tkun → M2ST (M2ST-tok)87.4±1.243.5±2.0
Tkun → PM2S (REMI)90.5±0.967.7±1.9
Audio-based
CLEWS97.6±0.567.8±1.9
CoverHunterC70.1±1.255.8±2.1

图3

图4

🔬 细节详述

  • Offset规范讨论:附录B.1深入探讨了MIDI音符检测中的offset定义问题(KeyOff vs PedOff)。论文指出,传统评估中使用的PedOff(踏板释放)定义存在缺陷,而预测KeyOff(琴键释放)对下游任务(如乐谱转录和检索)更有利。实验(图3、表5)表明,仅将上游AMT模型从预测PedOff切换为预测KeyOff(使用相同的下游模型),就能在ATEPP乐谱转录上获得约1.5个百分点的OMR-NED提升,并在检索任务上带来一致改善。
  • 目标失配量化:附录B.2分析了Rubato (TAST)与专用AMT系统在音符F1上的差距。分析表明,即使在完美对齐的乐谱注释下,音符F1也只达到93.4%。差距的主要来源是真实的表演-乐谱差异(贡献4.4 F1点)以及将琶音或分散事件折叠为单个乐谱时刻(贡献2.2 F1点)。这���明TAST在牺牲部分音符级精度的同时,换取了强大的结构性对齐(如下拍F1高出45点)。
  • 检索分析深度:附录C通过变长n-gram分析,深入探讨了转录结果的结构一致性(工作识别)和演奏者特征保留(演奏者识别)。图6显示,M2ST级联在结构一致性上表现稳定,但牺牲了演奏者特征;PM2S级联则相反。Rubato在两者之间取得了更好的平衡。此外,图7证明了将不同级联系统的输出用InterMo表示后,其检索性能(尤其是长程n-gram的稳定性)得到提升,这表明InterMo作为一种规范化表示具有独立于上游模型的价值。
  • Gemini评估细节:附录A详细记录了使用Gemini 3.1 Pro进行零样本和少样本转录的尝试。研究发现,Gemini倾向于将转录视为“识别-召回”任务,而非基于音频的分析(72%的推理链以识别乐曲和作曲家开头)。在基线提示下,仅14.7%的预测能正确识别作曲家和乐曲。尽管通过上下文学习可以部分纠正,但OMR-NED改善甚微(从98.6到97.6),表明其性能瓶颈在于记忆偏差而非音频分析能力。

⚖️ 评分理由

  • 创新性(/3):2.5。InterMo表示法是新颖的,将记谱结构与时序信息统一编码的思路清晰且有效。将“时间对齐乐谱转录”定义为一个端到端任务具有实际意义。但核心思想(序列化乐谱)并非全新,主要创新在于表示设计的完备性和与多任务训练的结合。
  • 技术严谨性(/1.5):1.4。方法设计完整,对InterMo的性质(如局部度量算术、Dyck-1语言)有形式化描述。多任务训练策略(损失归一化、标签平滑)考虑周全。实验分析深入(如offset规范讨论、目标失配量化)。扣分点:未讨论模型的计算复杂度分析,仅提及了推理速度。
  • 实验充分性(/1.5):1.4。实验非常全面,在三个独立测试集上评估乐谱质量,在两个数据集上评估时间戳任务,并与大量基线(包括神谕)对比。下游检索分析提供了额外视角。主要不足是缺乏主观用户评估。
  • 清晰度(/1):0.9。论文写作清晰,图表设计有助于理解(如图1、2)。方法描述详细。但InterMo的规范细节(如声部标记的触发条件)和方言系统需要仔细阅读才能完全把握。
  • 影响力(/2):1.4。对音乐信息检索(MIR)社区,特别是音乐转录和乐谱生成领域有明确贡献,提供了一个更优的端到端解决方案。表示法可能启发其他序列建模任务。但在更广泛的AI/语音社区影响力有限,应用范围集中在钢琴独奏。
  • 开源(/1.5):0.8。论文提供了可复现的重要信息(架构、训练细节、数据混合),并发布了合成数据。但核心的预训练模型权重和完整训练代码未开源,这显著限制了结果的完全复现和下游应用。
  • 可复现性(/0.5):0.3。由于缺乏模型权重,完全复现论文结果(尤其是端到端模型)较为困难。但论文提供的详细设置和发布部分数据,使得复现核心表示(InterMo)和部分实验(如使用现有AMT模型的级联基线)成为可能。

🚨 局限与问题

  1. 泛化能力未验证:论文严格限定在钢琴独奏音乐。对于多声部、多乐器、不同音色或更长时序结构的音乐,InterMo的表示能力和模型的泛化能力均未得到检验。
  2. 评估的局限性:OMR-NED是衡量与参考乐谱符号相似度的指标,但无法评估生成乐谱的音乐性、可读性和实用性。一个音乐家可能认为两个OMR-NED相似的乐谱在易读性上有巨大差异。缺乏用户研究是明显短板。
  3. 对“时间对齐乐谱”任务的实用性探讨不足:虽然定义了任务,但未深入探讨这种输出格式在实际音乐教育、分析、演奏中的具体应用价值和潜在问题。时间戳的绝对精度在实际使用中是否足够?粒度如何?
  4. 训练数据依赖性:模型性能依赖于精心设计的多数据集训练混合。对于缺乏类似高质量标注数据的新领域或新乐器,如何迁移或构建训练数据未讨论。
  5. 关于“神谕”实验的解读需谨慎:论文指出,给级联方法提供真实MIDI(Oracle MIDI)并不能改善其OMR-NED,从而论证瓶颈在表示而非预测。但此结论可能受限于所使用的下游模型(M2ST/PM2S)的能力上限。一个更强的下游模型或许能从真实MIDI中获益更多。
  6. 模型的可解释性:作为一个大型端到端生成模型,其内部如何将音频特征映射到InterMo的结构化序列(特别是如何做出关于拍号、调号的全局判断),缺乏分析。

📷 论文图片

图5


← 返回 2026-05-26 语音/音乐/音频论文速递