Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style #音乐信息检索 #多任务学习 #解耦表示学习 #扩散模型 #钢琴转录 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 #解耦表示学习 | #多任务学习 #解耦表示学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wei Zeng(新加坡国立大学,综合科学与工程项目,计算学院) 通讯作者:Ye Wang(新加坡国立大学,综合科学与工程项目,计算学院) 作者列表:Wei Zeng(新加坡国立大学,综合科学与工程项目,计算学院)、Junchuan Zhao(新加坡国立大学,计算学院)、Ye Wang(新加坡国立大学,综合科学与工程项目,计算学院) 💡 毒舌点评 亮点在于其统一的框架设计与“内容-风格”解耦的清晰思路,巧妙地利用了EPR和APT的互逆性进行联合训练,并无需繁琐的音符级对齐数据,这在方法论上颇具启发性。短板是,虽然框架通用,但实验主要基于古典钢琴音乐,其对于更丰富多变的流行音乐等风格的泛化能力未被验证;此外,模型参数量(188M)显著高于一些基线,计算成本是一个需要考虑的实际问题。 🔗 开源详情 代码:论文明确表示“代码将在论文被接受后发布”,提供了项目主页链接(https://wei-zeng98.github.io/joint-apt-epr/),表明有开源计划。 模型权重:未提及是否公开预训练模型权重。 数据集:使用了公开的ASAP和ATEPP数据集,以及从MuseScore收集并过滤的公开乐谱数据。论文未提及是否提供已处理的未配对演奏MIDI数据。 Demo:提供了在线演示页面(https://wei-zeng98.github.io/joint-apt-epr/),包含EPR渲染和风格迁移的示例。 复现材料:附录B提供了极其详细的模型实现细节(PyTorch Lightning、多任务训练设置、优化器、掩码策略等),是高质量的复现指南。 论文中引用的开源项目:提到了MidiTok(用于MIDI分词)、Aria-AMT(用于音频转MIDI)和Partitura(用于音乐处理)。 总体开源情况:论文有明确的开源承诺和详尽的复现材料,开源状态积极,但代码和权重尚未发布。 📌 核心摘要 这篇论文旨在解决钢琴演奏渲染(EPR)和自动钢琴转录(APT)两个基础但互逆的任务长期被独立研究的问题。其核心方法是构建一个基于Transformer的统一序列到序列(Seq2Seq)框架,通过解耦“音符级乐谱内容”和“全局演奏风格”两种表示,来联合学习这两个任务。与已有方法相比,其新意在于:1)首次将EPR和APT统一建模,实现双向监督;2)提出无需音符级对齐的Seq2Seq训练范式,降低了数据标注门槛;3)设计了一个独立的、基于扩散模型的演奏风格推荐(PSR)模块,能够仅从乐谱内容生成合适的风格嵌入。实验表明,该联合模型在ASAP数据集的APT任务上,达到了与最先进端到端模型(Beyer & Dai, 2024)可比的性能(例如,ScoreSimilarity平均误差Eavg从14.10降至12.48)。在EPR任务上,其客观指标(如速度MAE为0.37)和主观评价均优于或接近现有基线。消融实验验证了联合训练和无对齐数据的重要性。该工作的实际意义在于实现了音乐模态间转换的双向建模,并支持风格可控的演奏生成;主要局限性在于计算开销较大,且实验验证局限于古典钢琴音乐。 🏗️ 模型架构 本文提出一个统一的、模块化的框架,用于联合处理EPR和APT任务,并支持独立的风格推荐。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 417 words