ICASSP 2026 - 音乐转录

1 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇A Distribution Matching Approach to Neural Piano Transcripti7.0分前25%

📋 论文详情

🥇 A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport

7.0/10 | 前25% | #音乐转录 | #最优传输 | #注意力机制 #循环神经网络

👥 作者与机构

  • 第一作者:Weixing Wei(京都大学信息学研究生院)
  • 通讯作者:未说明
  • 作者列表:Weixing Wei(京都大学信息学研究生院)、Raynaldi Lalang(京都大学工程研究生院)、Dichucheng Li(独立研究者)、Kazuyoshi Yoshii(京都大学工程研究生院)

💡 毒舌点评

亮点是跳出了传统BCE损失“对齐即全对,错一位全错”的思维定式,用OT损失来容忍合理的时间偏差,理论上更优雅且实验效果显著。短板在于论文对OT损失计算复杂度的讨论几乎空白,且将钢琴转录中复杂的踏板问题简单归因于offset不准,未来提升路径仍需更扎实的论证。

📌 核心摘要

  1. 该论文要解决自动钢琴转录中传统帧级二分类交叉熵(BCE)损失对时间错位过于敏感、导致模型需过度拟合微小对齐误差的问题。
  2. 核心方法是将钢琴转录形式化为最优传输(OT)问题,通过最小化预测音符分布到真实音符分布的运输成本来训练模型,从而自然地容忍合理的时间错位。
  3. 与已有方法相比,新在:a) 将损失函数从BCE替换为OT,改变了优化目标;b) 提出了专门设计的SFT-CRNN模型,包含谐波感知注意力机制。
  4. 主要实验结果:在MAESTRO数据集上,所提SFT-CRNN模型结合OT损失取得了音头F1分数98.36%的SOTA性能,相比使用BCE损失提升了0.75个百分点;在整体音符转录(���音头和音尾)上F1为90.78%。消融实验表明OT损失和模型中的LSTM、谐波注意力组件均带来显著性能提升。
  5. 实际意义是提出了一种即插即用的、更符合音乐感知逻辑的OT损失函数,可替换BCE用于现有模型,并推动了钢琴转录性能的提升。
  6. 主要局限性是当前模型未显式处理延音踏板,导致音尾(offset)转录性能(90.78% F1)尚未达到最佳,且OT损失的引入可能增加训练时的计算负担。