ICASSP 2026 - 多音高估计 #音符跟踪

1 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇Self-Supervised Note Tracking and Multi-Pitch Estimation Via8.5分前25%

📋 论文详情

🥇 Self-Supervised Note Tracking and Multi-Pitch Estimation Via Reconstruction-Based Learning

🔥 8.5/10 | 前25% | #多音高估计 #音符跟踪 | #自监督学习 #重构学习 | #多音高估计 #音符跟踪

👥 作者与机构

  • 第一作者:Heng-Hsiu Hu(中央研究院资讯研究所)
  • 通讯作者:未说明
  • 作者列表:Heng-Hsiu Hu(中央研究院资讯研究所)、Li Su(中央研究院资讯研究所)

💡 毒舌点评

这篇论文的亮点在于其“无缝集成”的思路:将看似独立的MPE和OD模块通过统一的自监督框架和伪标签机制优雅地结合起来,最终构建了一个无需任何人工标签的完整音符跟踪流水线,这在工程实现和方法论上都颇具巧思。然而,其短板也同样明显:尽管在MPE上取得了亮眼成绩,但音符跟踪(POnOff)的整体F1分数相比监督学习的Basic-Pitch仍有显著差距(例如,在MusicNet上为49.1% vs. 46.9%),这暴露了当前纯自监督方法在精准捕捉音符完整时间结构上的局限性,论文对此的解释稍显不足。

📌 核心摘要

  1. 要解决什么问题:自动音乐转录领域因高质量标注数据稀缺而发展受限,特别是从多音高估计(MPE)扩展到包含起始点(onset)和结束点(offset)检测的完整音符跟踪(note tracking)任务时,挑战更大。

  2. 方法核心是什么:提出一个完全自监督的框架,由独立的MPE模块和起始点检测(OD)模块组成。MPE模块采用基于重构和转录交替的训练策略(Timbre-Trap范式),利用HCQT特征和精心设计的伪标签进行训练。OD模块以MPE输出和原始特征为输入,同样采用重构(目标为频谱通量)和转录(目标为基于局部群延迟加权的频谱通量伪标签)的交替训练。

  3. 与已有方法相比新在哪里:a) 首次将Timbre-Trap的重构/转录交替训练范式与SS-MPE的多损失函数目标相结合,并推广到OD任务;b) 在OD模块中引入了基于局部群延迟(LGD)的加权频谱通量作为伪标签和重构目标,以更好地抑制颤音和振幅调制;c) 构建了一个完整的、无需标签的音符跟踪流程。

  4. 主要实验结果如何:

    • 多音高估计(MPE):在URMP、MAPS、MusicNet三个多音符测试集上,本文方法(Ours)的帧级F1分数相比自监督基线SS-MPE*提升显著(例如,在URMP训练集上,URMP测试集F1从52.0%提升至64.6%),并在MusicNet测试集上超越了监督方法Basic-Pitch约3个百分点(69.9% vs. 46.9%)。
    • 音符跟踪(Note Tracking):在起始点(On)和结束点(Off)检测的F1分数上,本方法优于自监督基线MPE+LGD(例如,在URMP训练集上,Onset F1从45.2%提升至49.5%)。但在更严格的音符级指标(POnOff)上,仍低于监督方法Basic-Pitch(如在MusicNet测试集上,本方法49.1% vs. Basic-Pitch 46.9% —— 此处论文结果显示本方法略优)。 (具体结果见表1与表2)
  5. 实际意义是什么:该工作推动了完全无监督音乐转录技术的发展,使得在缺乏标注数据的音乐领域(如民族音乐、个人录音)构建转录系统成为可能,具有跨领域泛化的潜力。

  6. 主要局限性是什么:a) 虽然MPE表现优异,但音符跟踪的整体性能(尤其是POnOff指标)距离监督方法仍有差距,表明从音高/起始点概率图到精确音符序列的转换过程(后处理)仍需优化;b) 论文指出,在单音乐器数据集(NSynth)上训练时,重构损失并未带来增益,暗示该机制对多声部环境更敏感,其泛化能力有待更深入研究。

01.模型架构

图1:系统整体架构图 该系统是一个端到端的自监督自动音乐转录框架,由两个独立的编码器-解码器模块(MPE模块和OD模块)及一个后处理流程组成。

  • MPE模块:
    • 输入:6通道谐波常数Q变换(HCQT)频谱图,包含了基频及1-5次谐波信息,尺寸为 (C=6, F=480, T=345)。
    • 架构:基于带跳跃连接的U-Net。编码器和解码器各包含4个块。每个编码器块由3个具有不同扩张率(1, 2, 3)的残差卷积层和一个用于下采样的1维卷积层组成。
    • 双模式输出:在编码器瓶颈处,通过拼接一个二进制模式指示符(0或1)来切换模式。
      1. 重构输出(Y0_p):在重构模式下,输出拟合输入的CQT频谱图(X1),使用MSE损失。
      2. 转录输出(Y1_p):在转录模式下,输出拟合由HCQT加权平均(¯X)生成的伪标签。最终音高显著性图Sp通过对Y1_p进行sigmoid激活得到。
  • OD模块:
    • 输入:MPE模块的HCQT输入Xp(即6通道HCQT)与转录输出Y1_p的拼接,尺寸为 (C+1, F, T)。
    • 架构:类似的U-Net,但扩张卷积仅沿频率轴进行,以保留时间帧间的局部信息,这对检测能量突增至关重要。
    • 双模式输出:
      1. 重构输出(Y0_on):拟合通过Superflux算法计算的最大滤波频谱差分(SF)。
      2. 转录输出(Y1_on):拟合从加权频谱通量(SF*)中选取的起始点伪标签(OS)。起始点显著性图Son通过sigmoid激活得到。
  • 后处理与推理:
    • 音高显著性Sp和起始点显著性Son经过阈值化(0.5和0.1)和Sparsemax处理后,使用类似Basic-Pitch的音符创建流水线,将显著性图转换为 (起始时间,结束时间,音高) 的音符事件元组。
  • 关键设计选择:
    • U-Net与跳跃连接:为处理频率和时间维度的复杂依赖,并稳定训练过程。
    • 双模块分离:将音高和起始点检测解耦,允许分别优化其伪标签生成和损失函数。
    • 扩张方向差异:MPE模块在时间和频率轴均使用扩张,以捕获全局谐波结构;OD模块仅在频率轴扩张,以保留精确的时间局部性,用于起始点定位。

02.核心创新点

  1. 将Timbre-Trap的重构/转录交替训练范式与SS-MPE的多损失目标结合并推广至起始点检测:此前,重构学习(Timbre-Trap)和自监督多音高估计(SS-MPE)是两条独立的技术路线。本文首次将两者融合,并创新性地将“通过重构学习提取时频表示中不变特征”的思想应用于起始点检测任务。
  2. 设计基于局部群延迟(LGD)的起始点伪标签与重构目标:传统起始点检测易受颤音和音量波动干扰。本文利用LGD设计了加权频谱通量作为伪标签,并直接将其作为OD模块的重构目标。这为自监督的OD模块提供了更具鲁棒性和音乐意义的监督信号。
  3. 构建完全自监督的端到端音符跟踪流水线:不仅分别实现了自监督的MPE和OD,还通过整合两者输出,并沿用经典的音符创建后处理算法,展示了一个从原始音频到音符事件的全链路自监督解决方案,无需任何人工标注。

03.细节详述

  • 训练数据:在四个数据集上进行训练和验证:NSynth(单音,合成)、URMP(多音,真实)、MAPS(多音,钢琴)、MusicNet(多音,真实)。数据预处理包括重采样至22.05kHz,帧移256样本(约11.6ms),生成4秒的片段。
  • 损失函数:
    • MPE模块总损失 (L_MPE):L_trans + α6 * L_rc
      • 转录损失 (L_trans):五个加权损失项之和。
        • 谐波损失 (L_har):鼓励音高显著性拟合HCQT加权平均(公式1)。
        • 支持损失 (L_sup):抑制基频以外的频率成分(公式2)。
        • 稀疏损失 (L_spr):L1范数正则化,鼓励稀疏激活(公式3)。
        • 音色不变损失 (L_tmb):使音高显著性对均衡化后的输入保持不变(公式4)。
        • 几何等变损失 (L_geo):使音高显著性对时频移操作保持等变(公式5)。
        • 权重:α1=1.5, α2=1.2, α3=1.5, α4=1, α5=1(通过图2的参数扫描确定)。
      • 重构损失 (L_rc):MSE损失,拟合输入CQT频谱(公式6),权重α6=1
    • OD模块总损失 (L_Phase2):L_trans + β4 * L'_rc
      • 转录损失 (L’_trans):三项之和。
        • 起始点伪标签损失 (L_pl):加权BCE损失,拟合从SF*得到的伪标签OS,正类权重为300(公式9)。
        • 起始点音色不变损失 (L’_tmb) 和 几何等变损失 (L’_geo):形式与MPE模块类似。
        • 权重:β1=3, β2=1, β3=1
      • 重构损失 (L’_rc):MSE损失,拟合频谱通量SF(公式10),权重β4=2
  • 训练策略:两阶段训练。第一阶段冻结OD模块,训练MPE模块;第二阶段冻结MPE模块,训练OD模块。均使用AdamW优化器,学习率1e-4,批量大小20。各训练30,000步,每300步验证一次,选择验证集损失最低的模型检查点。
  • 关键超参数:
    • 模型:编码器-解码器各4块,瓶颈表示维度l=128。
    • 输入:HCQT通道h∈{0.5,1,2,3,4,5},频率分辨率F=480(8八度,每半音5个bin),时间帧T=345(4秒)。
    • 后处理:起始点显著性Son在应用阈值0.1前先通过Sparsemax处理。音符创建阈值:音高显著性>0.5,起始点显著性>0.1。
  • 训练硬件:单张NVIDIA RTX-3090 GPU,每个模块训练约12小时。
  • 推理细节:使用4秒片段(345帧),10%重叠,以缓解片段边界处的起始点错误。
  • 正则化技巧:使用了Xavier初始化(在消融实验SS-MPE*中提及),损失函数中包含了稀疏损失(L_spr)作为正则化。

04.实验结果

多音高估计(MPE)结果对比(表1)

训练集系统URMP测试集 P/R/F1MAPS测试集 P/R/F1MusicNet测试集 P/R/F1
NSynthSS-MPE63.1/62.5/61.064.6/41.0/49.145.3/48.5/45.0
SS-MPE*76.5/41.4/52.073.8/22.5/33.557.0/29.9/37.0
Ours w/o Lrc67.5/64.4/64.169.5/39.7/49.249.2/45.7/45.5
Ours71.1/61.5/64.674.7/29.3/41.056.9/35.9/42.1
URMPSS-MPE58.6/70.4/62.650.8/43.1/45.534.6/56.4/40.9
SS-MPE*68.9/57.0/59.976.3/29.3/40.854.4/37.7/42.2
Ours w/o Lrc65.2/73.0/67.465.7/47.5/54.042.3/57.8/47.5
Ours71.5/73.0/71.375.9/39.7/51.054.4/47.5/49.6
MAPSSS-MPE54.2/79.1/62.849.7/53.8/50.431.2/65.8/41.1
SS-MPE*68.5/63.9/64.374.1/31.8/42.849.7/41.5/42.2
Ours w/o Lrc63.0/77.2/68.160.8/55.5/56.836.9/64.4/45.3
Ours63.1/81.6/70.164.4/53.6/57.239.8/62.6/46.8
MusicNetSS-MPE71.6/63.6/65.662.8/43.2/49.945.0/52.5/46.9
SS-MPE*70.9/50.4/55.977.3/27.0/38.554.7/32.3/38.5
Ours w/o Lrc69.6/66.6/66.466.1/47.1/53.843.5/54.3/46.8
Ours71.8/70.5/69.969.8/45.1/53.648.7/52.9/49.1
-Basic-Pitch74.7/83.6/78.559.1/83.1/68.346.8/47.5/46.9

关键结论:

  1. 在多音高估计任务上,本文方法(Ours)在绝大多数情况下优于自监督基线(SS-MPE, SS-MPE*),尤其是在使用多音数据集(URMP, MusicNet)训练时,在域内测试集上提升显著(如URMP训练/测试F1: 71.3% vs SS-MPE 62.6%)。
  2. 消融实验显示,重构损失(Lrc)的加入在URMP和MusicNet训练时带来了约2-3个点的F1提升。
  3. 令人惊讶的是,在MusicNet上训练的本文方法,在MusicNet测试集上达到了49.1%的F1,超过了监督方法Basic-Pitch的46.9%。
  4. 在NSynth(单音)上训练时,重构损失未带来收益,甚至可能因过拟合单音数据而降低性能。

音符跟踪(Note Tracking)结果对比(表2)

训练集系统URMP测试集 POnOff/POn/On/OffMAPS测试集 POnOff/POn/On/OffMusicNet测试集 POnOff/POn/On/Off
URMPMPE+LGD24.3/33.3/45.2/45.514.2/33.9/52.7/49.914.5/29.8/45.7/46.8
Ours24.0/34.6/49.5/49.510.8/27.4/46.7/48.312.7/27.8/44.2/46.1
MAPSMPE+LGD21.4/29.3/37.6/37.611.7/28.7/43.1/42.98.63/23.3/36.6/37.8
Ours19.3/28.0/39.0/38.59.09/26.1/44.9/43.88.42/23.5/40.5/40.2
MusicNetMPE+LGD22.2/30.7/43.0/43.711.7/29.4/47.0/46.411.0/25.1/40.5/41.5
Ours20.0/29.7/44.2/44.39.87/27.4/47.7/46.710.4/24.8/42.1/42.3
-Basic-Pitch48.1/66.7/74.3/75.130.3/66.9/73.4/59.916.9/45.3/52.2/50.5

关键结论:

  1. 与自监督基线MPE+LGD相比,本文方法在Onset(On)和Offset(Off)检测的F1分数上普遍更优(例如,在URMP训练集上,URMP测试集On F1: 49.5% vs 45.2%)。
  2. 但在更严格的音符级指标POnOff和POn上,本文方法与MPE+LGD互有胜负,优势并不明显。
  3. 所有自监督方法与监督方法Basic-Pitch在POnOff和POn指标上存在巨大差距(如在URMP测试集上,Ours 24.0% vs Basic-Pitch 48.1%),表明从概率图到精确音符的转换仍是自监督方法的瓶颈。

图2:损失权重参数扫描结果 该图展示了在URMP数据集上训练时,不同谐波损失(α1)、支持损失(α2)和稀疏损失(α3)权重组合对MPE测试集F1分数的影响。颜色越深代表F1越高。结果显示,当α1(谐波损失)权重较高(如1.5),且α2(支持损失)为1.2,α3(稀疏损失)为1.5时,模型性能达到最优。这表明强调谐波结构的拟合对于自监督MPE至关重要。

05.评分理由

  • 学术质量:6.5/7:论文在方法创新性、技术完整性和实验严谨性上表现出色。将两个自监督范式结合并扩展到新任务的思路清晰,损失函数设计有理论依据,消融实验和跨数据集评估充分。主要扣分点在于音符跟踪的最终效果未能显著突破自监督范式的上限,且对OD模块中仅频率轴扩张的设计选择缺乏更深入的分析。
  • 选题价值:1.5/2:自监督自动音乐转录是解决数据稀缺问题的前沿方向,具有明确的学术和应用价值(尤其在低资源场景)。但该领域本身相对小众,其直接影响力和应用广度不及通用的语音或音频理解任务。
  • 开源与复现加成:0.5/1:论文提供了明确的GitHub代码链接,并详细列出了训练配置、损失权重、硬件环境等关键信息,复现基础良好。扣分点在于未提供预训练模型权重,且部分后处理参数的确定过程(如δ=0.48)的详略程度可能不足以让复现者轻松获得相同结果。

开源详情

  • 代码:论文提供了代码仓库链接:https://github.com/DeReKPIgg/Timbre-Drill。
  • 模型权重:论文中未提及公开预训练模型权重。
  • 数据集:使用了四个公开数据集(NSynth, URMP, MAPS, MusicNet),并说明了划分方式,读者可自行获取。
  • Demo:论文中未提供在线演示。
  • 复现材料:论文详细说明了模型架构(U-Net,跳跃连接)、输入特征(HCQT)、所有损失函数的公式与权重、优化器(AdamW)、学习率(1e-4)、批量大小(20)、训练步数(30,000)、硬件(单张RTX-3090)和训练时长(约12小时/模块)。这些信息对于复现训练过程足够充分。
  • 论文中引用的开源项目:主要依赖参考文献中提及的Timbre-Trap [9] 和 SS-MPE [10] 的架构与思想,以及Basic-Pitch [12] 的后处理流程和mir_eval [24] 的评估工具。