ICASSP 2026 - 多音高估计 #音符跟踪 论文列表
ICASSP 2026 - 多音高估计 #音符跟踪 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Self-Supervised Note Tracking and Multi-Pitch Estimation Via 8.5分 前25% 📋 论文详情 🥇 Self-Supervised Note Tracking and Multi-Pitch Estimation Via Reconstruction-Based Learning 🔥 8.5/10 | 前25% | #多音高估计 #音符跟踪 | #自监督学习 #重构学习 | #多音高估计 #音符跟踪 👥 作者与机构 第一作者:Heng-Hsiu Hu(中央研究院资讯研究所) 通讯作者:未说明 作者列表:Heng-Hsiu Hu(中央研究院资讯研究所)、Li Su(中央研究院资讯研究所) 💡 毒舌点评 这篇论文的亮点在于其“无缝集成”的思路:将看似独立的MPE和OD模块通过统一的自监督框架和伪标签机制优雅地结合起来,最终构建了一个无需任何人工标签的完整音符跟踪流水线,这在工程实现和方法论上都颇具巧思。然而,其短板也同样明显:尽管在MPE上取得了亮眼成绩,但音符跟踪(POnOff)的整体F1分数相比监督学习的Basic-Pitch仍有显著差距(例如,在MusicNet上为49.1% vs. 46.9%),这暴露了当前纯自监督方法在精准捕捉音符完整时间结构上的局限性,论文对此的解释稍显不足。 📌 核心摘要 要解决什么问题:自动音乐转录领域因高质量标注数据稀缺而发展受限,特别是从多音高估计(MPE)扩展到包含起始点(onset)和结束点(offset)检测的完整音符跟踪(note tracking)任务时,挑战更大。 方法核心是什么:提出一个完全自监督的框架,由独立的MPE模块和起始点检测(OD)模块组成。MPE模块采用基于重构和转录交替的训练策略(Timbre-Trap范式),利用HCQT特征和精心设计的伪标签进行训练。OD模块以MPE输出和原始特征为输入,同样采用重构(目标为频谱通量)和转录(目标为基于局部群延迟加权的频谱通量伪标签)的交替训练。 与已有方法相比新在哪里:a) 首次将Timbre-Trap的重构/转录交替训练范式与SS-MPE的多损失函数目标相结合,并推广到OD任务;b) 在OD模块中引入了基于局部群延迟(LGD)的加权频谱通量作为伪标签和重构目标,以更好地抑制颤音和振幅调制;c) 构建了一个完整的、无需标签的音符跟踪流程。 ...