Rubato: Transcribing Piano Music with Timestamps

📄 Rubato: Transcribing Piano Music with Timestamps #音乐转录 #音乐信息检索 #时间序列分析 #多任务学习 🔥 10/10 | 前10% | #音乐转录 | #多任务学习 | #音乐信息检索 #时间序列分析 | arxiv 学术质量 6.7/7 | 影响力 1.8/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 作者:Nazif Can Tamer, Victoria Ebert, Guang Yang, Noah A. Smith 机构:Paul G. Allen School of Computer Science & Engineering, University of Washington; Allen Institute for AI 💡 毒舌点评 这篇论文像一个精心设计的“全套服务”。它没有满足于只做一个更好的钢琴MIDI转录器(AMT)或一个更好的MIDI到乐谱转换器(如M2ST),而是野心勃勃地想用一个模型(Rubato)端到端地完成从音频到带时间戳乐谱(TAST)的“终极任务”。这种雄心是值得称赞的,并且通过设计InterMo这种精巧的表示法和多任务训练框架(方言系统)在一定程度上实现了。然而,毒舌的批评在于:1)其核心模型架构(~180M参数的Canary变体)相对保守,并非架构创新,主要贡献在于任务定义、表示法和训练策略。2)所有实验严格局限于钢琴独奏,这是一个相对受限且声学/记谱法结构都较规整的领域。论文对“推广到其他乐器或多乐器”的讨论非常轻描淡写(仅在结论提一句),这是其影响力的天花板。3)尽管多任务训练看起来很美好,但“方言系统”显著增加了概念复杂度和训练配方的工程难度,论文并未提供方言间相互影响的深入分析或消融。4)作为顶会论文,在评估上花了大力气(OMR-NED、检索MAP、偏移约定分析),但这些评估指标本身(尤其是OMR-NED)是否真正代表了“乐谱质量”或“对人类演奏者的实用性”,存在讨论空间。总的来说,这是一篇扎实的“系统性”工作,在限定的领域内做到了当前最好,但距离一个能广泛适用于各种乐器、各种音乐风格的通用音乐转录系统,还有相当距离。 📌 核心摘要 本文针对自动音乐转录(AMT)中级联方法导致误差累积和中间表示信息丢失的问题,提出了时间对齐乐谱转录(TAST)作为端到端任务,联合预测音乐记谱法及其时间戳。核心贡献包括:1) 设计了名为InterMo的文本乐谱表示法,其局部节拍算术、有界开合匹配等特性适合自回归序列建模;2) 构建了名为Rubato的提示条件化编码器-解码器模型,通过“方言”系统在多个相关任务上进行多任务训练;3) 大量实验表明,Rubato在乐谱转录精度(OMR-NED)上优于所有基线系统(包括使用真实中间表示的级联系统),并在节拍检测等辅助任务上具有竞争力。论文深度分析了级联系统的瓶颈在于中间表示的信息丢失而非前端预测误差,并揭示了MIDI转录评估中偏移约定对结果的巨大影响。 ...

2026-05-27 · 更新于 2026-06-12 · 3 min · 515 words

Music Transcription with (Almost) No Supervision

📄 Music Transcription with (Almost) No Supervision #音乐转录 #数据增强 🔥 10/10 | 前50% | #音乐转录 | #数据增强 | arxiv 学术质量 6.8/7 | 影响力 1.7/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 论文作者为 Saebyeol Shin, Chao Wan, Zhenzhen Liu, Justin Lovelace, Daniel C. Lin, Kilian Q. Weinberger, John Thickstun。 所属机构为 Cornell University,位于美国纽约州伊萨卡市。 通讯邮箱为 ss4333@cornell.edu。 💡 毒舌点评 这篇论文的“故事”讲得非常吸引人:音乐转录数据稀缺,但未配对的音频和乐谱数据唾手可得。作者提出的框架直指核心痛点,实验设计系统且有说服力,尤其是“锚点”的概念和对数据模态贡献的消融分析,让结论落到了实处。方法本身并非革命性创新,但巧妙地将 CycleGAN 的思想应用于跨模态的连续潜空间,并在音乐转录这一具体且重要的任务上取得了扎实的、有数据支撑的增益。代码和复现细节的详尽程度堪称典范。主要不足在于,论文对框架在更复杂、更多变的真实音乐场景(如动态范围、风格混杂、录音质量差)下的表现讨论不足,且对“为什么音频比乐谱贡献更大”的深层原因(声学多样性 vs. 结构信息)停留在假设层面。总体而言,这是一篇扎实、清晰、有实用价值的工作,适合作为解决数据稀缺问题的一个重要 baseline。 📌 核心摘要 本文研究如何利用海量未配对的音频和乐谱数据来训练音乐转录模型。论文采用了一个基于循环一致性的半监督框架,在连续潜空间(由预训练的乐谱VAE提供)中建立从CQT频谱图到乐谱表示的双向映射。研究发现:(1) 极少量的配对数据(低至1.6小时)作为“锚点”可以解决学习中的全局音高偏移等歧义,使大量未配对数据得以有效利用;(2) 在相同数据量预算下,未配对的音频比未配对的乐谱提供更强的学习信号;(3) 在训练中加入目标乐器(如吉他)的无标签音频,无需任何配对标签即可显著提升该乐器的转录性能(+10 Frame F1),并超越完全监督的跨域基线。实验在MAESTRO(钢琴)、GuitarSet(吉他)和MusicNet-EM(多乐器)数据集上验证了这些发现,表明利用未配对数据是缓解音乐转录中配对数据稀缺问题的实用途径。 🔗 开源详情 代码:提供,链接为 https://github.com/SaebyeolShin/almost_unsupervised_amt 模型权重:论文中未提及提供预训练模型权重。 数据集: MAESTRO v2.0.0:获取链接 https://github.com/craffel/maestro-dataset GuitarSet:获取链接 https://github.com/jayg996/BCH-Convert-Tool-for-NSynth-and-GuitarSet MusicNet-EM:作为YourMT3项目的一部分提供,获取链接 https://github.com/danmou/MT3/tree/main/yourmt3 Gardner Museum 音频:来自 Isabella Stewart Gardner Museum 的公开录音。论文中未提供直接下载链接,但详细说明了其筛选和去重处理方法(附录A)。 Demo:论文中未提及。 复现材料: 论文在附录B中详细说明了Score VAE、生成器、判别器的具体架构。 论文在附录C和表7中提供了完整的训练超参数和细节(优化器、学习率调度、批次大小、损失权重、硬件配置等)。 明确指出了训练硬件(单张 NVIDIA A6000 GPU)和训练时长(单乐器约4天,多乐器约6天)。 论文在附录A中详细说明了所有数据集的预处理、分块和划分方式。 论文中引用的开源项目: CycleGAN:核心框架灵感来源。引用链接 https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix LSGAN:使用的对抗损失函数,引用为文献[23]。 MAESTRO:如上。 GuitarSet:如上。 MusicNet:作为MusicNet-EM的基础数据集被引用。获取链接 https://thomaskail.github.io/ YourMT3:提供了MusicNet-EM数据集版本。获取链接 https://github.com/danmou/MT3/tree/main/yourmt3 MT3:作为相关工作引用的多乐器转录模型。获取链接 https://github.com/danmou/MT3 Onsets and Frames:论文中引用的早期钢琴转录模型。论文中未提供其代码链接。 🏗️ 方法概述和架构 本文提出一个名为“Cycle Consistent Transcription”的半监督跨模态翻译框架,其核心目标是学习从连续音频表示(CQT频谱图)到离散符号乐谱表示(通过VAE映射到连续潜空间)的映射,并利用循环一致性约束从大量未配对数据中学习。框架主要包含以下组件和流程: ...

2026-05-26 · 更新于 2026-06-12 · 3 min · 491 words

Rubato: Transcribing Piano Music with Timestamps

📄 Rubato: Transcribing Piano Music with Timestamps #音乐转录 ✅ 7.5/10 | 前25% | #音乐转录 | #音乐转录 | arxiv 👥 作者与机构 Nazif Can Tamer, Victoria Ebert, Guang Yang, Noah A. Smith Paul G. Allen School of Computer Science & Engineering, University of Washington;Allen Institute for AI 💡 毒舌点评 这篇论文的工作扎实,解决了音乐转录中一个真实存在的“断裂”问题:从音频到可读乐谱的流水线在中间表示上丢失了太多信息。InterMo表示法的设计确实巧妙,将时序对齐和符号结构统一到序列建模中,这比简单地堆叠两个模型要优雅得多。实验也足够有力,甚至证明了即使给级联方法“开挂”(使用真实MIDI或下拍),也比不过端到端的Rubato。然而,论文的野心似乎被其应用场景限制住了——他们证明了在钢琴独奏上的优越性,但这离“通用音乐转录”还很远。此外,缺少人机交互评估是个遗憾,毕竟乐谱最终是给人看的,OMR-NED分数低不代表音乐家就觉得好用。总的来说,这是一篇在特定领域内做出显著改进的工作,但离“改变游戏规则”还有距离。 📌 核心摘要 本文提出Rubato,一个用于将钢琴音乐录音转录为带时间戳的、人类可读乐谱的端到端模型。其核心创新是设计了一种名为InterMo的全新文本音乐表示法,它将乐谱结构、时间戳和记谱信息统一编码为一维序列,支持多任务训练。Rubato基于提示条件编解码器架构,能够通过不同的提示生成不同的输出方言(如带时间戳的乐谱、MIDI音符、节拍标记)。实验证明,与所有级联基线(包括使用真实MIDI或下拍的神谕版本)相比,Rubato生成的乐谱在符号准确性(OMR-NED)上均表现更优。在下游的时间对齐任务(节拍/下拍检测、音符检测)上,其性能也与专用系统相当或更优。分析表明,级联方法的瓶颈在于中间表示的信息丢失,而非前端预测误差。此外,基于InterMo的转录结果在乐曲识别和演奏者识别检索任务上也展现出良好性能。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集: MAESTRO v3:论文未提供直接链接。论文中提及这是一个包含159小时真实钢琴音频和Disklavier MIDI时间戳的数据集,通常需从其官方渠道获取。 (n)ASAP:论文未提供直接链接。论文中提及这是MAESTRO录音的一个子集,附加了节拍、降音、调号/拍号和乐谱标注。 PDMX:论文未提供直接链接。论文中提及这是来自MuseScore的公共版权乐谱集合。论文明确表示已发布用于复现的乐谱片段和合成音频:“We release the score excerpts and synthesized utterances for reproducibility.” 但未给出具体的下载地址。 Demo:https://nctamer.github.io/rubato-transcription 复现材料: 论文中提供了详细的模型架构(基于Canary-180M-Flash)、训练方法(如子词正则化、时间戳标签平滑)、训练数据混合策略(表1)和推理设置等信息。 论文未明确提供训练好的检查点或完整的训练脚本供下载。 论文提及已发布用于复现的PDMX合成数据(见“数据集”部分)。 论文中引用的开源项目: DawDreamer:用于从乐谱合成音频的音频合成引擎。论文未提供链接,项目通常托管于GitHub。 VirtuosoNet:用于生成表现力渲染(时间偏差和音符不匹配)的模型。论文未提供链接,项目通常托管于GitHub。 Verovio:用于将InterMo等文本表示渲染为可读乐谱的工具。论文未提供链接,项目主页为 https://www.verovio.org。 MuseScore:PDMX数据集的来源平台。项目主页为 https://musescore.org。 MidiTok:在附录C中提及的MIDI分词器库。项目主页为 https://github.com/Natooz/MidiTok。 🏗️ 方法概述和架构 Rubato是一个基于提示条件(prompt-conditioned)的编码器-解码器模型,其核心架构和训练流程如下: ...

2026-05-26 · 更新于 2026-06-12 · 2 min · 408 words

Precise and Simple Audio-to-Score Alignment

📄 Precise and Simple Audio-to-Score Alignment #音乐信息检索 #音乐转录 #节拍跟踪 #动态规划 #信号处理 ✅ 6.8/10 | 前50% | #音乐信息检索 | #动态规划 | #音乐转录 #节拍跟踪 | arxiv 学术质量 4.3/7 | 影响力 1.0/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 第一作者:Silvan Peter(Johannes Kepler University, Linz, Austria; Institute of Computational Perception; LIT AI Lab) 通讯作者:未说明 作者列表:Silvan Peter(Johannes Kepler University, Linz, Austria; Institute of Computational Perception; LIT AI Lab)、Patricia Hu(Johannes Kepler University, Linz, Austria; Institute of Computational Perception)、Gerhard Widmer(Johannes Kepler University, Linz, Austria; Institute of Computational Perception; LIT AI Lab) 💡 毒舌点评 该文提出了一种巧妙且实用的音频到乐谱对齐方法,直接将音频的音高激活特征作为“转录原型”与乐谱匹配,避免了显式转录步骤。方法在钢琴数据集上表现出色,显著优于传统DTW基线,证明了“桥接”思路的有效性。然而,其宣称的“优越性”因对比基线选择过于保守(仅与传统DTW方法对比)而大打折扣,且缺乏对方法内部组件贡献的消融实验,使得其核心创新点(如动态节拍估计、混合特征)的实际增益成谜。此外,该方法强依赖于钢琴和特定调律,其普适性存疑。 ...

2026-05-21 · 更新于 2026-06-12 · 2 min · 408 words

A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport

📄 A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport #音乐转录 #最优传输 #损失函数设计 #分布匹配 📝 5.5/10 | 前50% | #音乐转录 | #最优传输 | #损失函数设计 #分布匹配 | arxiv 学术质量 4.7/8 | 影响力 0.5/1 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Weixing Wei (未说明机构)、Raynaldi Lalang (未说明机构)、Dichucheng Li (未说明机构)、Kazuyoshi Yoshii (未说明机构) 💡 毒舌点评 论文的核心贡献是概念性的:将钢琴转录重新定义为最优传输问题,并设计了一个精巧的损失函数。这为解决时间刚性问题提供了新思路。然而,这一亮点被平庸的模型架构(SFT-CRNN是现有模块的组合)和单薄的实验验证所拖累。论文在关键指标上未能全面超越最强基线(Transkun),却声称获得了“state-of-the-art performance”,这种选择性声明有误导性。整体而言,这是一个有启发性的想法,但包装和验证远未达到顶会水准。 📌 核心摘要 本文提出了一种基于最优传输(OT)理论的自动钢琴转录(APT)新范式,以解决传统逐帧二值分类(BCE损失)对时间偏移过度敏感的核心问题。其核心思想是将音符事件视为时频平面上的点质量分布,将模型预测的质量分布通过OT损失对齐到真实分布,从而在优化过程中自然地容忍时间错位。为此,论文设计了一个包含时间代价封顶和频率禁运的定制化成本函数(公式1),并采用了非平衡OT(UOT)以适应音符密度变化。同时,论文提出了一个名为SFT-CRNN的端到端模型,其特色是包含谐波感知注意力机制的注意力块和频率分组LSTM(FG-LSTM)。在MAESTRO数据集上的实验表明,使用OT损失训练的SFT-CRNN在onset检测F1分数上达到了98.36%,优于所有对比基线。然而,在同时评估onset和offset的F1分数(90.78%)上,该方法略低于Transkun(93.48%)。消融实验证实OT损失在SFT-CRNN和HPPNet上有效,但在Onsets & Frames模型上无效。论文的主要局限在于未建模延音踏板,这限制了offset的预测精度,且仅在一个数据集上进行验证,代码未开源。 模型 参数量 Onset P (%) Onset R (%) Onset F1 (%) Onset & Offset P (%) Onset & Offset R (%) Onset & Offset F1 (%) Onsets & Frames [11] 26M 98.27 92.61 95.32 82.95 78.24 80.50 HPPNet-sp [24] 1.2M 98.45 95.95 97.18 84.88 82.76 83.80 hFT-Transformer [20] 5.5M 99.64 95.44 97.44 92.52 88.69 90.53 Transkun [29] 12.9M 99.53 97.16 98.32 94.61 92.39 93.48 SFT-CRNN (Proposed) 15M 99.16 97.46 98.36 91.56 90.02 90.78 表 1:与基线方法的比较。本方法在Onset F1上取得最佳,但Onset & Offset F1低于Transkun和hFT-Transformer。 ...

2026-05-19 · 更新于 2026-06-12 · 3 min · 508 words

STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts

📄 STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts #音乐转录 #游戏音频 #音乐源分离 #混合方法 📝 5.5/10 | 前25% | #音乐转录 | #混合方法 | #游戏音频 #音乐源分离 | arxiv 学术质量 5.5/8 | 影响力 1.2/2 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Joshua Opria(Independent Researcher) 通讯作者:Joshua Opria(Independent Researcher) 作者列表:Joshua Opria(Independent Researcher) 💡 毒舌点评 这是一份扎实、开源、完全可用的社区工具,其工程完整性和对评估科学性的坦诚态度值得称赞;但作为一篇NeurIPS/ICML/ICLR级别的论文,其核心贡献是多阶段流水线的集成与工程化,缺乏提出新的模型架构或算法理论洞见,在学术创新性上显得单薄。更像是一份优秀的技术报告而非开创性研究。 📌 核心摘要 解决的问题:手动为节奏游戏(如Clone Hero/YARG)创作乐谱耗时巨大,是社区内容创作的主要瓶颈。STRUM旨在将原始音频自动转化为可直接游玩的多乐器游戏谱面,无需依赖任何先验元数据(如节拍、调性)。 方法核心:这是一个多阶段混合系统。首先使用htdemucs_6s进行音源分离,然后针对鼓、吉他/贝斯、人声、键盘五种乐器设计独立的转录链。鼓部分采用两阶段CRNN起始点检测器、六模型集成分类器及一系列后处理修正器(包括鼓stem仲裁器、Phase-3多类别校正器、嗵鼓精细化CNN和五条启发式规则);吉他/贝斯使用起始点检测加pYIN音高跟踪;人声使用Whisper对齐;键盘使用频谱分析。 新在哪里:论文的核心创新在于方法论和评估框架,而非核心算法。其提出并实践了“操作包络”评估协议:明确定义了系统性能所依赖的输入音频质量标准(中值鼓stem RMS ≥ 0.018),并据此构建了标准化的评估基准(从65首候选中筛选出30首)。此外,论文对社区真值数据本身的质量缺陷进行了量化分析(仅89%的鼓事件落在±100ms内),为评估设定了理论上限,这对后续研究有重要警示意义。 主要实验结果:在自建的29首歌“包络内”基准测试中(±100ms容差,含±200ms全局偏移校正),鼓起始点F1为0.838,贝斯0.694,吉他0.651,人声0.539。消融实验证明鼓管道中三个组件(鼓stem仲裁器、Phase-3校正器、踩镲/叮叮镲冲突否决)有统计显著贡献。论文同时发现社区谱面真值与音频实际起始点存在显著时间偏差,仅89%的鼓事件落在±100ms内,这为性能设定了理论上限。 乐器 F1 精度 召回率 真值事件数 鼓 0.838 0.823 0.854 40,248 贝斯 0.694 0.658 0.734 18,598 吉他 0.651 0.745 0.578 27,742 人声 0.539 0.632 0.470 10,147 (表格内容直接来自论文Table 1) 5. 实际意义:为节奏游戏玩家和谱面作者提供了一个高效的创作辅助工具(已封装为Octave桌面应用),能显著降低谱面制作门槛,加速社区内容产出。 6. 主要局限性:系统性能受限于输入音频质量(37%的候选歌曲被“操作包络”过滤);人声和吉他/贝斯的音符级准确率有待提升;评估基准规模较小且可能无法覆盖所有音乐风格;系统最终输出的可玩性(如吉他谱面的指法布局合理性)未被量化评估。 ...

2026-05-13 · 更新于 2026-06-12 · 3 min · 435 words

VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models

📄 VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models #音乐转录 #语音识别 #音频大模型 #预训练 ✅ 7.0/10 | 前25% | #音乐转录 | #音频大模型 | #语音识别 #预训练 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yukun Chen(西安交通大学,南洋理工大学) 通讯作者:论文中未明确说明通讯作者。 作者列表:Yukun Chen(西安交通大学,南洋理工大学), Tianrui Wang(天津大学,南洋理工大学), Zhaoxi Mu(蚂蚁集团,浙江大学), Xinyu Yang(西安交通大学), EngSiong Chng(南洋理工大学) 💡 毒舌点评 亮点:将复杂的歌声转录多阶段任务优雅地统一到一个基于LALM的自回归生成框架中,其提出的“CoT式提示”策略巧妙地解决了预训练语义模型与结构化生成目标之间的冲突。 短板:模型的核心能力很大程度上继承自强大的基座模型(Qwen3-ASR),创新更多是“术”而非“道”的层面;同时,其赖以生存的训练数据(SingCrawl)虽方法开源,但数据本身和模型权重均不公开,使得论文的复现性和实用推广价值大打折扣。 📌 核心摘要 要解决什么问题:歌唱语音合成(SVS)需要大规模高质量标注数据,但人工标注成本高昂。现有的自动转录系统存在多阶段误差累积、词-音符对齐困难以及对分布外(OOD)歌唱数据泛化能力差等问题。 方法核心是什么:提出VocalParse,一个基于大型音频语言模型(LALM)的统一歌声转录框架。其核心是将转录重构为对交错(interleaved)歌词-音符序列的自回归生成。为解决交错格式破坏预训练LALM语义理解能力的问题,引入了链式思维(CoT)风格的提示策略:先生成纯歌词序列作为语义支架,再生成交错的歌词-音符序列。 与已有方法相比新在哪里:1) 统一框架:用一个自回归模型联合预测歌词、旋律及词-音符对应关系,无需复杂的多阶段流水线和后处理对齐。2) 结构化生成:交错提示序列直接编码了词与音符的层级关系。3) CoT适配策略:在保持预训练LALM强大语义解码能力的同时,实现了结构化输出的生成。4) 可扩展的数据管线SingCrawl:自动从网络爬取歌曲并生成伪标签训练数据。 主要实验结果如何:在多个歌唱数据集上达到最先进性能。在Opencpop数据集上,音频-歌词联合推理模式在音高MAE(0.35)、音符MAE(0.43)、时值MAE(0.33)和音符数量误差(0.11)上均优于ROSVOT等基线。歌词转录WER在三个数据集上与专用ASR模型Qwen3-ASR接近(Opencpop上3.79% vs 3.41%)。消融实验证明,CoT策略将WER从7.18%显著降低至3.79%;移除SingCrawl数据后,音高MAE从0.56急剧上升至0.94。下游SVS实验证明,使用VocalParse生成的伪标签训练的模型,在节奏和旋律相似度上显著优于仅使用小规模人工标注数据训练的模型。 ...

2026-05-07 · 更新于 2026-06-12 · 4 min · 643 words

A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport

📄 A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport #音乐转录 #最优传输 #注意力机制 #循环神经网络 ✅ 7.0/10 | 前25% | #音乐转录 | #最优传输 | #注意力机制 #循环神经网络 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Weixing Wei(京都大学信息学研究生院) 通讯作者:未说明 作者列表:Weixing Wei(京都大学信息学研究生院)、Raynaldi Lalang(京都大学工程研究生院)、Dichucheng Li(独立研究者)、Kazuyoshi Yoshii(京都大学工程研究生院) 💡 毒舌点评 亮点是跳出了传统BCE损失“对齐即全对,错一位全错”的思维定式,用OT损失来容忍合理的时间偏差,理论上更优雅且实验效果显著。短板在于论文对OT损失计算复杂度的讨论几乎空白,且将钢琴转录中复杂的踏板问题简单归因于offset不准,未来提升路径仍需更扎实的论证。 🔗 开源详情 代码:论文在“Repo:”处提供了一个GitHub仓库链接(https://github.com/WX-Wei/AMT-optimal-transport),但论文正文中未描述该仓库的具体内容(如是否包含完整代码、模型权重、训练脚本等),因此其实际开放性和完整性未知。 模型权重:未提及。 数据集:MAESTRO为公开数据集,但论文中未说明如何获取或处理的具体细节。 Demo:未提及。 复现材料:论文中提到了一些关键训练细节(数据集分割、CQT参数、优化器),但缺少batch size、具体epoch数、硬件信息等关键复现参数。 论文中引用的开源项目:提到了mir_eval库用于评估。 📌 核心摘要 该论文要解决自动钢琴转录中传统帧级二分类交叉熵(BCE)损失对时间错位过于敏感、导致模型需过度拟合微小对齐误差的问题。 核心方法是将钢琴转录形式化为最优传输(OT)问题,通过最小化预测音符分布到真实音符分布的运输成本来训练模型,从而自然地容忍合理的时间错位。 与已有方法相比,新在:a) 将损失函数从BCE替换为OT,改变了优化目标;b) 提出了专门设计的SFT-CRNN模型,包含谐波感知注意力机制。 主要实验结果:在MAESTRO数据集上,所提SFT-CRNN模型结合OT损失取得了音头F1分数98.36%的SOTA性能,相比使用BCE损失提升了0.75个百分点;在整体音符转录(���音头和音尾)上F1为90.78%。消融实验表明OT损失和模型中的LSTM、谐波注意力组件均带来显著性能提升。 实际意义是提出了一种即插即用的、更符合音乐感知逻辑的OT损失函数,可替换BCE用于现有模型,并推动了钢琴转录性能的提升。 主要局限性是当前模型未显式处理延音踏板,导致音尾(offset)转录性能(90.78% F1)尚未达到最佳,且OT损失的引入可能增加训练时的计算负担。 🏗️ 模型架构 本文提出了名为SFT-CRNN(空间-频率-时间卷积循环神经网络)的模型架构,旨在全面建模音乐信号的时频依赖关系。整体输入输出流程为:以CQT频谱图(维度 T x F)为输入,经过模型处理后,输出两个分布矩阵:预测的音头质量分布 Mon 和音尾质量分布 Moff(维度均为 T’ x F’)。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 279 words

ICASSP 2026 - 音乐转录 论文列表

ICASSP 2026 - 音乐转录 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Distribution Matching Approach to Neural Piano Transcripti 7.0分 前25% 📋 论文详情 🥇 A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport ✅ 7.0/10 | 前25% | #音乐转录 | #最优传输 | #注意力机制 #循环神经网络 👥 作者与机构 第一作者:Weixing Wei(京都大学信息学研究生院) 通讯作者:未说明 作者列表:Weixing Wei(京都大学信息学研究生院)、Raynaldi Lalang(京都大学工程研究生院)、Dichucheng Li(独立研究者)、Kazuyoshi Yoshii(京都大学工程研究生院) 💡 毒舌点评 亮点是跳出了传统BCE损失“对齐即全对,错一位全错”的思维定式,用OT损失来容忍合理的时间偏差,理论上更优雅且实验效果显著。短板在于论文对OT损失计算复杂度的讨论几乎空白,且将钢琴转录中复杂的踏板问题简单归因于offset不准,未来提升路径仍需更扎实的论证。 🔗 开源详情 代码:论文在“Repo:”处提供了一个GitHub仓库链接(https://github.com/WX-Wei/AMT-optimal-transport),但论文正文中未描述该仓库的具体内容(如是否包含完整代码、模型权重、训练脚本等),因此其实际开放性和完整性未知。 模型权重:未提及。 数据集:MAESTRO为公开数据集,但论文中未说明如何获取或处理的具体细节。 Demo:未提及。 复现材料:论文中提到了一些关键训练细节(数据集分割、CQT参数、优化器),但缺少batch size、具体epoch数、硬件信息等关键复现参数。 论文中引用的开源项目:提到了mir_eval库用于评估。 📌 核心摘要 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 85 words