音乐转录 | 语音/音乐/音频论文速递

Fretiq: Browser-Native Electric Guitar String Classification via Engineered Spectral Features and Held-Out Free-Play Evaluation

📄 Fretiq: Browser-Native Electric Guitar String Classification via Engineered Spectral Features and Held-Out Free-Play Evaluation 标签：#音频分类 #音乐转录 #流式处理 #实时处理 #音频理解 7.5/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.5/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #音频分类 | #音乐转录 | #流式处理 #实时处理 | arxiv 👥 作者与机构第一作者：Aadi Garg（California Polytechnic State University, San Luis Obispo, Department of Physics）通讯作者：未说明（邮箱 agarg35@calpoly.edu 提供但未标注通讯作者）作者列表：Aadi Garg（California Polytechnic State University, San Luis Obispo, Department of Physics） 💡 毒舌点评这篇论文最大的优点是极其诚实——作者主动报告了97.1%验证准确率与87.8%自由演奏准确率之间的巨大差距，坦承比较训练方法“对某些弦对反而更差”，甚至记录了两次关键的工程失败模式，这种透明度在同级别工作中罕见。然而，核心方法就是MFCC加一个两层全连接网络，这在2025年甚至不算是一个值得单独报告的模型架构；当一个如此简单的模型在验证集上达到97%时，审稿人更应该质疑的是数据泄漏或评估设置的问题，而不是庆祝这个数字本身。 ...

MulTTiPop: A Multitrack Transcription Dataset for Pop Music

📄 MulTTiPop: A Multitrack Transcription Dataset for Pop Music 标签：#音乐转录 #基准测试 #音乐理解 #数据集 #音频理解 7.7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.4/1.5 ✅ 7.7/10 | 前25% | 文档类型：数据集与基准 | 评分置信度：高 | #音乐转录 | #基准测试 | #音乐理解 #数据集 | arxiv 👥 作者与机构第一作者：Nathan Pruyne（Carnegie Mellon University, Language Technologies Institute）通讯作者：未说明作者列表：Nathan Pruyne（Carnegie Mellon University, Language Technologies Institute）、Benjamin Stoler（未说明）、William Chen（未说明）、Chien-yu Huang（Carnegie Mellon University）、Shinji Watanabe（Carnegie Mellon University）、Chris Donahue（Carnegie Mellon University, Language Technologies Institute） 💡 毒舌点评论文精准地识别了缺乏商业流行音乐多轨转录评估基准这一痛点，并展示了构建该基准的工程野心。然而，作为一份旨在成为“黄金标准”的评估数据集，其核心弱点在于：1) 评估效用被严重限制，因为仅测试了两个模型，且它们均非针对该任务设计或训练；2) 核心产物（音频）因版权限制无法直接提供，迫使使用者依赖外部链接，极大削弱了数据集的可访问性和即刻可用性；3) 数据集本身规模很小（3.5小时），多样性虽被强调，但实际覆盖的“流行”子流派有限。这使得该工作的实际影响力远低于其宣称的意图。 ...

MulTTiPop: A Multitrack Transcription Dataset for Pop Music

📄 MulTTiPop: A Multitrack Transcription Dataset for Pop Music 标签：#音乐转录 #基准测试 #音乐理解 #数据集 6.6/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.6/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.6/10 | 前50% | 文档类型：数据集与基准 | 评分置信度：高 | #音乐转录 | #基准测试 | #音乐理解 #数据集 | arxiv 👥 作者与机构第一作者：Nathan Pruyne（卡内基梅隆大学）通讯作者：未说明作者列表：Nathan Pruyne（卡内基梅隆大学）、Benjamin Stoler（卡内基梅隆大学）、William Chen（卡内基梅隆大学）、Chien-yu Huang（卡内基梅隆大学）、Shinji Watanabe（卡内基梅隆大学）、Chris Donahue（卡内基梅隆大学） 💡 毒舌点评论文精准命中了自动音乐转录（AMT）领域对真实商业流行音乐进行多轨转录评测基准的空白，其构建的流程（元数据匹配+节拍对齐+人工筛选）严谨且可复用，为社区提供了首个专用基准。然而，最终仅49.1%的成功率揭示了当前跨源对齐技术的根本瓶颈，而3.5小时的规模和强烈的西方音乐偏见限制了其作为通用基准的广度，使其更像是一个高质量但受限的“探路石”。 📌 核心摘要本文旨在解决自动音乐转录（AMT）模型缺乏针对真实商业流行音乐进行多轨转录评测基准的问题。核心贡献是构建了MulTTiPop数据集，其流程包括：从Lakh MIDI数据集和TheoryTab数据集通过元数据匹配找到潜在对应的多轨MIDI和YouTube音频段；使用基于节拍的动态时间规整（DTW）对齐两者的时间轴；通过融合基线相似度、旋律匹配和YouTube时间戳等多种策略生成候选对齐锚点，最终由人工标注者选择正确的对齐。与已有数据集相比，MulTTiPop首次提供了针对真实商业流行音乐音频的多轨MIDI标注。实验评估显示，当前先进的AMT模型（MT3、YourMT3+）在此数据集上表现不佳，最佳模型的Onset F1仅为38%（精确制式）和37.87%（打击/和声制式），表明该任务存在巨大提升空间。该数据集的实际意义在于为AMT模型在复杂、真实的多轨音乐转录任务上提供了一个有挑战性的评测工具。其主要局限性在于构建成功率不高（49.1%）、数据集规模较小（3.5小时）且存在西方音乐偏见。 ...

MuScriptor: An Open Model for Multi-Instrument Music Transcription

📄 MuScriptor: An Open Model for Multi-Instrument Music Transcription 标签：#音乐转录 #预训练 #强化学习 #开源工具 #基准测试 8.3/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 🔥 8.3/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #音乐转录 | #预训练 | #强化学习 #开源工具 | arxiv 👥 作者与机构第一作者：Simon Rouard（Meta）通讯作者：未说明作者列表：Simon Rouard（Meta）、Michael Krause（Meta）、Axel Roebel（Meta）、Carl-Johann Simon-Gabriel（Meta）、Alexandre Défossez（Meta） 💡 毒舌点评论文的实质贡献在于一个高度系统化、工程化的端到端转录系统，而非单一的算法突破。其亮点是“大力出奇迹”策略——通过构建海量（145万MIDI）的合成数据集和中等规模（17万条）的带标注真实数据集，结合多阶段训练范式，并在开源模型权重上做得非常彻底，为社区提供了强大的现成工具。短板同样明显：性能的提升严重依赖于未公开、难以复现的内部数据集（𝒟Real），使得其技术路线的可推广性存疑；在强化学习后训练阶段采用了未经严格理论验证的简化GRPO算法，训练稳定性成疑；且完全回避了计算成本（GPU时长、能耗）的披露与分析，这对于评估其“开源模型”的实际可用性至关重要。 📌 核心摘要本文旨在解决现有多乐器自动音乐转录（AMT）模型在复杂真实音乐混音中泛化能力差、实用性低的问题。方法核心是构建名为MuScriptor的解码器-仅Transformer模型，并通过一个包含预训练、微调和强化学习后训练的多阶段流程进行训练。预训练使用大规模动态合成的MIDI-音频对（𝒟Synth），微调使用大规模带标注的真实音乐音频（𝒟Real），后训练则在人工精选的高质量子集（𝒟RL）上使用类GRPO算法进行对齐。模型支持可选的乐器条件输入以增强可控性。主要贡献在于：发布了一个在多样化音乐风格上表现稳健的开源多乐器转录模型及其完整训练流程；系统研究了合成预训练的有效性与局限性；首次将GRPO算法应用于AMT的后训练优化；提供了乐器条件化推理功能。与MT3、YourMT3+等先前工作相比，本文重心从架构改进转向数据规模与质量。实验结果表明，完整的MuScriptor模型（1.3B参数）在自建测试集𝒟Test上全面超越基线YourMT3+（例如，Multi F1从21.9提升至48.2），并在多个未参与训练的公开基准数据集上取得显著提升（例如，Dagstuhl ChoirSet的Frame F1从51.0提升至80.7）。消融实验证实了合成预训练在真实数据稀缺时的巨大价值（如仅用1%真实数据时Offset F1从9.9提升至33.4）以及每个训练阶段的累积增益。本文的实际意义是为音乐信息检索社区提供了一个开箱即用的强大基线模型和工具。主要局限包括：其tokenization方案无法表示同乐器同音高的重叠音符；模型的高性能依赖于未公开的内部数据集（𝒟Real），外部复现困难；训练和推理的计算成本未披露；RL训练算法的简化（无KL惩罚和重要性采样裁剪）可能带来稳定性风险；缺乏主观听觉评估。 🔗 开源详情代码：https://github.com/muscriptor/muscriptor 模型权重：已开源（通过上述GitHub仓库发布）。数据集：未开源。 𝒟Synth：约145万个MIDI文件，来源包括公开（如Lakh MIDI）和商业数据，未提供下载链接。 𝒟Real：17万个真实音乐录音（约11，000小时）及对齐的音符标注，为内部数据集，未公开。 𝒟RL：从𝒟Real中筛选的300首高质量曲目。 𝒟Test：从𝒟Real中筛选的372首高质量曲目。 Demo：未提及。复现材料：提供了代码、模型权重和主要训练超参数，但缺少完整的训练检查点、用于数据构建的脚本/阈值、以及训练资源信息。 🏗️ 方法概述和架构本文构建了一个端到端的多乐器音乐转录系统，其核心是将音乐转录任务转化为序列到序列的语言建模问题。系统接收一个5秒单声道音频波形（16kHz）作为输入，输出一段代表该片段内所有乐器音符事件的离散token序列（类MIDI表示）。 ...

MuScriptor: An Open Model for Multi-Instrument Music Transcription

📄 MuScriptor: An Open Model for Multi-Instrument Music Transcription 标签：#音乐转录 #自回归模型 #强化学习 #数据集 #开源工具 9.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 1.4/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 🔥 9.2/10 | 前10% | 文档类型：系统技术报告 | 评分置信度：高 | #音乐转录 | #自回归模型 | #强化学习 #数据集 | arxiv 👥 作者与机构第一作者：Simon Rouard（Meta/Fair和IRCAM联合机构，巴黎萨克雷大学）通讯作者：未说明作者列表：Simon Rouard（Meta/Fair和IRCAM，巴黎萨克雷大学）、Michael Krause（Meta/Fair）、Axel Roebel（IRCAM，巴黎萨克雷大学）、Carl-Johann Simon-Gabriel（Meta/Fair）、Alexandre Défossez（Meta/Fair） 💡 毒舌点评论文在工程整合与系统构建上堪称典范，通过“合成预训练+真实数据微调+强化学习后训练”的流水线，在多乐器音乐转录任务上取得了显著的SOTA性能提升并开源，实践价值极高。然而，该工作呈现出“重工程、轻机理”的特点：强化学习部分为简化实现而移除了关键的稳定机制（KL惩罚），其有效性和鲁棒性缺乏理论支撑；对“为何合成数据预训练有效”的分析停留在“数据量大”的表面，未能揭示音乐结构或音色学习的深层原因，显得“知其然不知其所以然”。此外，其核心评估依赖于自建测试集，尽管也进行了跨数据集评估，但对模型在更广泛、未经筛选的真实世界音频上的失败模式分析不足。 📌 核心摘要本文旨在解决现有自动音乐转录（AMT）方法在复杂、多乐器真实音乐录音上表现不佳、泛化能力弱的问题。核心贡献是提出并开源了MuScriptor模型，一个采用解码器-only Transformer架构的开源模型。其核心创新在于一个系统性的三阶段训练流程：首先在大规模合成数据（145万MIDI文件）上预训练，然后在大规模真实音乐录音（17万条，1.1万小时）上微调，最后使用少量高质量数据（300首）通过类GRPO的强化学习进行后训练。此外，模型引入了乐器存在性条件化机制，允许用户指定待转录的乐器以定制输出并提升跨片段一致性。实验表明，该流程在自建测试集（𝒟Test）上将多乐器F1分数（Multi F1）从基线YourMT3+的21.9大幅提升至48.2，并在多个未参与训练的公开基准数据集上（如Dagstuhl ChoirSet）显著超越现有方法。论文的主要局限包括：强化学习后训练的实现方式简化了标准GRPO，缺少KL散度惩罚，可能影响训练稳定性；对合成数据预训练为何有效的机理分析不足；tokenization方案不支持同一乐器同音高的重叠音符。 ...

Rubato: Transcribing Piano Music with Timestamps

📄 Rubato: Transcribing Piano Music with Timestamps #音乐转录 #音乐信息检索 #时间序列分析 #多任务学习 🔥 10/10 | 前10% | #音乐转录 | #多任务学习 | #音乐信息检索 #时间序列分析 | arxiv 学术质量 6.7/7 | 影响力 1.8/2 | 可复现性 1.6/2 | 置信度高 👥 作者与机构作者：Nazif Can Tamer, Victoria Ebert, Guang Yang, Noah A. Smith 机构：Paul G. Allen School of Computer Science & Engineering, University of Washington; Allen Institute for AI 💡 毒舌点评这篇论文像一个精心设计的“全套服务”。它没有满足于只做一个更好的钢琴MIDI转录器（AMT）或一个更好的MIDI到乐谱转换器（如M2ST），而是野心勃勃地想用一个模型（Rubato）端到端地完成从音频到带时间戳乐谱（TAST）的“终极任务”。这种雄心是值得称赞的，并且通过设计InterMo这种精巧的表示法和多任务训练框架（方言系统）在一定程度上实现了。然而，毒舌的批评在于：1）其核心模型架构（~180M参数的Canary变体）相对保守，并非架构创新，主要贡献在于任务定义、表示法和训练策略。2）所有实验严格局限于钢琴独奏，这是一个相对受限且声学/记谱法结构都较规整的领域。论文对“推广到其他乐器或多乐器”的讨论非常轻描淡写（仅在结论提一句），这是其影响力的天花板。3）尽管多任务训练看起来很美好，但“方言系统”显著增加了概念复杂度和训练配方的工程难度，论文并未提供方言间相互影响的深入分析或消融。4）作为顶会论文，在评估上花了大力气（OMR-NED、检索MAP、偏移约定分析），但这些评估指标本身（尤其是OMR-NED）是否真正代表了“乐谱质量”或“对人类演奏者的实用性”，存在讨论空间。总的来说，这是一篇扎实的“系统性”工作，在限定的领域内做到了当前最好，但距离一个能广泛适用于各种乐器、各种音乐风格的通用音乐转录系统，还有相当距离。 📌 核心摘要本文针对自动音乐转录（AMT）中级联方法导致误差累积和中间表示信息丢失的问题，提出了时间对齐乐谱转录（TAST）作为端到端任务，联合预测音乐记谱法及其时间戳。核心贡献包括：1) 设计了名为InterMo的文本乐谱表示法，其局部节拍算术、有界开合匹配等特性适合自回归序列建模；2) 构建了名为Rubato的提示条件化编码器-解码器模型，通过“方言”系统在多个相关任务上进行多任务训练；3) 大量实验表明，Rubato在乐谱转录精度（OMR-NED）上优于所有基线系统（包括使用真实中间表示的级联系统），并在节拍检测等辅助任务上具有竞争力。论文深度分析了级联系统的瓶颈在于中间表示的信息丢失而非前端预测误差，并揭示了MIDI转录评估中偏移约定对结果的巨大影响。 ...

Music Transcription with (Almost) No Supervision

📄 Music Transcription with (Almost) No Supervision #音乐转录 #数据增强 🔥 10/10 | 前50% | #音乐转录 | #数据增强 | arxiv 学术质量 6.8/7 | 影响力 1.7/2 | 可复现性 2/2 | 置信度高 👥 作者与机构论文作者为 Saebyeol Shin, Chao Wan, Zhenzhen Liu, Justin Lovelace, Daniel C. Lin, Kilian Q. Weinberger, John Thickstun。所属机构为 Cornell University，位于美国纽约州伊萨卡市。通讯邮箱为 ss4333@cornell.edu。 💡 毒舌点评这篇论文的“故事”讲得非常吸引人：音乐转录数据稀缺，但未配对的音频和乐谱数据唾手可得。作者提出的框架直指核心痛点，实验设计系统且有说服力，尤其是“锚点”的概念和对数据模态贡献的消融分析，让结论落到了实处。方法本身并非革命性创新，但巧妙地将 CycleGAN 的思想应用于跨模态的连续潜空间，并在音乐转录这一具体且重要的任务上取得了扎实的、有数据支撑的增益。代码和复现细节的详尽程度堪称典范。主要不足在于，论文对框架在更复杂、更多变的真实音乐场景（如动态范围、风格混杂、录音质量差）下的表现讨论不足，且对“为什么音频比乐谱贡献更大”的深层原因（声学多样性 vs. 结构信息）停留在假设层面。总体而言，这是一篇扎实、清晰、有实用价值的工作，适合作为解决数据稀缺问题的一个重要 baseline。 📌 核心摘要本文研究如何利用海量未配对的音频和乐谱数据来训练音乐转录模型。论文采用了一个基于循环一致性的半监督框架，在连续潜空间（由预训练的乐谱VAE提供）中建立从CQT频谱图到乐谱表示的双向映射。研究发现：(1) 极少量的配对数据（低至1.6小时）作为“锚点”可以解决学习中的全局音高偏移等歧义，使大量未配对数据得以有效利用；(2) 在相同数据量预算下，未配对的音频比未配对的乐谱提供更强的学习信号；(3) 在训练中加入目标乐器（如吉他）的无标签音频，无需任何配对标签即可显著提升该乐器的转录性能（+10 Frame F1），并超越完全监督的跨域基线。实验在MAESTRO（钢琴）、GuitarSet（吉他）和MusicNet-EM（多乐器）数据集上验证了这些发现，表明利用未配对数据是缓解音乐转录中配对数据稀缺问题的实用途径。 🔗 开源详情代码：提供，链接为 https://github.com/SaebyeolShin/almost_unsupervised_amt 模型权重：论文中未提及提供预训练模型权重。数据集： MAESTRO v2.0.0：获取链接 https://github.com/craffel/maestro-dataset GuitarSet：获取链接 https://github.com/jayg996/BCH-Convert-Tool-for-NSynth-and-GuitarSet MusicNet-EM：作为YourMT3项目的一部分提供，获取链接 https://github.com/danmou/MT3/tree/main/yourmt3 Gardner Museum 音频：来自 Isabella Stewart Gardner Museum 的公开录音。论文中未提供直接下载链接，但详细说明了其筛选和去重处理方法（附录A）。 Demo：论文中未提及。复现材料：论文在附录B中详细说明了Score VAE、生成器、判别器的具体架构。论文在附录C和表7中提供了完整的训练超参数和细节（优化器、学习率调度、批次大小、损失权重、硬件配置等）。明确指出了训练硬件（单张 NVIDIA A6000 GPU）和训练时长（单乐器约4天，多乐器约6天）。论文在附录A中详细说明了所有数据集的预处理、分块和划分方式。论文中引用的开源项目： CycleGAN：核心框架灵感来源。引用链接 https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix LSGAN：使用的对抗损失函数，引用为文献[23]。 MAESTRO：如上。 GuitarSet：如上。 MusicNet：作为MusicNet-EM的基础数据集被引用。获取链接 https://thomaskail.github.io/ YourMT3：提供了MusicNet-EM数据集版本。获取链接 https://github.com/danmou/MT3/tree/main/yourmt3 MT3：作为相关工作引用的多乐器转录模型。获取链接 https://github.com/danmou/MT3 Onsets and Frames：论文中引用的早期钢琴转录模型。论文中未提供其代码链接。 🏗️ 方法概述和架构本文提出一个名为“Cycle Consistent Transcription”的半监督跨模态翻译框架，其核心目标是学习从连续音频表示（CQT频谱图）到离散符号乐谱表示（通过VAE映射到连续潜空间）的映射，并利用循环一致性约束从大量未配对数据中学习。框架主要包含以下组件和流程： ...

Rubato: Transcribing Piano Music with Timestamps

📄 Rubato: Transcribing Piano Music with Timestamps #音乐转录 ✅ 7.5/10 | 前25% | #音乐转录 | #音乐转录 | arxiv 👥 作者与机构 Nazif Can Tamer, Victoria Ebert, Guang Yang, Noah A. Smith Paul G. Allen School of Computer Science & Engineering, University of Washington；Allen Institute for AI 💡 毒舌点评这篇论文的工作扎实，解决了音乐转录中一个真实存在的“断裂”问题：从音频到可读乐谱的流水线在中间表示上丢失了太多信息。InterMo表示法的设计确实巧妙，将时序对齐和符号结构统一到序列建模中，这比简单地堆叠两个模型要优雅得多。实验也足够有力，甚至证明了即使给级联方法“开挂”（使用真实MIDI或下拍），也比不过端到端的Rubato。然而，论文的野心似乎被其应用场景限制住了——他们证明了在钢琴独奏上的优越性，但这离“通用音乐转录”还很远。此外，缺少人机交互评估是个遗憾，毕竟乐谱最终是给人看的，OMR-NED分数低不代表音乐家就觉得好用。总的来说，这是一篇在特定领域内做出显著改进的工作，但离“改变游戏规则”还有距离。 📌 核心摘要本文提出Rubato，一个用于将钢琴音乐录音转录为带时间戳的、人类可读乐谱的端到端模型。其核心创新是设计了一种名为InterMo的全新文本音乐表示法，它将乐谱结构、时间戳和记谱信息统一编码为一维序列，支持多任务训练。Rubato基于提示条件编解码器架构，能够通过不同的提示生成不同的输出方言（如带时间戳的乐谱、MIDI音符、节拍标记）。实验证明，与所有级联基线（包括使用真实MIDI或下拍的神谕版本）相比，Rubato生成的乐谱在符号准确性（OMR-NED）上均表现更优。在下游的时间对齐任务（节拍/下拍检测、音符检测）上，其性能也与专用系统相当或更优。分析表明，级联方法的瓶颈在于中间表示的信息丢失，而非前端预测误差。此外，基于InterMo的转录结果在乐曲识别和演奏者识别检索任务上也展现出良好性能。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集： MAESTRO v3：论文未提供直接链接。论文中提及这是一个包含159小时真实钢琴音频和Disklavier MIDI时间戳的数据集，通常需从其官方渠道获取。 (n)ASAP：论文未提供直接链接。论文中提及这是MAESTRO录音的一个子集，附加了节拍、降音、调号/拍号和乐谱标注。 PDMX：论文未提供直接链接。论文中提及这是来自MuseScore的公共版权乐谱集合。论文明确表示已发布用于复现的乐谱片段和合成音频：“We release the score excerpts and synthesized utterances for reproducibility.” 但未给出具体的下载地址。 Demo：https://nctamer.github.io/rubato-transcription 复现材料：论文中提供了详细的模型架构（基于Canary-180M-Flash）、训练方法（如子词正则化、时间戳标签平滑）、训练数据混合策略（表1）和推理设置等信息。论文未明确提供训练好的检查点或完整的训练脚本供下载。论文提及已发布用于复现的PDMX合成数据（见“数据集”部分）。论文中引用的开源项目： DawDreamer：用于从乐谱合成音频的音频合成引擎。论文未提供链接，项目通常托管于GitHub。 VirtuosoNet：用于生成表现力渲染（时间偏差和音符不匹配）的模型。论文未提供链接，项目通常托管于GitHub。 Verovio：用于将InterMo等文本表示渲染为可读乐谱的工具。论文未提供链接，项目主页为 https://www.verovio.org。 MuseScore：PDMX数据集的来源平台。项目主页为 https://musescore.org。 MidiTok：在附录C中提及的MIDI分词器库。项目主页为 https://github.com/Natooz/MidiTok。 🏗️ 方法概述和架构 Rubato是一个基于提示条件（prompt-conditioned）的编码器-解码器模型，其核心架构和训练流程如下： ...

Precise and Simple Audio-to-Score Alignment

📄 Precise and Simple Audio-to-Score Alignment #音乐信息检索 #音乐转录 #节拍跟踪 #动态规划 #信号处理 ✅ 6.8/10 | 前50% | #音乐信息检索 | #动态规划 | #音乐转录 #节拍跟踪 | arxiv 学术质量 4.3/7 | 影响力 1.0/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构第一作者：Silvan Peter（Johannes Kepler University, Linz, Austria; Institute of Computational Perception; LIT AI Lab）通讯作者：未说明作者列表：Silvan Peter（Johannes Kepler University, Linz, Austria; Institute of Computational Perception; LIT AI Lab）、Patricia Hu（Johannes Kepler University, Linz, Austria; Institute of Computational Perception）、Gerhard Widmer（Johannes Kepler University, Linz, Austria; Institute of Computational Perception; LIT AI Lab） 💡 毒舌点评该文提出了一种巧妙且实用的音频到乐谱对齐方法，直接将音频的音高激活特征作为“转录原型”与乐谱匹配，避免了显式转录步骤。方法在钢琴数据集上表现出色，显著优于传统DTW基线，证明了“桥接”思路的有效性。然而，其宣称的“优越性”因对比基线选择过于保守（仅与传统DTW方法对比）而大打折扣，且缺乏对方法内部组件贡献的消融实验，使得其核心创新点（如动态节拍估计、混合特征）的实际增益成谜。此外，该方法强依赖于钢琴和特定调律，其普适性存疑。 ...

A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport

📄 A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport #音乐转录 #最优传输 #损失函数设计 #分布匹配 📝 5.5/10 | 前50% | #音乐转录 | #最优传输 | #损失函数设计 #分布匹配 | arxiv 学术质量 4.7/8 | 影响力 0.5/1 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Weixing Wei (未说明机构)、Raynaldi Lalang (未说明机构)、Dichucheng Li (未说明机构)、Kazuyoshi Yoshii (未说明机构) 💡 毒舌点评论文的核心贡献是概念性的：将钢琴转录重新定义为最优传输问题，并设计了一个精巧的损失函数。这为解决时间刚性问题提供了新思路。然而，这一亮点被平庸的模型架构（SFT-CRNN是现有模块的组合）和单薄的实验验证所拖累。论文在关键指标上未能全面超越最强基线（Transkun），却声称获得了“state-of-the-art performance”，这种选择性声明有误导性。整体而言，这是一个有启发性的想法，但包装和验证远未达到顶会水准。 📌 核心摘要本文提出了一种基于最优传输（OT）理论的自动钢琴转录（APT）新范式，以解决传统逐帧二值分类（BCE损失）对时间偏移过度敏感的核心问题。其核心思想是将音符事件视为时频平面上的点质量分布，将模型预测的质量分布通过OT损失对齐到真实分布，从而在优化过程中自然地容忍时间错位。为此，论文设计了一个包含时间代价封顶和频率禁运的定制化成本函数（公式1），并采用了非平衡OT（UOT）以适应音符密度变化。同时，论文提出了一个名为SFT-CRNN的端到端模型，其特色是包含谐波感知注意力机制的注意力块和频率分组LSTM（FG-LSTM）。在MAESTRO数据集上的实验表明，使用OT损失训练的SFT-CRNN在onset检测F1分数上达到了98.36%，优于所有对比基线。然而，在同时评估onset和offset的F1分数（90.78%）上，该方法略低于Transkun（93.48%）。消融实验证实OT损失在SFT-CRNN和HPPNet上有效，但在Onsets & Frames模型上无效。论文的主要局限在于未建模延音踏板，这限制了offset的预测精度，且仅在一个数据集上进行验证，代码未开源。模型参数量 Onset P (%) Onset R (%) Onset F1 (%) Onset & Offset P (%) Onset & Offset R (%) Onset & Offset F1 (%) Onsets & Frames [11] 26M 98.27 92.61 95.32 82.95 78.24 80.50 HPPNet-sp [24] 1.2M 98.45 95.95 97.18 84.88 82.76 83.80 hFT-Transformer [20] 5.5M 99.64 95.44 97.44 92.52 88.69 90.53 Transkun [29] 12.9M 99.53 97.16 98.32 94.61 92.39 93.48 SFT-CRNN (Proposed) 15M 99.16 97.46 98.36 91.56 90.02 90.78 表 1：与基线方法的比较。本方法在Onset F1上取得最佳，但Onset & Offset F1低于Transkun和hFT-Transformer。 ...