A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport

📄 A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport #音乐转录 #最优传输 #损失函数设计 #分布匹配 📝 5.5/10 | 前50% | #音乐转录 | #最优传输 | #损失函数设计 #分布匹配 | arxiv 学术质量 4.7/8 | 影响力 0.5/1 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Weixing Wei (未说明机构)、Raynaldi Lalang (未说明机构)、Dichucheng Li (未说明机构)、Kazuyoshi Yoshii (未说明机构) 💡 毒舌点评 论文的核心贡献是概念性的:将钢琴转录重新定义为最优传输问题,并设计了一个精巧的损失函数。这为解决时间刚性问题提供了新思路。然而,这一亮点被平庸的模型架构(SFT-CRNN是现有模块的组合)和单薄的实验验证所拖累。论文在关键指标上未能全面超越最强基线(Transkun),却声称获得了“state-of-the-art performance”,这种选择性声明有误导性。整体而言,这是一个有启发性的想法,但包装和验证远未达到顶会水准。 📌 核心摘要 本文提出了一种基于最优传输(OT)理论的自动钢琴转录(APT)新范式,以解决传统逐帧二值分类(BCE损失)对时间偏移过度敏感的核心问题。其核心思想是将音符事件视为时频平面上的点质量分布,将模型预测的质量分布通过OT损失对齐到真实分布,从而在优化过程中自然地容忍时间错位。为此,论文设计了一个包含时间代价封顶和频率禁运的定制化成本函数(公式1),并采用了非平衡OT(UOT)以适应音符密度变化。同时,论文提出了一个名为SFT-CRNN的端到端模型,其特色是包含谐波感知注意力机制的注意力块和频率分组LSTM(FG-LSTM)。在MAESTRO数据集上的实验表明,使用OT损失训练的SFT-CRNN在onset检测F1分数上达到了98.36%,优于所有对比基线。然而,在同时评估onset和offset的F1分数(90.78%)上,该方法略低于Transkun(93.48%)。消融实验证实OT损失在SFT-CRNN和HPPNet上有效,但在Onsets & Frames模型上无效。论文的主要局限在于未建模延音踏板,这限制了offset的预测精度,且仅在一个数据集上进行验证,代码未开源。 模型 参数量 Onset P (%) Onset R (%) Onset F1 (%) Onset & Offset P (%) Onset & Offset R (%) Onset & Offset F1 (%) Onsets & Frames [11] 26M 98.27 92.61 95.32 82.95 78.24 80.50 HPPNet-sp [24] 1.2M 98.45 95.95 97.18 84.88 82.76 83.80 hFT-Transformer [20] 5.5M 99.64 95.44 97.44 92.52 88.69 90.53 Transkun [29] 12.9M 99.53 97.16 98.32 94.61 92.39 93.48 SFT-CRNN (Proposed) 15M 99.16 97.46 98.36 91.56 90.02 90.78 表 1:与基线方法的比较。本方法在Onset F1上取得最佳,但Onset & Offset F1低于Transkun和hFT-Transformer。 ...

2026-05-19 · 更新于 2026-05-19 · 3 min · 508 words

STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts

📄 STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts #音乐转录 #游戏音频 #音乐源分离 #混合方法 📝 5.5/10 | 前25% | #音乐转录 | #混合方法 | #游戏音频 #音乐源分离 | arxiv 学术质量 5.5/8 | 影响力 1.2/2 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Joshua Opria(Independent Researcher) 通讯作者:Joshua Opria(Independent Researcher) 作者列表:Joshua Opria(Independent Researcher) 💡 毒舌点评 这是一份扎实、开源、完全可用的社区工具,其工程完整性和对评估科学性的坦诚态度值得称赞;但作为一篇NeurIPS/ICML/ICLR级别的论文,其核心贡献是多阶段流水线的集成与工程化,缺乏提出新的模型架构或算法理论洞见,在学术创新性上显得单薄。更像是一份优秀的技术报告而非开创性研究。 📌 核心摘要 解决的问题:手动为节奏游戏(如Clone Hero/YARG)创作乐谱耗时巨大,是社区内容创作的主要瓶颈。STRUM旨在将原始音频自动转化为可直接游玩的多乐器游戏谱面,无需依赖任何先验元数据(如节拍、调性)。 方法核心:这是一个多阶段混合系统。首先使用htdemucs_6s进行音源分离,然后针对鼓、吉他/贝斯、人声、键盘五种乐器设计独立的转录链。鼓部分采用两阶段CRNN起始点检测器、六模型集成分类器及一系列后处理修正器(包括鼓stem仲裁器、Phase-3多类别校正器、嗵鼓精细化CNN和五条启发式规则);吉他/贝斯使用起始点检测加pYIN音高跟踪;人声使用Whisper对齐;键盘使用频谱分析。 新在哪里:论文的核心创新在于方法论和评估框架,而非核心算法。其提出并实践了“操作包络”评估协议:明确定义了系统性能所依赖的输入音频质量标准(中值鼓stem RMS ≥ 0.018),并据此构建了标准化的评估基准(从65首候选中筛选出30首)。此外,论文对社区真值数据本身的质量缺陷进行了量化分析(仅89%的鼓事件落在±100ms内),为评估设定了理论上限,这对后续研究有重要警示意义。 主要实验结果:在自建的29首歌“包络内”基准测试中(±100ms容差,含±200ms全局偏移校正),鼓起始点F1为0.838,贝斯0.694,吉他0.651,人声0.539。消融实验证明鼓管道中三个组件(鼓stem仲裁器、Phase-3校正器、踩镲/叮叮镲冲突否决)有统计显著贡献。论文同时发现社区谱面真值与音频实际起始点存在显著时间偏差,仅89%的鼓事件落在±100ms内,这为性能设定了理论上限。 乐器 F1 精度 召回率 真值事件数 鼓 0.838 0.823 0.854 40,248 贝斯 0.694 0.658 0.734 18,598 吉他 0.651 0.745 0.578 27,742 人声 0.539 0.632 0.470 10,147 (表格内容直接来自论文Table 1) 5. 实际意义:为节奏游戏玩家和谱面作者提供了一个高效的创作辅助工具(已封装为Octave桌面应用),能显著降低谱面制作门槛,加速社区内容产出。 6. 主要局限性:系统性能受限于输入音频质量(37%的候选歌曲被“操作包络”过滤);人声和吉他/贝斯的音符级准确率有待提升;评估基准规模较小且可能无法覆盖所有音乐风格;系统最终输出的可玩性(如吉他谱面的指法布局合理性)未被量化评估。 ...

2026-05-13 · 更新于 2026-05-19 · 3 min · 435 words

VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models

📄 VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models #音乐转录 #语音识别 #音频大模型 #预训练 ✅ 7.0/10 | 前25% | #音乐转录 | #音频大模型 | #语音识别 #预训练 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yukun Chen(西安交通大学,南洋理工大学) 通讯作者:论文中未明确说明通讯作者。 作者列表:Yukun Chen(西安交通大学,南洋理工大学), Tianrui Wang(天津大学,南洋理工大学), Zhaoxi Mu(蚂蚁集团,浙江大学), Xinyu Yang(西安交通大学), EngSiong Chng(南洋理工大学) 💡 毒舌点评 亮点:将复杂的歌声转录多阶段任务优雅地统一到一个基于LALM的自回归生成框架中,其提出的“CoT式提示”策略巧妙地解决了预训练语义模型与结构化生成目标之间的冲突。 短板:模型的核心能力很大程度上继承自强大的基座模型(Qwen3-ASR),创新更多是“术”而非“道”的层面;同时,其赖以生存的训练数据(SingCrawl)虽方法开源,但数据本身和模型权重均不公开,使得论文的复现性和实用推广价值大打折扣。 📌 核心摘要 要解决什么问题:歌唱语音合成(SVS)需要大规模高质量标注数据,但人工标注成本高昂。现有的自动转录系统存在多阶段误差累积、词-音符对齐困难以及对分布外(OOD)歌唱数据泛化能力差等问题。 方法核心是什么:提出VocalParse,一个基于大型音频语言模型(LALM)的统一歌声转录框架。其核心是将转录重构为对交错(interleaved)歌词-音符序列的自回归生成。为解决交错格式破坏预训练LALM语义理解能力的问题,引入了链式思维(CoT)风格的提示策略:先生成纯歌词序列作为语义支架,再生成交错的歌词-音符序列。 与已有方法相比新在哪里:1) 统一框架:用一个自回归模型联合预测歌词、旋律及词-音符对应关系,无需复杂的多阶段流水线和后处理对齐。2) 结构化生成:交错提示序列直接编码了词与音符的层级关系。3) CoT适配策略:在保持预训练LALM强大语义解码能力的同时,实现了结构化输出的生成。4) 可扩展的数据管线SingCrawl:自动从网络爬取歌曲并生成伪标签训练数据。 主要实验结果如何:在多个歌唱数据集上达到最先进性能。在Opencpop数据集上,音频-歌词联合推理模式在音高MAE(0.35)、音符MAE(0.43)、时值MAE(0.33)和音符数量误差(0.11)上均优于ROSVOT等基线。歌词转录WER在三个数据集上与专用ASR模型Qwen3-ASR接近(Opencpop上3.79% vs 3.41%)。消融实验证明,CoT策略将WER从7.18%显著降低至3.79%;移除SingCrawl数据后,音高MAE从0.56急剧上升至0.94。下游SVS实验证明,使用VocalParse生成的伪标签训练的模型,在节奏和旋律相似度上显著优于仅使用小规模人工标注数据训练的模型。 ...

2026-05-07 · 更新于 2026-05-19 · 4 min · 643 words

A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport

📄 A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport #音乐转录 #最优传输 #注意力机制 #循环神经网络 ✅ 7.0/10 | 前25% | #音乐转录 | #最优传输 | #注意力机制 #循环神经网络 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Weixing Wei(京都大学信息学研究生院) 通讯作者:未说明 作者列表:Weixing Wei(京都大学信息学研究生院)、Raynaldi Lalang(京都大学工程研究生院)、Dichucheng Li(独立研究者)、Kazuyoshi Yoshii(京都大学工程研究生院) 💡 毒舌点评 亮点是跳出了传统BCE损失“对齐即全对,错一位全错”的思维定式,用OT损失来容忍合理的时间偏差,理论上更优雅且实验效果显著。短板在于论文对OT损失计算复杂度的讨论几乎空白,且将钢琴转录中复杂的踏板问题简单归因于offset不准,未来提升路径仍需更扎实的论证。 🔗 开源详情 代码:论文在“Repo:”处提供了一个GitHub仓库链接(https://github.com/WX-Wei/AMT-optimal-transport),但论文正文中未描述该仓库的具体内容(如是否包含完整代码、模型权重、训练脚本等),因此其实际开放性和完整性未知。 模型权重:未提及。 数据集:MAESTRO为公开数据集,但论文中未说明如何获取或处理的具体细节。 Demo:未提及。 复现材料:论文中提到了一些关键训练细节(数据集分割、CQT参数、优化器),但缺少batch size、具体epoch数、硬件信息等关键复现参数。 论文中引用的开源项目:提到了mir_eval库用于评估。 📌 核心摘要 该论文要解决自动钢琴转录中传统帧级二分类交叉熵(BCE)损失对时间错位过于敏感、导致模型需过度拟合微小对齐误差的问题。 核心方法是将钢琴转录形式化为最优传输(OT)问题,通过最小化预测音符分布到真实音符分布的运输成本来训练模型,从而自然地容忍合理的时间错位。 与已有方法相比,新在:a) 将损失函数从BCE替换为OT,改变了优化目标;b) 提出了专门设计的SFT-CRNN模型,包含谐波感知注意力机制。 主要实验结果:在MAESTRO数据集上,所提SFT-CRNN模型结合OT损失取得了音头F1分数98.36%的SOTA性能,相比使用BCE损失提升了0.75个百分点;在整体音符转录(���音头和音尾)上F1为90.78%。消融实验表明OT损失和模型中的LSTM、谐波注意力组件均带来显著性能提升。 实际意义是提出了一种即插即用的、更符合音乐感知逻辑的OT损失函数,可替换BCE用于现有模型,并推动了钢琴转录性能的提升。 主要局限性是当前模型未显式处理延音踏板,导致音尾(offset)转录性能(90.78% F1)尚未达到最佳,且OT损失的引入可能增加训练时的计算负担。 🏗️ 模型架构 本文提出了名为SFT-CRNN(空间-频率-时间卷积循环神经网络)的模型架构,旨在全面建模音乐信号的时频依赖关系。整体输入输出流程为:以CQT频谱图(维度 T x F)为输入,经过模型处理后,输出两个分布矩阵:预测的音头质量分布 Mon 和音尾质量分布 Moff(维度均为 T’ x F’)。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 279 words

ICASSP 2026 - 音乐转录 论文列表

ICASSP 2026 - 音乐转录 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Distribution Matching Approach to Neural Piano Transcripti 7.0分 前25% 📋 论文详情 🥇 A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport ✅ 7.0/10 | 前25% | #音乐转录 | #最优传输 | #注意力机制 #循环神经网络 👥 作者与机构 第一作者:Weixing Wei(京都大学信息学研究生院) 通讯作者:未说明 作者列表:Weixing Wei(京都大学信息学研究生院)、Raynaldi Lalang(京都大学工程研究生院)、Dichucheng Li(独立研究者)、Kazuyoshi Yoshii(京都大学工程研究生院) 💡 毒舌点评 亮点是跳出了传统BCE损失“对齐即全对,错一位全错”的思维定式,用OT损失来容忍合理的时间偏差,理论上更优雅且实验效果显著。短板在于论文对OT损失计算复杂度的讨论几乎空白,且将钢琴转录中复杂的踏板问题简单归因于offset不准,未来提升路径仍需更扎实的论证。 🔗 开源详情 代码:论文在“Repo:”处提供了一个GitHub仓库链接(https://github.com/WX-Wei/AMT-optimal-transport),但论文正文中未描述该仓库的具体内容(如是否包含完整代码、模型权重、训练脚本等),因此其实际开放性和完整性未知。 模型权重:未提及。 数据集:MAESTRO为公开数据集,但论文中未说明如何获取或处理的具体细节。 Demo:未提及。 复现材料:论文中提到了一些关键训练细节(数据集分割、CQT参数、优化器),但缺少batch size、具体epoch数、硬件信息等关键复现参数。 论文中引用的开源项目:提到了mir_eval库用于评估。 📌 核心摘要 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 85 words