音乐信息检索

Etude: Piano Cover Generation with a Three-Stage Approach — Extract, Structuralize, and Decode

📄 Etude: Piano Cover Generation with a Three-Stage Approach — Extract, Structuralize, and Decode #音乐生成 #生成模型 #自回归模型 #音乐信息检索 ✅ 7.0/10 | 前25% | #音乐生成 | #自回归模型 | #生成模型 #音乐信息检索学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Tse-Yang Chen（National Taiwan University）通讯作者：论文中未明确标注通讯作者作者列表：Tse-Yang Chen（National Taiwan University）， Yuh-Jzer Joung（National Taiwan University） 💡 毒舌点评论文的核心亮点在于三阶段解耦架构的设计非常巧妙，通过“提取-结构化解码”的流水线，强制让模型关注节拍对齐这一被以往工作忽视的关键，从而在主观听感上实现了质的飞跃（尤其是流畅度）。然而，其短板也显而易见：所构建的~4700首歌曲数据集虽然规模尚可，但高度集中于J-pop/K-pop，方法的泛化能力在其他音乐风格（如古典、爵士）上的有效性存疑，且“风格注入”的实际控制粒度和效果在论文中并未得到充分展示。 🔗 开源详情代码：论文中明确提供了项目页面链接：https://xiugapurin.github.io/Etude/，并声称所有代码将在该页面开源。模型权重：论文中未明确提及是否公开训练好的模型权重。数据集：论文描述了自行收集和筛选的数据集规模（4,752对，约500小时），但未明确说明是否公开原始音频数据集。仅提到代码、音频演示和完整手稿可在项目页面获取。 Demo：项目页面提供了音频演示（Audio Demonstrations）。复现材料：论文详细说明了数据集构建流程、模型架构细节（如GPT-NeoX参数配置）、训练超参数（学习率、批次大小、优化器、调度策略等），为复现提供了较好的信息基础。论文中引用的开源项目：使用了Beat-Transformer[8]、MrMsDTW[14]、SyncToolbox[15]、GPT-NeoX[16]、AdamW[17]。论文中未提及开源计划：论文中明确表示将在项目页面提供代码和演示，因此不能说未提及开源计划。但关于数据集和模型权重的公开情况，信息不完整。 📌 核心摘要问题：现有深度学习自动钢琴编曲（APCG）模型在生成的钢琴谱中经常出现节奏不一致、拍子混乱等问题，导致音乐结构感缺失，整体质量不高。核心方法：提出三阶段框架“Etude”。Extract阶段从原始音频中提取密集的、类MIDI的音乐事件特征；Structuralize阶段（与Extract并行）使用预训练Beat-Transformer提取精确的节拍框架（Fbeat）；Decode阶段基于Transformer，以小节为单位，结合提取的特征（X）、风格向量和前四小节的上下文，自回归生成目标钢琴序列（Y）。创新点：相比已有两阶段模型（如PiCoGen），新方法显式解耦了节拍检测，保证了结构一致性；设计了极简的Tiny-REMI标记化方案，移除了对APCG任务冗余的Token，降低了学习难度；引入了可控的风格向量，允许用户调节音乐织体和表情。主要实验结果：在100首测试集上，Etude（默认设置）在主观平均分（OVL）上达到3.50（满分5），显著优于基线PiCoGen2（2.97）、AMT-APC（2.46）和Music2MIDI（2.27），且统计显著（p<0.001）。在所提出的结构相似度（WPD）、节奏网格一致性（RGC）和节奏模式复杂度（IPE）等客观指标上，也表现出更接近人类演奏的平衡状态。详细结果见下表。模型主观总体分 (OVL) ↑ 主观流畅度 (FL) ↑ WPD ↓ RGC ↓ IPE Human 3.92 ± 0.96 4.03 ± 1.02 0.49 0.042 10.13 Etude - Default 3.50 ± 0.99 3.73 ± 0.98 0.21 0.020 9.02 Etude - Prompted 3.46 ± 1.00 3.70 ± 1.05 0.23 0.026 9.11 Etude Extractor 3.33 ± 1.00 3.31 ± 1.13 0.12 0.028 10.62 PiCoGen2 [3] 2.97 ± 1.04 3.33 ± 1.12 1.00 0.059 7.97 AMT-APC [4] 2.46 ± 1.04 2.37 ± 1.11 0.09 0.114 10.69 Music2MIDI [5] 2.27 ± 1.07 2.29 ± 1.13 0.18 0.160 8.94 实际意义：该方法显著提升了自动钢琴编曲的音乐性和结构合理性，使其主观评价接近人类水平，为社交媒体内容创作、音乐教育辅助等应用提供了更强大的工具。局限性：数据集主要基于流行音乐（J/K-pop），在其他音乐类型上的有效性未经验证；风格控制虽然引入，但仅以三个离散等级（低、中、高）实现，精细度和可控范围有限；论文未公开模型权重。 🏗️ 模型架构 Etude的整体架构（如图1所示）是一个清晰的三阶段流水线，旨在解耦自动钢琴编曲的复杂性。 ...

Evaluating High-Resolution Piano Sustain Pedal Depth Estimation with Musically Informed Metrics

📄 Evaluating High-Resolution Piano Sustain Pedal Depth Estimation with Musically Informed Metrics #音乐信息检索 #模型评估 #数据集 #开源工具 🔥 8.0/10 | 前25% | #音乐信息检索 | #模型评估 | #数据集 #开源工具学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hanwen Zhang (Schulich School of Music, McGill University) 通讯作者：未说明 (论文中未明确标注通讯作者) 作者列表：Hanwen Zhang (Schulich School of Music, McGill University), Kun Fang (Schulich School of Music, McGill University), Ziyu Wang (Courant Institute of Mathematical Sciences, New York University; Mohamed bin Zayed University of Artificial Intelligence), Ichiro Fujinaga (Schulich School of Music, McGill University) 💡 毒舌点评亮点：论文没有满足于用MSE/MAE糊弄事，而是从钢琴演奏和教学的真实需求出发，硬生生构建了一套“动作-手势”二层评估体系，为模型诊断提供了像“病历”一样具体的反馈，这比单纯跑分更有价值。短板：所提出的评估框架依赖额外的后处理步骤（如滑动窗口回归、手势分割与分类），增加了评估流程的复杂度；且手势类型的四象限划分标准（阈值）是基于特定数据集统计得出的，其普适性未在其他数据集上验证。 ...

ICASSP 2026 - 音乐信息检索论文列表

ICASSP 2026 - 音乐信息检索共 26 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Noise-to-Notes: Diffusion-Based Generation and Refinement fo 8.0分前10% 🥈 Leveraging Diffusion U-Net Features for Predominant Instrume 8.0分前25% 🥉 Subsequence SDTW: Differentiable Alignment with Flexible Bou 8.0分前25% 4. A Unsupervised Domain Adaptation Framework For Semi-Supervis 8.0分前25% 5. Evaluating High-Resolution Piano Sustain Pedal Depth Estimat 8.0分前25% 6. Improving Active Learning for Melody Estimation by Disentang 7.5分前25% 7. Temporal Distillation for Music Representation Learning 7.5分前25% 8. Constructing Composite Features for Interpretable Music-Tagg 7.5分前25% 9. Audio-to-Score Jazz Solo Transcription with the Rhythm Perce 7.5分前25% 10. Benchmarking Music Autotagging with MGPHot Expert Annotation 7.5分前25% 11. BeatMamba: Bidirectional Selective State-Space Modeling for 7.5分前25% 12. Spectrogram Event Based Feature Representation for Generaliz 7.5分前25% 13. BACHI: Boundary-Aware Symbolic Chord Recognition Through Mas 7.5分前25% 14. An Event-Based Sequence Modeling Approach to Recognizing Non 7.5分前25% 15. Off-The-Grid Multi-Pitch Estimation Using Optimal Transport 7.5分前25% 16. RMODGDF: A Robust STFT-Derived Feature for Musical Instrumen 7.0分前50% 17. SAUNA: Song-Level Audio & User-Listening Data Neural Alignme 7.0分前25% 18. Timbre-Based Pretraining with Pseudo-Labels for Multi-Instru 7.0分前25% 19. Towards Blind Data Cleaning: A Case Study in Music Source Se 7.0分前50% 20. Do Foundational Audio Encoders Understand Music Structure? 7.0分前25% 21. Sing What You Fit: A Perception-Based Dataset and Benchmark 7.0分前25% 22. Single-Step Controllable Music Bandwidth extension with Flow 7.0分前25% 23. Leveraging Whisper Embeddings For Audio-Based Lyrics Matchin 7.0分前50% 24. Enhancing Automatic Drum Transcription with Online Dynamic F 7.0分前25% 25. ALMA-Chor: Leveraging Audio-Lyric Alignment with Mamba for C 7.0分前25% 26. Vioptt: Violin Technique-Aware Transcription from Synthetic 6.5分前50% 📋 论文详情 🥇 Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription 🔥 8.0/10 | 前10% | #音乐信息检索 | #扩散模型 | #生成模型 #鲁棒性 ...

Improving Active Learning for Melody Estimation by Disentangling Uncertainties

📄 Improving Active Learning for Melody Estimation by Disentangling Uncertainties #音乐信息检索 #不确定性估计 #迁移学习 #少样本 ✅ 7.5/10 | 前25% | #音乐信息检索 | #不确定性估计 | #迁移学习 #少样本学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：未说明（论文标注“∗Equal contribution”，三位作者贡献相等）通讯作者：未说明作者列表：Aayush Jaiswal（印度理工学院坎普尔分校）、Parampreet Singh（印度理工学院坎普尔分校）、Vipul Arora（印度理工学院坎普尔分校） 💡 毒舌点评亮点：方法框架清晰，将证据深度学习（Evidential Deep Learning）这一不确定性解耦工具系统性地引入旋律估计任务，并通过详实的消融实验证明了回归设置下“认知不确定性”对主动学习的指导价值显著优于“随机不确定性”，为资源受限的跨域适应提供了有效方案。短板：实验规模偏小，仅在三个数据量不大的目标数据集上验证，缺乏在更大规模、更多样化基准（如MIR-1K之外的源域）上的测试，结论的普适性和说服力有待加强；此外，与最新最强的旋律估计SOTA模型（而非基础ResNet）的对比缺失，难以判断其在绝对性能上的竞争力。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/AayushJaiswal01/melody-extraction-evidential。模型权重：论文中未提及是否公开预训练模型权重。数据集：论文中使用的数据集（MIR-1K, HAR, ADC2004, MIREX-05）为公开数据集，并提供了引用链接。论文未说明是否提供额外的数据处理脚本或工具。 Demo：论文中未提及提供在线演示。复现材料：论文提供了算法描述、损失函数公式和实验设置概要，但未提供详细的训练配置文件、超参数列表、硬件信息或检查点。论文中引用的开源项目： mir_eval：用于评估MIR指标的工具库。论文未明确提及其他依赖的开源模型或框架。 📌 核心摘要这篇论文旨在解决旋律估计任务中，主动学习样本选择策略未能有效利用不同不确定性信息的问题。方法核心是采用证据深度学习（Evidential Deep Learning）框架，分别训练分类（M1）和回归（M2）两种模型，以解耦并独立输出估计音高的“随机不确定性”（Aleatoric Uncertainty，源于数据歧义）和“认知不确定性”（Epistemic Uncertainty，源于模型认知不足）。与已有使用聚合不确定性（如β-NLL）或未解耦不确定性（如TCP置信度）的方法相比，本文的新颖之处在于系统地研究了这两种不确定性在跨域主动学习中的相对效果。主要实验结果表明，在HAR数据集上的域适应任务中，基于认知不确定性的回归模型（M2 (E)）仅使用200个标注样本进行微调，整体准确率（OA）就能达到96.0%，显著优于使用随机不确定性（M2 (A)）的69.2%和其他基线方法（见论文图1及描述）。该工作的实际意义在于，能以极少的标注代价将模型从源域（如MIR-1K中文卡拉OK）高效迁移到新域（如印度古典音乐），降低了标注门槛。其主要局限性是实验验证的数据集规模较小且数量有限，可能限制了结论的普遍性；此外，论文未将所提方法与旋律估计领域已知的最先进（SOTA）模型进行直接对比。 ...

Interpretable Music Harmonic Analysis Through Multilinear Mixture of Experts

📄 Interpretable Music Harmonic Analysis Through Multilinear Mixture of Experts #音乐理解 #混合专家模型 #模型评估 #音乐信息检索 #数据集 ✅ 7.5/10 | 前25% | #音乐理解 | #混合专家模型 | #模型评估 #音乐信息检索学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Thanasis Triantafyllou（雅典大学信息与电信系）通讯作者：未说明（论文未明确指定）作者列表： Thanasis Triantafyllou（雅典大学信息与电信系） Mihalis A. Nicolaou（塞浦路斯大学，塞浦路斯研究所） Yannis Panagakis（雅典大学信息与电信系，Archimedes, Athena R.C.） 💡 毒舌点评亮点在于首次将内在可解释架构（µMoE）引入罗马数字分析任务，让模型决策变得对音乐学家“透明”，专家激活模式确实呈现出符合理论的五度圈和V-I关系。短板是性能相比基准模型RNBERT有1-2个点的下降，且实验局限于单一任务和特定数据集，未能充分展示该架构在其他音乐分析任务或更大规模模型上的潜力和鲁棒性。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/TomusD/muMoE-RNBERT 模型权重：论文中未提及是否公开µMoE-RNBERT的预训练模型权重。数据集：论文使用的数据集由多个公开集合（如TAVERN, When in Rome等）组成，但未提供统一的下载链接或具体的预处理脚本。原始数据集需从各自来源获取。 Demo：论文中未提及在线演示。复现材料：论文详细描述了训练策略、超参数、硬件环境、数据预处理和增强方法，为��现提供了充分的必要信息。依赖的开源项目：明确依赖并基于MusicBERT模型进行微调。实现使用PyTorch框架。张量分解和µMoE的具体实现参考了论文[13]（Oldfield et al., NeurIPS 2024）的方法。 📌 核心摘要问题：现有基于Transformer的罗马数字分析（RNA）模型（如RNBERT）虽然性能先进，但缺乏可解释性，无法向音乐学家解释其分析背后的音乐理论依据，限制了其在学术研究中的应用价值。核心方法：提出µMoE-RNBERT，通过用多线性混合专家（µMoE）层替换RNBERT中前馈网络（MLP）的线性层，构建第一个内在可解释的深度RNA系统。不同的专家子网络能够学习并专门处理不同的和声模式。创新之处：是首个为RNA任务设计的内在可解释深度学习系统。不同于事后解释，其可解释性源于模型架构本身。该方法在保持与原始RNBERT几乎相同参数量（~26.7M）和计算成本的前提下，引入了专家专业化机制。实验结果：在相同数据集和评估协议下，µMoE-RNBERT取得了与基准RNBERT可比但略低的性能。具体而言，整体罗马数字准确度（RN Accuracy）在74.6%-74.9%之间（基准为76.2%），在关键、质量、音级等子任务上也略有差距。但定性分析表明，专家激活显著遵循音乐理论，例如，不同专家专注于特定调性及其中的V-I进行，并呈现出五度圈的邻近调性模式。实际意义：为音乐信息检索（MIR）和计算音乐学研究提供了一个可解释的AI工具。音乐学家可以观察并验证模型分析所依据的内部“音乐规则”，从而增进对模型行为的信任，并可能从中发现新的音乐结构洞见。主要局限性：a) 性能相比当前最优基线有轻微损失；b) 可解释性分析主要基于可视化和统计观察，缺乏更系统的量化评估框架；c) 该方法的有效性尚未在其他音乐理解任务（如旋律生成、节奏分析）上得到验证。 🏗️ 模型架构 µMoE-RNBERT的整体架构基于RNBERT，其核心改动是将标准MLP层替换为µMoE层。 ...

Leveraging Diffusion U-Net Features for Predominant Instrument Recognition

📄 Leveraging Diffusion U-Net Features for Predominant Instrument Recognition #音乐信息检索 #扩散模型 #特征学习 #低资源 🔥 8.0/10 | 前25% | #音乐信息检索 | #扩散模型 | #特征学习 #低资源学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Charis Cochran（Drexel University, USA）通讯作者：未说明作者列表：Charis Cochran（Drexel University, USA）、Yeongheon Lee（University of Pennsylvania, USA）、Youngmoo Kim（Drexel University, USA） 💡 毒舌点评亮点：论文巧妙地将用于生成的扩散模型“降维”用作特征提取器，并系统验证了其在音频识别任务（PIR）上的潜力，思路新颖且具有启发性。短板：实验结果虽然显示了扩散特征的竞争力，但整体上并未显著超越一个相对陈旧的CNN基线（Han et al., 2017），且部分乐器（如小号、大提琴）性能下降，暴露出该方法在特定音色上的脆弱性和数据集局限。 🔗 开源详情代码：提供了GitHub仓库链接：https://github.com/charisrenee/InstrumentRecognitionWithDiffusion。模型权重：论文中未明确提及是否公开预训练的扩散模型（Model 0/A/B/C）或最终分类器的权重。数据集：明确说明并发布了新创建的OpenPIR数据集，可在上述GitHub仓库获取。IRMAS是公开数据集。 Demo：论文中未提及在线演示。复现材料：提供了扩散模型训练参数表格（表1）、特征提取和分类器评估的系统化流程（图1），代码仓库应包含相关实现。但部分训练细节（如优化器、学习率）未在论文正文中详述。论文中引用的开源项目：引用了a-unet， audio-diffusion-pytorch用于构建扩散模型；SoundStream用于声码器；IRMAS、OpenMIC作为数据源。 📌 核心摘要这篇论文旨在解决音乐信息检索（MIR）中的主要乐器识别（PIR）任务面临的数据标注有限和类间性能差异大的问题。其核心方法是：首次将预训练的音频扩散模型（U-Net结构）作为固定的特征提取器，通过探究其在不同去噪时间步（t）和网络层的中间表征，搭配轻量级分类器头（如MLP、CNN）来完成PIR任务。为弥合训练集（单标签）与测试集（多标签）的不匹配，论文还提出了一个新的多标签注释数据集OpenPIR。实验表明，在低噪声条件下的瓶颈层特征最具判别力，且使用OpenPIR数据能一致提升所有模型的性能。虽然扩散特征的整体性能（例如，最佳模型的Micro F1接近但未全面超越Han et al. CNN基线的0.65）尚未成为新的SOTA，但在电吉他、原声吉他和钢琴等特定乐器上已展现出超越基线的潜力。这项工作为“生成模型可用于判别性任务”在音频领域提供了早期证据，指明了探索统一生成-识别框架的方向。其主要局限性在于，对于大提琴、单簧管等乐器的识别依然困难，且所用扩散模型参数量（240M）远大于分类器，整体方案效率有待评估。 ...

Leveraging Whisper Embeddings For Audio-Based Lyrics Matching

📄 Leveraging Whisper Embeddings For Audio-Based Lyrics Matching #音频检索 #音乐信息检索 #对比学习 #Whisper #多语言 ✅ 7.0/10 | 前50% | #音乐信息检索 | #对比学习 | #音频检索 #Whisper 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Eleonora Mancini（博洛尼亚大学，DISI）通讯作者：未说明作者列表：Eleonora Mancini（博洛尼亚大学，DISI）、Joan Serrà（Sony AI）、Paolo Torroni（博洛尼亚大学，DISI）、Yuki Mitsufuji（Sony AI， Sony Group Corporation） 💡 毒舌点评亮点在于将“可复现性”作为核心卖点并切实执行，在音乐信息检索领域提供了第一个透明的歌词匹配端到端管线，这对建立公平的学术比较至关重要。短板则是其核心技术创新略显不足，本质上是将现有的优秀组件（Whisper、Transformer、对比学习）进行有效组装，缺少对歌词语义表征学习本身更深入的建模或理论分析。 🔗 开源详情代码：提供。论文明确给出了代码仓库链接：https://github.com/helemanc/audio-based-lyrics-matching。模型权重：论文中提到了“models’ checkpoints”，但未明确说明是否公开下载。未提供。数据集：论文使用了三个公开数据集（DVI， SHS， LYC），并说明了数据收集和处理方式。未提供自己的新数据集。 Demo：论文中未提及在线演示。复现材料：提供了充分的训练细节（优化器、学习率、调度、批量大小、早停条件等）、超参数设置和评估协议，可复现性高。论文中引用的开源项目： Whisper [1]（预训练ASR模型） Sentence-BERT (SBERT) [18]（用于基线）可能引用的其他基线实现（如CLEWS [6]， ByteCover [7,8]）。 📌 核心摘要解决的问题：现有的基于音频的歌词匹配方法面临可复现性差、基线不一致、依赖文本转录或复杂流程等问题，阻碍了公平比较和领域发展。方法核心：提出WEALY（Whisper Embeddings for Audio-based LYrics matching），一个端到端的、可复现的管线。其核心是直接从原始音频中提取Whisper解码器的隐状态（歌词感知嵌入），然后通过一个轻量级Transformer编码器和广义均值（GeM）池化，将其映射为紧凑的向量表示，并使用对比学习（NT-Xent损失）在音乐版本识别（MVI）任务上训练。与已有方法相比新在哪里：主要创新不在于提出全新的模型架构，而在于：a) 完全摒弃了文本转录步骤，直接从音频特征中学习歌词表征；b) 提供了从代码到模型检查点的完全透明、可复现的实现；c) 在多个数据集上建立了标准化的歌词匹配基线；d) 通过消融研究系统分析了损失函数、池化策略、多语言能力等关键设计选择。主要实验结果：WEALY在三个数据集（DVI, SHS, LYC）上均显著优于基于转录文本（TF-IDF, ASR-SBERT）和简单平均嵌入的基线。例如，在SHS数据集上，WEALY的MAP为0.640，而最强的文本基线ASR-SBERT-Cosine仅为0.508。消融研究表明，NT-Xent损失优于三元组损失和CLEWS损失；GeM池化优于简单平均；保留Whisper的多语言能力比强制英语解码性能更高（0.640 vs 0.578）。初步的多模态融合实验（WEALY+CLEWS）在SHS上达到了0.912 MAP，超越了单一模态的最佳性能。实际意义：为音乐信息检索、版权检测、音乐发现等应用提供了一个可靠、开源的歌词匹配工具和研究基准，推动了该领域的可复现研究。主要局限性：a) 核心方法组合创新性有限；b) 作为代理任务的MVI与纯粹的歌词匹配任务可能存在差距；c) 尽管多模态融合效果好，但歌词匹配本身的性能仍低于纯音频内容模型（如CLEWS的0.876 MAP）。 🏗️ 模型架构 WEALY采用一个两阶段的管线架构，如图1所示： ...

Musicdetr: A Position-Aware Spectral Note Detection Model for Singing Transcription

📄 Musicdetr: A Position-Aware Spectral Note Detection Model for Singing Transcription #歌唱语音转录 #音乐信息检索 #对象检测 #注意力机制 #端到端 🔥 8.5/10 | 前10% | #歌唱语音转录 | #对象检测 | #音乐信息检索 #注意力机制学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Mengqiao Chen（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室）通讯作者：Wei Xu（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室）作者列表：Mengqiao Chen（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室）、Qikai He（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室）、Zhuoyuan Zhang（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室）、Wenqing Cheng（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室）、Wei Xu（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室） 💡 毒舌点评亮点：首次将DETR引入歌声转录领域，并非简单套用，而是通过设计音符位置解码器、多目标单匹配策略和质量敏感损失函数三个针对性模块进行了深度改造，在多个基准上达到SOTA，证明了对象检测范式在AST中的有效性。短板：论文计算复杂度（特别是引入额外解码器层）未作分析，在音符密集或快速演唱等复杂场景下的鲁棒性有待进一步验证；此外，部分训练细节（如具体优化器参数）的缺失略微影响了技术方案的完整透明度。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/ChenMengqiao/MusicDETR。模型权重：论文未提及是否公开预训练模型权重。数据集：论文扩展的SSVD3.0数据集公开可用，提供了下载链接 (https://github.com/hust-itec2/SSVD3.0)。MIR-ST500和ISMIR2014为公开数据集。 Demo：论文未提供在线演示链接。复现材料：论文提供了代码仓库，但未详细列出训练配置文件、检查点或附录中的超参数设置。引用的开源项目：论文未明确列出所有依赖的开源项目，但方法基于DETR框架，并使用了mir_eval库进行评估。 📌 核心摘要问题：自动歌声转录（AST）旨在从歌声音频中推断音符的起始、结束时间和音高。传统方法或简单的帧级预测模型在准确性和端到端能力上仍有提升空间。方法核心：本文提出了MusicDETR，一个基于Transformer的端到端AST模型。它将转录问题转化为频谱图上的音符对象检测问题，并首次在AST领域引入DETR框架。其核心创新在于设计了利用音符间位置关系的音符位置解码器、增加训练正样本的多目标单匹配（MTSM）策略以及对检测质量更敏感的质量敏感匹配损失（QML）。创新点：a) 位置感知解码：通过量化音符在频谱图中的位置相关性（MC值接近0.8），并在解码器自注意力中显式融入音符间的相对位置关系编码。b) 训练策略优化：采用MTSM策略，通过复制目标图像来增加每个训练批次中的正样本数量，缓解O2O匹配导致的样本稀缺问题。c) 损失函数设计：提出QML损失，同时对预测框的IoU和分类分数敏感，避免因匹配错误导致的重叠检测和漏检。 ...

Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription

📄 Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription #音乐信息检索 #扩散模型 #生成模型 #鲁棒性 🔥 8.0/10 | 前10% | #音乐信息检索 | #扩散模型 | #生成模型 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文未明确标注）通讯作者：未说明（论文未明确标注）作者列表：Michael Yeung（Sony Group Corporation, Tokyo, Japan）、Keisuke Toyama（Sony Group Corporation, Tokyo, Japan）、Toya Teramoto（Sony Group Corporation, Tokyo, Japan）、Shusuke Takahashi（Sony Group Corporation, Tokyo, Japan）、Tamaki Kojima（Sony Group Corporation, Tokyo, Japan） 💡 毒舌点评亮点：首次将扩散模型作为生成范式应用于自动鼓转录（ADT），不仅在多个基准测试上超越了所有判别模型，还展示了在音频部分缺失情况下的“修复”能力，这在ADT乃至更广的音乐转录领域都是新颖的。短板：论文的核心卖点是“生成模型超越判别模型”，但作为生成模型的代价是推理速度显著慢于同等性能的判别模型（例如，单步推理0.163s vs. 0.086s），这使得其在实时或低延迟应用场景中的实用性大打折扣。 ...

Off-The-Grid Multi-Pitch Estimation Using Optimal Transport

📄 Off-The-Grid Multi-Pitch Estimation Using Optimal Transport #音乐信息检索 #信号处理 #鲁棒性 #优化算法 #模型比较 ✅ 7.5/10 | 前25% | #音乐信息检索 | #信号处理 | #鲁棒性 #优化算法学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Anton Björkman（阿尔托大学信息与通信工程系）通讯作者：未说明作者列表：Anton Björkman（阿尔托大学信息与通信工程系）、Filip Elvander（阿尔托大学信息与通信工程系） 💡 毒舌点评本文的核心亮点在于用最优传输（OT）的优雅数学框架，系统性地解决了传统多音高估计方法长期受限于“网格”和“完美谐波假设”两大痛点，在理论上更具通用性。然而，其短板也十分明显：方法依赖外部先验估计器的初始化，且实验部分仅限于有限场景下的蒙特卡洛模拟，缺乏真实复杂音频数据的验证，说服力有待加强。 🔗 开源详情代码：提供了代码仓库链接 https://github.com/anton-bman/OTG-PEOT，论文中注明包含算法实现、命题证明、区间（7）及更新式（8）的推导。模型权重：未提及。数据集：未提及公开数据集，实验基于论文内描述的合成数据生成方式。 Demo：未提及。复现材料：提供了详细的算法描述、关键公式和超参数设置，为复现提供了必要信息。论文中引用的开源项目：论文未明确提及依赖的其他开源工具或模型。 📌 核心摘要要解决什么问题：本文旨在解决多音高估计中的两大挑战：一是传统方法依赖于预定义的离散音高网格，限制了估计精度；二是大多数方法假设信号为完美谐波结构，对实际信号中存在的非谐波性（inharmonicity）敏感。方法核心是什么：提出一种基于最优传输（OT）的框架，将音高估计问题建模为将信号频谱质量（measure）重新分配到基频质量的过程。通过块坐标下降法交替优化两个变量：传输计划（描述频谱能量如何流向基频）和基频估计值本身。与已有方法相比新在哪里：去网格化：首次在OT框架下实现了对基频的连续值估计，摆脱了固定网格的限制，理论上可获得更高精度。适应非谐波：通过设计特定的地面代价函数（ground-cost function），使算法能够适应轻微的非谐波偏差。优化策略：引入局部二次近似和迭代更新，将高度非凸的OT问题转化为可高效求解的凸问题序列。主要实验结果如何：论文通过蒙特卡洛模拟（3音高信号，800采样点）进行评估。图2显示，在完美谐波信号下，所提方法（结合PESCOT-2先验）的粗大误差率（GER）在所有信噪比（SNR）下均为最低，但低噪时的均方根误差（RMSE）略逊于PEBSI-lite。图3显示，在非谐波信号（SNR=5dB）下，随着非谐波参数σ∆增大，所提方法的RMSE保持稳定且GER持续很低，而PEBSI-lite的性能则急剧恶化。论文未提供具体的数值表格，关键对比结论均来自对图2、图3的描述。实际意义是什么：该方法为语音处理、音乐信息检索等领域中，对频率成分复杂、非谐波特性明显的信号（如弦乐器、人声）进行高精度音高分析提供了新的理论框架。主要局限性是什么：依赖先验：算法的初始化依赖于另一个先验音高估计器（如PESCOT-2），若先验不准可能影响最终性能。实验局限：实验仅限于合成信号的仿真，未在真实世界复杂音频（如混合乐器录音、带噪声的语音）上验证。任务垂直：解决的是一个特定信号处理子问题，潜在应用范围相对狭窄。 🏗️ 模型架构本文提出的是一个基于优化理论的算法框架，而非神经网络架构。其核心流程如下： ...