A Hybrid Convolution-Mamba Network with Tone-Octave Contrastive Learning for Stratified Semi-Supervised Singing Melody Extraction

📄 A Hybrid Convolution-Mamba Network with Tone-Octave Contrastive Learning for Stratified Semi-Supervised Singing Melody Extraction #音乐信息检索 #歌唱旋律提取 #对比学习 #状态空间模型 #半监督学习 ✅ 7.5/10 | 前25% | #歌唱旋律提取 | #对比学习 | #音乐信息检索 #状态空间模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:康杰东(Kangjie Dong, 东华大学计算机科学与技术学院) 通讯作者:于帅(Shuai Yu, 大连理工大学信息与通信工程学院), 李威(Wei Li, 复旦大学计算机科学与技术学院) 作者列表:康杰东(东华大学计算机科学与技术学院), Shicheng Ding(美国塔博学院), 于帅(大连理工大学信息与通信工程学院, 通讯作者), 李威(复旦大学计算机科学与技术学院, 通讯作者) 💡 毒舌点评 这篇论文最大的亮点是其极致的“小而美”:仅用0.53M参数就在三个标准数据集上全面超越了从1M到147M不等的强基线,证明了其设计的混合架构与音调八度对比学习在特征表示上的高效性。然而,其分层半监督策略设计略显繁琐,且歌唱旋律提取作为相对垂直的音乐信息检索任务,其普适影响力相较于语音识别等通用任务有所局限。 📌 核心摘要 问题:现有的歌唱旋律提取(SME)方法在建模频谱图时,难以同时高效捕捉局部模式与长程时频依赖,并且缺乏对音高层次(音调、八度)这一音乐先验的显式建模。此外,大多数半监督方法将所有无标签数据同等对待,导致伪标签质量不高。 方法核心:提出了一个统一框架,包含三个关键组件:1)HybridNet:结合双轴Mamba和卷积神经网络来联合建模时频依赖,并设计了一种“结构池化”方案,将频率轴显式编码为“八度×音调”的网格结构,嵌入了音调层次先验。2)音调八度对比学习损失(TOCL):通过设计两个投影器分别将特征映射到音调和八度子空间,拉近相同音调或八度的嵌入,推远不匹配的对,并引入了基于时间邻近度的加权以强调有信息量的正负样本对。3)分层半监督学习策略(S-SSL):根据预测置信度和原型相似度,将无标签帧划分为“容易”、“模糊”、��困难”三组,并分别为每组设计不同的训练目标,从而更有效地利用无标签数据。 与已有方法相比新在哪里:相比CNN方法(如MF-TFA)能更好地建模长程依赖,相比Transformer方法(如TONet)复杂度更低,相比现有Mamba方法(如SpectMamba)引入了更强的结构先验(音调八度层次)和更精细的对比学习与半监督策略。该方法是首个将结构化音调先验、对比学习与分层半监督三者统一应用于SME的框架。 主要实验结果:在ADC2004, MIREX05和MedleyDB三个数据集上,所提HybridNet模型在主要指标OA上均取得了最佳性能。例如,在ADC2004上OA达到87.76%,比最强基线MF-TFA(85.39%)高2.37%。消融实验证实了结构池化(OP, -3.33% OA)、对比学习(TOCL, -1.38% OA)和分层半监督(S-SSL, -1.32% OA)三个组件的贡献。可视化结果(如图3)显示其生成的特征热图更干净,能捕捉到八度相关的谐波结构,在颤音等复杂片段上预测更准。 实际意义:提升了从复杂音乐信号中提取主唱旋律的准确度和模型效率(模型仅0.53M参数),有助于下游应用如哼唱检索、音乐推荐、翻唱识别等。其设计思路(结构先验嵌入、置信度分层利用无标签数据)对其他序列建模任务有借鉴意义。 主要局限性:任务(歌唱旋律提取)本身属于音乐信息检索中的一个垂直领域,应用广度相对有限。分层半监督策略引入了多个超参数(如τc, τa, λe, λa, λh),调优和部署可能稍显复杂。 🏗️ 模型架构 所提HybridNet整体采用类似U-Net的编码器-解码器架构,核心是混合块(Hybrid Block, HB)和结构池化。以下是详细流程: ...

2026-04-29

A Unsupervised Domain Adaptation Framework For Semi-Supervised Melody Extraction Using Confidence Matrix Replace and Nearest Neighbour Supervision

📄 A Unsupervised Domain Adaptation Framework For Semi-Supervised Melody Extraction Using Confidence Matrix Replace and Nearest Neighbour Supervision #音乐信息检索 #领域适应 #对比学习 #半监督学习 #数据增强 🔥 8.0/10 | 前25% | #音乐信息检索 | #领域适应 | #对比学习 #半监督学习 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Shengqi Wang(东华大学计算机科学与技术学院) 通讯作者:Shuai Yu(大连理工大学信息与通信工程学院),Wei Li(复旦大学计算机科学与技术学院) 作者列表:Shengqi Wang(东华大学计算机科学与技术学院)、Shuai Yu(大连理工大学信息与通信工程学院)、Wei Li(复旦大学计算机科学与技术学院) 💡 毒舌点评 本文将“被动适应”重新定义为“主动修复”并设计了相应的CMR和NNS模块,技术故事讲得通顺且实验验证充分,在跨域旋律提取上取得了稳健提升,是个不错的应用导向型工作。但CMR模块中使用KL散度进行“最兼容”补丁选择的设计动机和计算开销分析稍显薄弱,部分核心机制(如patch-wise操作的具体实现)在文中描述不够细致,图表(图2)的可视化对比冲击力也有提升空间。 📌 核心摘要 问题:旋律提取任务面临标注数据稀缺和跨域偏移(如不同音乐风格)两大挑战。现有半监督域适应方法多采用“被动适应”范式,易受伪标签噪声和域差异限制。 方法核心:提出一种“主动修复”范式的无监督域适应框架,包含两个核心模块:置信度矩阵替换(CMR)和最近邻监督(NNS)。CMR通过分析模型预测的置信度,主动用高置信度区域(来自增强版本)替换低置信度区域,生成更强的训练样本。NNS利用最近邻对比学习,在语义特征空间对齐源域和目标域。 创新点:首次将“主动修复”思想引入该领域;CMR实现了像素级(patch-wise)的语义修复;NNS实现了样本级的特征空间对齐;两者结合共同提升了模型对无标签目标域数据的利用率。 实验结果:在六个跨流行(P)、古典(C)、爵士(J)风格的旋律提取任务上,所提方法(CMR-NNS)在整体准确率(OA)上均优于基线模型(MSNet, FTANet, LcMLP, MCSSME)。关键数据见下表。 表3:与基线方法的总体准确率(OA)对比 方法 P→C C→P J→C C→J J→P P→J MSNet 42.34 62.69 35.06 61.31 58.40 44.21 FTANet 42.78 63.84 37.37 62.81 53.63 44.64 LcMLP 40.38 63.15 32.41 62.64 47.07 44.01 MCSSME 43.51 65.28 37.96 63.26 59.72 45.21 Ours 44.75 69.13 43.40 67.86 63.99 48.50 实际意义:为音乐信息检索中跨风格的旋律提取提供了新的有效框架,有助于降低对目标域标注数据的依赖。 主要局限性:实验仅在特定三种音乐风格的交叉任务上验证,任务规模相对有限;未讨论计算复杂度;CMR的补丁大小、置信度计算等关键超参数的选择依据未充分阐述。 🏗️ 模型架构 本文提出的CMR-NNS框架是一个面向半监督域适应的端到端深度学习模型,旨在利用带标签的源域数据和无标签的目标域数据训练旋律提取模型。 ...

2026-04-29

Adversarial Rivalry Learning for Music Classification

📄 Adversarial Rivalry Learning for Music Classification #音乐分类 #音乐信息检索 #对抗学习 #注意力机制 #音频分类 ✅ 6.5/10 | 前25% | #音乐分类 | #对抗学习 | #音乐信息检索 #注意力机制 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yi-Xing Lin(中央研究院 资讯科学研究所) 通讯作者:未说明 作者列表:Yi-Xing Lin(中央研究院 资讯科学研究所)、Wen-Li Wei(中央研究院 资讯科学研究所)、Jen-Chun Lin(中央研究院 资讯科学研究所) 💡 毒舌点评 本文巧妙地将复杂的“反事实推理”优化问题,转化为两个注意力分支之间更直观的“对抗赛跑”,有效简化了超参调优,是LCA方法的一次有价值的工程化精简。然而,论文仅在几个标准音乐数据集上进行了验证,未能在更具挑战性的多模态或跨领域任务中展示其通用性,且完全未开源代码,使得这一“简单有效”的范式难以被社区快速接纳和验证。 📌 核心摘要 要解决什么问题:现有的Learnable Counterfactual Attention (LCA)机制为引导注意力学习,依赖于多个损失项来满足复杂的反事实标准,导致超参数调优负担重、优化不稳定,且因标准模糊而难以跨数据集/任务迁移。 方法核心是什么:提出Adversarial Rivalry Learning (ARL)范式。该范式摒弃了模糊的反事实标准,让模型的主注意力分支与一个辅助注意力分支构成动态竞争对手。在训练中,表现较差的分支通过模仿其优势对手机制(保留两个核心损失:分类损失和效应损失)进行更新,并在超越对手后交换角色。训练结束后,仅保留胜出分支用于推理。 与已有方法相比新在哪里:核心创新在于用结构化的动态竞争机制取代了LCA中基于多损失项的反事实推理。ARL将优化目标从“满足多个模糊的反事实约束”简化为“在分类任务上超越对手”,并实现了训练时参数平均和角色动态交换的机制。 主要实验结果如何:在四个音乐分类基准(Artist20, EMOPIA, FMA, GTZAN)和多种骨干模型(genreMERT, Short-chunk ResNet, M2D, AST-Fusion)上,ARL在几乎所有评估指标上均优于LCA基线,同时声称无需调优损失权重。关键结果如下: 表1:歌手识别(Artist20)任务F1分数 模型 帧级-平均 帧级-最佳 歌曲级-平均 歌曲级-最佳 genreMERT [1] 0.64 0.65 0.83 0.86 genreMERT (w/ LCA) [1] 0.66 0.68 0.84 0.89 genreMERT (w/ ARL) Ours 0.67 0.70 0.86 0.91 表2:音乐情感识别(EMOPIA)任务准确率与四象限准确率 ...

2026-04-29

ALMA-Chor: Leveraging Audio-Lyric Alignment with Mamba for Chorus Detection

📄 ALMA-Chor: Leveraging Audio-Lyric Alignment with Mamba for Chorus Detection #音乐信息检索 #多模态模型 #对比学习 #Mamba #端到端 ✅ 7.0/10 | 前25% | #音乐信息检索 | #多模态模型 | #对比学习 #Mamba 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Ruixi Bao(清华大学电子工程系, TeleAI 研究院) 通讯作者:Xiao-Lei Zhang†(TeleAI 研究院), Xuelong Li†(TeleAI 研究院) 作者列表:Ruixi Bao(清华大学电子工程系, TeleAI 研究院), Hao Ma(TeleAI 研究院), Shansong Liu†(TeleAI 研究院), Cheng Gong(TeleAI 研究院), Chi Zhang(TeleAI 研究院), Xiao-Lei Zhang†(TeleAI 研究院), Wei-Qiang Zhang(清华大学电子工程系), Xuelong Li†(TeleAI 研究院) 💡 毒舌点评 论文巧妙地将音乐基础模型MERT与前沿的Mamba2架构结合用于长序列副歌检测,并创新性地融入歌词模态信息,在自有数据集上取得了亮眼的性能提升,展现了多模态建模的有效性。然而,其核心验证建立在一个未公开的“内部数据集”上,这使得“超越SOTA”的声明大打折扣,也让其他研究者难以复现和公平评判。 ...

2026-04-29

An Event-Based Sequence Modeling Approach to Recognizing Non-Triad Chords with Oversegmentation Minimization

📄 An Event-Based Sequence Modeling Approach to Recognizing Non-Triad Chords with Oversegmentation Minimization #音乐信息检索 #自回归模型 #预训练 #时频分析 ✅ 7.5/10 | 前25% | #音乐信息检索 | #自回归模型 | #预训练 #时频分析 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Leekyung Kim(首尔国立大学工业工程系及工业系统创新研究所,以及 SK hynix) 通讯作者:Jonghun Park(首尔国立大学工业工程系及工业系统创新研究所) 作者列表:Leekyung Kim(首尔国立大学工业工程系及工业系统创新研究所, SK hynix)、Jonghun Park(首尔国立大学工业工程系及工业系统创新研究所) 💡 毒舌点评 亮点是把一个经典的帧级分类问题(ACR)聪明地重构为分段级的序列到序列预测任务,从根本上缓解了过度分割,且结构化的SPLIT标记能有效应对和弦数据不平衡问题,对复杂和弦的提升显著。短板在于论文所用数据集规模较小(仅471首歌),且缺乏在更大、更多样化数据集上的验证,这让人对其泛化能力到更复杂音乐类型(如爵士、古典)时的表现保持谨慎。 📌 核心摘要 这篇论文旨在解决自动和弦识别(ACR)任务中的过度分割、数据稀缺与不平衡三大挑战,尤其是针对非三和弦等复杂和弦。其核心方法是将ACR重新定义为一个分段级的序列到序列(seq2seq)预测问题,使用Transformer编码器-解码器架构,以自回归的方式预测和弦序列,而非传统的逐帧分类。这与已有方法的关键区别在于:1) 预测单元是段落而非帧,从模型架构上减少了产生碎片化预测的可能;2) 引入了MERGE(时间+和弦)和SPLIT(时间+根音+性质)两种结构化标记表示,后者能共享罕见和弦性质的训练数据;3) 设计了基于和弦相似性(WCSR)的编码器预训练策略,引导编码器学习具有音乐意义的嵌入。实验在471首流行歌曲的数据集上进行,结果表明,最终模型(pTEDS)在七种不同严格程度的加权和弦符号召回率(WCSR)指标上均优于强基线BTC,并在分割质量(SQ)上也取得领先,特别是在减少过度分割方面效果突出。该研究的实际意义在于提升了复杂和弦的识别能力并生成了更干净的分割结果,有助于下游音乐分析任务。主要局限性是所用数据集规模相对较小,可能限制了模型在更广泛音乐类型上的泛化验证。 主要实验结果(摘自Table 2): 模型 WCSR (root) WCSR (maj-min) WCSR (thirds) WCSR (triads) WCSR (sevenths) WCSR (tetrads) WCSR (mirex) SQ (under) SQ (over) SQ (mean) TE (基线) 81.5 81.0 79.6 75.5 71.8 66.1 79.6 89.5 81.4 80.3 TEDM 85.6 84.7 83.8 79.6 75.7 70.4 83.9 88.6 92.4 87.4 TEDS 86.5 85.6 84.9 80.6 77.1 72.0 84.9 89.3 92.3 88.0 pTEDS (本文) 87.4 86.7 85.9 81.5 78.6 73.2 85.7 89.8 92.9 88.6 BTC (SOTA) 83.5 82.3 80.8 75.9 71.8 65.5 80.8 90.1 85.9 84.6 🏗️ 模型架构 该模型是一个基于Transformer的编码器-解码器架构,用于执行序列到序列的预测任务。 ...

2026-04-29

Audio Effect Estimation with DNN-Based Prediction and Search Algorithm

📄 Audio Effect Estimation with DNN-Based Prediction and Search Algorithm #音频效果估计 #音乐信息检索 #深度神经网络 #优化算法 #音频效果移除 ✅ 7.0/10 | 前25% | #音频效果估计 | #深度神经网络 #优化算法 | #音乐信息检索 #深度神经网络 学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Youichi Okita(关西学院大学 理工学研究科) 通讯作者:Haruhiro Katayose(关西学院大学 工学部) 作者列表:Youichi Okita(关西学院大学 理工学研究科)、Haruhiro Katayose(关西学院大学 工学部) 💡 毒舌点评 这篇论文的亮点在于它优雅地模拟了人类音频工程师“先猜后调”的工作流程,将数据驱动的预测与基于信号相似度的搜索有机结合,实验证明这种“两阶段法”确实优于纯预测方法。短板在于其研究的问题场景(吉他效果链)相对垂直窄众,虽然方法论扎实,但能否推广到更复杂、更多样的现实音频处理场景(如流行音乐、混音工程)还有待验证,且未与该领域所有可能的最新方法进行对比。 📌 核心摘要 解决的问题:解决“音频效果估计”任务,即从经过效果处理的湿信号中,推断出所应用的效果器类型、顺序及其参数设置。 方法核心:提出一种两阶段方法。第一阶段,使用DNN预测干信号和/或效果配置的部分信息(如类型组合);第二阶段,以预测的干信号为基础,通过优化算法(如CMA-ES)搜索最佳参数,使得应用预测效果链后重建的信号与原始湿信号的相似度最大化。 与已有方法相比新在何处:突破了现有方法要么纯预测(依赖大量标注数据,可能不准)、要么纯搜索(需要已知干信号)的局限。通过先预测干信号,为搜索阶段提供了关键输入,从而能够利用重建相似度这一客观目标来优化预测结果,实现了两类方法的互补。 主要实验结果:在吉他效果链数据集上,该两阶段方法在湿信号重建任务上显著优于纯预测基线(例如,SI-SDR从18.18提升至23.07)。同时,研究发现将“预测效果类型组合”与“搜索估计顺序和参数”结合的任务划分策略,在多项指标(类型分类F1、重建SI-SDR等)上表现最佳。关键结果表格如下: 任务 方法 核心指标 数值 单效果类型分类 Bypass-Type-Iter Macro F1 0.919 Bypass-Config-Iter Macro F1 0.917 效果链类型分类 Dry-Type-Direct + Search Macro F1 0.958 Bypass-Type-Iter Macro F1 0.949 Bypass-Config-Iter Macro F1 0.942 单效果移除 Bypass-Type-Iter SI-SDR 26.32 效果链移除 Dry-Type-Direct SI-SDR 13.96 Bypass-Type-Iter SI-SDR 14.95 湿信号重建 Bypass-Config-Iter (基线) SI-SDR 18.18 Dry-Type-Direct + Search SI-SDR 23.07 Bypass-Type-Iter + Search SI-SDR 22.68 实际意义:为自动化音频效果复制与分析提供了新思路,有望帮助音乐初学者学习音色设计,或辅助音频工程师快速复现复杂效果。 主要局限性:实验仅覆盖三种吉他效果(合唱、失真、混响)和较短的效果链,未涉及更多样化的效果类型和更长的链,其实用性和泛化能力有待进一步验证。 🏗️ 模型架构 论文的核心模型架构(预测阶段)如图2所示,其整体是一个包含“效果移除器”和“效果配置估计器”的深度神经网络。 ...

2026-04-29

Audio-to-Score Jazz Solo Transcription with the Rhythm Perceiver

📄 Audio-to-Score Jazz Solo Transcription with the Rhythm Perceiver #音乐信息检索 #爵士乐 #音频转录 #端到端 #节奏感知 ✅ 7.5/10 | 前25% | #音乐信息检索 | #端到端 | #爵士乐 #音频转录 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:未说明(论文标题页列出三位作者,但未明确标注第一作者) 通讯作者:未说明 作者列表:Ivan Shanin(Queen Mary University of London, Centre for Digital Music), Xavier Riley(Sound Patrol Inc.), Simon Dixon(Queen Mary University of London, Centre for Digital Music) 💡 毒舌点评 论文巧妙地将爵士乐转录问题拆解为“节奏优先,音高后补”的二阶段任务,并用一个统一的Transformer架构优雅地实现,这确实是模仿人类专家工作流程的聪明做法,在特定数据集上也取得了显著进步。然而,这种高度垂直的“爵士萨克斯独奏”任务定位,加上对高质量标注数据(如Omnibook)的强依赖,使其通用性和影响力打了个折扣;论文里对模型为何能有效泛化到节奏风格更复杂的帕克作品解释得也不够深入。 📌 核心摘要 这篇论文旨在解决即兴爵士独奏的音频到乐谱自动转录任务,特别是克服传统模块化流水线中错误累积的问题。其核心方法是提出一个名为“节奏感知器”(Rhythm Perceiver)的端到端神经网络模型。与先前方法不同,它逆向了处理逻辑:首先,模型预测每个小节中每个拍子的节奏结构(称为“节拍特征”),然后基于预测的节奏结构,在指定的起始点预测音高。模型采用了一种带有跨注意力机制的感知器(Perceiver)风格Transformer架构,将音频帧特征与节拍同步的节奏嵌入进行联合对齐。主要实验结果在极具挑战性的Charlie Parker“Omnibook”数据集上显示,该方法在多项指标上(如钢琴卷帘准确率、节奏准确率)显著优于现有的基线系统(CRNN+qparse),证明了显式建模节拍级节奏单元的有效性。其实际意义在于能为音乐分析和教育提供更准确的乐谱标注工具。主要局限性在于模型针对主流爵士乐节奏范式(如Bebop)进行训练,可能难以完美处理更复杂或前卫的节奏风格,且存在训练数据(Filosax)与测试数据(Omnibook)之间的领域差距。 ...

2026-04-29

Automatic Music Mixing Using a Generative Model of Effect Embeddings

📄 Automatic Music Mixing Using a Generative Model of Effect Embeddings #音乐生成 #扩散模型 #领域适应 #音乐信息检索 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #领域适应 #音乐信息检索 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eloi Moliner(Aalto大学,DICE声学实验室) 通讯作者:未说明 作者列表:Eloi Moliner(Aalto大学,DICE声学实验室)、Marco A. Mart´ınez-Ram´ırez(Sony AI)、Junghyun Koo(Sony AI)、Wei-Hsiang Liao(Sony AI)、Kin Wai Cheuk(Sony AI)、Joan Serr`a(Sony AI)、Vesa V¨alim¨aki(Aalto大学,DICE声学实验室)、Yuki Mitsufuji(Sony AI, Sony Group Corporation) 💡 毒舌点评 MEGAMI的核心亮点在于巧妙地将扩散模型应用于效应嵌入空间,解决了自动混音中“一对多”的根本难题,同时其领域适应策略为利用海量无配对湿录音数据提供了优雅的解决方案,架构设计完整且有深度。然而,论文的评估严重依赖内部数据集,缺乏在大型公开基准上的可复现比较,且其“接近人类水平”的结论在部分主观测试结果中略显主观,实际泛化能力与可落地性仍有疑问。 📌 核心摘要 这篇论文旨在解决自动音乐混音中的核心挑战:专业混音本质上是主观的,同一组干录音存在多种同样有效的混音方案,而现有的确定性回归方法无法捕捉这种多样性。论文提出了MEGAMI(Multitrack Embedding Generative Auto MIxing),一个生成式框架,它使用条件扩散模型在效应嵌入空间中建模给定干音轨的专业混音的条件分布。其核心方法是将混音决策(由效应嵌入表示)与音乐内容分离,并设计了一个排列等变的Transformer架构以处理任意数量和顺序的音轨。与已有方法相比,MEGAMI的创新在于:(1)首次将生成模型(扩散模型)用于自动混音;(2)提出了一种效应嵌入因式分解;(3)通过领域适应策略,使模型能利用大量仅有湿录音的公开数据集进行训练。实验表明,在客观分布性指标(KAD)上,MEGAMI优于所有基线;主观听力测试显示其性能接近人类混音师,在部分曲目上甚至超越了人类参考混音。这项工作为自动音乐生成开辟了新方向,其框架可用于合成混音数据集。主要局限性在于评估数据集大部分为内部数据,且模型性能依赖于CLAP和FxEncoder++等预训练嵌入模型的质量。 ...

2026-04-29

Automatic Music Sample Identification with Multi-Track Contrastive Learning

📄 Automatic Music Sample Identification with Multi-Track Contrastive Learning #音频检索 #对比学习 #自监督学习 #数据增强 #音乐信息检索 ✅ 7.5/10 | 前25% | #音频检索 | #对比学习 | #自监督学习 #数据增强 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Alain Riou (Sony AI) 通讯作者:未说明 作者列表:Alain Riou (Sony AI), Joan Serrà (Sony AI), Yuki Mitsufuji (Sony AI) 💡 毒舌点评 亮点在于用多轨数据“动态合成”正样本对的设计非常巧妙,比以往在单轨上做文章更贴近“采样后混音”的真实场景,且通过VQT域的增强操作在计算效率和效果之间取得了很好的平衡。短板是论文坦诚地指出了当前方法在理论上的一个根本局限(即单嵌入无法区分来自同一原曲的不同采样),但这恰恰暴露了对比学习在复杂关系建模上的天花板,后续工作若不能在此突破,则该领域的进步可能很快会触及瓶颈。 📌 核心摘要 问题:自动音乐采样识别(从新曲中检测并找到被采样的原曲)是一项重要但极具挑战的任务,面临训练数据匮乏、需抵抗复杂音频变换、以及在大库中高效检索等难题。 方法核心:提出一种基于自监督对比学习的框架。核心创新是利用多轨录音数据,在训练时动态创建“人工混合”正样本对(将不同轨道子集混合),模拟真实的采样混音过程。模型使用VQT(可变Q变换)时频表示作为输入,并采用ResNet-IBN编码器。 与已有方法相比新在哪里:(1) 数据创建范式革新:首次在采样识别任务中利用多轨数据创建混合正样本,而非仅从单轨中裁剪。(2) 对比损失设计:为匹配新的数据创建方式,设计了一种允许每个样本拥有两个正样本对的修改版对比损失。(3) 高效的频域增强:在VQT表示上进行随机裁剪和时间拉伸,以低成本实现对音高和时间偏移的鲁棒性。 主要实验结果:在标准的Sample100基准上,本方法取得了0.603的mAP,相较于之前最佳基线(0.442)提升了超过15%(绝对值),同时在HR@1、HR@10等指标上也大幅领先。消融实验证明了时间拉伸、音高偏移(VQT裁剪)等增强策略以及使用高质量ground-truth stems的必要性。实验结果关键表格如下: 表1:模型消融实验(在Sample100和SamplePairs数据集上) 模型 Sample100 mAP (↑) Sample100 HR@1 (↑) SamplePairs mAP (↑) SamplePairs HR@1 (↑) Ours (完整模型) 0.603 ± .098 0.587 ± .111 0.450 ± .095 0.430 ± .097 no time-stretch 0.463 ± .100 0.427 ± .112 0.301 ± .086 0.270 ± .087 no time-shift 0.598 ± .100 0.573 ± .112 0.376 ± .091 0.350 ± .093 no pitch-shift 0.422 ± .100 0.413 ± .094 0.355 ± .092 0.340 ± .093 Contrastive baseline 0.551 ± .101 0.533 ± .113 0.409 ± .092 0.380 ± .095 表2:与SOTA方法在Sample100上的性能对比 ...

2026-04-29

BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on POP and Classical Music

📄 BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on POP and Classical Music #音乐信息检索 #符号音乐 #迭代解码 #Transformer #数据集 ✅ 7.5/10 | 前25% | #音乐信息检索 | #迭代解码 | #符号音乐 #Transformer 学术质量 7.0/7 | 选题价值 7.5/2 | 复现加成 8.0 | 置信度 高 👥 作者与机构 第一作者:Mingyang Yao(加州大学圣地亚哥分校) 通讯作者:未说明 作者列表:Mingyang Yao(加州大学圣地亚哥分校)、Ke Chen(加州大学圣地亚哥分校)、Shlomo Dubnov(加州大学圣地亚哥分校)、Taylor Berg-Kirkpatrick(加州大学圣地亚哥分校) 💡 毒舌点评 亮点:模型设计精巧地融合了“边界检测”与“模仿人类耳练的置信度排序解码”两个直觉,在提升性能的同时也为模型决策提供了可解释性(如古典与流行音乐预测顺序的差异)。短板:研究高度聚焦于符号音乐的钢琴编曲场景,对更复杂的乐队总谱或电子音乐等格式的适用性未做探讨,限制了其普适性。此外,在流行音乐上相比SOTA提升微乎其微,创新带来的边际效益在该风格上不明显。 📌 核心摘要 问题:现有符号(乐谱)和弦识别(ACR)研究面临两大挑战:一是缺乏高质量、大规模标注的符号音乐数据集;二是现有模型方法未充分考虑并模拟人类音乐分析的渐进过程。 方法核心:提出BACHI模型,将和弦识别分解为两步:(1) 边界检测:使用Transformer编码器预测和弦变化点,并通过特征线性调制(FiLM)将边界信息注入到上下文表示中;(2) 置信度引导的迭代解码:使用一个Transformer解码器,迭代地填充被遮蔽的和弦元素(根音、性质、低音),每一步都优先选择当前置信度最高的元素进行预测。 创新点:与先前方法(如直接预测完整和弦标签或使用固定顺序解码)相比,BACHI引入了显式的边界感知模块和灵活的、数据驱动的迭代解码顺序,更贴合人类和弦分析的思维方式。 主要实验结果:在古典音乐(DCML+WiR)和新发布的流行音乐(POP909-CL)数据集上,BACHI在全和弦准确率(Full Chord Accuracy)上均取得了最佳性能。古典音乐:BACHI(68.1%)相比最佳基线(Harmony Transformer v2的62.1%)提升了6.0个百分点。流行音乐:BACHI(82.4%)与Harmony Transformer v2(82.2%)相当,但优于其他基线。消融实验证明了边界检测(BD)和迭代解码(ID)模块的贡献。 实际意义:提供了更可靠的流行音乐和弦标注数据集(POP909-CL),并为符号MIR任务(如音乐分析、和弦条件音乐生成、音乐教育)提供了更强的基础模型。 主要局限性:模型目前仅在钢琴编曲的符号音乐上验证,对更复杂的多声部、多乐器总谱的适用性未知;在流行音乐上相对SOTA的提升有限;其性能上限仍受制于符号音乐数据总量和标注一致性。 🏗️ 模型架构 BACHI是一个两阶段的深度学习模型,整体流程如图1所示。 ...

2026-04-29