A Hybrid Convolution-Mamba Network with Tone-Octave Contrastive Learning for Stratified Semi-Supervised Singing Melody Extraction
📄 A Hybrid Convolution-Mamba Network with Tone-Octave Contrastive Learning for Stratified Semi-Supervised Singing Melody Extraction #音乐信息检索 #歌唱旋律提取 #对比学习 #状态空间模型 #半监督学习 ✅ 7.5/10 | 前25% | #歌唱旋律提取 | #对比学习 | #音乐信息检索 #状态空间模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:康杰东(Kangjie Dong, 东华大学计算机科学与技术学院) 通讯作者:于帅(Shuai Yu, 大连理工大学信息与通信工程学院), 李威(Wei Li, 复旦大学计算机科学与技术学院) 作者列表:康杰东(东华大学计算机科学与技术学院), Shicheng Ding(美国塔博学院), 于帅(大连理工大学信息与通信工程学院, 通讯作者), 李威(复旦大学计算机科学与技术学院, 通讯作者) 💡 毒舌点评 这篇论文最大的亮点是其极致的“小而美”:仅用0.53M参数就在三个标准数据集上全面超越了从1M到147M不等的强基线,证明了其设计的混合架构与音调八度对比学习在特征表示上的高效性。然而,其分层半监督策略设计略显繁琐,且歌唱旋律提取作为相对垂直的音乐信息检索任务,其普适影响力相较于语音识别等通用任务有所局限。 📌 核心摘要 问题:现有的歌唱旋律提取(SME)方法在建模频谱图时,难以同时高效捕捉局部模式与长程时频依赖,并且缺乏对音高层次(音调、八度)这一音乐先验的显式建模。此外,大多数半监督方法将所有无标签数据同等对待,导致伪标签质量不高。 方法核心:提出了一个统一框架,包含三个关键组件:1)HybridNet:结合双轴Mamba和卷积神经网络来联合建模时频依赖,并设计了一种“结构池化”方案,将频率轴显式编码为“八度×音调”的网格结构,嵌入了音调层次先验。2)音调八度对比学习损失(TOCL):通过设计两个投影器分别将特征映射到音调和八度子空间,拉近相同音调或八度的嵌入,推远不匹配的对,并引入了基于时间邻近度的加权以强调有信息量的正负样本对。3)分层半监督学习策略(S-SSL):根据预测置信度和原型相似度,将无标签帧划分为“容易”、“模糊”、��困难”三组,并分别为每组设计不同的训练目标,从而更有效地利用无标签数据。 与已有方法相比新在哪里:相比CNN方法(如MF-TFA)能更好地建模长程依赖,相比Transformer方法(如TONet)复杂度更低,相比现有Mamba方法(如SpectMamba)引入了更强的结构先验(音调八度层次)和更精细的对比学习与半监督策略。该方法是首个将结构化音调先验、对比学习与分层半监督三者统一应用于SME的框架。 主要实验结果:在ADC2004, MIREX05和MedleyDB三个数据集上,所提HybridNet模型在主要指标OA上均取得了最佳性能。例如,在ADC2004上OA达到87.76%,比最强基线MF-TFA(85.39%)高2.37%。消融实验证实了结构池化(OP, -3.33% OA)、对比学习(TOCL, -1.38% OA)和分层半监督(S-SSL, -1.32% OA)三个组件的贡献。可视化结果(如图3)显示其生成的特征热图更干净,能捕捉到八度相关的谐波结构,在颤音等复杂片段上预测更准。 实际意义:提升了从复杂音乐信号中提取主唱旋律的准确度和模型效率(模型仅0.53M参数),有助于下游应用如哼唱检索、音乐推荐、翻唱识别等。其设计思路(结构先验嵌入、置信度分层利用无标签数据)对其他序列建模任务有借鉴意义。 主要局限性:任务(歌唱旋律提取)本身属于音乐信息检索中的一个垂直领域,应用广度相对有限。分层半监督策略引入了多个超参数(如τc, τa, λe, λa, λh),调优和部署可能稍显复杂。 🏗️ 模型架构 所提HybridNet整体采用类似U-Net的编码器-解码器架构,核心是混合块(Hybrid Block, HB)和结构池化。以下是详细流程: ...