BeatMamba: Bidirectional Selective State-Space Modeling for Efficient Beat Tracking

📄 BeatMamba: Bidirectional Selective State-Space Modeling for Efficient Beat Tracking #音乐信息检索 #选择性状态空间模型 #节奏跟踪 #音频分析 ✅ 7.5/10 | 前25% | #音乐信息检索 | #选择性状态空间模型 | #节奏跟踪 #音频分析 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ganghui Ru(复旦大学计算机科学与人工智能学院) 通讯作者:Yi Yu(广岛大学先进科学与工程研究生院),Wei Li(复旦大学计算机科学与人工智能学院;上海智能信息处理重点实验室) 作者列表:Ganghui Ru(复旦大学计算机科学与人工智能学院)、Yi Yu(广岛大学先进科学与工程研究生院)、Wei Li(复旦大学计算机科学与人工智能学院;上海智能信息处理重点实验室) 💡 毒舌点评 亮点:论文首次将选择性状态空间模型(Mamba)引入节拍跟踪任务,通过其线性复杂度特性有效解决了Transformer方法在长音乐序列上的效率瓶颈,并且设计了针对性的双向扫描模块与节奏一致性损失,方法动机清晰、实验设计完整。 短板:节奏一致性损失在面对复杂节奏(如SMC数据集中的古典音乐)时表现出负面效果,暴露出其强假设(等时性)的泛化局限;此外,论文未提供代码与模型权重,虽然细节充分,但离完全复现仍有距离。 📌 核心摘要 问题:现有节拍跟踪方法面临“双重尺度建模困境”,即需要同时精确建模局部瞬态事件和全局节奏状态。基于Transformer的方法因二次计算复杂度在处理长音乐序列时效率低下。 方法核心:提出BeatMamba模型,一个融合卷积与选择性状态空间模型(SSM)的U形编解码器架构。其核心是双向时间Mamba块,利用选择性机制动态聚焦于稀疏的节拍事件,同时捕获长程依赖。此外,提出一种新的节奏一致性(RC)损失,在序列级别约束预测的拍间间隔(IBI)方差,以增强节奏的结构规律性。 创新之处:1) 首次将SSM应用于节拍跟踪,实现了O(N)线性复杂度的长序列建模;2) 设计了对称的双向Mamba块,能同时利用过去和未来上下文;3) 提出基于对数拍间间隔方差的RC损失,显式建模音乐节奏的等时性先验。 主要结果:在四个基准数据集上,BeatMamba取得了最优或极具竞争力的性能。例如,在Ballroom数据集上,其AMLt达到97.2%,优于所有基线模型。消融实验验证了双向扫描(在GTZAN上F-measure从86.7%提升至88.9%)和RC损失(在GTZAN上CMLt从81.3%提升至82.3%)的有效性。 实际意义:为音乐信息检索中的长序列建模任务提供了一种高效且性能优异的新范式,尤其适用于对实时性或长音频处理有要求的场景。 主要局限性:RC损失对节奏复杂、速度自由变化的音乐(如SMC数据集)可能产生负面效果,表明其强正则化约束与真实音乐多样性之间存在矛盾。 🏗️ 模型架构 BeatMamba采用对称的U形编码器-解码器架构,其整体流程如下: 输入与时序压缩编码器: 输入:原始音频波形 I ∈ R^{S×T},其中采样率S=8192Hz,时长T=30秒。 处理:经过三个连续的1D卷积层,每层后接最大池化(步长=4),进行64倍下采样。 输出:紧凑的时序特征 F ∈ R^{L×C},其中 L = S/64 × T = 3840,通道维度C=96。此时特征帧率约为128Hz。 核心U形主干网络: 构建模块:完全由“双向时间Mamba块”构成。 编码器路径:包含下采样的Mamba块,逐级压缩时间分辨率(如图1所示,从128/s降至32/s),提取多尺度的节奏表征。 解码器路径:包含上采样的Mamba块,逐步恢复时间分辨率,并通过跳跃连接(Skip Connection)融合来自编码器的特征,以保留细粒度的时间信息。 双向时间Mamba块(图2详细展示): 这是架构的基础单元。给定输入特征 X ∈ R^{L×C}: 归一化:首先进行层归一化(Layer Norm)。 双向扫描:特征同时被送入两个独立的并行路径:前向路径(SSM_forw)和后向路径(SSM_back),分别处理时间序列的正序和逆序。这使得模型能同时获取过去和未来的上下文信息。 状态空间模型(SSM):每个路径使用一个选择性SSM层。该机制能根据输入动态调整参数,从而选择性地关注与节拍相关的关键事件,同时保持线性计算复杂度。 门控融合:两个方向的输出 X_forw 和 X_back 通过一个可学习的门控合并机制 G(·) 进行动态加权融合,比简单的相加或拼接更灵活。 残差连接:融合后的特征经过线性层投影,并与原始输入 X 相加,得到最终输出 X_bar,确保梯度流动。 分类与输出: 解码器输出经过分类器(通常是线性层+激活函数),生成最终的节拍激活概率序列,长度恢复到下采样前的帧数。 图1:BeatMamba的整体架构。展示了输入音频经过时序压缩编码器后,进入由双向Mamba块构成的对称U形编解码器,最后通过分类器输出节拍预测。下采样和上采样过程清晰可见。 ...

2026-04-29

Benchmarking Music Autotagging with MGPHot Expert Annotations vs. Generic Tag Datasets

📄 Benchmarking Music Autotagging with MGPHot Expert Annotations vs. Generic Tag Datasets #音乐信息检索 #基准测试 #模型评估 #音频分类 #预训练 ✅ 7.5/10 | 前25% | #音乐信息检索 | #基准测试 | #模型评估 #音频分类 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Pedro Ramoneda(Music Technology Group, Universitat Pompeu Fabra, Barcelona, Spain) 通讯作者:Pedro Ramoneda(论文中标注 Corresponding author: pedro.ramoneda@upf.edu) 作者列表: Pedro Ramoneda(Music Technology Group, Universitat Pompeu Fabra, Barcelona, Spain) Pablo Alonso-Jim´enez(Music Technology Group, Universitat Pompeu Fabra, Barcelona, Spain) Sergio Oramas(Music Technology Group, Universitat Pompeu Fabra, Barcelona, Spain) Xavier Serra(Music Technology Group, Universitat Pompeu Fabra, Barcelona, Spain) Dmitry Bogdanov(Music Technology Group, Universitat Pompeu Fabra, Barcelona, Spain) 💡 毒舌点评 这篇论文最大的价值在于“清理工作间”——它通过构建一个更严谨、更精细的评估基准,像一面镜子照出了当前六个主流模型在“通用标签”与“专家标注”任务上表现不一的尴尬现实。其严谨的数据收集(56.43%官方来源)和划分流程值得称道,但论文本身并未提出能解决这些差异的新模型,更像是为社区立了一个新的、更准确的“标尺”。 ...

2026-04-29

Constructing Composite Features for Interpretable Music-Tagging

📄 Constructing Composite Features for Interpretable Music-Tagging #音乐信息检索 #遗传编程 #音频分类 #开源工具 ✅ 7.5/10 | 前25% | #音乐信息检索 | #遗传编程 | #音频分类 #开源工具 学术质量 6.5/7 | 选题价值 0.0/2 | 复现加成 +1.0 | 置信度 高 👥 作者与机构 第一作者:Chenhao Xue (University of Oxford) 通讯作者:未说明 作者列表:Chenhao Xue (University of Oxford), Weitao Hu (Independent Researcher), Joyraj Chakraborty (University of Oxford), Zhijin Guo (University of Oxford), Kang Li (University of Oxford), Tianyu Shi (University of Toronto), Martin Reed (University of Essex), Nikolaos Thomos (University of Essex) 💡 毒舌点评 亮点:论文将遗传编程(GP)系统地应用于音乐特征构造,成功地将“可解释性”从特征重要性分析提升到了特征组合公式本身的透明化,为对抗深度学习黑箱提供了一条优雅的符号回归路径。短板:实验所用的GTZAN数据集已被认为过于简单且存在缺陷,在此之上取得的显著提升(如5%准确率)难以证明方法的普适性和先进性;同时,论文声称“接近深度学习SOTA”,但缺乏对当前最强端到端模型(如PANNs, Transformer)在相同条件下的公平对比,使得SOTA宣称略显单薄。 ...

2026-04-29

Cross-Cultural Bias in Mel-Scale Representations: Evidence and Alternatives from Speech and Music

📄 Cross-Cultural Bias in Mel-Scale Representations: Evidence and Alternatives from Speech and Music #语音识别 #音乐信息检索 #时频分析 #多语言 #基准测试 ✅ 7.0/10 | 前25% | #语音识别 | #时频分析 | #音乐信息检索 #多语言 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Shivam Chauhan(Presight AI, Abu Dhabi, United Arab Emirates) 通讯作者:未说明 作者列表:Shivam Chauhan(Presight AI, Abu Dhabi, UAE)、Ajay Pundhir(Presight AI, Abu Dhabi, UAE) 💡 毒舌点评 本文精准地“捅破了一层窗户纸”:大家都用Mel尺度,但可能没人深究过它对全球一半音乐和语言“不友好”这个系统性风险。其最大的价值在于用扎实的实验量化了这种偏差,并指出了ERB等低成本替代方案的可行性,这对工业界有直接指导意义。短板在于,研究仍停留在“诊断”和“推荐替代品”阶段,对于如何设计一个真正“文化自适应”或“文化公平”的端到端学习框架,未提出更根本性的方法论创新。 📌 核心摘要 解决的问题:现代音频系统普遍采用源于西方心理声学研究的Mel频谱尺度作为前端特征,这可能对非西方语言(特别是声调语言)和音乐(如阿拉伯微分音、印度Shruti)产生系统性的性能偏差,构成一种“技术性偏差”。 方法核心:通过控制变量实验,系统比较了7种音频前端(包括标准Mel、可学习滤波器组LEAF/SincNet,以及心理声学变体ERB/Bark/CQT)在语音识别(11语言)、音乐分析(6传统)和声学场景分类(10欧洲城市)三个任务上的表现,并引入了公平性度量(WGS, ∆, ρ)。 新在何处:首次跨领域、跨文化地系统量化了Mel尺度带来的公平性差距,并揭示了其机制(在关键频率范围200-500Hz分辨率严重不足)。同时,证明了替代前端能显著减少这些差距。 主要结果:Mel尺度在声调与非声调语言的WER差距达12.5%,西方与非西方音乐F1差距达15.7%。替代方案如LEAF可将语音差距减少34%,CQT将音乐差距减少52%,ERB以仅1%的额外计算开销实现31%的差距缩减。下图(论文图1)直观展示了不同前端在减少差距上的效果对比。 图1:不同前端在语音和音乐任务上性能差距对比 实际意义:论文指出,生产系统可以立即采用ERB滤波器组来大幅提升跨文化公平性,成本极低。同时,发布了FairAudioBench基准,为社区评估此类偏差提供了标准化工具。 主要局限性:非洲等地的声调语言、非欧洲的原生音乐传统在评估中代表性不足;未探讨交叉性偏差(如方言与口音的叠加影响);结论更多是“替代比优化好”,而非“如何优化出一个最公平的”。 🏗️ 模型架构 论文并未提出一个新的端到端音频模型架构,而是系统地对比了多种音频前端(Front-end) 对后端模型性能的影响。所有实验使用相同的后端架构以隔离前端贡献。 ...

2026-04-29

Do Foundational Audio Encoders Understand Music Structure?

📄 Do Foundational Audio Encoders Understand Music Structure? #音乐信息检索 #音乐理解 #预训练 #自监督学习 #模型比较 ✅ 7.0/10 | 前25% | #音乐信息检索 | #模型比较 | #音乐理解 #预训练 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Keisuke Toyama (索尼集团公司,日本) 通讯作者:未说明(论文中作者列表按顺序排列,但未明确标注通讯作者) 作者列表: Keisuke Toyama (索尼集团公司,日本,共同第一作者) Zhi Zhong (索尼集团公司,日本,共同第一作者) Akira Takahashi (索尼集团公司,日本) Shusuke Takahashi (索尼集团公司,日本) Yuki Mitsufuji (索尼集团公司,日本;索尼AI,美国) 💡 毒舌点评 这篇论文的亮点在于其“工具书”式的系统性与清晰度,为迷茫于众多音频基础模型的音乐结构分析研究者提供了一份可信赖的导航图,尤其是关于掩码语言建模与长形式音乐训练数据的结论颇具指导性。短板则在于其探索边界止步于“比较”,未能进一步将发现的“最佳实践”(如MLM+长上下文)整合成一个更强健的端到端模型,使得结论稍显“观察有余,建设不足”。 📌 核心摘要 本文旨在回答一个核心问题:当前主流的基础音频编码器(FAE)是否真正理解音乐的结构?为此,作者系统性地评估了11种不同类型的FAE(涵盖自监督学习、监督学习、跨模态学习等)在音乐结构分析(MSA)任务上的表现。研究发现,采用掩码语言建模(MLM)在长形式音乐数据上进行自监督预训练的模型(如MusicFM)表现最为出色,尤其在长上下文建模和捕捉语义特征方面优势明显。实验在Harmonix数据集上进行,以简单的线性探测后端评估FAE特征,结果显示MusicFM在边界检测(HR3F达63.91%)和功能预测(ACC达68.13%)上均达到最优。研究证明了FAE的预训练范式与训练数据选择对下游结构理解任务至关重要,并建议社区可重新审视基于此类FAE的生成模型评估指标。局限性在于仅使用了简单的线性后端,且未探索自回归模型等其他范式。 🏗️ 模型架构 本文的核心架构并非提出一个新模型,而是对一系列现有的基础音频编码器(FAE) 进行系统评估。评估框架(Linear Probing)本身是一个简单的线性分类器(图2),其作用是测试FAE所提取特征的“开箱即用”能力。 评估框架架构(图2): 输入:来自某个FAE的特征序列 (B, N, Z),其中B是batch size,N是特征帧数,Z是特征维度。 自适应平均池化层:将不同帧率的FAE特征 (B, N, Z) 统一池化为固定的帧率(本文设为2Hz),输出 (B, T, Z),其中T=60对应30秒输入。 线性层:将池化后的Z维特征映射到8维空间。其中一个维度用于边界检测(二分类),另外七个维度用于功能预测(七分类:intro, verse, chorus, bridge, inst, outro, silence)。 输出与损失:边界检测使用二元交叉熵损失,功能预测使用7类交叉熵损失,两者相加作为总损失进行训练。 被评估的FAE本身涵盖了多种架构: ...

2026-04-29

Enhancing Automatic Drum Transcription with Online Dynamic Few-Shot Learning

📄 Enhancing Automatic Drum Transcription with Online Dynamic Few-Shot Learning #音乐信息检索 #少样本学习 #领域适应 #实时处理 ✅ 7.0/10 | 前25% | #音乐信息检索 | #少样本学习 | #领域适应 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Philipp Weyers (Fraunhofer Institute for Integrated Circuits (IIS), Germany) 通讯作者:未说明(论文中作者列表后未明确标注通讯作者) 作者列表:Philipp Weyers (Fraunhofer IIS), Christian Uhle (Fraunhofer IIS & International Audio Laboratories Erlangen), Meinard Müller (Fraunhofer IIS & International Audio Laboratories Erlangen), Matthias Lang (Fraunhofer IIS)。 💡 毒舌点评 亮点是首次在ADT中提出一种无需人工标注、支持流式处理的在线自适应方法,将少样本学习从“学习新类”巧妙地转化为“适配已知类的音色”,思路清晰且工程价值明确。短板在于,消融分析揭示其宣称的“在线自适应”带来的实际性能提升在部分数据集上有限,大部分性能增益其实来自离线训练阶段的优化(如第二阶段训练),这使得在线部分的贡献显得有些“锦上添花”而非核心突破。 ...

2026-04-29

Etude: Piano Cover Generation with a Three-Stage Approach — Extract, Structuralize, and Decode

📄 Etude: Piano Cover Generation with a Three-Stage Approach — Extract, Structuralize, and Decode #音乐生成 #生成模型 #自回归模型 #音乐信息检索 ✅ 7.0/10 | 前25% | #音乐生成 | #自回归模型 | #生成模型 #音乐信息检索 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Tse-Yang Chen(National Taiwan University) 通讯作者:论文中未明确标注通讯作者 作者列表:Tse-Yang Chen(National Taiwan University), Yuh-Jzer Joung(National Taiwan University) 💡 毒舌点评 论文的核心亮点在于三阶段解耦架构的设计非常巧妙,通过“提取-结构化解码”的流水线,强制让模型关注节拍对齐这一被以往工作忽视的关键,从而在主观听感上实现了质的飞跃(尤其是流畅度)。然而,其短板也显而易见:所构建的~4700首歌曲数据集虽然规模尚可,但高度集中于J-pop/K-pop,方法的泛化能力在其他音乐风格(如古典、爵士)上的有效性存疑,且“风格注入”的实际控制粒度和效果在论文中并未得到充分展示。 📌 核心摘要 问题:现有深度学习自动钢琴编曲(APCG)模型在生成的钢琴谱中经常出现节奏不一致、拍子混乱等问题,导致音乐结构感缺失,整体质量不高。 核心方法:提出三阶段框架“Etude”。Extract阶段从原始音频中提取密集的、类MIDI的音乐事件特征;Structuralize阶段(与Extract并行)使用预训练Beat-Transformer提取精确的节拍框架(Fbeat);Decode阶段基于Transformer,以小节为单位,结合提取的特征(X)、风格向量和前四小节的上下文,自回归生成目标钢琴序列(Y)。 创新点:相比已有两阶段模型(如PiCoGen),新方法显式解耦了节拍检测,保证了结构一致性;设计了极简的Tiny-REMI标记化方案,移除了对APCG任务冗余的Token,降低了学习难度;引入了可控的风格向量,允许用户调节音乐织体和表情。 主要实验结果:在100首测试集上,Etude(默认设置)在主观平均分(OVL)上达到3.50(满分5),显著优于基线PiCoGen2(2.97)、AMT-APC(2.46)和Music2MIDI(2.27),且统计显著(p<0.001)。在所提出的结构相似度(WPD)、节奏网格一致性(RGC)和节奏模式复杂度(IPE)等客观指标上,也表现出更接近人类演奏的平衡状态。详细结果见下表。 模型 主观总体分 (OVL) ↑ 主观流畅度 (FL) ↑ WPD ↓ RGC ↓ IPE Human 3.92 ± 0.96 4.03 ± 1.02 0.49 0.042 10.13 Etude - Default 3.50 ± 0.99 3.73 ± 0.98 0.21 0.020 9.02 Etude - Prompted 3.46 ± 1.00 3.70 ± 1.05 0.23 0.026 9.11 Etude Extractor 3.33 ± 1.00 3.31 ± 1.13 0.12 0.028 10.62 PiCoGen2 [3] 2.97 ± 1.04 3.33 ± 1.12 1.00 0.059 7.97 AMT-APC [4] 2.46 ± 1.04 2.37 ± 1.11 0.09 0.114 10.69 Music2MIDI [5] 2.27 ± 1.07 2.29 ± 1.13 0.18 0.160 8.94 实际意义:该方法显著提升了自动钢琴编曲的音乐性和结构合理性,使其主观评价接近人类水平,为社交媒体内容创作、音乐教育辅助等应用提供了更强大的工具。 局限性:数据集主要基于流行音乐(J/K-pop),在其他音乐类型上的有效性未经验证;风格控制虽然引入,但仅以三个离散等级(低、中、高)实现,精细度和可控范围有限;论文未公开模型权重。 🏗️ 模型架构 Etude的整体架构(如图1所示)是一个清晰的三阶段流水线,旨在解耦自动钢琴编曲的复杂性。 ...

2026-04-29

Evaluating High-Resolution Piano Sustain Pedal Depth Estimation with Musically Informed Metrics

📄 Evaluating High-Resolution Piano Sustain Pedal Depth Estimation with Musically Informed Metrics #音乐信息检索 #模型评估 #数据集 #开源工具 🔥 8.0/10 | 前25% | #音乐信息检索 | #模型评估 | #数据集 #开源工具 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hanwen Zhang (Schulich School of Music, McGill University) 通讯作者:未说明 (论文中未明确标注通讯作者) 作者列表:Hanwen Zhang (Schulich School of Music, McGill University), Kun Fang (Schulich School of Music, McGill University), Ziyu Wang (Courant Institute of Mathematical Sciences, New York University; Mohamed bin Zayed University of Artificial Intelligence), Ichiro Fujinaga (Schulich School of Music, McGill University) 💡 毒舌点评 亮点:论文没有满足于用MSE/MAE糊弄事,而是从钢琴演奏和教学的真实需求出发,硬生生构建了一套“动作-手势”二层评估体系,为模型诊断提供了像“病历”一样具体的反馈,这比单纯跑分更有价值。短板:所提出的评估框架依赖额外的后处理步骤(如滑动窗口回归、手势分割与分类),增加了评估流程的复杂度;且手势类型的四象限划分标准(阈值)是基于特定数据集统计得出的,其普适性未在其他数据集上验证。 ...

2026-04-29

ICASSP 2026 - 音乐信息检索 论文列表

ICASSP 2026 - 音乐信息检索 共 26 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Noise-to-Notes: Diffusion-Based Generation and Refinement fo 8.0分 前10% 🥈 Leveraging Diffusion U-Net Features for Predominant Instrume 8.0分 前25% 🥉 Subsequence SDTW: Differentiable Alignment with Flexible Bou 8.0分 前25% 4. A Unsupervised Domain Adaptation Framework For Semi-Supervis 8.0分 前25% 5. Evaluating High-Resolution Piano Sustain Pedal Depth Estimat 8.0分 前25% 6. Improving Active Learning for Melody Estimation by Disentang 7.5分 前25% 7. Temporal Distillation for Music Representation Learning 7.5分 前25% 8. Constructing Composite Features for Interpretable Music-Tagg 7.5分 前25% 9. Audio-to-Score Jazz Solo Transcription with the Rhythm Perce 7.5分 前25% 10. Benchmarking Music Autotagging with MGPHot Expert Annotation 7.5分 前25% 11. BeatMamba: Bidirectional Selective State-Space Modeling for 7.5分 前25% 12. Spectrogram Event Based Feature Representation for Generaliz 7.5分 前25% 13. BACHI: Boundary-Aware Symbolic Chord Recognition Through Mas 7.5分 前25% 14. An Event-Based Sequence Modeling Approach to Recognizing Non 7.5分 前25% 15. Off-The-Grid Multi-Pitch Estimation Using Optimal Transport 7.5分 前25% 16. RMODGDF: A Robust STFT-Derived Feature for Musical Instrumen 7.0分 前50% 17. SAUNA: Song-Level Audio & User-Listening Data Neural Alignme 7.0分 前25% 18. Timbre-Based Pretraining with Pseudo-Labels for Multi-Instru 7.0分 前25% 19. Towards Blind Data Cleaning: A Case Study in Music Source Se 7.0分 前50% 20. Do Foundational Audio Encoders Understand Music Structure? 7.0分 前25% 21. Sing What You Fit: A Perception-Based Dataset and Benchmark 7.0分 前25% 22. Single-Step Controllable Music Bandwidth extension with Flow 7.0分 前25% 23. Leveraging Whisper Embeddings For Audio-Based Lyrics Matchin 7.0分 前50% 24. Enhancing Automatic Drum Transcription with Online Dynamic F 7.0分 前25% 25. ALMA-Chor: Leveraging Audio-Lyric Alignment with Mamba for C 7.0分 前25% 26. Vioptt: Violin Technique-Aware Transcription from Synthetic 6.5分 前50% 📋 论文详情 🥇 Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription 🔥 8.0/10 | 前10% | #音乐信息检索 | #扩散模型 | #生成模型 #鲁棒性 ...

2026-04-29

Improving Active Learning for Melody Estimation by Disentangling Uncertainties

📄 Improving Active Learning for Melody Estimation by Disentangling Uncertainties #音乐信息检索 #不确定性估计 #迁移学习 #少样本 ✅ 7.5/10 | 前25% | #音乐信息检索 | #不确定性估计 | #迁移学习 #少样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(论文标注“∗Equal contribution”,三位作者贡献相等) 通讯作者:未说明 作者列表:Aayush Jaiswal(印度理工学院坎普尔分校)、Parampreet Singh(印度理工学院坎普尔分校)、Vipul Arora(印度理工学院坎普尔分校) 💡 毒舌点评 亮点: 方法框架清晰,将证据深度学习(Evidential Deep Learning)这一不确定性解耦工具系统性地引入旋律估计任务,并通过详实的消融实验证明了回归设置下“认知不确定性”对主动学习的指导价值显著优于“随机不确定性”,为资源受限的跨域适应提供了有效方案。 短板: 实验规模偏小,仅在三个数据量不大的目标数据集上验证,缺乏在更大规模、更多样化基准(如MIR-1K之外的源域)上的测试,结论的普适性和说服力有待加强;此外,与最新最强的旋律估计SOTA模型(而非基础ResNet)的对比缺失,难以判断其在绝对性能上的竞争力。 📌 核心摘要 这篇论文旨在解决旋律估计任务中,主动学习样本选择策略未能有效利用不同不确定性信息的问题。方法核心是采用证据深度学习(Evidential Deep Learning)框架,分别训练分类(M1)和回归(M2)两种模型,以解耦并独立输出估计音高的“随机不确定性”(Aleatoric Uncertainty,源于数据歧义)和“认知不确定性”(Epistemic Uncertainty,源于模型认知不足)。与已有使用聚合不确定性(如β-NLL)或未解耦不确定性(如TCP置信度)的方法相比,本文的新颖之处在于系统地研究了这两种不确定性在跨域主动学习中的相对效果。主要实验结果表明,在HAR数据集上的域适应任务中,基于认知不确定性的回归模型(M2 (E))仅使用200个标注样本进行微调,整体准确率(OA)就能达到96.0%,显著优于使用随机不确定性(M2 (A))的69.2%和其他基线方法(见论文图1及描述)。该工作的实际意义在于,能以极少的标注代价将模型从源域(如MIR-1K中文卡拉OK)高效迁移到新域(如印度古典音乐),降低了标注门槛。其主要局限性是实验验证的数据集规模较小且数量有限,可能限制了结论的普遍性;此外,论文未将所提方法与旋律估计领域已知的最先进(SOTA)模型进行直接对比。 🏗️ 模型架构 模型整体架构是一个基于ResNet的端到端系统,核心流程是:输入音频 → 预处理为梅尔频谱图 → ResNet特征提取 → 分类头(判断有声/无声)+ 不确定性输出头(预测音高及不确定性)。 ...

2026-04-29