FIGMA: Towards FIne-Grained Music retrievAl
📄 FIGMA: Towards FIne-Grained Music retrievAl #对比学习 #多模态模型 7.2/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #对比学习 | #对比学习 | #多模态模型 | arxiv 👥 作者与机构 作者:Nishit Anand, Ashish Seth, Sreyan Ghosh, Dinesh Manocha, Ramani Duraiswami 机构:University of Maryland, College Park, USA 链接:https://arxiv.org/abs/2606.06615 💡 毒舌点评 这篇论文提出的问题“细粒度音乐检索”是实际存在的,动机清晰。然而,其核心方法“多视图对比学习”本质上是将两个已有的、简单的对比损失(全局损失+一个基于帧-词元最大相似度的帧级损失)线性相加,技术新颖性有限。最大的硬伤在于,其贡献的庞大FGMCaps数据集(380K样本)完全由自动工具和LLM生成,缺乏人工标注验证,这使得其“细粒度”的可靠性存疑,也让论文的实验结论打了折扣——模型可能只是学会了匹配LLM生成的“模板化描述”,而非真正理解音乐理论属性。此外,论文开源情况极差,代码、模型权重、数据集均未提供,这在顶会论文中是难以接受的,严重阻碍了可复现性和后续研究。实验上,在自建测试集(FGMCaps)上的巨大提升说服力有限,而在外部分 benchmark(MusicBench, FMACaps-Eval)上的提升虽然显著,但基线模型(特别是最强的音乐专用模型 CLAMP 3)在 A2T 任务上表现异常差,这可能暗示了基线评估或设置存在问题,削弱了对比的公平性。 ...