📄 APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

#音乐理解 #多任务学习 #自监督学习 #音乐生成

🔥 8.0/10 | 前25% | #音乐理解 | #多任务学习 | #自监督学习 #音乐生成 | arxiv

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度 高

👥 作者与机构

  • 第一作者:Jaavid Aktar Husain(AMAAI Lab, Singapore University of Technology and Design)
  • 通讯作者:Dorien Herremans(AMAAI Lab, Singapore University of Technology and Design)
  • 作者列表:Jaavid Aktar Husain(AMAAI Lab, Singapore University of Technology and Design)、Dorien Herremans(AMAAI Lab, Singapore University of Technology and Design)

💡 毒舌点评

论文的最大亮点是首次为AI生成音乐构建了流行度与美学质量的联合预测框架,并用严谨的跨架构泛化实验证明了美学特征的有效性,为这一新兴领域提供了有价值的分析视角。短板在于其核心的多任务学习框架在技术上相对常规,且实验结果显示美学辅助任务对主流行度任务的提升有限,这使得“联合预测”带来的增益不够突出。

🔗 开源详情

  • 代码:https://github.com/AMAAI-Lab/apex
  • 模型权重:https://huggingface.co/amaai-lab/apex
  • 数据集:
    • 训练数据集(作者构建):由Udio-126k(https://huggingface.co/datasets/sleeping-ai/Udio-126K)和Suno-307k(https://huggingface.co/datasets/sleeping-ai/suno-307K)组合、清洗并划分而成,论文中未提及单独发布的组合数据集链接。
    • 评估数据集(外部):Music Arena Dataset(论文中未提及该数据集的具体获取链接)。
  • Demo:论文中未提及
  • 复现材料:论文详细描述了实验设置(包括训练配置、超参数、硬件环境等),但未提及发布单独的检查点文件或附录。
  • 论文中引用的开源项目:
    1. MERT:一个自监督音乐表示学习模型。论文中使用了 MERT-v1-95M。其GitHub仓库链接在论文原文中提及为:https://github.com/yllane-mert/mert
    2. SongEval:一个提供专家美学评分的基准数据集。论文中使用了其开源模型生成美学标签。其GitHub仓库链接在论文原文中提及为:https://github.com/ASLP-lab/SongEval

补充信息

  • [细节详述] 补充:在流行度分数变换部分,原文明确给出了分数变换公式:s=(p/100)^α × 100,其中p是原始百分位排名,α=ln(0.5)/ln(0.8) ≈ 3.106。此公式的目的是压缩头部数据分布,强调“极其受欢迎”的歌曲。
  • [实验结果] 补充:在表3(音乐竞技场数据集偏好预测结果)的对比中,论文实际测试了5种分类器:逻辑回归(LR)、随机森林(RF)、XGBoost(XGB)、AdaBoost(AdaB)和支持向量机(SVM)。已有的分析结果仅以SVM作为代表,但论文完整对比了这5种分类器在加入美学特征前后的性能变化。例如,逻辑回归加入美学特征后,AUC从0.600提升至0.613。
  • [核心摘要/结论] 补充:论文在结论部分明确指出了其主要局限性:“未来工作可以探索人声感知建模以缩小人声轨道上的性能差距。” 这源于实验结果中观察到的显著现象:所有模型在器乐轨道上的预测性能均远优于人声轨道(如SVM的AUC:0.686 vs. 0.560)。论文将此归因于AI生成人声中存在的伪影。
  • [开源详情] 补充:论文在文末包含“AI使用声明”,承认使用了ChatGPT和Claude进行语法改进。

📌 核心摘要

  1. 问题:AI生成音乐平台的兴起带来了海量歌曲,传统的基于艺术家声誉或厂牌的流行度预测方法失效,亟需基于音频内在属性的新预测模型。同时,美学质量与流行度之间的关系尚不明确。
  2. 方法:提出APEX,一个大规模多任务学习框架。使用冻结的MERT自监督音乐模型提取音频嵌入,联合预测两个基于互动的流行度分数(流媒体播放量、点赞数)和五个来自SongEval的感知美学维度(连贯性、音乐性、记忆性、清晰度、自然性)。
  3. 创新:这是第一个专门针对AI生成音乐的流行度-美学联合预测框架;通过多任务建模探索两者关系;在包含11个未见生成系统的音乐竞技场数据集上验证了美学特征对人类偏好预测的通用性。
  4. 结果:在21.1万首歌的测试集上,最佳配置(不确定性损失、歌曲级模式)在流行度预测上取得MSE 701.12(流媒体)/661.76(点赞),相关系数约0.35/0.41。美学预测上,最佳模型在五个维度上Pearson相关性达0.734-0.751。在跨架构偏好预测任务中,加入美学特征的SVM模型AUC达0.642(总体),显著高于无美学特征的0.614。
  5. 意义:证明了仅从音频中可学习美学与流行度的互补信号,为AI音乐平台的分析、推荐和质量评估提供了有效工具。
  6. 局限性:美学辅助任务对提升流行度预测的直接作用有限;模型在处理带人声轨道时性能明显低于纯器乐轨道;模型的可解释性有待深入。

🏗️ 模型架构

APEX的整体架构如图1所示,是一个端到端的多任务神经网络。

APEX架构概览

  1. 输入与嵌入提取:输入为音频文件。首先使用MERT-v1-95M编码器提取特征。MERT是一个自监督Transformer模型,通过双教师(RVQ-VAE声学教师和CQT音乐教师)预训练,能够捕获声学与音乐结构特征。对于每首歌,音频被分成非重叠的30秒片段。每个片段通过MERT,从四个中间层(3, 6, 9, 最终层)提取隐藏状态。这些层状态分别在时间维度进行平均池化,得到4个768维向量。然后,通过一个可学习的1D卷积层(Conv1d)将这些向量聚合成一个单一的768维片段嵌入。
  2. 输入模式:论文实验了两种歌曲级表示构建方式:
    • Segment模式:每个30秒片段作为独立训练样本。评估时,对同一首歌所有片段的预测值取平均。
    • Song模式:在训练前,将一首歌所有片段的嵌入向量取平均,形成一个歌曲级嵌入。
  3. 共享层:歌曲/片段嵌入(768维)输入到一个共享的多层感知机(MLP)主干网络中。论文测试了两种配置:
    • 2层:768 -> 512 -> 256
    • 3层:768 -> 512 -> 384 -> 256 每层包含线性变换、批归一化、GELU激活和Dropout(p=0.3)。
  4. 任务特定分支:共享层的输出(256维)被送入7个并行的任务特定分支头。每个头是一个结构相似的MLP:256 -> 128 -> 64 -> 1,同样包含线性层、批归一化、GELU和Dropout(p=0.1)。
    • 流行度分支(2个):预测“流媒体播放量分数”和“点赞数分数”。输出通过Sigmoid激活,缩放到[0, 100]范围。
    • 美学分支(5个):预测来自SongEval的5个维度。输出缩放到[1, 5]范围。
  5. 损失函数:每个任务分支使用MSE损失。总损失的组合策略是论文的消融重点之一,包括等权重求和、手动加权(流行度任务权重5.0,美学任务权重1.0)和基于不确定性的可学习加权。

数据流:音频 -> MERT(提取片段嵌入) -> [Segment模式直接训练 / Song模式先平均再训练] -> 共享MLP -> 7个任务分支 -> 各自MSE损失 -> 组合总损失反向传播

💡 核心创新点

  1. 首个大规模AI生成音乐多任务框架:APEX是第一个专门针对AI生成音乐,且联合预测流行度与美学质量的端到端学习框架。之前工作要么聚焦传统音乐流行度预测,要么独立评估AI音乐美学,没有研究两者在AI生成场景下的内在联系。
  2. 美学作为流行度预测的辅助任务:创新性地将SongEval的美学评分作为辅助学习目标。实验证明,美学与流行度是“互补但不同”的信号。尽管联合建模未显著提升流行度预测精度,但学得的美学表征在下游跨架构偏好预测中证明了其价值和泛化能力。
  3. 跨生成架构的强泛化验证:模型在完全未见的、来自11个不同生成系统(如Sonauto, ACEStep, MusicGen等)的音乐竞技场数据集上进行测试。结果证明,基于MERT和美学任务学习到的表征具有跨越具体生成模型的通用性,这是其有效性的有力证据。
  4. 系统性消融研究:对影响性能的关键因素(损失策略、共享层深度、输入模式、任务配置)进行了24种组合的详尽实验,为该领域提供了有价值的架构设计经验,明确了歌曲级表示和不确定性损失的优势。

🔬 细节详述

  • 训练数据:合并了Udio-126k和Suno-307k两个公开数据集的子集。经过清洗(移除零播放、重复、损坏、新发布的歌曲)和分层采样后,最终使用约24.8万首歌。按85:10:5划分训练集(约21.1万首,~10k小时音频)、验证集和测试集。
  • 损失函数:
    • 基础损失:各任务MSE损失。
    • 组合策略:1) 等权重求和;2) 手动加权(流行度权重w=5.0,美学w=1.0);3) 不确定性加权(公式2),每个任务引入可学习参数σ_i,自动平衡任务贡献。
    • 流行度分数定义:原始播放量/点赞数映射到百分位数后,通过幂函数 s = (p/100)^α × 100 变换,其中α≈3.106,以压缩头部数据,突出极其受欢迎的歌曲。
  • 训练策略:优化器AdamW,学习率1e-4,权重衰减1e-4,余弦退火调度器。批次大小512/GPU,使用4张NVIDIA V100 GPU进行分布式并行训练(DDP)。采用混合精度训练。基于验证集损失进行早停。
  • 关键超参数:MERT模型参数量为95M。共享层维度如上所述。任务头维度:256->128->64->1。Dropout率:共享层0.3,任务头0.1。音频处理:重采样至24kHz单声道,30秒窗口,不足部分补零。
  • 训练硬件:4块NVIDIA Tesla V100 GPU。
  • 推理细节:Segment模式模型推理时,将一首歌所有片段的预测值平均得到歌曲级预测。
  • 正则化技巧:Dropout(在共享层和任务头中使用)、批归一化、基于验证集的早停。

📊 实验结果

论文的核心实验包括两部分:在内部测试集上的流行度与美学预测消融研究,以及在音乐竞技场数据集上的跨架构偏好预测。

表1:流行度预测性能(测试集)(选取最佳与关键行)

ModelLossFCModeTaskStreams MSEStreams PearsonLikes MSELikes Pearson
CUncert.2songfull701.120.35661.760.41
FUncert.3songfull700.470.35660.000.41
AEqual2songfull702.120.34662.690.41
对比
AEqual2songpop.702.620.34662.200.41
  • 关键结论:1) Song模式一致优于Segment模式。2) 不确定性损失(Uncert.)通常取得最低MSE和最高相关系数。3) 全任务配置(full)与纯流行度配置(pop.)性能相当,表明美学辅助任务未损害主任务学习。4) 最佳配置为Model C(不确定性损失,2层,歌曲模式,全任务)。5) 所有条件的相关系数较低(~0.35-0.41),表明基于纯音频的流行度预测具有挑战性。

表2:美学预测性能(部分模型)(选取代表性模型)

ModelDimensionMSEMAEPearsonSpearman
CCoherence0.1660.3040.7340.754
CNaturalness0.1670.3120.7510.765
CMemorability0.2030.3410.7350.751
对比
ANaturalness0.2060.3440.6960.712
BNaturalness0.2250.3650.6370.656
  • 关键结论:美学预测性能良好。Model C 在所有维度上取得最佳MSE(0.166-0.203)和相关性(0.734-0.751)。自然度是最容易预测的维度,记忆性最难。手动加权损失(Model B, E)损害美学预测性能。

表3:音乐竞技场数据集偏好预测结果(使用Model C特征)

模型/特征总体AUC器乐AUC人声AUC总体F1器乐F1人声F1
朴素规则(全部分数)0.5350.5400.5360.4990.4840.524
SVM(无美学特征)0.6140.6380.5720.5240.5320.511
SVM(有美学特征)0.6420.6860.5600.5950.6250.544
  • 关键结论:1) 在跨11个未见生成系统的极端泛化场景下,使用APEX特征(尤其是结合美学特征)的分类器(如SVM)显著优于随机猜测(AUC=0.5)和朴素规则。2) 加入美学特征一致提升性能(例如,SVM AUC从0.614升至0.642)。3) 所有模型在器乐上的性能显著优于人声,表明AI人声中的伪影增加了预测难度。4) 这证明APEX学习的表征(包括美学维度)具有跨架构的通用性。

⚖️ 评分理由

  • 学术质量(6.0/7):论文选题新颖,方法设计合理(多任务+自监督预训练),实验极其充分(24种消融配置+跨架构泛化),提供了开源实现。主要扣分点在于:1) 多任务学习框架本身是成熟技术,并非突破性创新;2) 实验显示美学辅助任务对主流行度任务提升有限,削弱了“联合预测价值”的最强主张;3) 流行度预测的相关系数绝对值不高(~0.35),模型解释力有提升空间。
  • 选题价值(1.5/2):针对AI生成音乐这一爆发性增长但缺乏分析工具的��域,具有明确的实用价值和前瞻性。研究音频美学与流行度的关联,对音乐信息检索、推荐系统和生成模型评估均有启发。研究垂直于音乐AI,对广义音频读者相关性中等。
  • 开源与复现加成(+0.7/1):提供了完整的代码、预训练模型和清晰的训练配置,复现友好度高。数据虽使用公开集子集,但已说明清洗和划分方法。未提供的是,他们未专门发布处理好的完整训练数据集(依赖于外部仓库的原始数据)。

← 返回 2026-05-06 论文速递