APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

Thu, 07 May 2026 00:00:00 +0000

📄 APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

#音乐评估 #多任务学习 #自监督学习 #预训练模型

学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Jaavid Aktar Husain（AMAAI Lab, Singapore University of Technology and Design）
通讯作者：Dorien Herremans（AMAAI Lab, Singapore University of Technology and Design）
作者列表：Jaavid Aktar Husain（AMAAI Lab, Singapore University of Technology and Design）、Dorien Herremans（AMAAI Lab, Singapore University of Technology and Design）

💡 毒舌点评

这篇论文为AI生成音乐这个“野蛮生长”的领域提供了一个扎实的多任务学习基线，首次将“好听”（美学）和“流行”（数据）放在一起建模，且跨模型的泛化实验证明了学到的美学特征具有普适性。但令人遗憾的是，联合学习“流行度”这个主任务本身并未带来显著提升，似乎美学和流行在特征上互补但并不互促，这削弱了“多任务学习能提升主任务”这一核心动机的说服力。

📌 核心摘要

解决的问题：在AI生成音乐爆炸式增长的背景下，如何预测歌曲的流行度（以播放量、点赞量为指标），同时探索其与感知美学质量之间的关系。传统方法依赖的艺术家声誉等信号在AI音乐中缺失。
方法核心：提出APEX，一个大规模多任务学习框架。它使用冻结的、预训练的自监督音乐音频编码器MERT提取特征，并联合预测两个流行度分数（streams score， likes score）和五个感知美学维度（连贯性、音乐性、记忆性、清晰度、自然性）。
与已有方法相比新在哪里：是第一个专门针对AI生成音乐、联合建模流行度与美学质量的框架。训练数据规模大（211k首，约10k小时音频）。系统性地探索了损失函数加权策略（不确定性加权最优）、输入模式（歌曲级聚合优于片段级）、任务配置等，并验证了学到的特征对未见过的生成模型（Music Arena数据集中的11个系统）的跨模型泛化能力。
主要实验结果：
- 流行度预测：在24种实验条件下，最好的模型（不确定性加权、歌曲模式、完整任务）取得最佳性能。但完整多任务模型与流行度专用模型性能相当（例如，streams score Spearman相关系数均为0.35），表明美学任务未显著提升也未损害主任务。
- 美学预测：模型能很好地从MERT特征中预测美学分数，最佳模型（Model C）在连贯性上MSE低至0.166，Pearson相关系数达0.734-0.751。
- 跨模型泛化（关键实验）：在未见过的11个生成模型的音乐偏好对决数据集（Music Arena）上，使用APEX预测分数（尤其是包含美学特征）训练的分类器（如SVM）能更好地预测人类偏好。例如，加入美学特征后SVM的AUC从0.614提升至0.642（整体）。模型在纯器乐轨道上泛化更好（SVM+美学特征 AUC=0.686），在人声轨道上较弱（AUC=0.560）。
实际意义：为AI音乐平台提供了内容分析和排序的自动化工具，美学特征可作为流行度预测的补充信号，且学到的表示具有跨生成模型的通用性，可用于评估或优化新模型生成的内容。
主要局限性：美学与流行度的联合建模未能协同提升流行度预测的精度；模型在处理包含人声的AI音乐时性能下降，可能因人声瑕疵更多；评估主要基于已有的播放/点赞数据，可能反映的是平台初期用户偏好而非长期经典性。

🔗 开源详情

代码：https://github.com/AMAAI-Lab/apex
模型权重：https://huggingface.co/amaai-lab/apex
数据集：
1. 训练所用数据集：
  - Udio-126K: https://huggingface.co/datasets/sleeping-ai/Udio-126K
  - Suno-307K: https://huggingface.co/datasets/sleeping-ai/suno-307K
2. 评估所用数据集：
  - Music Arena Dataset: 论文中提及但未提供具体下载链接。
  - SongEval (用于生成美学标签): 论文中引用其作者发布的模型。
Demo：论文中未提及
复现材料：论文中未提及训练配置、检查点等具体文件链接。
论文中引用的开源项目：
1. MERT (音频编码器): 论文中引用了其论文[4]，并提及使用MERT-v1-95M版本，但未提供官方代码仓库链接。
2. SongEval (美学评估模型): https://github.com/ASLP-lab/SongEval

🏗️ 模型架构

APEX的整体架构如图1所示，是一个典型的基于共享编码器的多任务学习框架。

架构详解：

输入：原始音频波形。首先被转换为单声道、重采样至24kHz，然后分割为30秒不重叠的片段（最后不足部分补零）。
特征提取器（MERT Encoder）：每个音频片段被输入到一个冻结的、预训练的MERT-v1-95M模型中。MERT是一个基于Transformer的自监督音乐表示学习模型。论文从MERT的第3、6、9和最终层提取隐藏状态，每一层经过时间维度上的平均池化，得到一个768维的向量。这样每个片段得到四个768维向量。
特征聚合层：上述四个来自不同深度的768维向量被输入一个一维卷积层（Conv1d）。该层通过可学习的权重，将四个向量融合成一个单一的、768维的片段级嵌入向量。这相当于学习一个跨层的加权组合，以综合低层和高层特征。
输入模式：论文探索了两种模式：
- 片段模式（Segment Mode）：每个30秒片段的嵌入作为一个独立样本进行训练。
- 歌曲模式（Song Mode）：一首歌所有片段的嵌入在输入共享层之前先进行平均，得到一个歌曲级的嵌入向量。
共享层（Shared Layers）：歌曲级/片段级嵌入经过2或3个全连接共享层。每层结构：线性变换 -> 批归一化 -> GELU激活 -> Dropout(0.3)。配置为768→512→256（2层）或768→512→384→256（3层）。
任务头（Task-Specific Heads）：共享层的输出（256维）被送入多个独立的任务头。每个任务头包含3个全连接层：256→128→64→1，同样带有批归一化、GELU和Dropout(0.1)。最后一个线性层后，流行度分支使用Sigmoid激活将输出缩放到[0,100]；美学质量分支则缩放到[1,5]。
多任务配置：
- 流行度配置（Popularity）：只有两个任务头，分别预测streams score和likes score。
- 完整配置（Full）：共有七个任务头，包括上述两个流行度任务和五个美学质量任务（连贯性、音乐性、记忆性、清晰度、自然性）。

关键设计选择与动机：

使用冻结的MERT：利用其强大的自监督音乐表示能力，且避免在下游任务中微调大模型，提高效率。
多层特征融合：利用MERT不同层捕获的从声学到音乐结构的不同层次信息。
歌曲模式：假设歌曲级的全局信息对预测流行度和美学质量比片段级信息更直接有效。
不确定性加权损失：自动学习不同任务的权重，避免手动调整，并处理不同任务损失尺度差异的问题。
幂函数分数转换：将原始的流量计数（右偏分布）通过幂函数映射为分数，旨在压缩长尾，更区分真正“卓越”的歌曲。

💡 核心创新点

首个大规模多任务框架：首次为AI生成音乐构建了联合预测流行度（数据驱动）和美学质量（感知驱动）的多任务学习框架（APEX），填补了该交叉领域的空白。
系统性消融研究与最优配置发现：在24种实验条件下系统性地研究了损失策略、网络深度、输入模式和任务配置的影响，确定了“不确定性加权+歌曲模式+共享两层”为最优组合，为该类问题提供了可靠的设计参考。
跨生成模型的强泛化能力验证：在完全未见过的11个生成模型（包含商业和开源系统）的音乐偏好数据集（Music Arena）上进行评估，证明了APEX预测的特征（尤其是美学特征）能够有效预测人类偏好，展示了其学到的音乐属性表示的通用性，超越了训练数据的分布。
发现美学与流行的互补性：实证表明，美学质量和流行度捕捉了AI音乐中互补但不同的信号。虽然联合建模未提升流行度预测，但美学特征对于下游的人类偏好预测任务有明确的增益。

🔬 细节详述

训练数据：
- 名称与来源：组合了两个AI生成音乐仓库的子集：Udio-126K和Suno-307K，分别来自Udio和Suno平台。
- 规模：原始约248k首，经清洗后保留~211k首作为训练集，对应约10,000小时音频。
- 预处理：移除零播放量歌曲、重复项、损坏音频；移除数据集发布后两周内的歌曲以避免时间偏差。对Suno子集进行分层采样以匹配Udio子集大小，并保持播放分数分布。按85%/10%/5%的比例分层划分训练、测试和验证集。
- 数据增强：未说明。
损失函数：
- 主任务损失：每个任务头使用均方误差（MSE）损失。
- 多任务损失组合策略：论文探索了三种：
  1. 等权重和：ℒ_total = Σℒ_i
  2. 手动加权：流行度任务权重w_i=5.0，美学任务权重w_i=1.0。
  3. 不确定性加权：基于同方差不确定性学习权重，公式为ℒ_total = Σ [ (1/(2σ_i^2)) * ℒ_i + log(σ_i) ]，其中σ_i是可学习参数。
训练策略：
- 优化器：AdamW
- 学习率：初始1e-4
- 权重衰减：1e-4
- 学习率调度：余弦退火调度器。
- 批量大小：每GPU 512，跨4块NVIDIA Tesla V100 GPU使用分布式数据并行（DDP）。
- 训练效率：使用混合精度训练。
- 早停：根据验证集损失进行早停。
- 训练步数/轮数：未说明。
关键超参数：
- MERT模型：MERT-v1-95M，768维隐藏状态，取自第3,6,9,12层。
- 共享层：深度为2或3层；维度如上所述。
- Dropout：共享层0.3，任务头0.1。
训练硬件：4块NVIDIA Tesla V100 GPU。
推理细节：
- 在片段模式下，评估时对一首歌所有片段的预测值进行平均以得到最终的歌曲级预测分数。
- 流行度分数输出经Sigmoid缩放到[0,100]。
- 美学分数输出缩放到[1,5]。
正则化/稳定训练技巧：使用Dropout，批归一化，以及不确定性加权损失本身也有稳定多任务训练的作用。

📊 实验结果

主要Benchmark与指标：在内部测试集（约25k首歌）上评估流行度和美学预测；在Music Arena数据集（1,259对battle）上评估跨模型泛化。

流行度预测性能（主任务，消融研究）

Model	Loss	FC	Mode	Task	Streams Score (MSE/MAE/Pearson/Spearman)	Likes Score (MSE/MAE/Pearson/Spearman)
A	Equal	2	segment	popularity	713.98 / 22.29 / 0.34 / 0.33	677.17 / 21.68 / 0.40 / 0.40
A	Equal	2	song	full	702.12 / 21.02 / 0.34 / 0.35	662.69 / 19.97 / 0.41 / 0.42
C	Uncert.	2	song	full	701.12 / 20.98 / 0.35 / 0.35	661.76 / 19.97 / 0.41 / 0.42
D	Equal	3	song	popularity	699.80 / 21.13 / 0.35 / 0.35	659.69 / 20.12 / 0.41 / 0.42
F	Uncert.	3	song	full	700.47 / 21.14 / 0.35 / 0.35	660.00 / 20.08 / 0.41 / 0.42
注：仅列出部分代表性行。最佳模型为Model C（标黄）。

关键结论：1) 歌曲模式一致优于片段模式；2) 不确定性加权略优于其他策略；3) 完整多任务配置（full）的性能与流行度专用配置（popularity）非常接近，表明美学任务未损害主任务，但也未带来明显提升。

美学预测性能（辅助任务，以Model C为例）

维度	MSE	MAE	Pearson	Spearman
Coherence	0.166	0.304	0.734	0.754
Musicality	0.178	0.323	0.739	0.752
Memorability	0.203	0.341	0.735	0.751
Clarity	0.179	0.322	0.745	0.760
Naturalness	0.167	0.312	0.751	0.765
注：Model C在五个维度上均表现最佳，相关系数均超过0.73。

跨模型人类偏好预测（Music Arena数据集，Model C）

模型	特征集	AUC (Overall/Instr./Vocal)	F1 (Overall/Instr./Vocal)
Naive Rules	Likes	0.518 / 0.500 / 0.562	0.476 / 0.454 / 0.513
	All Scores	0.535 / 0.540 / 0.536	0.499 / 0.484 / 0.524
SVM	without aesthetics	0.614 / 0.638 / 0.572	0.524 / 0.532 / 0.511
	with aesthetics	0.642 / 0.686 / 0.560	0.595 / 0.625 / 0.544
注：“with aesthetics”表示使用所有31个特征（包括差异、比率、交互项）。

关键结论：

美学特征有益：在所有分类器中，加入美学特征后性能（AUC， F1）均有提升。朴素规则也显示使用全部分数优于仅用点赞量。
器乐 vs. 人声：模型在纯器乐（Instr.）轨道上的表现显著优于包含人声（Vocal）的轨道（例如，SVM+美学：器乐AUC 0.686 vs. 人声AUC 0.560）。
跨模型泛化成功：由于Music Arena中的11个生成系统在训练中完全未见，此结果证明APEX学到的音乐表示具有跨架构的泛化能力。

⚖️ 评分理由

学术质量：7.0/7
- 创新性：在AI生成音乐这一新兴场景下，提出首个联合流行度-美学预测框架，并系统验证其特征在跨模型场景下的有效性，具有清晰的创新性。
- 技术正确性：方法设计合理，多任务学习、特征融合、损失加权等技术应用正确。使用预训练冻结编码器是高效且常见的做法。
- 实验充分性：实验设计全面，包含大规模消融研究（24种条件）、美学预测评估、以及关键的跨模型泛化实验（Music Arena）。提供了充足的对比和细分结果（如器乐/人声）。
- 证据可信度：数据规模大，评估指标全面（相关、回归、分类），实验环境可复现，结论由数据较好地支撑。主要局限在于联合建模对主任务提升有限，这一发现本身也是有价值的实证结论。
选题价值：2.0/2
- 前沿性：AI生成音乐的评估与理解是当前AI和音乐信息检索领域的前沿热点。流行度预测在此场景下具有新的挑战和意义。
- 潜在影响：对AI音乐平台的内容管理、推荐系统、生成模型优化（如用于RLHF）有直接应用价值。为该领域提供了重要的基线模型和分析框架。
- 实际应用空间：明确，可服务于内容平台、创作者工具和研究社区。
- 读者相关性：与音频、音乐AI、多任务学习、内容评估等方向的读者高度相关。
开源与复现加成：0.5/1
- 代码：提供了GitHub仓库链接。
- 模型权重：提供了HuggingFace模型链接。
- 数据集：给出了数据来源（Udio-126K， Suno-307K）的HuggingFace链接，但非论文直接托管。数据清洗步骤描述清晰。
- 复现材料：训练超参数、网络配置、损失公式等关键细节描述详尽，有助于复现。
- 论文中引用的开源项目：主要依赖MERT模型进行特征提取。

📎 补充信息

[模型架构] 补充：在特征提取器MERT的描述中，原文明确指出了其“双教师预训练框架”（dual-teacher pretraining framework），结合了基于RVQ-VAE的声学教师和基于常数Q变换（CQT）的音乐教师。这一设计使得MERT能够同时捕获低级声学特征和高级音乐结构，论文认为这使其特别适合流行度预测，因为该任务需要对表面音频线索之外的更深层音乐特征进行建模。
[实验结果] 补充：在跨模型人类偏好预测实验（Section 5.3）中，分析仅提到了SVM的结果。原文Table 3展示了更全面的对比：共评估了五种基线分类器（逻辑回归LR、随机森林RF、XGBoost、AdaBoost、SVM），并在“有/无美学特征”两种设定下分别报告了AUC和F1值。此外，Naive Rules基线也详细对比了仅用Likes、仅用Streams、仅用Aesthetics（美学）以及使用All（全部分数）四种规则的效果。
[细节详述/实验结果] 补充：训练细节中，原文明确提到“每GPU 512”的批量大小，并使用了分布式数据并行（DDP）。在优化器设置中，权重衰减（weight decay）为1×10^{-4}，与学习率并列。
[实验结果] 补充：在表3（跨模型偏好预测）的分析中，遗漏了AdaBoost分类器在“无美学特征”设定下在人声轨道（Vocal）上的极低F1分数（0.017），以及“有美学特征”下同样很低的F1分数（0.017）。这一异常低的结果在分析中被提及（“AdaBoost在人声轨道上表现异常差”），但未提供具体数值。

← 返回 2026-05-07 论文速递

音乐评估 on 语音/音频论文速递