Persian MusicGen: A Large-Scale Dataset and Culturally-Aware Generative Model for Persian Music

Fri, 15 May 2026 00:00:00 +0000

📄 Persian MusicGen: A Large-Scale Dataset and Culturally-Aware Generative Model for Persian Music

#音乐生成 #迁移学习 #数据集构建 #文化特异性 #波斯音乐

学术质量 5.3/8 | 影响力 0.7/1 | 可复现性 0.7/1 | 置信度中

👥 作者与机构

第一作者：Mohammad Hossein Sameti (Sharif University of Technology)
通讯作者：Mahdieh Soleymani Baghshah (Sharif University of Technology, soleymani@sharif.edu)
作者列表：Mohammad Hossein Sameti (Sharif University of Technology), Diba Hadi Esfangereh (Sharif University of Technology), Sepehr Harfi Moridani (Sharif University of Technology), Leili Javidpour (Independent Researcher), Mahdieh Soleymani Baghshah (Sharif University of Technology)

💡 毒舌点评

这项工作直击要害，为波斯音乐生成提供了关键的数据基础设施和一种朴素有效的适配方法。数据集构建流程扎实，体现了对领域知识的尊重。然而，技术贡献的深度有限，本质上是将一个强大的通用模型在新数据上“调参”，其三阶段训练流程虽有动机，但缺乏必要的消融实验来证明其必要性。评估严重依赖与“参考”的统计相似性，未能触及音乐生成质量的核心——文化真实性与艺术性，使得“文化感知”的宣称略显空洞。

📌 核心摘要

问题：现有音乐生成模型（如MusicGen）基于西方音乐数据训练，无法处理波斯音乐独特的调式（Dastgah）、微分音程和节奏特征，且缺乏大规模、多样化的波斯音乐数据集，尤其是现代流行音乐。
方法核心：本文首先构建了首个大规模（超过900小时）波斯音乐数据集，涵盖流行、传统等风格。基于该数据集，提出并实施了一个三阶段训练流程来适配MusicGen模型：1）使用全部无标签数据进行无监督领域适应；2）在精选的传统乐器独奏/低复音录音上进行乐器聚焦微调；3）使用生成的文本-音频配对数据进行有监督微调，以对齐语义和音乐结构。
新意：核心贡献在于填补了波斯音乐（特别是现代流行音乐）领域的关键数据空白，并通过一个有动机的、分步注入领域知识的训练框架，展示了将通用模型适配到特定文化领域的系统性方法。

主要结果：微调后的模型在传统音乐（独奏、多乐器）和流行音乐生成任务上，KL散度（KLD）更低、色度相似度（Chroma）更高，表明其生成的音乐在特征分布和和声一致性上更接近真实波斯音乐。具体数据如下表所示。

模型	传统（独奏）KLD	传统（独奏）Chroma	传统（多乐器）KLD	传统（多乐器）Chroma	流行KLD	流行Chroma
Our Model	5.28	0.40	3.23	0.44	3.64	0.51
MusicGen (Baseline)	6.37	0.33	3.43	0.36	4.27	0.46

实际意义：为资源匮乏的非西方音乐传统的AI生成提供了可复用的数据资源和适配范例，推动了音乐生成技术的多元化。
主要局限：数据集严重偏向波斯流行音乐（约93.7%）；评估仅依赖KLD和Chroma等统计指标，未进行针对微分音准确性、Dastgah结构遵循度等关键文化属性的量化或专家主观评估；模型未专门设计处理微分音；未验证三阶段训练中各阶段的独立贡献。

🔗 开源详情

代码：论文中未提及代码链接
模型权重：论文中未提及
数据集：Persian MusicGen Dataset。论文中给出了明确链接：https://huggingface.co/datasets/mohammadhossein/PMG
Demo：论文中未提及
复现材料：论文详细描述了三阶段训练流程（无监督领域适应、乐器重点微调、使用配对和独奏数据的监督微调），但未提供具体的训练配置文件、检查点或附录下载链接。复现方法概述可在论文第4节《Training Procedure》中找到。
论文中引用的开源项目：
1. MusicGen：论文的核心基础模型。其官方实现关联于 Meta 的 AudioCraft 项目。链接：https://github.com/facebookresearch/audiocraft
2. LLaMA 3.2 3B：用于生成数据集描述的大语言模型。论文中未提供具体获取链接，仅提及模型名称。通常可从 Meta 官方页面获取：https://ai.meta.com/llama/
3. Librosa：用于提取节奏和能量特征的音频分析库。链接：https://librosa.org/doc/latest/
4. Mel-band Roformer：用于人声-乐器分离的模型。论文引用了相关工作（Wang et al., 2023），其原始论文链接：https://arxiv.org/abs/2309.07242
5. EnCodec：MusicGen 使用的音频tokenizer。论文中未提供具体链接，但该模型是公开的。相关页面：https://ai.meta.com/research/noise-suppression/
6. BERTopic：论文在数据集统计部分提及（用于主题标签分析），但未提供具体链接。其官方仓库通常为：https://github.com/MaartenGr/BERTopic
补充链接（自动提取）：
- HuggingFace：https://huggingface.co/datasets/mohammadhossein/PMG）。数据预处理包括基于信号能量的自适应分割、使用Mel-band

🏗️ 方法概述和架构

本文提出一个端到端的系统，旨在将通用音乐生成模型适配到波斯音乐领域。该系统包含两个主要流水线：数据集构建流水线和模型训练流水线，其架构分别由图1和图2示意。

数据集构建流水线（Figure 1）：此流水线的目标是从原始网络音频中提取高质量的片段并为其生成丰富的文本标注。

数据爬取（3.1）：从一个主流波斯音乐网站爬取了约16,000首歌曲，构成原始语料库。
自适应分段（3.2）：采用基于信号能量的自适应策略将歌曲分割为10-30秒的片段。该策略通过分析短时重叠帧内的能量变化来识别音乐短语的起始和结束点，以在保持片段长度一致性的同时，最大限度保留音乐内容的连贯性。
多维度标签预测（3.3）：为每个片段自动预测结构化元数据。
- 节奏与能量：使用Librosa库进行信号分析。节奏通过节拍跟踪算法估计BPM；能量通过短时信号振幅分析分为低、中、高三级。
- 乐器识别：采用针对波斯音乐优化的“分治策略”。对于被分类为传统波斯音乐的片段，使用专为伊朗乐器音色特性优化的专用模型（Esfangereh et al., 2025）；对于其他（如流行、摇滚）片段，则使用一个通用的多乐器标签模型（Yuan et al., 2023）。此设计旨在更准确地捕捉传统乐器的音色。
人声-伴奏分离（3.4）：使用SOTA的Mel-band Roformer模型（Wang et al., 2023）对每个片段进行分离，提取干净的人声和伴奏音轨。该模型将音频转换为基于梅尔频带的复杂谱图，使用带有旋转位置编码（RoPE）的层级Transformer来建模频带内和跨频带的时间依赖关系，从而生成掩码并重建波形。分离结果用于后续的标签预测和条件生成。
文本标题生成（3.5）：利用LLaMA 3.2 3B模型为每个片段生成自然语言描述。输入提示包括自动预测的标签（乐器、节奏、能量）以及从网络元数据中爬取的调式、流派、情绪等信息。为增加标题多样性，在构建提示时应用了多种增强策略：随机化标签顺序、随机省略部分标签、并融入关于歌手和歌曲氛围的额外一般信息。模型以零样本方式生成流畅的描述性标题。最终，该流水线产出一个包含约67,796个片段及其多维度标注的数据集，其特征分布见表1。

模型训练流水线（Figure 2）：模型适配基于MusicGen，一个自回归Transformer解码器，它使用EnCodec将音频表示为离散token，并支持文本条件。训练分为三个递进阶段，旨在逐步注入波斯音乐领域知识：

阶段一：无监督领域适应（4.1）：使用全部900多小时的波斯音乐音频（无文本标签），仅微调MusicGen的自回归语言模型组件。目的是让模型学习波斯音乐的离散token分布，内化其调式（Dastgah系统）、节奏和旋律规律，实现对目标分布的“预适应”。
阶段二：乐器聚焦微调（4.2）：在精选的波斯传统乐器独奏/低复音录音子集（来自Esfangereh et al., 2025）上进行微调。此阶段旨在让模型在纯净的、乐器孤立的数据上学习，从而解耦音高轮廓与伴奏噪声，更好地学习波斯乐器的独特音色和装饰音，建立因子化的音频表征（即分离音色与音高）。
阶段三：有监督微调（4.3）：使用带有文本标题的配对子集（包括多乐器和独奏数据），联合微调语言模型和文本条件编码器。此阶段强化两种能力：一是语义对齐，使文本编码器能够理解波斯音乐的语义（如Dastgah模式、特定音色）；二是音乐结构，通过在已对齐且音色精炼的数据上继续训练解码器，生成结构更完整、风格更忠实的乐曲。

关键设计选择与流程：整个三阶段策略的动机是循序渐进。先通过大规模无监督学习让模型适应波斯音乐的总体分布（阶段一），再用专业、干净的乐器数据精细化其对核心音乐要素（音色、微分音装饰）的表征能力（阶段二），最后用高质量的配对数据将文本语义与已精炼的音乐表征进行对齐（阶段三）。这种分阶段方法被认为比直接在小数据集上端到端微调更稳定，能逐步、可控地注入领域知识。论文指出，出于计算限制，仅对MusicGen的Small变体进行了微调。

💡 核心创新点

填补关键数据空白：构建了第一个大规模（>900小时）、风格多样（尤其包含占比极高的流行音乐）的波斯音乐数据集，并开源共享。这是本文最扎实和重要的贡献，解决了该领域研究的基础瓶颈。
针对性三阶段训练框架：提出并实施了一套有明确动机的、从“通用分布适应”到“乐器音色专精”再到“文本-音乐语义对齐”的渐进式微调流程。这并非简单的微调，而是一个旨在分步、可控地注入领域特定知识的适配策略。
文化感知的数据构建流水线：构建了一套自动化的多维度标签体系，并在乐器识别等关键环节采用了专门针对波斯音乐优化的分治模型和策略。同时，利用LLM生成丰富文本描述，为细粒度条件生成提供了基础。
混合条件生成探索：评估了不同文本+音频前缀长度条件对生成音乐和声一致性的影响，揭示了更长的音频上下文有助于捕捉波斯音乐的调性和声特性。

📊 实验结果

主要结果对比（Table 2）：如上表所示，在三个评估子集（传统独奏、传统多乐器、流行音乐）上，微调模型在KLD（越低越好）和Chroma相似度（越高越好）上均优于基线MusicGen。这表明模型在特征分布和和声结构上更贴近波斯音乐。不同条件方案下的和声一致性（Table 3）：

条件	多乐器（Ours）	多乐器（Base）	独奏（Ours）	独奏（Base）	流行（Ours）	流行（Base）
𝒞_text	0.4471	0.3689	0.4011	0.3316	0.5115	0.4663
𝒞_text+1s	0.5059	0.4813	0.4565	0.4353	0.5781	0.5625
𝒞_text+3s	0.5644	0.5470	0.5050	0.5148	0.6208	0.6359
𝒞_text+5s	0.6131	0.6037	0.5816	0.5896	0.6735	0.6855
从该表可看出：1）对于纯文本条件（𝒞_text），微调模型（Ours）在所有子集上均显著优于基线，优势明显。2）随着音频前缀从1秒增加到5秒，所有模型的和声相似度（Chroma）稳步提升，验证了混合条件的有效性。3）在包含3秒以上音频前缀时，基线模型的性能与微调模型的差距缩小，在流行音乐𝒞_text+5s条件下甚至略有反超。论文将此归因于更长的音频提供了足够强的和声锚点，足以引导基线模型生成结构合理的音乐。

未提供的实验：论文未提供关于生成音乐微分音准确性的量化评估、对Dastgah结构遵循度的分析，以及由专业音乐家进行的大规模主观听测评估。同时，缺乏对三阶段训练中各阶段独立贡献的消融实验。

🔬 细节详述

训练数据：从波斯音乐网站爬取约16,000首歌曲，分割为67,796个片段。数据集名称为“Persian MusicGen Dataset”，托管于Hugging Face（https://huggingface.co/datasets/mohammadhossein/PMG）。数据预处理包括基于信号能量的自适应分割、使用Mel-band Roformer进行人声分离、使用专用和通用模型进行标签预测、使用LLaMA 3.2生成标题。标题生成时的标签顺序随机化和省略是提示增强策略，非传统音频增强。
损失函数：论文中未明确说明。根据MusicGen框架，推断阶段一为标准语言建模损失（交叉熵），阶段二、三为带文本条件的语言建模损失。具体损失权重未说明。
训练策略：未提供具体的学习率、warmup步骤、batch size、优化器、训练步数或轮数、调度策略。仅说明三个阶段依次进行微调。
关键超参数：使用了MusicGen的Small变体。论文未提供模型具体的层数、隐藏维度、注意力头数、EnCodec的码本大小等参数。
训练硬件：未说明GPU/TPU型号、数量、训练时长。
推理细节：未说明解码策略（如采样温度、top-k/top-p）、beam size、生成音频长度。
正则化或稳定训练技巧：未说明。

⚖️ 评分理由

创新性：2.0/3：核心贡献在于构建了首个大规模波斯音乐数据集和提出一个有动机的三阶段适配流程。这解决了重要的实际问题（数据匮乏），但方法论上并非突破性创新，更多是针对特定任务对现有模型和工具进行工程性组合与调整。
技术严谨性：1.5/2：三阶段训练流程设计合理，数据处理管线利用了当前SOTA工具（如Mel-band Roformer, LLaMA）。但技术细节严重缺失（损失函数、超参数、硬件），论文在Limitations部分承认了EnCodec对微分音编码的潜在问题，但并未在方法或实验中对此进行任何分析或验证，这是一个显著的严谨性缺口。
实验充分性：1.0/2：在三个子集上进行了与单一基线的对比，并研究了不同条件的影响。然而，基线对比严重不足（仅与原始MusicGen对比，未与其他微调策略或在该数据集上训练的其它模型对比）；缺乏关键的消融实验（如验证阶段二乐器聚焦的必要性）；评估指标（KLD, Chroma）仅能衡量统计相似性，完全无法评估生成音乐在文化真实性（微分音、Dastgah结构）和艺术质量上的表现，与论文“文化感知”的核心目标脱节。主观评估的缺失是重大不足。
清晰度：0.8/1：论文结构清晰，写作流畅，流程图（图1、图2）和表格提供了有用信息。但关键实验和训练细节的缺失（见“细节详述”）影响了可复现性，扣分。
影响力：0.7/1：对波斯音乐生成社区和资源匮乏文化领域的AI音乐��究有明确且重要的资源价值。但因其方法依赖于对通用模型的微调，对音乐生成领域更广泛的技术推动（如新架构、新训练范式）相对有限，影响力较为垂直。
可复现性：0.7/1：数据集已公开发布（Hugging Face），这是一个重要优点。但论文未提供训练代码、模型权重、完整的训练配置和推理脚本，仅凭论文信息无法完全复现模型训练和评估过程。

🚨 局限与问题

论文明确承认的局限：
- 数据集偏差：波斯流行音乐占比过高（约93.7%），传统音乐等代表性不足，可能导致模型偏向流行风格。
- 自动标注质量：标签和标题由自动流水线生成，存在噪声，如乐器分类可能混淆相似音色的波斯乐器，西方调性分析工具可能无法准确捕捉波斯微分音。
- 评估方法局限：主要依赖KLD和Chroma，无法评估微分音准确性、装饰音保真度或Dastgah进行等感知特性；缺乏系统性的专家主观听测。
- 模型规模：仅微调了小模型，更大模型可能更适合捕获波斯音乐复杂长程结构。
- 微分音与模态表示：底层音频tokenizer（EnCodec）和架构原本为西方12平均律设计，能否忠实编码波斯微分音存疑，且未做分析。
审稿人发现的潜在问题：
- 消融实验完全缺失：这是方法部分最大的弱点。三阶段训练流程中，每个阶段（尤其是阶段二“乐器聚焦”）的独立贡献和必要性未被任何形式的实验验证，读者无法判断该复杂流程是否真的优于更简单的策略（如直接进行阶段三）。
- 评估与核心宣称脱节：论文标题和摘要强调“文化感知”，但实验评估完全未触及波斯音乐最核心的文化特性（微分音、Dastgah结构）。所有使用的指标（KLD, Chroma）与“生成一段符合Dastgah规则的波斯音乐”这一目标没有直接关联。这使得实验结论无法支撑其核心宣称。
- 结论存在过度陈述：论文在摘要和结论中声称模型生成了“显著更符合波斯音乐结构”的音乐，但所用指标仅能表明其在特征分布和和声一致性上更接近训练数据，无法证明其遵循了波斯音乐特有的、复杂的音乐结构规则。
- 对比基线薄弱：仅与未微调的MusicGen基线对比，说服力不足。应与在相同数据集上采用其他微调策略（如仅用阶段三数据端到端微调）的模型对比，或与尽管不存在但可设想的“简单微调”基线对比，才能体现三阶段策略的优越性。
- 潜在的数据泄露风险：虽然论文未说明，但自动标签预测和标题生成使用的模型（如乐器分类器、LLaMA）可能在其训练数据中包含与评估集相似的音乐。这可能轻微高估了模型在“理解”这些标签上的能力。

← 返回 2026-05-15 论文速递

波斯音乐 on 语音/音频论文速递