📄 Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints

#音乐生成， #大语言模型， #强化学习， #跨模态

✅ 评分：7.5/10 | arxiv

👥 作者与机构

第一作者：Hao Meng（根据论文格式推断）
通讯作者：未明确标注。根据论文中“Aligned Lyric2Melody Model”的在线演示域名（arain233.github.io）推断，可能与第一作者或项目负责人相关。
其他作者：Siyuan Zheng, Shuran Zhou, Qiangqiang Wang, Yang Song
机构信息：论文全文未明确列出作者所属机构。根据论文内容和常见的学术实践推断，作者可能来自同一研究团队或实验室。论文中提到了“Xiaomi LLM Core Team”，但未明确说明作者是否隶属于此团队。（推断） 所有作者可能来自小米公司或与其合作的研究机构。

💡 毒舌点评

亮点：这论文最聪明的地方在于，它没去跟人类评委死磕“什么叫好听”，而是把音乐老师敲黑板划的重点（音域别太宽、节奏别太怪、歌词对齐）变成了冷冰冰的代码规则，让模型自己跟自己玩“大家来找茬”，省时省力还效果拔群。槽点：规则是把双刃剑，虽然保证了下限（能唱），但也可能锁死了上限（好听）。模型学会了“不犯错”，但离“写出动人旋律”可能还差着十个贝多芬的灵感。另外，实验里的“主观评分”居然没找专业音乐人，这就像让一群美食家去评判手术缝合技术，专业不对口啊！

🔗 开源详情

代码：已开源。GitHub地址：https://github.com/arain233/AligningMelody
模型权重：论文中未明确提及是否公开预训练或微调后的模型权重。
数据集：偏好数据集由论文方法自动生成，论文中未提及是否公开此数据集。SFT训练数据部分来自公开的SongComposer数据集和私有源。
在线Demo：提供。地址：https://arain233.github.io/AligningMelody-demo
依赖的开源项目：基于Qwen2.5-0.5B预训练模型。评估中使用了TechSinger架构的声码器（可能未开源）。

📌 核心摘要

这篇论文旨在解决大语言模型在歌词到旋律生成任务中，通过监督微调（SFT）训练出的模型常产生音乐上不可行（如节奏怪异、音域超限）的“约束违反”问题。核心贡献是提出了一套无需人工标注、基于规则约束的自动化对齐框架。关键方法分为三步：首先对预训练LLM进行SFT以获得基础生成能力；其次，利用SFT模型生成大量候选旋律，并通过五类预定义的音乐规则（格式、歌词对应、音符重复度、时长合理性、音域）自动评估，构建包含“好-坏”配对和纯“坏”样本的偏好数据集；最后，采用序列对齐策略，先用DPO在配对数据上优化模型偏好，再用KTO在纯负面样本上进一步抑制不良输出。主要发现是该方法在客观指标（音高/时长分布相似度）和主观听感（MOS评分接近真人作品）上均显著优于多个基线，并能大幅减少各类规则违反。实际意义在于为将领域专家知识（以规则形式）高效、可扩展地注入生成模型提供了一种新范式，对音乐、代码等结构化生成任务有重要参考价值。局限性在于规则集可能无法涵盖所有音乐美学维度，生成的旋律在创造性上可能受限。

🏗️ 模型架构

论文提出的“Lyric2Melody”模型架构是一个三阶段流程，核心是基于一个预训练的大语言模型（Qwen2.5-0.5B）。第一阶段：监督微调（SFT） - 输入：歌词文本序列。 - 输出：符号化旋律序列。旋律被表示为 | (歌词音节, MIDI音高, 时长毫秒) | ... | 的序列。 - 过程：在约130万（80万中文+50万英文）歌词-旋律对数据上微调预训练LLM，使其学会从歌词到该符号格式的映射。 - 关键设计：采用结构化元组表示，强制模型在生成音高和时长的同时，必须与具体的歌词音节对齐，为后续规则约束提供了清晰的解析基础。

第二阶段：偏好数据生成 - 输入：大量未见的歌词提示。 - 过程： a. 使用SFT模型为每个提示生成 k 个候选旋律。 b. 对每个生成的旋律，用五类基于规则的音乐约束进行自动评估： - 格式约束：输出是否可正确解析为 (歌词, 音高, 时长) 元组序列。 - 歌词约束：生成的非连音歌词序列是否是输入歌词的合法分词。 - 音符约束（防单调）：连续相同音高的比例是否低于阈值 τ_note。 - 时长约束（节奏合理性）：每个音符时长是否在 [d_min, d_max] 内；最后一个音符是否在更长的 [d_final_min, d_final_max] 内。 - 音域约束：所有音高是否在预设的人声音域 [p_min, p_max]（如C4-C6）内。 c. 数据构建： - 配对数据（用于DPO）：如果一个提示生成的 k 个旋律中，既有通过所有规则的“胜者”(winner)，也有未通过的“败者”(loser)，则构成 (prompt, winner, loser) 三元组。 - 非配对数据（用于KTO）：如果一个提示生成的所有旋律都未通过规则，则将这些旋律全部作为“不良样本” {y_u} 收集起来。 - 输出：一个大规模的自动偏好数据集，包含配对数据和非配对数据。

第三阶段：序列对齐 - 输入：SFT模型 + 第二阶段生成的偏好数据集。 - 过程： a. DPO阶段：在配对数据 {(x, y_w, y_l)} 上，使用DPO损失函数（公式3）微调模型。目标是让模型对“胜者”旋律的生成概率相对于参考模型（初始SFT模型）的提升，大于对“败者”旋律的提升。超参数 β=0.1 控制偏离参考模型的程度。 b. KTO阶段：将DPO阶段得到的模型作为新的起点，在非配对数据 {(x, y_u)} 上，使用KTO损失函数（公式4）继续微调。目标是直接降低模型生成这些“不良样本”的概率。 - 输出：最终的对齐模型（Aligned Lyric2Melody Model），能够生成更符合音乐规则的旋律。

💡 核心创新点

基于规则的自动化偏好数据生成管道：
- 是什么：将领域专家知识（音乐规则）编码为可执行的程序，用于自动评估模型输出，从而无需人工标注即可构建大规模偏好数据集。
- 之前方法：传统的RLHF或DPO需要昂贵且耗时的人工标注来构建偏好数据，成为应用瓶颈。
- 如何解决问题：通过定义五类明确的音乐规则，系统可以自动判断生成旋律的优劣，高效生成数万条偏好数据，解决了数据标注瓶颈。
- 实际效果：实验表明，基于此数据集训练的模型在规则违反率上大幅下降。
针对歌词到旋律任务的序列DPO-KTO对齐策略：
- 是什么：一种两步走的后训练对齐方法。先用DPO从高质量的配对数据中学习偏好，再用KTO从广泛的非配对负面样本中抑制常见错误。
- 之前方法：通常只使用DPO或KTO中的一种，可能无法充分利用所有数据信号（特别是那些没有“好”样本的失败案例）。
- 如何解决问题：DPO利用“好vs坏”的对比信号精修模型品味；KTO则利用所有“坏”样本，直接惩罚模型的不良生成模式，两者互补。
- 实际效果：消融实验证明，完整的SFT+DPO+KTO序列在所有指标上优于单独使用DPO或KTO，证明了序列策略的有效性。
面向旋律生成的形式化规则约束集：
- 是什么：系统性地定义了五个类别（格式、歌词、音符、时长、音域）的音乐约束，覆盖了从语法正确性到基本音乐性的多个层面。
- 之前方法：相关工作可能隐含地处理这些问题，但未将其形式化为可计算、可验证的规则体系。
- 如何解决问题：这些规则将模糊的“音乐性”要求转化为具体的、可自动检查的条件，为模型提供了明确的学习目标和优化方向。
- 实际效果：图2显示，对齐后的模型在五类规则上的违反频率均显著降低，尤其是在SFT模型最容易出错的“时长”和“音域”约束上。

🔬 细节详述

训练数据：
- SFT阶段：约80万中文句子级歌词-旋律对（来自SongComposer数据集和私有源）+ 50万英文对。总计约130万对。
- 偏好数据生成：使用2万条未见的歌词提示（中英文各半）生成。最终数据集中约90%为配对数据（用于DPO），10%为非配对数据（用于KTO）。
- 评估数据：从GTSinger数据集精心挑选的1000句（中英文各500句）作为测试集，确保与训练集无重叠。
损失函数：
- DPO损失（公式3）：L_DPO = -E[log σ(β log(π_θ(y_w|x)/π_ref(y_w|x)) - β log(π_θ(y_l|x)/π_ref(y_l|x)))]
- KTO损失（公式4，仅针对不良样本部分）：L_KTO = E[log(1 - σ(β log(π_θ(y_u|x)/π_ref(y_u|x))))]
- 其中 π_ref 是冻结的参考模型（初始SFT模型），β=0.1，σ 是logistic函数。
训练策略与超参数：
- 优化器：Adam。
- 学习率：1e-6（对齐阶段）。
- 批次大小：未明确给出。
- 训练步数：SFT阶段500,000步；对齐阶段未明确。
- 硬件：8块NVIDIA A800 GPU。
推理细节：论文未提及推理时使用的具体解码策略（如beam search, top-k采样等）。
数据增强/正则化：未明确提及。对齐方法本身（DPO/KTO）可被视为一种基于偏好的正则化。
评估指标：
- 客观指标：
  - PD (%) ↑：音高分布余弦相似度。
  - DD (%) ↑：时长分布余弦相似度。
  - MD ↓：基于动态时间规整（DTW）的音高轮廓距离（经相对归一化处理）。
- 主观指标：
  - MOS (1-5)：由10名有音乐背景的志愿者对合成的歌声音频进行整体音乐质量评分。

📊 实验结果

主要指标对比表（表1 - 客观指标）：

方法	英文 PD(%)↑	英文 DD(%)↑	英文 MD↓	中文 PD(%)↑	中文 DD(%)↑	中文 MD↓
SongMASS	30.11	19.61	1.87	-	-	-
TeleMelody	30.08	31.51	3.41	25.08	35.09	3.25
TeleMelody(RelyMe)	31.27	30.99	3.32	27.59	34.70	3.29
SongComposer	31.58	31.44	3.31	30.79	33.68	3.11
Proposed	32.37	37.11	2.63	33.94	43.44	2.58

分析：所提方法在PD和DD上全面领先，在MD上也表现优异（中文最佳，英文仅次于SongMASS但其DD极低，作者认为可能由DTW对齐假象导致）。

主观MOS评分（表2）：
方法 MOS ↑
GT (Ground Truth) 3.50
SongMASS 3.18
TeleMelody 3.09
TeleMelody(RelyMe) 3.26
SongComposer 2.92
Step-Audio-TTS 3.19
Proposed 3.42
- 分析：所提方法获得最高MOS分3.42，非常接近真人作品（3.50），显著优于所有基线，包括端到端的语音生成模型Step-Audio-TTS。

方法	MOS ↑
GT (Ground Truth)	3.50
SongMASS	3.18
TeleMelody	3.09
TeleMelody(RelyMe)	3.26
SongComposer	2.92
Step-Audio-TTS	3.19
Proposed	3.42

消融实验（表3 - 客观指标）：

方法	英文 PD(%)↑	英文 DD(%)↑	英文 MD↓	中文 PD(%)↑	中文 DD(%)↑	中文 MD↓
SFT (基线)	30.42	36.46	2.95	27.00	40.02	3.12
SFT+DPO	31.22	37.25	2.77	30.83	40.98	2.87
SFT+KTO	31.62	37.96	2.77	28.64	40.53	3.10
SFT+DPO+KTO (Proposed)	32.37	37.11	2.63	33.94	43.44	2.58

分析：单独使用DPO或KTO都能提升SFT基线。有趣的是，KTO在DD上提升最大。而完整的序列策略（DPO+KTO）在PD和MD上取得最佳平衡，整体性能最优。

规则违反频率分析（图2）：
- SFT模型在“时长”和“音域”约束上违反频率最高（接近2000次）。
- DPO和KTO单独使用均能减少违反。
- 所提完整方法（PROPOSED）在所有五类规则上的违反频率均为最低，尤其在“时长”和“音域”上降低幅度巨大，直接证明了对齐的有效性。

⚖️ 评分理由

创新性：7.5/10。主要创新在于系统性地将“规则约束”与“偏好对齐”结合，构建了一个全自动的领域知识注入流水线。这是一种巧妙且实用的工程创新，为解决特定领域（规则明确）的生成质量问题提供了新思路，但规则本身的定义并非首创。
实验充分性：8.5/10。实验设计非常全面和严谨。涵盖了中英双语、多个强基线、丰富的客观指标（分布相似度和序列距离）、关键的主观听感测试，以及深入的消融研究（验证每个组件和每条规则）。数据规模大，结论支撑有力。
实用价值：8.0/10。直接针对歌词到旋律生成落地中的核心痛点（生成不可唱、不和谐的旋律），提出的解决方案高效、可扩展（无需人工标注），且效果显著。对音乐生成应用和相关AI产品（如语音智能体）有明确的实用价值。其范式可迁移至其他结构化生成任务。
灌水程度：2.0/10（分数越低越不水）。论文内容紧凑，问题陈述清晰，方法描述详细，实验扎实，结论合理。没有明显的冗余内容或夸大表述。局限性讨论也较为中肯。

🖼️ 图片与表格

图1: 框架概览图 | 保留: 是 - 理由：清晰地展示了SFT、偏好数据生成（包含规则约束）、序列对齐（DPO和KTO）三个核心阶段及其数据流向，是理解论文方法的核心示意图。
图2: 规则违反频率分析图 | 保留: 是 - 理由：直观且有力地证明了所提对齐方法能有效减少各类音乐规则违反，是支撑论文核心结论的关键实验结果图。
表1: 客观指标对比表 | 保留: 是 - 理由：展示了所提方法与多个基线在核心客观指标上的详细对比数据，是证明方法有效性的主要定量证据。
表2: 主观MOS评分表 | 保留: 是 - 理由：提供了人类专家对生成音乐质量的直接评价，是衡量最终生成效果的最重要指标之一。
表3: 消融实验表 | 保留: 是 - 理由：详细分解了DPO和KTO各自及组合的贡献，对于理解序列对齐策略的必要性和有效性至关重要。

📸 论文图片

← 返回 2026-04-21 论文速递

📄 Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

🖼️ 图片与表格#

📸 论文图片#

📎 相关论文