音乐生成，

📄 Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints #音乐生成， #大语言模型， #强化学习， #跨模态 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Hao Meng（根据论文格式推断）通讯作者：未明确标注。根据论文中“Aligned Lyric2Melody Model”的在线演示域名（arain233.github.io）推断，可能与第一作者或项目负责人相关。其他作者：Siyuan Zheng, Shuran Zhou, Qiangqiang Wang, Yang Song 机构信息：论文全文未明确列出作者所属机构。根据论文内容和常见的学术实践推断，作者可能来自同一研究团队或实验室。论文中提到了“Xiaomi LLM Core Team”，但未明确说明作者是否隶属于此团队。（推断）所有作者可能来自小米公司或与其合作的研究机构。 💡 毒舌点评亮点：这论文最聪明的地方在于，它没去跟人类评委死磕“什么叫好听”，而是把音乐老师敲黑板划的重点（音域别太宽、节奏别太怪、歌词对齐）变成了冷冰冰的代码规则，让模型自己跟自己玩“大家来找茬”，省时省力还效果拔群。槽点：规则是把双刃剑，虽然保证了下限（能唱），但也可能锁死了上限（好听）。模型学会了“不犯错”，但离“写出动人旋律”可能还差着十个贝多芬的灵感。另外，实验里的“主观评分”居然没找专业音乐人，这就像让一群美食家去评判手术缝合技术，专业不对口啊！ 🔗 开源详情代码：已开源。GitHub地址：https://github.com/arain233/AligningMelody 模型权重：论文中未明确提及是否公开预训练或微调后的模型权重。数据集：偏好数据集由论文方法自动生成，论文中未提及是否公开此数据集。SFT训练数据部分来自公开的SongComposer数据集和私有源。在线Demo：提供。地址：https://arain233.github.io/AligningMelody-demo 依赖的开源项目：基于Qwen2.5-0.5B预训练模型。评估中使用了TechSinger架构的声码器（可能未开源）。 📌 核心摘要这篇论文旨在解决大语言模型在歌词到旋律生成任务中，通过监督微调（SFT）训练出的模型常产生音乐上不可行（如节奏怪异、音域超限）的“约束违反”问题。核心贡献是提出了一套无需人工标注、基于规则约束的自动化对齐框架。关键方法分为三步：首先对预训练LLM进行SFT以获得基础生成能力；其次，利用SFT模型生成大量候选旋律，并通过五类预定义的音乐规则（格式、歌词对应、音符重复度、时长合理性、音域）自动评估，构建包含“好-坏”配对和纯“坏”样本的偏好数据集；最后，采用序列对齐策略，先用DPO在配对数据上优化模型偏好，再用KTO在纯负面样本上进一步抑制不良输出。主要发现是该方法在客观指标（音高/时长分布相似度）和主观听感（MOS评分接近真人作品）上均显著优于多个基线，并能大幅减少各类规则违反。实际意义在于为将领域专家知识（以规则形式）高效、可扩展地注入生成模型提供了一种新范式，对音乐、代码等结构化生成任务有重要参考价值。局限性在于规则集可能无法涵盖所有音乐美学维度，生成的旋律在创造性上可能受限。 🏗️ 模型架构论文提出的“Lyric2Melody”模型架构是一个三阶段流程，核心是基于一个预训练的大语言模型（Qwen2.5-0.5B）。第一阶段：监督微调（SFT） - 输入：歌词文本序列。 - 输出：符号化旋律序列。旋律被表示为 | (歌词音节, MIDI音高, 时长毫秒) | ... | 的序列。 - 过程：在约130万（80万中文+50万英文）歌词-旋律对数据上微调预训练LLM，使其学会从歌词到该符号格式的映射。 - 关键设计：采用结构化元组表示，强制模型在生成音高和时长的同时，必须与具体的歌词音节对齐，为后续规则约束提供了清晰的解析基础。 ...