Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints

📄 Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints #音乐生成, #大语言模型, #强化学习, #跨模态 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Hao Meng(根据论文格式推断) 通讯作者:未明确标注。根据论文中“Aligned Lyric2Melody Model”的在线演示域名(arain233.github.io)推断,可能与第一作者或项目负责人相关。 其他作者:Siyuan Zheng, Shuran Zhou, Qiangqiang Wang, Yang Song 机构信息:论文全文未明确列出作者所属机构。根据论文内容和常见的学术实践推断,作者可能来自同一研究团队或实验室。论文中提到了“Xiaomi LLM Core Team”,但未明确说明作者是否隶属于此团队。(推断) 所有作者可能来自小米公司或与其合作的研究机构。 💡 毒舌点评 亮点:这论文最聪明的地方在于,它没去跟人类评委死磕“什么叫好听”,而是把音乐老师敲黑板划的重点(音域别太宽、节奏别太怪、歌词对齐)变成了冷冰冰的代码规则,让模型自己跟自己玩“大家来找茬”,省时省力还效果拔群。 槽点:规则是把双刃剑,虽然保证了下限(能唱),但也可能锁死了上限(好听)。模型学会了“不犯错”,但离“写出动人旋律”可能还差着十个贝多芬的灵感。另外,实验里的“主观评分”居然没找专业音乐人,这就像让一群美食家去评判手术缝合技术,专业不对口啊! 📌 核心摘要 这篇论文旨在解决大语言模型在歌词到旋律生成任务中,通过监督微调(SFT)训练出的模型常产生音乐上不可行(如节奏怪异、音域超限)的“约束违反”问题。核心贡献是提出了一套无需人工标注、基于规则约束的自动化对齐框架。关键方法分为三步:首先对预训练LLM进行SFT以获得基础生成能力;其次,利用SFT模型生成大量候选旋律,并通过五类预定义的音乐规则(格式、歌词对应、音符重复度、时长合理性、音域)自动评估,构建包含“好-坏”配对和纯“坏”样本的偏好数据集;最后,采用序列对齐策略,先用DPO在配对数据上优化模型偏好,再用KTO在纯负面样本上进一步抑制不良输出。主要发现是该方法在客观指标(音高/时长分布相似度)和主观听感(MOS评分接近真人作品)上均显著优于多个基线,并能大幅减少各类规则违反。实际意义在于为将领域专家知识(以规则形式)高效、可扩展地注入生成模型提供了一种新范式,对音乐、代码等结构化生成任务有重要参考价值。局限性在于规则集可能无法涵盖所有音乐美学维度,生成的旋律在创造性上可能受限。 🏗️ 模型架构 论文提出的“Lyric2Melody”模型架构是一个三阶段流程,核心是基于一个预训练的大语言模型(Qwen2.5-0.5B)。 第一阶段:监督微调(SFT) - 输入:歌词文本序列。 - 输出:符号化旋律序列。旋律被表示为 | (歌词音节, MIDI音高, 时长毫秒) | ... | 的序列。 - 过程:在约130万(80万中文+50万英文)歌词-旋律对数据上微调预训练LLM,使其学会从歌词到该符号格式的映射。 - 关键设计:采用结构化元组表示,强制模型在生成音高和时长的同时,必须与具体的歌词音节对齐,为后续规则约束提供了清晰的解析基础。 第二阶段:偏好数据生成 - 输入:大量未见的歌词提示。 - 过程: a. 使用SFT模型为每个提示生成 k 个候选旋律。 b. 对每个生成的旋律,用五类基于规则的音乐约束进行自动评估: - 格式约束:输出是否可正确解析为 (歌词, 音高, 时长) 元组序列。 - 歌词约束:生成的非连音歌词序列是否是输入歌词的合法分词。 - 音符约束(防单调):连续相同音高的比例是否低于阈值 τ_note。 - 时长约束(节奏合理性):每个音符时长是否在 [d_min, d_max] 内;最后一个音符是否在更长的 [d_final_min, d_final_max] 内。 - 音域约束:所有音高是否在预设的人声音域 [p_min, p_max](如C4-C6)内。 c. 数据构建: - 配对数据(用于DPO):如果一个提示生成的 k 个旋律中,既有通过所有规则的“胜者”(winner),也有未通过的“败者”(loser),则构成 (prompt, winner, loser) 三元组。 - 非配对数据(用于KTO):如果一个提示生成的所有旋律都未通过规则,则将这些旋律全部作为“不良样本” {y_u} 收集起来。 - 输出:一个大规模的自动偏好数据集,包含配对数据和非配对数据。 ...

2026-04-21

Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models

📄 Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models #音乐分离, #自回归模型, #大语言模型, #音频大模型 ✅ 评分:7.0/10 | arxiv 👥 作者与机构 第一作者/通讯作者:彭博吕 (Pengbo Lyu) (阿里巴巴通义应用业务组,中国) 其他作者: 赵翔宇 (Xiangyu Zhao) (阿里巴巴通义应用业务组,中国) 刘成伟 (Chengwei Liu) (阿里巴巴通义应用业务组,中国) 闫浩音 (Haoyin Yan) (阿里巴巴通义应用业务组,中国) 梁晓涛 (Xiaotao Liang) (阿里巴巴通义应用业务组,中国) 王宏宇 (Hongyu Wang) (阿里巴巴通义应用业务组,中国) 薛少飞 (Shaofei Xue) (推断,根据邮箱mullerxue@126.com,可能为独立研究者或与阿里巴巴合作) 💡 毒舌点评 亮点:成功把“分离”这个传统的“信号复原”问题,包装成了“生成”问题,用上了时髦的大语言模型,思路清奇,算是在音频领域给LLM找到了一个新“乐子”。 槽点:处理鼓点这种“快准狠”的声音还是不行,暴露了自回归模型“慢工出细活”的本质短板;更尴尬的是,训练用的“标准答案”(伪标签)还是隔壁BS-RoFormer模型生成的,有种“用老师教学生,还怪学生超不过老师”的黑色幽默。 📌 核心摘要 本文提出了一种用于多轨音乐源分离的生成式框架,其核心创新在于将分离任务重新定义为条件离散令牌生成问题。传统方法直接在时频域估计连续信号,而本文方法首先利用HCodec神经音频编解码器将音频波形转换为离散的声学与语义令牌序列。然后,一个基于Conformer的条件编码器从混合音频中提取特征,作为解码器-only大语言模型(LLaMA架构) 的条件前缀。该语言模型以自回归的方式,按照固定顺序(人声、鼓、贝斯、其他)依次生成四个目标轨道的令牌序列,最后由HCodec解码器重构为波形。在MUSDB18-HQ基准上的实验表明,该生成方法在整体感知质量(ViSQOL)上接近顶尖的判别式方法(如BS-RoFormer),并且在人声轨道的NISQA感知质量评分上取得了最高分(2.50)。消融研究证实了可学习Conformer编码器和顺序跨轨道生成策略的有效性。然而,该方法在处理具有尖锐瞬态的鼓组时性能存在差距,且依赖于其他模型的伪标签进行训练,这限制了其性能上限。 🏗️ 模型架构 该框架是一个端到端的条件生成系统,包含三大核心组件,其完整流程如下: 输入:48kHz单声道混合音频波形 x_mix。 条件特征提取: 组件:基于Conformer的条件编码器。 流程:首先对 x_mix 进行STFT(FFT大小2048,跳跃长度960),计算120维的log-Mel频谱图 M。然后,M 被送入一个8层、12头注意力、深度卷积核大小为31的Conformer编码器,并使用旋转位置嵌入。输出为混合特征 F_mix,最后通过一个线性适配器层投影至语言模型的隐藏维度。 作用:为语言模型提供关于混合音频的紧凑、高层次的条件表示。 离散音频令牌化: 组件:双路径神经音频编解码器 HCodec(参数冻结)。 流程:HCodec包含声学路径(处理STFT频谱)和语义路径(处理冻结的HuBERT特征),两者均输出12.5Hz帧率的特征。每个路径独立使用16层、码本大小为1024的残差矢量量化(RVQ)进行量化,分别得到声学令牌 c^a 和语义令牌 c^s。为便于语言建模,两者沿时间轴交织:[c0^a, c0^s, c1^a, c1^s, ...]。 作用:将连续音频波形转换为离散的令牌序列,这是生成式建模的基础。 自回归令牌生成: 组件:基于LLaMA架构的解码器-only Transformer(16层,16头注意力,隐藏维度2048)。 输入序列:x = [<mix>, F_mix, S, c^(1), S, c^(2), S, c^(3), S, c^(4)]。其中 <mix> 是起始标记,S 是每个轨道共享的开始令牌,c^(k) 是第k个轨道的交织令牌序列。轨道顺序固定为:人声、鼓、贝斯、其他。 输出序列:y = [c^(1), E, c^(2), E, c^(3), E, c^(4), E]。E 是共享的结束令牌,用于分隔轨道。 作用:语言模型学习在给定混合条件 F_mix 和已生成令牌的历史 y_<t 的条件下,预测下一个令牌 y_t 的概率分布。通过自回归方式,模型在单次前向传播中顺序生成所有四个轨道的令牌。 输出重构:生成的离散令牌序列被解交织回声学和语义令牌,然后送入冻结的HCodec解码器,重构出四个分离的音频波形。 关键设计选择理由: ...

2026-04-20