大语言模型，

📄 Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints #音乐生成， #大语言模型， #强化学习， #跨模态 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Hao Meng（根据论文格式推断）通讯作者：未明确标注。根据论文中“Aligned Lyric2Melody Model”的在线演示域名（arain233.github.io）推断，可能与第一作者或项目负责人相关。其他作者：Siyuan Zheng, Shuran Zhou, Qiangqiang Wang, Yang Song 机构信息：论文全文未明确列出作者所属机构。根据论文内容和常见的学术实践推断，作者可能来自同一研究团队或实验室。论文中提到了“Xiaomi LLM Core Team”，但未明确说明作者是否隶属于此团队。（推断）所有作者可能来自小米公司或与其合作的研究机构。 💡 毒舌点评亮点：这论文最聪明的地方在于，它没去跟人类评委死磕“什么叫好听”，而是把音乐老师敲黑板划的重点（音域别太宽、节奏别太怪、歌词对齐）变成了冷冰冰的代码规则，让模型自己跟自己玩“大家来找茬”，省时省力还效果拔群。槽点：规则是把双刃剑，虽然保证了下限（能唱），但也可能锁死了上限（好听）。模型学会了“不犯错”，但离“写出动人旋律”可能还差着十个贝多芬的灵感。另外，实验里的“主观评分”居然没找专业音乐人，这就像让一群美食家去评判手术缝合技术，专业不对口啊！ 🔗 开源详情代码：已开源。GitHub地址：https://github.com/arain233/AligningMelody 模型权重：论文中未明确提及是否公开预训练或微调后的模型权重。数据集：偏好数据集由论文方法自动生成，论文中未提及是否公开此数据集。SFT训练数据部分来自公开的SongComposer数据集和私有源。在线Demo：提供。地址：https://arain233.github.io/AligningMelody-demo 依赖的开源项目：基于Qwen2.5-0.5B预训练模型。评估中使用了TechSinger架构的声码器（可能未开源）。 📌 核心摘要这篇论文旨在解决大语言模型在歌词到旋律生成任务中，通过监督微调（SFT）训练出的模型常产生音乐上不可行（如节奏怪异、音域超限）的“约束违反”问题。核心贡献是提出了一套无需人工标注、基于规则约束的自动化对齐框架。关键方法分为三步：首先对预训练LLM进行SFT以获得基础生成能力；其次，利用SFT模型生成大量候选旋律，并通过五类预定义的音乐规则（格式、歌词对应、音符重复度、时长合理性、音域）自动评估，构建包含“好-坏”配对和纯“坏”样本的偏好数据集；最后，采用序列对齐策略，先用DPO在配对数据上优化模型偏好，再用KTO在纯负面样本上进一步抑制不良输出。主要发现是该方法在客观指标（音高/时长分布相似度）和主观听感（MOS评分接近真人作品）上均显著优于多个基线，并能大幅减少各类规则违反。实际意义在于为将领域专家知识（以规则形式）高效、可扩展地注入生成模型提供了一种新范式，对音乐、代码等结构化生成任务有重要参考价值。局限性在于规则集可能无法涵盖所有音乐美学维度，生成的旋律在创造性上可能受限。 🏗️ 模型架构论文提出的“Lyric2Melody”模型架构是一个三阶段流程，核心是基于一个预训练的大语言模型（Qwen2.5-0.5B）。第一阶段：监督微调（SFT） - 输入：歌词文本序列。 - 输出：符号化旋律序列。旋律被表示为 | (歌词音节, MIDI音高, 时长毫秒) | ... | 的序列。 - 过程：在约130万（80万中文+50万英文）歌词-旋律对数据上微调预训练LLM，使其学会从歌词到该符号格式的映射。 - 关键设计：采用结构化元组表示，强制模型在生成音高和时长的同时，必须与具体的歌词音节对齐，为后续规则约束提供了清晰的解析基础。 ...

📄 Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models #音乐分离， #自回归模型， #大语言模型， #音频大模型 ✅ 评分：7.0/10 | arxiv 👥 作者与机构第一作者/通讯作者：彭博吕 (Pengbo Lyu) （阿里巴巴通义应用业务组，中国）其他作者：赵翔宇 (Xiangyu Zhao) （阿里巴巴通义应用业务组，中国）刘成伟 (Chengwei Liu) （阿里巴巴通义应用业务组，中国）闫浩音 (Haoyin Yan) （阿里巴巴通义应用业务组，中国）梁晓涛 (Xiaotao Liang) （阿里巴巴通义应用业务组，中国）王宏宇 (Hongyu Wang) （阿里巴巴通义应用业务组，中国）薛少飞 (Shaofei Xue) （推断，根据邮箱mullerxue@126.com，可能为独立研究者或与阿里巴巴合作） 💡 毒舌点评亮点：成功把“分离”这个传统的“信号复原”问题，包装成了“生成”问题，用上了时髦的大语言模型，思路清奇，算是在音频领域给LLM找到了一个新“乐子”。槽点：处理鼓点这种“快准狠”的声音还是不行，暴露了自回归模型“慢工出细活”的本质短板；更尴尬的是，训练用的“标准答案”（伪标签）还是隔壁BS-RoFormer模型生成的，有种“用老师教学生，还怪学生超不过老师”的黑色幽默。 🔗 开源详情代码：论文中提供了GitHub链接（https://anonymous.4open.science/w/mss-demo-page-2F80/），表明代码已开源。模型权重：论文中未明确说明是否公开预训练模型权重。数据集：训练使用内部大规模数据集（未公开），评估使用公开的MUSDB18-HQ数据集。在线Demo：论文提供了演示页面链接（https://anonymous.4open.science/w/mss-demo-page-2F80/）。依赖的开源工具/模型： BS-RoFormer：用于生成伪标签的SOTA分离模型。 HCodec：用于音频令牌化和重构的双路径编解码器。 HuBERT：用于提取语义特征的预训练语音模型。 Silero VAD：用于语音活动检测。 LLaMA：作为解码器-only语言模型的架构基础。 MUSDB18-HQ：公开的评估数据集。 📌 核心摘要本文提出了一种用于多轨音乐源分离的生成式框架，其核心创新在于将分离任务重新定义为条件离散令牌生成问题。传统方法直接在时频域估计连续信号，而本文方法首先利用HCodec神经音频编解码器将音频波形转换为离散的声学与语义令牌序列。然后，一个基于Conformer的条件编码器从混合音频中提取特征，作为解码器-only大语言模型（LLaMA架构）的条件前缀。该语言模型以自回归的方式，按照固定顺序（人声、鼓、贝斯、其他）依次生成四个目标轨道的令牌序列，最后由HCodec解码器重构为波形。在MUSDB18-HQ基准上的实验表明，该生成方法在整体感知质量（ViSQOL）上接近顶尖的判别式方法（如BS-RoFormer），并且在人声轨道的NISQA感知质量评分上取得了最高分（2.50）。消融研究证实了可学习Conformer编码器和顺序跨轨道生成策略的有效性。然而，该方法在处理具有尖锐瞬态的鼓组时性能存在差距，且依赖于其他模型的伪标签进行训练，这限制了其性能上限。 ...