ViTex: Visual Texture Control for Multi-Track Symbolic Music Generation via Discrete Diffusion Models
📄 ViTex: Visual Texture Control for Multi-Track Symbolic Music Generation via Discrete Diffusion Models #音乐生成 #扩散模型 #可控生成 #多轨道 #数据集 ✅ 7.0/10 | 前50% | #音乐生成 | #扩散模型 | #可控生成 #多轨道 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xiaoyu Yi(北京大学信息科学与技术学院,MBZUAI 音乐实验室) 通讯作者:未明确说明(论文中未使用“通讯作者”标识) 作者列表:Xiaoyu Yi(北京大学信息科学与技术学院,MBZUAI 音乐实验室)、Qi He(MBZUAI 音乐实验室)、Gus Xia(MBZUAI 音乐实验室)、Ziyu Wang(纽约大学柯朗数学科学研究所,MBZUAI 音乐实验室) 💡 毒舌点评 亮点:将“画图”这一直观操作引入多轨道音乐的“织体”控制,比提供抽象的潜在变量或文本描述更贴近人类作曲思维,解决了实际创作中的一个痛点。短板:ViTex的基于规则的织体特征提取(如静音比例阈值0.3)显得有些“手工匠气”,可能难以捕捉和表达更复杂、更主观的音乐织体,且离散化的视觉表示在表达连续性强弱变化时存在固有局限。 📌 核心摘要 问题:现有的多轨道符号音乐生成系统缺乏一种直观、细粒度的“乐器织体”控制方式,无法让用户直接指定不同乐器在特定音区和时间点如何演奏。 方法:提出ViTex,一种将乐器织体可视化的表示方法(颜色编码乐器,位置编码音高/时间,笔触属性编码局部纹理)。基于此,构建了一个以ViTex和和弦进行为条件的离散扩散模型,使用无分类器引导进行训练,以生成8小节多轨道音乐。 创新点:首次将视觉化的织体表示用于多轨道音乐生成控制;该表示同时支持人类直观操作和作为模型条件;结合离散扩散模型实现了高质量、可控的生成。 实验结果:在Lakh MIDI和Meta MIDI的子集上训练和评估。定量实验(表1)显示,在条件生成任务中,本方法在乐器控制准确率(IA=0.600 vs Q&A-1: 0.584)、和弦准确率(CA=0.875 vs Q&A-1: 0.607)及排列质量(DOA=0.296 vs Q&A-1: 0.188)上均优于基线。无条件生成(表2)在律动相似度(GPS)和排列质量(DOA)上也优于AMT和MMT基线。主观听音测试(图3)表明,在给定乐器的生成任务中,本方法在连贯性、音乐性和创造性评分上均高于基线。 实际意义:为音乐制作人和爱好者提供了一种更自然、更精细的方式来控制AI生成的多声部音乐,有望成为音乐创作辅助工具的新范式。 主要局限性:ViTex表示基于规则,可能无法涵盖所有织体类型;当前仅支持8小节的片段生成;控制维度(音色、音区、密度)虽比之前工作更细,但仍有限。 🏗️ 模型架构 模型整体架构:采用标准的UNet结构(图2),以处理被噪声污染的多轨道钢琴卷帘(pianoroll)xt。模型接收两个额外条件输入:乐器织体特征y1(ViTex)和和弦进行y2。 ...