多轨道 | 语音/音乐/音频论文速递

📄 ViTex: Visual Texture Control for Multi-Track Symbolic Music Generation via Discrete Diffusion Models #音乐生成 #扩散模型 #可控生成 #多轨道 #数据集 ✅ 7.0/10 | 前50% | #音乐生成 | #扩散模型 | #可控生成 #多轨道学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xiaoyu Yi（北京大学信息科学与技术学院，MBZUAI 音乐实验室）通讯作者：未明确说明（论文中未使用“通讯作者”标识）作者列表：Xiaoyu Yi（北京大学信息科学与技术学院，MBZUAI 音乐实验室）、Qi He（MBZUAI 音乐实验室）、Gus Xia（MBZUAI 音乐实验室）、Ziyu Wang（纽约大学柯朗数学科学研究所，MBZUAI 音乐实验室） 💡 毒舌点评亮点：将“画图”这一直观操作引入多轨道音乐的“织体”控制，比提供抽象的潜在变量或文本描述更贴近人类作曲思维，解决了实际创作中的一个痛点。短板：ViTex的基于规则的织体特征提取（如静音比例阈值0.3）显得有些“手工匠气”，可能难以捕捉和表达更复杂、更主观的音乐织体，且离散化的视觉表示在表达连续性强弱变化时存在固有局限。 🔗 开源详情代码：提供链接 https://vitex2025.github.io/，论文中声明代码可在该页面获取。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：使用了公开的Lakh MIDI和Meta MIDI数据集，但提供了具体的筛选条件和最终规模（7175首）。论文未提及是否公开其筛选处理后的子集。 Demo：论文中声明提供了Demo页面，链接为 https://vitex2025.github.io/。复现材料：提供了详细的训练设置（优化器、学习率、batch size、调度策略）、数据处理工具（muspy）、硬件环境（4 H100 GPU）、以及关键的模型架构图和条件表示细节。论文中引用的开源项目：使用了muspy进行数据处理，引用了GETMusic[8]的吸收态离散扩散框架。总结：论文提供了较好的开源基础，代码和Demo链接明确，训练细节清晰。但模型权重和处理数据集的公开性未明确说明。 📌 核心摘要问题：现有的多轨道符号音乐生成系统缺乏一种直观、细粒度的“乐器织体”控制方式，无法让用户直接指定不同乐器在特定音区和时间点如何演奏。方法：提出ViTex，一种将乐器织体可视化的表示方法（颜色编码乐器，位置编码音高/时间，笔触属性编码局部纹理）。基于此，构建了一个以ViTex和和弦进行为条件的离散扩散模型，使用无分类器引导进行训练，以生成8小节多轨道音乐。创新点：首次将视觉化的织体表示用于多轨道音乐生成控制；该表示同时支持人类直观操作和作为模型条件；结合离散扩散模型实现了高质量、可控的生成。实验结果：在Lakh MIDI和Meta MIDI的子集上训练和评估。定量实验（表1）显示，在条件生成任务中，本方法在乐器控制准确率（IA=0.600 vs Q&A-1: 0.584）、和弦准确率（CA=0.875 vs Q&A-1: 0.607）及排列质量（DOA=0.296 vs Q&A-1: 0.188）上均优于基线。无条件生成（表2）在律动相似度（GPS）和排列质量（DOA）上也优于AMT和MMT基线。主观听音测试（图3）表明，在给定乐器的生成任务中，本方法在连贯性、音乐性和创造性评分上均高于基线。实际意义：为音乐制作人和爱好者提供了一种更自然、更精细的方式来控制AI生成的多声部音乐，有望成为音乐创作辅助工具的新范式。主要局限性：ViTex表示基于规则，可能无法涵盖所有织体类型；当前仅支持8小节的片段生成；控制维度（音色、音区、密度）虽比之前工作更细，但仍有限。 🏗️ 模型架构模型整体架构：采用标准的UNet结构（图2），以处理被噪声污染的多轨道钢琴卷帘（pianoroll）xt。模型接收两个额外条件输入：乐器织体特征y1（ViTex）和和弦进行y2。 ...