Symphony Rendering: Midi and Composer-Conditioned Auto Orchestration with Flow-Matching Transformers
📄 Symphony Rendering: Midi and Composer-Conditioned Auto Orchestration with Flow-Matching Transformers #音乐生成 #流匹配 #扩散Transformer #数据集 #模型评估 ✅ 7.0/10 | 前50% | #音乐生成 | #流匹配 | #扩散Transformer #数据集 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jiahe Lei(香港中文大学电子工程系) 通讯作者:Qiuqiang Kong(香港中文大学电子工程系) 作者列表:Jiahe Lei(香港中文大学电子工程系)、Qiuqiang Kong(香港中文大学电子工程系) 💡 毒舌点评 亮点:数据集构建思路巧妙,利用现成的音乐转录模型“凭空”创造出训练所需的MIDI-交响乐音频配对数据,堪称“无中生有”,且全部数据、代码、模型开源,诚意十足。短板:风格控制能力(24%的作曲家分类准确率)虽显著高于随机,但与真实录音(93%)差距巨大,模型更像是学会了“交响乐”的通用音色,而非精准复刻12位大师各自细腻的风格指纹。 🔗 开源详情 代码:论文明确表示将公开训练代码,并在项目主页(https://symphony-rendering.github.io)提供链接。 模型权重:论文明确表示将公开预训练的模型检查点(checkpoints)。 数据集:论文明确表示将公开完整的源录音列表(包含原始YouTube URLs)和预处理脚本,这意味着数据集的获取路径是开源的。 Demo:论文明确表示在项目主页提供音频演示(audio demos)。 复现材料:论文提供了详细的模型架构、训练细节(优化器、学习率、batch size、步数)、硬件配置(4xRTX 4090)以及超参数(模型维度、层数等),复现信息充分。 论文中引用的开源项目: 转录模型:引用了 [13] (Onsets and Frames) 和 [14] (High-resolution piano transcription),表明使用了基于这些工作的现成转录模型。 VAE:引用了 [12] (LeVo),表明使用了来自LeVo项目的预训练VAE。 DiT架构:引用了 [10] (Scalable Diffusion Models with Transformers),表明其Transformer块的设计遵循此工作。 评估工具:使用了mir_eval库计算Onset F1,引用了[17]。使用了Audiobox-Aesthetics进行美学评估,引用了[18]。使用了HuBERT(通过XCodec)进行风格分类,引用了[19, 20]。 基线模型:引用了FluidSynth和Spectrogram Diffusion [1]作为对比基线。 📌 核心摘要 解决的问题:如何将一段单声部旋律(MIDI)或钢琴缩编谱,自动编曲渲染成完整、高保真且符合特定作曲家风格的交响乐音频,尤其是在缺乏MIDI与真实交响乐录音配对数据的情况下。 ...