扩散Transformer

📄 Symphony Rendering: Midi and Composer-Conditioned Auto Orchestration with Flow-Matching Transformers #音乐生成 #流匹配 #扩散Transformer #数据集 #模型评估 ✅ 7.0/10 | 前50% | #音乐生成 | #流匹配 | #扩散Transformer #数据集学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jiahe Lei（香港中文大学电子工程系）通讯作者：Qiuqiang Kong（香港中文大学电子工程系）作者列表：Jiahe Lei（香港中文大学电子工程系）、Qiuqiang Kong（香港中文大学电子工程系） 💡 毒舌点评亮点：数据集构建思路巧妙，利用现成的音乐转录模型“凭空”创造出训练所需的MIDI-交响乐音频配对数据，堪称“无中生有”，且全部数据、代码、模型开源，诚意十足。短板：风格控制能力（24%的作曲家分类准确率）虽显著高于随机，但与真实录音（93%）差距巨大，模型更像是学会了“交响乐”的通用音色，而非精准复刻12位大师各自细腻的风格指纹。 🔗 开源详情代码：论文明确表示将公开训练代码，并在项目主页（https://symphony-rendering.github.io）提供链接。模型权重：论文明确表示将公开预训练的模型检查点（checkpoints）。数据集：论文明确表示将公开完整的源录音列表（包含原始YouTube URLs）和预处理脚本，这意味着数据集的获取路径是开源的。 Demo：论文明确表示在项目主页提供音频演示（audio demos）。复现材料：论文提供了详细的模型架构、训练细节（优化器、学习率、batch size、步数）、硬件配置（4xRTX 4090）以及超参数（模型维度、层数等），复现信息充分。论文中引用的开源项目：转录模型：引用了 [13] (Onsets and Frames) 和 [14] (High-resolution piano transcription)，表明使用了基于这些工作的现成转录模型。 VAE：引用了 [12] (LeVo)，表明使用了来自LeVo项目的预训练VAE。 DiT架构：引用了 [10] (Scalable Diffusion Models with Transformers)，表明其Transformer块的设计遵循此工作。评估工具：使用了mir_eval库计算Onset F1，引用了[17]。使用了Audiobox-Aesthetics进行美学评估，引用了[18]。使用了HuBERT（通过XCodec）进行风格分类，引用了[19, 20]。基线模型：引用了FluidSynth和Spectrogram Diffusion [1]作为对比基线。 📌 核心摘要解决的问题：如何将一段单声部旋律（MIDI）或钢琴缩编谱，自动编曲渲染成完整、高保真且符合特定作曲家风格的交响乐音频，尤其是在缺乏MIDI与真实交响乐录音配对数据的情况下。 ...