Symphony Rendering: Midi and Composer-Conditioned Auto Orchestration with Flow-Matching Transformers

📄 Symphony Rendering: Midi and Composer-Conditioned Auto Orchestration with Flow-Matching Transformers #音乐生成 #流匹配 #扩散Transformer #数据集 #模型评估 ✅ 7.0/10 | 前50% | #音乐生成 | #流匹配 | #扩散Transformer #数据集 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jiahe Lei(香港中文大学电子工程系) 通讯作者:Qiuqiang Kong(香港中文大学电子工程系) 作者列表:Jiahe Lei(香港中文大学电子工程系)、Qiuqiang Kong(香港中文大学电子工程系) 💡 毒舌点评 亮点:数据集构建思路巧妙,利用现成的音乐转录模型“凭空”创造出训练所需的MIDI-交响乐音频配对数据,堪称“无中生有”,且全部数据、代码、模型开源,诚意十足。短板:风格控制能力(24%的作曲家分类准确率)虽显著高于随机,但与真实录音(93%)差距巨大,模型更像是学会了“交响乐”的通用音色,而非精准复刻12位大师各自细腻的风格指纹。 📌 核心摘要 解决的问题:如何将一段单声部旋律(MIDI)或钢琴缩编谱,自动编曲渲染成完整、高保真且符合特定作曲家风格的交响乐音频,尤其是在缺乏MIDI与真实交响乐录音配对数据的情况下。 方法核心:提出一个基于流匹配(Flow Matching) 和扩散Transformer(DiT) 的条件生成框架。系统先通过一个自动音乐转录(AMT)模型,将输入的钢琴音频或MIDI转换为时间对齐的钢琴卷帘(Piano Roll)表示。这个表示与作曲家标签一起,作为条件输入到流匹配模型中,该模型在一个预训练音频VAE的潜在空间中,将高斯噪声逐步变换为目标交响乐音频的潜在表示,最后由VAE解码器输出波形。 与已有方法的新颖性:核心创新是利用AMT构建伪配对数据,从而摆脱了对稀缺的MIDI-交响乐配对数据的依赖,使得训练数据只需包含纯交响乐音频即可。这解决了该任务数据获取的瓶颈。方法上将流匹配与DiT架构应用于这种多条件(内容+风格)的符号到音频生成任务。 主要实验结果: MIDI转交响乐渲染:在FAD(音频质量与分布真实性)指标上,本文方法(Transcription + Ours)得分为2.460,显著优于基线“频谱扩散”(8.219)和“FluidSynth”(6.099),表明生成的音频更逼真。在Onset F1(音符准确性)上达到0.409。 作曲家风格控制:使用独立的HuBERT分类器对生成音频进行作曲家分类,本文方法(w/ composer)达到22.7%-24.1% 的准确率,远高于无作曲家条件的版本(8.5%,接近1/12的随机基线),证明模型确实能响应作曲家条件。 表1: MIDI-to-audio rendering 结果对比 ...

2026-04-29