Instrument Generation Through Distributional Flow Matching and Test-Time Search

📄 Instrument Generation Through Distributional Flow Matching and Test-Time Search #音乐生成 #流匹配 #扩散模型 #测试时搜索 ✅ 7.0/10 | 前25% | #音乐生成 | #流匹配 | #扩散模型 #测试时搜索 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Qihui Yang(University of California, San Diego) 通讯作者:未说明 作者列表:Qihui Yang(University of California, San Diego)、Randal Leistikow(Smule Labs)、Yongyi Zang(Smule Labs) 💡 毒舌点评 亮点在于,论文巧妙地将“承认不确定性”引入流匹配框架,让模型不再“固执己见”,并通过测试时搜索将计算力转化为音色一致性的提升,这在概念上很优雅。短板是实验仅在相对“干净”且规模有限的NSynth数据集上进行,对于真实世界中更复杂、噪声更多或音色更微妙的乐器场景,其泛化能力和实际效用仍有待验证,且开源代码的缺失让这一新颖方法停留在了“可读但不可复用”的阶段。 📌 核心摘要 问题:现有基于音符级模型的虚拟乐器生成方法,在生成不同音高和力度的音符时,难以保持一致的音色(timbre),限制了其在专业音乐制作中的应用。 方法核心:提出FlowSynth,其核心是分布式流匹配(DFM)。与传统流匹配学习确定性速度场不同,DFM将速度场参数化为高斯分布(预测均值和方差),并直接使用负对数似然(NLL)进行训练,使模型能显式表达其预测的不确定性。 创新点:1)提出DFM,通过NLL优化直接学习速度场分布,无需变分下界或辅助隐变量;2)提出一个基于模型置信度(不确定性)的测试时搜索框架,结合音色一致性目标,在推理时生成多个候选轨迹并选择最优者。 主要实验结果:在NSynth数据集上,FlowSynth在单音生成和多音(乐器)生成上均优于基线TokenSynth。 关键实验结果表格: 表1:单音生成结果(无引导搜索) 模型 MADpitch (↓) MSS (↓) CLAP (↑) FADvgg (↓) TCC (↓) Ground Truth 67.63 0.0 0.1601 0.0 2.819 TokenSynth 37.99 31.29 0.1290 9.359 3.055 FlowSynth (No Search) 23.42 17.71 0.0583 3.977 1.523 FlowSynth (Uncond. Search, N=32) 26.06 16.65 0.1821 3.832 1.385 表2:多音生成结果(无引导搜索) ...

2026-04-29