Latent Fourier Transform
📄 Latent Fourier Transform #音乐生成 #扩散模型 #生成模型 #数据集 #音频生成 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Mason L. Wang (MIT CSAIL) 通讯作者:Cheng-Zhi Anna Huang (MIT CSAIL) 其他作者:无 💡 毒舌点评 亮点:这篇论文最妙的地方在于,它没有去折腾音频波形本身,而是聪明地给音乐模型的“脑内活动”(潜在表示)做了一次傅里叶体检,然后像调EQ一样去调节音乐在不同时间尺度上的特征,思路非常清奇且有效。槽点:目前这“脑内手术”需要专门训练一套模型才能做,还不能直接给一个现成的音乐生成模型(如MusicLM)装上这个“傅里叶控制插件”,限制了其即插即用的潜力。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/maswang32/latentfouriertransform/。包含模型训练、推理、混合、可解释性分析代码,以及所有基线实现和实验管道。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:使用了公开数据集MTG-Jamendo、GTZAN和Maestro。 在线Demo:论文中未提及。 📌 核心摘要 这篇论文旨在解决现有音乐生成模型难以对任意时间尺度上的音乐模式进行精确控制的问题。作者提出了潜在傅里叶变换(LatentFT) 框架,其核心是将离散傅里叶变换应用于由扩散自编码器编码得到的潜在向量序列,从而得到“潜在频谱”。通过在训练过程中对潜在频谱进行随机频率掩码,迫使解码器学会从部分频率信息中重建音乐,使得训练后的模型潜在空间对频率域操作具有鲁棒性。这使得用户可以在推理时,通过指定潜在频率(对应音乐模式的时间尺度)来生成保留特定尺度特征的变体,或将两首乐曲按不同时间尺度进行混合。实验表明,LatentFT在条件生成和混合任务的保真度与质量上均优于多个基线方法。用户研究也证实了其生成质量和混合效果更受青睐。此外,论文还展示了隔离特定潜在频率以“聆听”对应音乐模式,以及分析不同音乐属性(如流派、和声、节奏)在潜在频谱中分布的能力。该工作为生成模型引入了一种直观、连续的频率域控制维度,推动了更可解释、可交互的音乐生成模型的发展。其局限性在于需要端到端训练特定模型,且目前主要应用于音乐领域。 🏗️ 模型架构 LatentFT 是一个端到端的编码器-解码器架构,其完整流程如下: 编码阶段: 输入:音频波形或梅尔频谱图 x₀。 编码器:将 x₀ 映射为一个时间序列的潜在向量 z ∈ R^(C'×T')。论文尝试了三种编码器:帧级MLP、1D U-Net(基于梅尔谱)和基于Descript音频编解码器(DAC)的编码器+1D U-Net。 潜在傅里叶变换:对潜在序列 z 沿时间轴应用离散傅里叶变换(DFT),得到潜在频谱 Z ∈ C^(C'×K)。Z 的频率轴称为潜在频率轴,其上的频率(Hz)对应于潜在序列振荡的速率,即音乐模式的时间尺度。 频率掩码(训练时随机,推理时用户指定): 采样一个随机阈值 η 和一组频率分箱得分 s(通过相关矩阵 K 生成,使相邻分箱得分相关)。 生成二进制掩码 M,保留得分高于阈值的分箱。 应用掩码:Z_masked = Z ⊙ M。 逆变换:对掩码后的频谱 Z_masked 应用逆DFT,得到频率掩码后的潜在序列 z_masked。 解码/生成阶段: 解码器:一个基于扩散模型的U-Net。其输入是:(a) 频率掩码后的潜在序列 z_masked(作为条件),(b) 带噪的梅尔频谱图 x_τ(训练时为加噪的真实数据,推理时为随机噪声),(c) 噪声水平 τ。 输出:预测的干净梅尔频谱图 x̂₀。最终通过BigVGAN声码器将梅尔谱转换为音频波形。 关键设计理由: 使用扩散自编码器:结合了表示学习(编码器)和强大的生成能力(扩散解码器),且其潜在表示具有语义意义。 在潜在空间而非音频空间做傅里叶变换:音频的频谱对应音色,而潜在序列的频谱对应音乐模式的时间变化(如和弦变化、节奏型)。这使得控制直接作用于音乐结构。 训练时频率掩码:这是核心创新。它迫使解码器学会从不完整的频率信息中连贯地重建音乐,从而使潜在空间对频率域操作(如掩码、混合)变得鲁棒。没有这一步,直接对预训练模型的潜在表示进行频率滤波会导致生成质量严重下降(如消融实验所示)。 相关分组与对数频率缩放:生成连续的掩码区域,更符合用户实际操作习惯,并平衡了1/f频谱中高低频能量不均的问题。 💡 核心创新点 潜在傅里叶变换(Latent Fourier Transform)的概念: ...