ICASSP 2026 - 音乐生成
共 31 篇论文
📋 论文详情
🥇 MuseTok: Symbolic Music Tokenization for Generation and Semantic Understanding
🔥 8.5/10 | 前25% | #音乐生成 | #预训练 | #音乐理解 #数据集
👥 作者与机构
- 第一作者:Jingyue Huang(University of California San Diego, USA)
- 通讯作者:未说明
- 作者列表:Jingyue Huang(University of California San Diego, USA)、Zachary Novack(University of California San Diego, USA)、Phillip Long(University of California San Diego, USA)、Yupeng Hou(University of California San Diego, USA)、Ke Chen(University of California San Diego, USA)、Taylor Berg-Kirkpatrick(University of California San Diego, USA)、Julian McAuley(University of California San Diego, USA)
💡 毒舌点评
本文首次尝试为符号音乐构建一个“通用”的离散表示学习框架,并通过生成和多个语义理解任务进行了验证,这种“一体两面”的评估视角比多数只关注单一任务的工作更为全面。然而,其在核心的旋律提取任务上表现远低于专用模型(81.92% vs. 92.62%),暴露了当前“通用”表示在捕获细粒度、关键音乐结构上的根本局限,说明“通用”与“专用”之间的鸿沟依然显著。
🔗 开源详情
- 代码:提供GitHub仓库链接(https://github.com/Yuer867/MuseTok)。
- 模型权重:论���中提及提供检查点(checkpoints),但未明确说明是否与代码一同开源。未明确提及模型权重是否公开。
- 数据集:使用公开数据集(PDMX, POP909, EMOPIA等),并说明了数据获取和预处理方式。
- Demo:提供在线演示网站(https://musetok.github.io/)。
- 复现材料:提供了详细的训练超参数、模型架构配置、评估指标和训练硬件信息。
- 论文中引用的开源项目:论文中提及并引用了SimVQ和旋转技巧(Rotation Trick)的相关工作。
📌 核心摘要
解决的问题:当前离散表示学习在图像、语音和语言领域成果显著,但在符号音乐领域发展滞后,缺乏一种能同时支持音乐生成和多维度语义理解的通用表示方法。
方法核心:提出MuseTok,采用基于残差向量量化变分自编码器(RQ-VAE)的编码器-解码器框架,在Transformer架构下对小节(bar)级别的音乐片段进行离散化编码,生成多层级的音乐代码(codes)。
创新之处:这是首个针对符号音乐的通用离散表示学习框架,其创新在于将RQ-VAE应用于音乐小节,并证明了单一表示在生成、旋律提取、和弦识别、情感识别等多个任务上的有效性,同时揭示了不同代码层对不同音乐概念(如节奏、音高)的隐式分离能力。
主要实验结果:
- 重建性能:MuseTok-Large在单声部、合唱和多声部音乐上的重建准确率分别达到99.58%、93.71%和82.68%,接近或超越VAE上界。
- 音乐生成:在音乐续写任务中,MuseTok在客观指标(色度相似度、律动相似度)上优于REMI和AMT基线,但在主观“音高”评分上落后。
- 语义理解:在情感识别任务上显著超越所有基线(78.95% vs. 最高73.15%),在和弦识别上也表现最佳(49.87% vs. 38.03%),但在旋律提取任务上表现最差(81.92% vs. 最高92.62%)。
任务/模型 MuseTok REMI / RNN MusicBERT / AMT PianoBART / MIDI-BERT 音乐生成 (Objective) 色度相似度 (simchr) 95.19 94.61 94.72 - 律动相似度 (simgrv) 88.77 87.41 84.08 - 语义理解 (Accuracy %) 旋律提取 81.92 89.98 92.47 92.62 和弦识别 49.87 38.03 - - 情感识别 78.95 53.46 71.06 73.15 实际意义:该工作为符号音乐领域提供了一种统一的、数据驱动的离散表示学习范式,有望推动音乐AI在生成、检索、理解等多个下游任务上的协同发展。
主要局限性:模型在旋律提取任务上表现不佳,表明其学习到的通用表示未能充分编码旋律相关的细粒度语义信息;同时,固定深度的量化方案可能对不同复杂度的音乐(如简单单声部)不够自适应。
🥈 Time-Shifted Token Scheduling for Symbolic Music Generation
🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 | #多轨音乐
👥 作者与机构
- 第一作者:Ting-Kang Wang(台湾大学通讯工程研究所)
- 通讯作者:未说明
- 作者列表:Ting-Kang Wang(台湾大学通讯工程研究所)、Chih-Pin Tan(台湾大学通讯工程研究所)、Yi-Hsuan Yang(台湾大学通讯工程研究所)
💡 毒舌点评
这篇论文巧妙地将音频领域已有的“延迟模式”思想移植到符号音乐生成,用近乎零成本的方式显著改善了复合token建模的短板,体现了“好移植胜过坏发明”的实用主义智慧。不过,其核心创新更多是工程技巧的适配与验证,缺乏更深层的理论分析或架构上的原创性,并且实验局限于管弦乐MIDI生成,对于更复杂或更抽象的音乐结构建模能力有待观察。
🔗 开源详情
- 代码:提供代码仓库链接:https://github.com/tklovln/dp-scheduling
- 模型权重:论文中未提及是否公开预训练模型权重。
- 数据集:使用公开数据集SymphonyNet,论文中描述了获取和划分方式。
- Demo:提供在线演示页面:https://tklovln.github.io/dp-demo/
- 复现材料:提供了完整的训练细节(模型架构、数据集处理、超参数、优化器配置)、代码和演示。
- 引用的开源项目/工具:论文引用了并可能依赖以下开源工具:muspy [23], pypianoroll [24], fluidsynth(用于MIDI渲染)。基线模型MMT [15]和NMT [6]也是开源的。
📌 核心摘要
- 问题:符号音乐生成中,紧凑的复合token表示(将音符多个属性打包)虽提高了效率,但导致模型在并行预测这些属性时忽略了它们内部的依赖关系(如音高与时长的相关性),影响生成质量。
- 方法核心:提出一种轻量级的延迟调度机制(DP),将复合token的各个子字段(如类型、节拍、音高等)在解码时按固定顺序延迟一步预测,从而将并行预测转化为自回归预测,以建模属性间的依赖关系。
- 创新:该方法并非新的表示方案,而是一种可即插即用到现有复合token表示上的调度策略,不引入任何额外参数,仅需微小的数据加载器改动。它借鉴了音频领域的延迟模式(如MusicGen),但创新性地应用于符号音乐的异质属性依赖建模。
- 实验结果:在SymphonyNet管弦乐数据集上的实验表明,将DP应用于基线模型(MMT-DP)后,所有评估指标均优于标准复合token模型。主观听觉测试(26名参与者)显示,MMT-DP在连贯性、丰富性、一致性和总体评分上均有提升,达到了与更复杂的嵌套Transformer(NMT)和细粒度表示(REMI+)相当的水平。客观评估表格如下:
模型 音高类熵(越接近真值越好) 音阶一致性(越接近真值越好) 律动一致性(越接近真值越好) Ground truth 2.70 (±0.39) 0.92 (±0.08) 0.90 (±0.07) MMT 2.42 (±0.46) 0.96 (±0.05) 0.90 (±0.07) NMT 2.74 (±0.43) 0.92 (±0.07) 0.99 (±0.00) REMI+ 2.64 (±0.46) 0.92 (±0.07) 0.88 (±0.08) MMT-DP (Ours) 2.53 (±0.46) 0.95 (±0.06) 0.93 (±0.05) - 实际意义:为复合token表示在效率与质量之间的权衡提供了一个极低成本的优化方案,能无缝集成到现有系统中,提升生成音乐的连贯性和准确性。
- 主要局限性:方法有效性在多大程度上依赖于特定的子字段顺序和延迟步长未充分探讨;实验仅在管弦乐生成任务上验证,对其他音乐类型或更复杂的长篇结构生成能力未加检验。
🥉 Low-Resource Guidance for Controllable Latent Audio Diffusion
🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #控制生成 #推理优化
👥 作者与机构
- 第一作者:Zachary Novack(UC San Diego & Stability AI, †表示工作完成于Stability AI实习期间)
- 通讯作者:未明确说明(论文未明确指定通讯作者)
- 作者列表:Zachary Novack(UC San Diego & Stability AI)、Zack Zukowski(Stability AI)、CJ Carr(Stability AI)、Julian Parker(Stability AI)、Zach Evans(Stability AI)、Josiah Taylor(Stability AI)、Taylor Berg-Kirkpatrick(UC San Diego)、Julian McAuley(UC San Diego)、Jordi Pons(Stability AI)
💡 毒舌点评
亮点:巧妙地将“Readout”思想引入音频扩散模型,并设计了“Latent-Control Heads”,绕过了极其耗时的解码器反向传播,将推理时间和显存占用降低了约一个数量级(端到端150秒 vs LatCH 17.5秒),这是非常实用的工程优化。短板:该方法本质上是给一个已有的“大模型”(Stable Audio Open)外挂一个“小控制器”,控制精度严重依赖这个小控制器的拟合能力,实验也显示对于快速变化的音高控制效果仍然不佳,且核心控制逻辑(TFG)并非首次提出。
🔗 开源详情
- 代码:论文中未提及代码仓库链接。
- 模型权重:未提及公开LatCH模型权重。
- 数据集:训练使用了FMA CC音乐(公开),评估使用了Song Describer Dataset的非人声子集。论文未说明该评估子集是否公开或如何获取。
- Demo:提供在线演示链接:https://anonaudiogen.github.io/web2
- 复现材料:论文详细说明了LatCH的模型架构(7M参数,双向Transformer+RoPE)、训练数据来源、损失函数、关键超参数(ρ, μ, γ, N_iter, N_recur等)、采样设置(DDIM,100步,CFG scale=7)以及训练硬件(单H100,约4小时)。这些信息对复现有重要参考价值。
- 论文中引用的开源项目:Stable Audio Open [2] (基础模型)、CREPE [28] (音高提取器)、All-in-One [27] (节拍分析器)、TFG [21] (指导框架)。
- 总体开源情况:论文提供了高质量的非官方复现指南和一个交互式Demo,但缺少官方代码和模型权重,完全复现需要一定工程努力。
📌 核心摘要
这篇论文旨在解决可控音频扩散模型推理成本过高的问题。现有基于指导(Guidance)的控制方法需要在采样时通过音频解码器进行反向传播,计算开销巨大。论文的核心方法是:(1)引入“潜在控制头(Latent-Control Heads, LatCH)”,这是一个轻量级(7M参数)的可训练模型,直接将扩散模型的潜在表示映射到控制特征,从而完全避免了通过解码器的反向传播;(2)提出“选择性TFG(Selective TFG)”,即仅在采样的早期部分步骤应用指导,以平衡控制精度与生成质量。与基线相比,该方法在Stable Audio Open上实现了对强度、音高和节拍的有效控制。主要结果表明(见下表),LatCH-B方法在音频质量上与原始SAO模型相当,控制对齐度优于随机基线,且计算成本(运行时和显存)相比端到端指导方法降低了约8-9倍。该方法的实际意义在于大幅降低了实现可控音频生成的资源门槛。主要局限性在于,控制精度受限于训练好的LatCH模型,对于音高这种高频变化的控制效果仍不完美。
关键实验结果(节选自表1)
| 方法 | 控制类型 | 音频质量 (FDopenl3 ↓) | 控制对齐 (MSE/BCE ↓) | 运行时 (s ↓) | 显存 (GB ↓) |
|---|---|---|---|---|---|
| SAO (基线) | 无控制 | 96.51 | - | 11.3 | 5.51 |
| End-to-end | 节拍 | 87.49 | 0.200 | 150.1 | 30.42 |
| LatCH-B (本文) | 节拍 | 89.43 | 0.138 | 17.6 | 5.59 |
| Readout | 节拍 | 97.79 | 0.209 | 15.7 | 5.59 |
| End-to-end | 强度 | 80.76 | 2.14 | 103.0 | 26.31 |
| LatCH-B (本文) | 强度 | 77.00 | 2.52 | 17.5 | 5.56 |
| Readout | 强度 | 89.81 | 1.38 | 15.6 | 5.57 |
4. A Generative-First Neural Audio Autoencoder
🔥 8.5/10 | 前25% | #音乐生成 | #生成模型 | #音频大模型 #流式处理
👥 作者与机构
- 第一作者:Jonah Casebeer(Adobe Research)
- 通讯作者:未说明
- 作者列表:Jonah Casebeer(Adobe Research),Ge Zhu(Adobe Research),Zhepei Wang(Adobe Research),Nicholas J. Bryan(Adobe Research)
💡 毒舌点评
亮点在于其“生成优先”的设计哲学非常务实,通过一系列巧妙的工程优化(如SnakeLite、下采样策略)实现了编码速度一个数量级的提升,这对大规模生成模型训练是关键杠杆。短板是论文作为ICASSP 2026投稿,其声称的SOTA对比基线(如CoDiCodec)虽然最新,但缺乏更广泛的跨领域音频编解码器(如面向语音的极低比特率模型)对比,其“统一模型”的普适性边界尚待更多下游任务验证。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:未提及公开模型权重。
- 数据集:使用25K小时经许可的音乐,但论文中未公开此数据集或提供获取方式。
- Demo:未提及在线演示。
- 复现材料:提供了非常详细的训练细节、模型超参数配置、架构描述和消融实验设置,但未提供预训练检查点或具体配置文件。
- 论文中引用的开源项目:未在文中明确列出依赖的开源项目/模型。基线模型(DAC, EnCodec, SAO, CoDiCodec)本身是开源项目,但论文未说明是否基于其代码进行实验。
- 总结:论文中未提及开源计划(代码、模型、数据均未提供)。
📌 核心摘要
- 问题:现有的神经音频自编码器(如SoundStream, EnCodec, DAC)主要针对“重建优先”设计,存在潜变量率高、编码速度慢、需要针对不同音频格式(单声道、立体声、中侧声道)维护不同模型等问题,这阻碍了它们在需要大规模、快速编码的生成模型(如扩散模型、语言模型)中的高效应用。
- 方法核心:提出“生成优先自编码器”(GenAE),这是一个单一的编码器-瓶颈-解码器架构。通过一系列架构优化(高效激活函数SnakeLite、早期下采样、可分离卷积、激进的时间下采样、梅尔谱融合、窗口化自注意力)和训练优化(多��式数据增强、辅助梅尔损失、互质多分辨率损失),在压缩率、重建质量和处理速度之间取得更佳平衡。
- 创新点:1) 提出了一种统一的架构,支持连续(KL)和离散(VQ)潜变量,以及单声道、立体声、中侧声道等多种音频格式,无需单独变体;2) 通过架构修改,将时间下采样率从2048倍提升至3360倍,并实现了10倍更快的编码速度;3) 提出了一种后训练离散化步骤,允许在训练好的连续模型上添加RVQ瓶颈以支持离散潜变量,无需重训骨干网络。
- 实验结果:GenAE(13.125 Hz)在SI-SDR、多分辨率STFT损失、梅尔谱L1距离等指标上,以仅60%的基线(SAO)潜变量率达到了更优的重建质量;编码速度比SAO快12倍,内存占用仅为SAO的1/3。一个60秒的单声道信号仅压缩为788个令牌。具体数值见下表。
| 模型 | 潜变量率 (Hz) | 上下文长度 (秒) ↑ | L/R 梅尔↓ | M/S 梅尔↓ |
|---|---|---|---|---|
| EnCodec-48 | 150 | 73 | 0.5485 | 0.6602 |
| DAC | 86 | 127 | 0.5144 | 0.5114 |
| CoDiCodec-FSQ | 11 | 993 | 0.9586 | 1.0553 |
| GenAE-VQ (ours) | 13.125 | 832 | 0.5956 | 0.5943 |
| SAO | 21.5 | 106 | 0.6863 | 0.7506 |
| CoDiCodec | 11 | 206 | 0.9252 | 1.0218 |
| GenAE-KL (ours) | 13.125 | 173 | 0.5384 | 0.5369 |
| GenAE-KL (ours) | 36.75 | 62 | 0.4005 | 0.4054 |
- 实际意义:显著降低了使用神经音频编解码器进行生成模型训练和推理的计算成本(时间和内存),使得在有限资源下处理长音频上下文成为可能,从而能够开发更强大、更高效的音频/音乐生成与理解应用。
- 主要局限性:论文未提供代码、预训练模型或训练数据集,阻碍了立即复现;评估主要集中在44.1kHz音乐音频上,在其他音频类型(如语音、环境声)上的性能未充分验证;与CoDiCodec相比,在极高压缩率下(11Hz)的重建质量仍有差距。
5. Virtual Consistency for Audio Editing
🔥 8.0/10 | 前25% | #音乐生成 | #扩散模型 | #音频处理
👥 作者与机构
- 第一作者:Matthieu Cervera (Mila-Québec AI Institute, Laval University)
- 通讯作者:Cem Subakan (Concordia University, Mila-Québec AI Institute)
- 作者列表:Matthieu Cervera (Mila-Québec AI Institute, Laval University)、Francesco Paissan (Mila-Québec AI Institute, Laval University)、Mirco Ravanelli (Concordia University, University of Montreal, Mila-Québec AI Institute)、Cem Subakan (Concordia University, Laval University, Mila-Québec AI Institute)
💡 毒舌点评
亮点:该工作巧妙地将虚拟一致性(Virtual Consistency)思想从图像编辑迁移到音频领域,并引入了控制编辑强度的超参数φ,成功地在编辑质量和保真度之间取得了更好的平衡,同时推理速度相较于主流基线有数量级的提升(如1.6秒 vs. 16-64秒)。 短板:其核心创新“无需反转的虚拟一致性”本质上是迁移了InfEdit [20]的方法,并非原创理论突破;此外,用户研究的规模较小(16人),且缺乏对更长音频(>2分钟)和复杂编辑场景的深入讨论,实际应用的鲁棒性有待验证。
🔗 开源详情
- 代码:论文中提供了一个项目主页链接 (https://matthieu-cervera-9e056d.gitlab.io/vci_editing),通常此类页面会包含代码链接或Demo,但论文正文未直接给出具体的GitHub仓库地址。
- 模型权重:未提及。论文使用预训练的AudioLDMv2和MusicGen模型,这些是现有公开模型。但未提及是否公开了本文实验所用的特定微调权重(如有)或最佳φ参数配置。
- 数据集:使用了公开基准数据集ZoME Bench和MedleyDB (MedleyMDPrompts子集)。论文未提供新的数据集。
- Demo:项目主页很可能包含音频编辑的Demo示例(“we make the audio samples presented during the user study available on our companion website”)。
- 复现材料:论文提供了详细的超参数设置(φ, wtgt, 采样步数)和硬件描述,有助于复现结果。但训练数据、损失函数、模型训练细节等均未说明,因为这些属于基础模型(AudioLDMv2)而非本文贡献。
- 论文中引用的开���项目:AudioLDMv2 [2], MusicGen [5], WebMUSHRA [30]。
📌 核心摘要
- 问题:现有的基于反转(inversion)的神经音频编辑方法需要计算冗长的反转过程,导致编辑速度缓慢,实用性受限。
- 方法:提出了一种基于虚拟一致性(Virtual Consistency)的无反转音频编辑流程。其核心是修改扩散模型的逆向采样公式,使其在每一步都能计算出一个“虚拟噪声”εcons,该噪声能保证对原始音频的完美重建。编辑过程则通过混合目标文本噪声与该虚拟噪声来实现。
- 创新:相较于传统方法,1)完全避免了耗时的反转步骤;2)引入了新的超参数φ,用于精细地控制编辑强度(Edit Strength),平衡文本对齐和音频保真度;3)该方法模型无关(Model-Agnostic),无需对预训练的扩散模型进行微调或架构修改。
- 主要实验结果:在ZoME Bench和MedleyDB两个基准测试上,与DDIM、SDEdit、ZETA、MusicGen等基线进行了定量和定性比较。定量结果(表1)显示,ControlVCI(本文方法)在音频保真度指标(LPAPS, FAD, Audiobox-AE)上普遍取得最优或次优,同时在文本一致性指标(CLAP)上保持竞争力,且延迟(Latency)大幅降低(ZoME: 1.6秒 vs. 其他方法8.8-23.8秒)。
- 实际意义:显著提升了文本引导音频编辑的推理效率,使得神经音频编辑更接近实时应用,为交互式音乐创作和声音设计提供了更实用的工具。
- 主要局限性:1)性能高度依赖于预训练的扩散模型(如AudioLDMv2)的质量;2)实验数据集的音频长度和复杂度有限;3)控制参数φ的选择可能需要针对不同任务进行调优,缺乏自适应机制。
6. AnyAccomp: Generalizable Accompaniment Generation Via Quantized Melodic Bottleneck
🔥 8.0/10 | 前25% | #音乐生成 | #流匹配 #量化 | #流匹配 #量化
👥 作者与机构
- 第一作者:Junan Zhang(香港中文大学深圳分校),Yunjia Zhang(香港中文大学深圳分校),两人贡献相等(Equal Contribution)。
- 通讯作者:Zhizheng Wu(香港中文大学深圳分校;澳门城市大学;深圳湾区实验室;Amphion Technology Co., Ltd.)
- 作者列表:
- Junan Zhang(香港中文大学深圳分校)
- Yunjia Zhang(香港中文大学深圳分校)
- Xueyao Zhang(香港中文大学深圳分校)
- Zhizheng Wu(香港中文大学深圳分校;澳门城市大学;深圳湾区实验室;Amphion Technology Co., Ltd.)
💡 毒舌点评
亮点:该工作精准地抓住了歌唱伴奏生成模型“过拟合于分离伪影”这一关键痛点,并设计了“量化音高瓶颈”这一优雅的解决方案,通过剥离音色和瑕疵信息,显著提升了模型在干净人声和纯乐器上的泛化能力,思路清晰且效果立竿见影。短板:目前的评估主要依赖于AI美学评分(audiobox-aesthetics)和FAD等指标,虽然全面,但对于“伴奏质量”和“音乐性”的衡量,可能仍需更贴近人类感知的细粒度评测;此外,瓶颈表示选择固定的音高特征图,对于非主调音乐或复杂编曲的泛化能力尚待验证。
🔗 开源详情
- 代码:提供,链接为 https://anyaccomp.github.io/。
- 模型权重:论文中未明确提及是否公开预训练模型权重,仅在“Demo audio and code”部分提及。
- 数据集:论文中使用的训练数据(基于SingNet流程)未公开,但引用了公开的MUSDB18和MoisesDB作为评估数据集。
- Demo:提供在线演示网站:https://anyaccomp.github.io/。
- 复现材料:提供了详细的模型架构参数、训练配置、损失函数设计等,复现材料较充分。
- 引用的开源项目:Amphion, Vevo, MERT, pretty-midi, 以及数据集M4Singer, SingNet, YuE, MUSDB18, MoisesDB。
📌 核心摘要
- 问题:现有的歌唱伴奏生成(SAG)模型在训练时使用了带有分离伪影的歌声,导致模型过拟合这些伪影,当输入为干净、真实的歌声时性能严重下降,存在严重的“训练-测试不匹配”问题。
- 方法核心:提出ANYACCOMP框架,分为两阶段。第一阶段使用VQ-VAE将输入的音高特征图(Chromagram)量化为离散的、音色不变的旋律码本表示。第二阶段使用基于Flow Matching的Transformer,以这些离散码本为条件,生成伴奏的梅尔频谱,最后用声码器合成音频。
- 创新点:与已有方法直接使用梅尔频谱或SSL特征不同,ANYACCOMP通过量化的音高瓶颈,主动解耦了旋律内容与源相关的音色及分离伪影,从而提供了鲁棒的生成条件。
- 实验结果:在领域内数据集(YuE,分离歌声)上,ANYACCOMP表现与基线(FastSAG, FM-Mel)持平或略优(见Table 1)。在关键的泛化测试集上(MUSDB18干净歌声、MoisesDB乐器独奏),基线方法的APA(条件一致性)得分接近0,表明生成失败;而ANYACCOMP的APA分别达到0.710和0.203,且FAD和美学分数也远优于基线,证明了其强大的泛化能力。
- 实际意义:该工作使得伴奏生成模型能够泛化到干净录音甚至纯乐器输入,首次实现了为纯乐器音轨自动生成伴奏,拓宽了AI音乐协作工具的应用范围。
- 主要局限:瓶颈表示完全基于音高特征,可能对打击乐或非调性音乐效果有限;部分评估指标(如PC, 内容复杂度)的解读需注意;未公开训练数据集本身。
7. Stemphonic: All-At-Once Flexible Multi-Stem Music Generation
✅ 7.7/10 | 前25% | #音乐生成 | #扩散模型 #流匹配 | #扩散模型 #流匹配
👥 作者与机构
- 第一作者:Shih-Lun Wu(MIT CSAIL, Adobe Research)
- 通讯作者:未说明
- 作者列表:Shih-Lun Wu(MIT CSAIL, Adobe Research)、Ge Zhu(Adobe Research)、Juan-Pablo Caceres(Adobe Research)、Cheng-Zhi Anna Huang(MIT CSAIL)、Nicholas J. Bryan(Adobe Research)
💡 毒舌点评
亮点:这篇论文精准地抓住了现有音轨生成范式的“鱼与熊掌”困境(并行模型僵化,串行模型太慢),并用一组简洁而巧妙的训练时干预(分组+噪声共享)同时解决了速度和灵活性问题,工程思维很清晰。短板:其评估建立在理想化的分离音轨数据集上,但真实世界的音乐制作涉及更复杂的混音、动态和乐器交互,该框架在面对“用真实、不完美的子混音条件生成新音轨”这类更贴近创作流程的任务时,其稳健性和音质上限仍有待验证。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:论文中未提及公开权重。
- 数据集:评估所用MoisesDB和MusDB为已有公开数据集;训练所用授权数据集未提及公开。
- Demo:提供了在线演示网站:https://stemphonic-demo.vercel.app
- 复现材料:论文描述了关键超参数、训练硬件和时长,但未提供详细的配置文件、检查点或附录以支持完全复现。
- 论文中引用的开源项目:文中引用了多个开源项目/模型,如Stable Audio Open [30]、T5-XXL [31]、Qwen2.5-Omni [37]、Madmom [38]等,作为基线或组件参考。
📌 核心摘要
- 要解决什么问题:现有音轨生成方法要么并行生成固定数量/类型的音轨(快但僵化),要么逐轨顺序生成(灵活但慢)。STEMPHONIC旨在实现“一次推理,生成可变数量、相互同步的音轨”,统一速度与灵活性。
- 方法核心是什么:基于扩散/流匹配模型,通过两项训练时技巧:(1) 分组:在训练batch中将来自同一首音乐的音轨组织在一起;(2) 噪声共享:为同一组内的所有音轨分配相同的初始噪声潜变量,从而将同步性先验注入模型。
- 与已有方法相比新在哪里:不同于并行模型(如[13-16])预设固定音轨架构,也不同于串行模型(如[19-22])一次只生成一轨。STEMPHONIC在推理时使用共享噪声和分组文本提示,在单次前向传播中生成一组音轨,用户可灵活决定一次生成多少轨。
- 主要实验结果如何:
- 核心消融(表1):完整设置C-(ii)(分组+训练时噪声共享+推理时噪声共享)在FADstem(音轨控制)和FADmix(混音质量)上均优于所有消融设置,尤其在更复杂的MoisesDB数据集上。
- 工作流对比(表2):生成K个音轨时,采用2次推理的C-(ii)工作流(一次从头生成,一次基于子混音条件生成)相比传统的K次推理基线(A-(i)),在MoisesDB数据集上,将总推理时间从6.88-8.28秒降低至3.03-3.27秒(加速25-50%以上),同时FADmix和CLAP指标更优。
- 活动控制(表3):模型训练加入活动控制后,帧级F1值达到99.42%-99.43%,证明控制近乎完美,但会略微降低FADstem和CLAP分数。
- 实际意义是什么:为音乐制作人提供了一种更高效、更可控的AI辅助工具。他们可以一次性生成多个协调的乐器声部进行混音,或基于已有片段迭代地添加新乐器,并精确控制每个乐器何时进出,极大地贴合了音乐创作的非线性和分层工作流。
- 主要局限性是什么:评估主要依赖公开的分离音轨数据集,可能无法完全反映模型在处理复杂、专业混音时的真实表现;文本描述依赖外部模型生成(Qwen2.5-Omni);未来工作需探索更细粒度的自由文本音轨控制。
8. MR-FlowDPO: Multi-Reward Direct Preference Optimization for Flow-Matching Text-to-Music Generation
✅ 7.5/10 | 前25% | #音乐生成 | #流匹配 | #强化学习 #自监督学习
👥 作者与机构
- 第一作者:Alon Ziv(FAIR Team, Meta MSL & The Hebrew University of Jerusalem)
- 通讯作者:未说明
- 作者列表:Alon Ziv(FAIR Team, Meta MSL & The Hebrew University of Jerusalem), Sanyuan Chen(FAIR Team, Meta MSL), Andros Tjandra(FAIR Team, Meta MSL), Yossi Adi(FAIR Team, Meta MSL & The Hebrew University of Jerusalem), Wei-Ning Hsu(FAIR Team, Meta MSL), Bowen Shi(FAIR Team, Meta MSL)
💡 毒舌点评
亮点:该工作的核心亮点在于其系统性思维,将单一、模糊的“人类偏好”拆解为文本对齐、制作质量、语义一致性三个可量化的奖励维度,并设计了“强支配对”的配对策略来解决多目标优化中的样本构建难题,这一框架对后续所有基于偏好优化的生成模型都有参考价值。短板:论文在核心生成模型的架构细节上着墨极少,只说明了是Flow-Matching模型,但并未深入描述其具体结构,使得分析停留在“偏好优化外挂”的层面;此外,所用的制作质量预测器和语义一致性评估器本身都依赖于外部预训练模型,这可能会限制该方法在缺乏这些基础模型的场景下的直接应用。
🔗 开源详情
- 代码:提供。论文明确给出了GitHub仓库链接:
https://github.com/lonzi/mrflow_dpo/。 - 模型权重:未提及。
- 数据集:使用了Shutterstock和Pond5的授权数据,未提及是否公开或如何获取。评估使用了公开的MusicCaps。
- Demo:提供。论文给出了在线演示页面:
https://lonzi.github.io/mr_flowdpo_demopage。 - 复现材料:论文提供了关键的训练超参数(学习率、批量大小、优化器设置、DPO轮次等)和数据构建流程。未提供预训练的奖励模型(CLAP、Aesthetics预测器、HuBERT)的具体版本或权重链接。
- 论文中引用的开源项目:CLAP模型(
lukewys/laion_clap), librosa(用于BPM估计),参考模型MelodyFlow(可能基于开源代码)。
📌 核心摘要
- 要解决的问题:音乐生成模型难以与主观、多变的人类偏好对齐,传统单目标优化方法在文本对齐、音频质量和音乐性(如节奏稳定性)之间难以兼顾。
- 方法核心:提出MR-FlowDPO,一个用于微调Flow-Matching文本到音乐生成模型的多奖励直接偏好优化框架。其核心包括:(1) 设计并整合文本对齐(CLAP)、制作质量(Aesthetics预测器)和语义一致性(自训练HuBERT)三个奖励函数;(2) 提出“多奖励强支配”偏好数据对构建算法,确保正样本在所有奖励维度上均优于负样本;(3) 引入奖励提示机制,将奖励值信息融入文本输入。
- 与已有方法的对比:区别于先前仅优化单一文本对齐奖励的方法,该工作首次在Flow-Matching音乐生成中实现多维度奖励的联合优化。相较于TangoFlux等工作,其引入了专门的语义一致性奖励来解决节奏不稳定问题,并提出了更严谨的偏好数据配对策略。
- 主要实验结果:在MusicCaps基准上,MR-FLOWDPO-1B模型将节奏稳定性指标BPM标准差从基线的9.09降至6.11;在人类评估中,相对于强基线MelodyFlow-1B,在整体偏好、音频质量和音乐性上均取得显著胜率(如整体偏好胜率+16.67%,音频质量+43.26%)。关键消融实验证明,三个奖励轴缺一不可,且强支配配对策略和奖励提示机制均对性能有显著提升。
- 实际意义:为音乐生成乃至更广泛的音频内容生成领域提供了一套可扩展的偏好对齐范式,能够系统性地提升生成内容的多方面品质,减少“对齐税”。
- 主要局限性:生成模型本身的架构创新有限;评估高度依赖预训练的奖励模型,其本身的偏见和局限性会被引入;论文未深入探讨该方法在更长时长(如完整歌曲)生成任务上的适用性。
9. Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation
✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #音频生成 #开源工具
👥 作者与机构
- 第一作者:Tongxi Wang(Southeast University, 中国)
- 通讯作者:Junlang Qian(Nanyang Technological University, 新加坡)
- 作者列表:Tongxi Wang(Southeast University), Yang Yu(Southeast University), Qing Wang(Southeast University), Junlang Qian(Nanyang Technological University)
💡 毒舌点评
这篇论文的“先乐谱后表演”范式巧妙地将复杂音频生成问题解耦为可解释的符号生成和相对成熟的音频渲染问题,在可控性和效率上取得了显著进步,是思路清晰的“曲线救国”方案。然而,其“演奏”阶段严重依赖商用歌声合成软件VOCALOID和通用MIDI合成器FluidSynth,这使得最终音频质量的上限被锁定在这些工具的能力上,论文的“端到端”生成能力并非完全自包含,这在一定程度上削弱了其作为完全自主生成系统的创新性说服力。
🔗 开源详情
- 代码:提供代码仓库链接:https://github.com/WtxwNs/BACH。代码已开源。
- 模型权重:论文中未提及公开BACH模型的预训练权重。
- 数据集:论文提及所用数据集将在论文发表后开源,但当前未提供获取方式或详细说明。
- Demo:论文中未提及在线演示链接。
- 复现材料:提供了代码仓库,包含示例。但完整的训练细节、配置文件、检查点未在论文中提供,需查阅仓库。
- 论文中引用的开源项目:
- Qwen3.0(用于歌词生成)
- FluidSynth(用于MIDI合成)
- ABC记谱法相关工具
- YuE等基线模型(用于对比)
- 总结:代码开源是主要亮点,但完整的模型复现(尤其是获得相似性能)可能因缺乏预训练权重、具体训练参数以及依赖商业VOCALOID而存在障碍。
📌 核心摘要
- 问题:现有基于音频的歌曲生成方法存在可控性差、可解释性弱、计算开销大的问题。将歌曲生成视为同时学习音乐理论与演奏的“即兴表演”,任务过于复杂。
- 方法核心:提出“先作曲后演奏”的新范式和BACH(Bar-level AI Composing Helper)框架。核心是使用小节(bar)作为语义单元进行符号乐谱生成,再将生成的乐谱渲染为音频。
- 创新点:首次将小节级符号乐谱生成引入歌曲生成;提出小节流分块(bar-stream patching) 和双流预测(Dual-NTP) 方法,分别处理人声与伴奏;引入链式乐谱(Chain-of-Score) 条件化以保持长程结构一致性。
- 实验结果:
- 自动评估(表1):BACH在多个指标上达到SOTA,尤其是内容感知指标(CE、CU)和音频-文本对齐指标(CLaMP3)。其KL散度显著优于商业系统(如0.391 vs Suno的0.620)。
- 人类评估(图4):BACH在音乐性上超越所有开源基线(YuE、YuE-light等),并与Udio有竞争力,略逊于Suno。在可控性(图5)上,其节拍/节奏和人声伴奏平衡表现突出。
- 效率:在RTX 4090上生成3分钟歌曲仅需约5分钟,远快于YuE等模型。
- 实际意义:提供了一种高效、可控、可解释的AI歌曲生成路径,生成的乐谱可被人直接阅读和编辑,极大促进了人机协作创作。代码开源有助于推动该方向研究。
- 主要局限性:最终音频渲染质量受限于外部工具(VOCALOID, FluidSynth),非端到端的纯AI生成;在风格和情感控制等可控性维度上仍有提升空间;论文未公开模型权重和完整训练细节。
10. Automatic Music Mixing Using a Generative Model of Effect Embeddings
✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #领域适应 #音乐信息检索
👥 作者与机构
- 第一作者:Eloi Moliner(Aalto大学,DICE声学实验室)
- 通讯作者:未说明
- 作者列表:Eloi Moliner(Aalto大学,DICE声学实验室)、Marco A. Mart´ınez-Ram´ırez(Sony AI)、Junghyun Koo(Sony AI)、Wei-Hsiang Liao(Sony AI)、Kin Wai Cheuk(Sony AI)、Joan Serr`a(Sony AI)、Vesa V¨alim¨aki(Aalto大学,DICE声学实验室)、Yuki Mitsufuji(Sony AI, Sony Group Corporation)
💡 毒舌点评
MEGAMI的核心亮点在于巧妙地将扩散模型应用于效应嵌入空间,解决了自动混音中“一对多”的根本难题,同时其领域适应策略为利用海量无配对湿录音数据提供了优雅的解决方案,架构设计完整且有深度。然而,论文的评估严重依赖内部数据集,缺乏在大型公开基准上的可复现比较,且其“接近人类水平”的结论在部分主观测试结果中略显主观,实际泛化能力与可落地性仍有疑问。
🔗 开源详情
- 代码:提供代码仓库链接:https://github.com/SonyResearch/MEGAMI。论文提及“Further details will be provided in the code repository”。
- 模型权重:论文中未提及公开模型权重。
- 数据集:论文使用了多个内部数据集(Internal-Small, Internal-Large, Evaluation Benchmark)和公开数据集(Public, Public-Dry)。内部数据集未提及公开,公开数据集来源(如MoisesDB, MedleyDB)是公开可获取的。
- Demo:提供在线演示链接:https://sonyresearch.github.io/MEGAMI/。
- 复现材料:论文提供了一些实现细节(如模型参数量、损失函数类型、采样率、片段长度),但缺乏训练超参数(学习率、batch size等)的完整说明。完整复现严重依赖于无法公开的内部数据集。
- 论文中引用的开源项目:
- CLAP:使用了公开预训练的音乐数据CLAP编码器 [11]。
- FxEncoder++:使用了该效应特征提取模型 [12]。
- 公开数据集:MoisesDB [17], MedleyDB [18], OpenSinger [19], IDMT-SMT Drums/Bass/Guitar [20, 21, 22], GuitarSet [23], Aalto anechoic orchestra [24], ReverbFx [26], ASH [27], Arni [28]。
- 扩散模型框架:基于EDM [14]、Score SDE [15]、Flow Matching [30]等公开工作。
📌 核心摘要
这篇论文旨在解决自动音乐混音中的核心挑战:专业混音本质上是主观的,同一组干录音存在多种同样有效的混音方案,而现有的确定性回归方法无法捕捉这种多样性。论文提出了MEGAMI(Multitrack Embedding Generative Auto MIxing),一个生成式框架,它使用条件扩散模型在效应嵌入空间中建模给定干音轨的专业混音的条件分布。其核心方法是将混音决策(由效应嵌入表示)与音乐内容分离,并设计了一个排列等变的Transformer架构以处理任意数量和顺序的音轨。与已有方法相比,MEGAMI的创新在于:(1)首次将生成模型(扩散模型)用于自动混音;(2)提出了一种效应嵌入因式分解;(3)通过领域适应策略,使模型能利用大量仅有湿录音的公开数据集进行训练。实验表明,在客观分布性指标(KAD)上,MEGAMI优于所有基线;主观听力测试显示其性能接近人类混音师,在部分曲目上甚至超越了人类参考混音。这项工作为自动音乐生成开辟了新方向,其框架可用于合成混音数据集。主要局限性在于评估数据集大部分为内部数据,且模型性能依赖于CLAP和FxEncoder++等预训练嵌入模型的质量。
11. Sing2Song: An Accompaniment Generation System Based on Solo Singing
✅ 7.5/10 | 前25% | #音乐生成 | #规则与模板 | #音乐信息检索 #歌唱语音合成
👥 作者与机构
- 第一作者:Sen Ho Choi(华为中央媒体技术研究院)
- 通讯作者:Yaolong Ju(大湾区大学)
- 作者列表:Sen Ho Choi, Isaac Fung Chap, Huicheng Zhang, Yulun Wu, Yueqiao Zhang(华为中央媒体技术研究院),Hao Shen, Huu Quyen Dang, Zhili Tan, Simon Lui(华为中央媒体技术研究院),Qiuqiang Kong(香港中文大学),Yaolong Ju(大湾区大学)
💡 毒舌点评
亮点: 这是一个非常扎实的工程化系统,针对“清唱生成伴奏”这一具体场景,将数据驱动的MIR模型与基于规则的音乐生成、音频合成紧密结合,在解决“长音频”和“可定制化”这两个实际痛点上表现出色,效果显著优于端到端基线。 短板: 核心的伴奏生成模块严重依赖规则和预设模板库(MIDI片段),在音乐创作的灵活性和创新性上存在天花板,更像是一个“智能乐手跟随”系统,而非具备真正创造力的“作曲AI”。其创新更多体现在系统集成和工程优化,而非音乐生成算法本身的突破。
🔗 开源详情
- 代码:论文中未提及代码仓库链接。
- 模型权重:未提及公开模型权重。
- 数据集:MIR训练数据集为自建商业音乐集,未公开。MIDI模板库来源为“大规模免版税材料”,未公开具体获取方式。
- Demo:提供了在线演示页面(https://sing2song-band.github.io/),可以试听输出样本。
- 复现材料:论文中未提供完整的训练细节、配置文件、检查点或附录说明。
- 论文中引用的开源项目:
- FluidSynth [25]:用于MIDI到音频的渲染。
- Pedalboard [26]:用于音频效果处理。
- pyloudnorm [27]:用于响度测量。
- Matchering [28]:灵感来源,用于自适应音频特征匹配。
- 其他MIR模型(如ROSVOT, SingNet等)作为基线被引用。
📌 核心摘要
- 问题:现有清唱伴奏生成系统(如SingSong、FastSAG)难以处理长音频输入(通常<30秒),且在音乐流派、前奏长度等参数上用户控制能力有限。
- 方法核心:提出Sing2Song,一个混合系统。其核心分为三步:(1) 使用专门在清唱数据上训练的MIR模型提取关键信息(音高、节拍、结构);(2) 基于规则和音乐理论,生成多轨MIDI伴奏;(3) 基于规则,将MIDI渲染为音频并进行自适应混音。
- 新意:与现有端到端生成音频的方法不同,Sing2Song生成符号化的MIDI,从而支持用户定制和无限长度生成。同时,其MIR模块专门针对“无伴奏”场景训练,克服了现有模型在清唱输入上性能下降的问题。
- 主要结果:在MIR任务上,其模型在清唱场景下的F1分数显著优于现有SOTA(例如,音高转录F1达88.32%,节拍追踪F1达90.59%)。在整体伴奏质量上,其MOS(音乐性3.923, 旋律对齐3.940)远高于SingSong(2.971, 3.063)和FastSAG(1.831, 1.811)。
- 实际意义:该系统为用户提供了一种能处理任意长度清唱、并生成可定制、专业音质伴奏的实用工具,推动了个性化AI音乐创作。
- 主要局限:伴奏生成的核心依赖规则和有限的模板库,在音乐复杂性和创新性上受限。系统流程固定,对规则和模板的质量要求高,可能难以泛化到模板库之外的复杂音乐风格。
12. Differentiable Pulsetable Synthesis for Wind Instrument Modeling
✅ 7.5/10 | 前25% | #音乐生成 | #可微分DSP | #信号处理 #轻量模型
👥 作者与机构
- 第一作者:Simon Schwär(International Audio Laboratories Erlangen, Germany)
- 通讯作者:未说明
- 作者列表:Simon Schwär(International Audio Laboratories Erlangen, Germany)、Christian Dittmar(Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Stefan Balke(International Audio Laboratories Erlangen, Germany)、Meinard Müller(International Audio Laboratories Erlangen, Germany)
💡 毒舌点评
亮点:论文巧妙地将与风琴乐器物理发声机制高度吻合的脉冲表(Pulsetable)合成方法引入可微分框架,不仅免去了繁琐的手工脉冲提取,还通过仅60k参数的轻量模型和几分钟录音实现了高效训练,物理可解释性强。 短板:实验主要依赖客观的谐波幅度差异指标,缺少正式的主观听感评估(如MOS测试),说服力略显不足;模型的泛化能力(如对复杂演奏技巧的建模)和更广泛乐器类型的适用性尚未得到充分验证。
🔗 开源详情
- 代码:论文中提及将在补充网站发布代码(链接见上),但当前未提供具体仓库地址。
- 模型权重:论文中提及将发布模型,未说明是否包含预训练权重。
- 数据集:使用公开的ChoraleBricks数据集[16],论文中引用了其来源。
- Demo:论文中提及将提供音频示例。
- 复现材料:论文提供了模型架构的关键参数(如L, M, 网络大小)、训练策略(epochs, 损失函数)和数据划分信息,并指出详细信息在补充网站。这为复现提供了较好基础。
- 论文中引用的开源项目:引用了DDSP [3], ChoraleBricks数据集[16], PESTO基频估计器[23], 以及一些早期的脉冲/波表合成研究。
📌 核心摘要
本文针对传统脉冲表(Pulsetable)合成方法需要大量人工调参和脉冲提取的痛点,提出了一种可微分的脉冲表合成器。该方法直接通过梯度下降优化脉冲原型波形,并与一个轻量神经网络联合训练,根据目标音高和力度选择脉冲。基于此,作者构建了一个风琴乐器合成框架,其核心创新在于将基于物理激励机制(如簧片、铜管乐器的周期性脉冲激励)的合成模型与端到端学习相结合,仅使用约6万个参数和目标乐器几分钟的录音即可无监督训练。主要实验(如表1所示)表明,在同一音域内,脉冲表、波表和加法合成方法性能相近;但在跨音域(不同声部)泛化时,脉冲表方法在铜管乐器(小号、上低音号)上显著优于其他方法。该框架提供了音高、力度等可解释控制参数,并支持音色迁移。其主要局限性在于:对于音色随音高变化显著的乐器(如单簧管),固定频谱包络的脉冲表方法效果不佳;模型未建模音符起振等瞬态噪声成分。
关键实验结果表格(表1:谐波幅度平均差异,单位dB)
| 乐器 | 合成方式 | 脉冲数M | 同一音域(SV) | 不同音域(DV) |
|---|---|---|---|---|
| 小号(tp) | Pulsetable | 2 | 2.84 | 4.90 |
| 4 | 2.67 | 4.96 | ||
| 16 | 2.57 | 4.96 | ||
| Wavetable | 2 | 2.80 | 5.22 | |
| 4 | 2.71 | 5.39 | ||
| 16 | 2.66 | 5.62 | ||
| Add | - | 2.80 | 6.50 | |
| 上低音号(bar) | Pulsetable | 2 | 3.78 | 3.67 |
| 4 | 3.80 | 3.88 | ||
| 16 | 3.89 | 3.61 | ||
| Wavetable | 2 | 3.81 | 5.24 | |
| 4 | 4.14 | 4.35 | ||
| 16 | 3.78 | 5.18 | ||
| 单簧管(cl) | Pulsetable | 2 | 5.85 | 9.41 |
| 4 | 5.81 | 9.82 | ||
| 16 | 5.84 | 10.23 | ||
| Wavetable | 2 | 5.46 | 3.80 | |
| 4 | 5.65 | 3.54 | ||
| 16 | 5.44 | 5.73 | ||
| 双簧管(ob) | Pulsetable | 2 | 3.65 | - |
| 4 | 3.55 | - | ||
| 16 | 3.58 | - | ||
| Wavetable | 2 | 3.86 | - | |
| 4 | 3.69 | - | ||
| 16 | 3.09 | - |
13. Compression meets Sampling: LZ78-SPA for Efficient Symbolic Music Generation
✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #压缩感知 #高效计算
👥 作者与机构
- 第一作者:Abhiram Gorle(斯坦福大学电气工程系)
- 通讯作者:未说明
- 作者列表:Abhiram Gorle(斯坦福大学电气工程系)、Connor Ding(斯坦福大学电气工程系)、Sagnik Bhattacharya(斯坦福大学电气工程系)、Amit Kumar Singh Yadav(普渡大学电气与计算机工程学院)、Tsachy Weissman(斯坦福大学电气工程系)
💡 毒舌点评
亮点:论文将“压缩即学习”的思想应用于符号音乐生成,提供了扎实的理论保证(如有限样本边界),并以惊人的计算效率(30倍训练加速、300倍生成加速)挑战了深度学习模型在资源消耗上的“暴力美学”。短板:作为生成模型,其音乐创作的“灵魂”——即长期结构、复杂和声与旋律发展——可能受限于LZ78上下文树的局部性,论文在“无条件生成”上的成功是否能扩展到更有用的“条件生成”场景存在疑问。此外,将训练1小时的扩散模型(ASD3PM A1)作为主要效率对比对象,虽然体现了计算预算匹配,但难免让人感觉像是在和“半成品”赛跑。
🔗 开源详情
- 代码:论文未直接提供代码仓库链接,但指出更长版本可能包含更多信息(“longer version”)。
- 模型权重:未提及公开模型权重。
- 数据集:使用公开的Lakh MIDI Dataset (LMD),未提及自行托管。
- Demo:提供了部分生成的音频样本链接(
https://shorturl.at/Yk1cO)。 - 复现材料:论文附录中声称包含所有定理证明、基线和超参数的更多细节,以及FLOPs比较和LLM-as-Judge评估。
- 引用的开源项目/工具:
- 评估:使用VGGish模型计算FAD。
- 音频渲染:使用FluidSynth将MIDI转换为WAV。
- 超参数优化:使用Optuna。
- 基线模型:引用了MusicVAE, CTW, ASD3PM等工作的开源实现或论文。
📌 核心摘要
- 要解决什么问题:现有的符号音乐生成深度学习模型(如Transformer、扩散模型)计算成本高昂,严重限制了其可扩展性和在通用CPU设备上的部署。
- 方法核心是什么:提出LZMidi框架,它基于LZ78压缩算法构建一个序列概率分配器(SPA)。该方法通过增量解析训练MIDI序列来构建一棵树,树的每个节点记录上下文出现后各符号的频率,从而隐式地学习数据分布。生成时,从树中采样下一个符号,无需反向传播或梯度更新。
- 与已有方法相比新在哪里:首次将具有理论保证的LZ78-SPA系统性地应用于符号音乐生成任务,并提供了从渐近收敛到有限样本性能的完整理论分析。与深度生成模型相比,它彻底摆脱了对GPU的依赖,实现了极低的训练和推理成本。
- 主要实验结果如何:在Lakh MIDI数据集上,LZMidi在生成质量(FAD, WD)上与经典基线(HMM,CTW)和轻量级深度基线(MusicVAE,训练1小时的ASD3PM)相比具有竞争力,有时甚至更优。在计算效率上,与ASD3PM相比,训练速度快30倍,单样本生成速度快300倍,能耗降低数个数量级。
关键实验结果表格:
表1:一致性(C)和方差(Var)指标(↑更好)
| 模型 | 训练集-音高C | 训练集-音高Var | 训练集-时值C | 训练集-时值Var | 测试集-音高C | 测试集-音高Var | 测试集-时值C | 测试集-时值Var |
|---|---|---|---|---|---|---|---|---|
| LZMidi | 0.97 | 0.92 | 0.97 | 0.93 | 0.97 | 0.93 | 0.97 | 0.94 |
| ASD3PM(A2) | 0.98 | 0.86 | 0.98 | 0.87 | 0.99 | 0.89 | 0.96 | 0.87 |
| HMM | 0.91 | 0.75 | 0.92 | 0.78 | 0.90 | 0.76 | 0.91 | 0.77 |
| CTW | 0.94 | 0.80 | 0.95 | 0.82 | 0.94 | 0.81 | 0.95 | 0.82 |
| MusicVAE | 0.97 | 0.84 | 0.98 | 0.89 | 0.96 | 0.84 | 0.98 | 0.87 |
表2:WD、FAD和KL散度指标(↓更好)
| 模型 | 训练集WD | 训练集FAD | 训练集KL | 测试集WD | 测试集FAD | 测试集KL |
|---|---|---|---|---|---|---|
| LZMidi | 8.57 | 0.69 | 1.42 | 8.39 | 0.64 | 1.37 |
| ASD3PM (A1) | 27.91 | 4.22 | 2.29 | 27.96 | 4.05 | 2.26 |
| HMM | 28.31 | 4.38 | 2.90 | 27.44 | 4.31 | 2.88 |
| CTW | 10.82 | 1.22 | 1.92 | 10.35 | 1.05 | 1.85 |
| MusicVAE | 7.76 | 0.71 | 1.37 | 7.55 | 0.62 | 1.34 |
| ASD3PM (A2) | 7.51 | 0.64 | 1.23 | 7.42 | 0.61 | 1.22 |
表3:训练/生成时间、内存和能耗(ASD3PM (A1)用于对比)
| 模型 | 训练时间(s) | 生成时间(s/样本) | 模型大小(MB) | 训练能耗(kJ) | 生成能耗(J/样本) |
|---|---|---|---|---|---|
| LZMidi | 107.7 | 0.016 | 287.1 | 9.144 | 1.36 |
| ASD3PM | 3480 | 5.4 | 306.2 | 2088 | 3240 |
图5显示,在相等的训练时间内,LZMidi的FAD分数(衡量感知质量)远低于ASD3PM,表明其“质量-计算效率”权衡更优。
- 实际意义是什么:为资源受限环境(如教育软件、移动应用、快速创作原型)下的高质量音乐生成提供了一个轻量级、理论扎实的可行方案。证明了通用压缩算法可以作为参数化深度学习模型的高效替代品,用于特定结构化数据的生成。
- 主要局限性是什么:目前仅支持无条件生成,难以控制生成音乐的特定属性(如风格、和弦进行)。对于需要捕捉极长程音乐结构(如整首歌曲的段落发展)的任务,可能力有不逮。随着训练语料库的急剧增长,LZ树的规模管理将成为挑战。
14. Break-the-Beat! Controllable MIDI-to-Drum audio synthesis
✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #预训练 #音频生成
👥 作者与机构
- 第一作者:Shuyang Cui (Sony Group Corporation)
- 通讯作者:未说明(论文中未明确标注)
- 作者列表:Shuyang Cui¹, Zhi Zhong¹, Qiyu Wu¹, Zachary Novack¹*, Woosung Choi², Keisuke Toyama¹, Kin Wai Cheuk², Junghyun Koo², Yukara Ikemiya², Christian Simon¹, Chihiro Nagashima¹, Shusuke Takahashi¹ (1: Sony Group Corporation, 2: Sony AI)
💡 毒舌点评
这篇论文技术方案完备,从数据构建、模型设计到实验评估都做得非常扎实,成功填补了“MIDI-to-Drum”这一特定任务的研究空白,对于音乐制作工具开发具有明确的导向性。然而,其主要创新集中在对现有框架的适配和针对性设计上,在生成模型基础架构层面的突破性略显不足,且缺乏与更多元、更强的基线模型在相似音乐生成任务上的横向比较,说服力可再增强。
🔗 开源详情
- 代码:论文中未提及代码仓库链接。
- 模型权重:未提及是否公开本项目微调后的模型权重。
- 数据集:论文中提到构建了配对数据集,但未提及是否公开以及获取方式。
- Demo:提供在线演示页面:https://ik4sumii.github.io/break-the-beat/
- 复现材料:给出了主要的训练超参数(学习率、优化器、batch size、训练轮数、硬件)和推理设置(采样器、步数)。但未提供完整的配置文件、数据预处理脚本或检查点。
- 论文中引用的开源项目:
- Stable Audio Open [1]:预训练的文本到音频模型,作为本工作的基础框架。
- librosa [38]:用于起音检测和节拍追踪。
- MIR EVAL [39]:用于计算节拍连续性指标。
- 整体开源计划:论文中未提及开源计划。
📌 核心摘要
这篇论文解决了数字音乐制作中,从鼓MIDI序列生成高质量、可控音色鼓音频的难题,传统方法费时费力且需要专业技能。其核心方法是微调预训练的文本到音频扩散模型(Stable Audio Open),通过一个专门设计的内容编码器处理目标鼓MIDI和参考音频,并采用结合拼接、输入相加和前缀的混合条件机制,将节奏和音色信息注入生成过程。与以往专注于文本生成音乐或钢琴MIDI到音频的工作不同,这是首个专门针对打击乐、非调性MIDI到音频合成的可控模型。实验表明,该模型在音频质量、节奏对齐和节拍连续性上均表现良好,例如在64音符分辨率下,其FAD_VGGish为0.09,起音F1分数为70.08%。该工作为音乐制作人提供了一个新的、可控的鼓音色合成工具。主要局限性在于生成的音频长度被限制在2小节,且未与同领域的生成式音乐模型进行更广泛的性能对比。
15. Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment
✅ 7.5/10 | 前25% | #音乐生成 | #强化学习 | #文本到音乐 #自回归模型
👥 作者与机构
- 第一作者:Abhinaba Roy (新加坡科技设计大学)
- 通讯作者:未明确说明,从致谢和贡献看,Dorien Herremans或Geeta Puri可能为通讯作者,但论文中未明确标注。
- 作者列表:Abhinaba Roy (新加坡科技设计大学)、Geeta Puri (新加坡科技设计大学)、Dorien Herremans (新加坡科技设计大学)
💡 毒舌点评
本文巧妙地将大语言模型领域成熟的“推理时对齐”范式跨界应用到符号音乐生成,通过精心设计的奖励函数(文本-音频一致性+调性一致性)引导搜索,无需重训模型即可显著提升生成质量,尤其是对自由文本描述的适应性(2.6:1偏好),思路清晰且实用。不过,其核心贡献更像是一次“优秀的系统集成与工程优化”,在音乐生成的深层理论或全新架构上并未突破;奖励函数的设计(如固定权重)以及对“音乐性”的衡量仍依赖于CLAP等外部模型和调性规则,可能限制了其捕捉更复杂、更人性化音乐美学的能力。
🔗 开源详情
- 代码:提供代码仓库链接
https://github.com/AMAAILab/t2m-inferalign。 - 模型权重:未提及是否公开预训练的模型权重。
- 数据集:未提及新数据集。基线模型使用公开的MidiCaps数据集。
- Demo:未提及在线演示。
- 复现材料:论文给出了关键超参数(m, T, α, β)和生成设置(2000 tokens),但未提供详细的训练日志、配置文件或预训练检查点。
- 论文中引用的开源项目:Text2midi模型、MidiCaps数据集、CLAP模型、Claude-3-Haiku LLM、COSIATEC工具、MIDI Miner库、PsyToolkit。
📌 核心摘要
- 解决的问题:现有端到端文本到MIDI生成模型(如Text2midi)在推理时,生成的符号音乐在语义上与输入文本对齐不足,且常出现破坏音乐结构性(如调性不协和)的问题。
- 方法核心:提出Text2midi-InferAlign,一种无需重训练的推理时对齐框架。将生成过程建模为奖励引导的树搜索,交替进行“探索”(使用LLM对原始标题进行变异以扩展搜索空间)和“利用”(基于两个奖励函数:CLAP衡量文本-音频一致性,调性检查衡量和声一致性,对候选序列进行排序和替换)。
- 创新之处:首次将基于奖励的推理时对齐技术应用于符号音乐生成;设计并验证了针对语义和结构完整性的互补奖励函数;引入标题变异机制以促进生成多样性。
- 主要实验结果:在MidiCaps测试集上,相比基线Text2midi模型,所有客观指标均有提升,其中CLAP分数提升31.8%,速度(TB)提升32.5%。主观听音测试中,68.75%的听众认为其音乐质量更优。消融实验显示,变异数T=5、替换周期m=100时效果较优。
- 实际意义:提供了一种即插即用的增强模块,可提升任意自回归音乐生成模型的输出质量与可控性,推动更实用的AI音乐创作工具发展。
- 主要局限性:性能提升高度依赖奖励函数的设计和外部模型(如CLAP)的质量;对于包含丰富音乐细节的标题(如MidiCaps),探索空间受限,提升幅度有限;推理时间略有增加(约7%)。
16. Diffusion Timbre Transfer via Mutual Information Guided Inpainting
✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #音频生成 #零样本
👥 作者与机构
- 第一作者:Ching Ho Lee(Queen Mary University of London)
- 通讯作者:未说明
- 作者列表:Ching Ho Lee(Queen Mary University of London)、Javier Nistal(Sony Computer Science Laboratories, Paris, France)、Stefan Lattner(Sony Computer Science Laboratories, Paris, France)、Marco Pasini(Queen Mary University of London;Sony Computer Science Laboratories, Paris, France)、George Fazekas(Queen Mary University of London)
💡 毒舌点评
亮点:该方法巧妙地将“免训练”和“推理时控制”结合,通过互信息分析“外科手术式”地定位音色通道,再用扩散模型的采样特性来“手术”,在保持旋律节奏和改变音色之间找到了一个精巧的平衡点。短板:这种基于统计的通道解缠在实际复杂音频上可能不够完美(论文中k值仍需调优),且极度依赖底层编码器M2L2和扩散模型DaR的特定性质,方法的普适性和鲁棒性有待更广泛验证。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:未提及。
- 数据集:评估使用了NSynth(公开)和DaR的测试集(未公开)。
- Demo:提供了音频演示页面链接(anon-audio-demo-25.github.io/audio demo)。
- 复现材料:论文中给出了方法的关键步骤和超参数选择逻辑,但未提供完整复现所需的所有配置文件或脚本。
- 论文中引用的开源项目:引用了NSynth数据集[29]、Music2Latent2[26]、Diff-A-Riff[15, 16]、CLAP[27]、DDIM[28]、PESTO音高估计[34]等。
📌 核心摘要
- 解决的问题:如何利用一个预训练的、通用的潜在扩散模型(如Diff-A-Riff),在无需额外训练或架构修改的情况下,实现音乐音���的音色迁移(改变乐器音色,同时保持旋律、节奏等结构内容)。
- 方法核心:提出一种基于互信息引导的“修复式”推理时控制方法。首先,通过互信息分析识别出潜空间中与乐器身份(音色)最相关的通道(维度);然后在扩散采样过程中,仅对这些“音色通道”注入噪声以进行重新生成,同时“夹紧”(即恢复)代表结构(旋律、节奏)的通道,以强制保持原始内容。
- 与已有方法相比新在哪里:区别于需要为每个目标乐器单独训练或添加控制模块的方法,也区别于需要在推理时进行逐样本优化的方法。本文方法是无训练、无优化的,直接在预训练模型的采样过程中施加轻量级干预,成本与标准采样相当。
- 主要实验结果:在客观指标上,该方法在音色相似度(CLAP)与内容保持(动态音高距离DPD、音符起始点F1)之间取得了优于简单部分噪声注入(PnI)和DDIM部分噪声注入的平衡。与DDIM反转(DDIM-inversion)基线相比,它能显著改善内容保持(DPD更低,F1更高),但音色相似度(CLAP)略低。消融实验表明,通过调整掩模比例k和夹紧步长比例f,可以控制这种权衡。主观听测(MUSHRA)表明,该方法在音频质量上显著优于对比基线(WaveTransfer-BDDM19),在内容保持上与之无显著差异,但在音色相似度上略逊。其生成的音频真实度MOS评分(3.52)也远高于对比系统(2.10)。
| 方法 | k | f | FAD ↓ | DPD (¢) ↓ | CLAP ↑ | F1 Onset ↑ |
|---|---|---|---|---|---|---|
| PnI | - | - | 3.74 | 110.79 | 0.63 | 0.37 |
| DDIM-PnI | - | - | 1.48 | 29.71 | 0.52 | 0.78 |
| DDIM-inversion | - | - | 1.333 | 196.93 | 0.76 | 0.14 |
| MI-Guided (Setting 4) | 0.50 | 0.45 | 1.75 | 97.96 | 0.59 | 0.59 |
| (low-k, long-f) | 0.4 | 0.5 | 1.81 | 56.04 | 0.54 | 0.71 |
(表格展示了部分关键结果,其中MI-Guided方法为论文提出的最佳平衡点之一) 5. 实际意义:为音乐制作人提供了一种灵活的、无需训练的音色变换工具,可以快速探索编曲中的音色可能性,加速创意迭代。方法架构无关,理论上可适配于其他基于潜在扩散的生成模型。 6. 主要局限性:通道的音色与结构解缠依赖于互信息分析,并非完美分离(尤其是中间通道),因此需要权衡超参数k和f。方法的性能受限于所使用的预训练模型(Diff-A-Riff)的能力。论文未提供代码和模型权重。
17. D3PIA: A Discrete Denoising Diffusion Model for Piano Accompaniment Generation from Lead Sheet
✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #邻域注意力 #钢琴伴奏
👥 作者与机构
- 第一作者:Eunjin Choi(KAIST, Graduate School of Culture Technology)
- 通讯作者:未说明(论文未明确指定通讯作者)
- 作者列表:Eunjin Choi(KAIST, Graduate School of Culture Technology)、Hounsu Kim(KAIST, Graduate School of Culture Technology)、Hayeon Bang(KAIST, Graduate School of Culture Technology)、Taegyun Kwon(KAIST, Graduate School of Culture Technology)、Juhan Nam(KAIST, Graduate School of Culture Technology)
💡 毒舌点评
亮点:巧妙地将离散扩散模型应用于钢琴伴奏生成,结合邻域注意力高效捕捉局部和弦-旋律对齐,在仅2.2M参数下实现了远超基线的和弦保真度与推理速度。短板:彻底放弃了力度(velocity)建模,虽简化了问题但也限制了音乐表现力,且对长程结构与风格多样性的探索不足。
🔗 开源详情
- 代码:论文提供代码仓库链接:https://jech2.github.io/D3PIA/
- 模型权重:论文未明确提及是否公开预训练模型权重,仅提及代码和生成样本公开。
- 数据集:使用公开的POP909数据集,论文中说明了获取和划分方式。
- Demo:论文网页(https://jech2.github.io/D3PIA/)可能包含生成样本演示。
- 复现材料:论文提供了相对详细的训练配置(模型架构细节、超参数、优化器设置、训练时长)和硬件信息,有利于复现。但最终的检查点、附录(如更多实验细节)是否提供未说明。
- 引用的开源项目:论文引用了对比模型(Polyffusion, WSG, FGG, C&E)的相关工作,但D3PIA本身是独立实现。其离散扩散框架参考了D3RM(用于钢琴转录),注意力机制参考了NA和Dilated NA。
📌 核心摘要
这篇论文旨在解决从主旋律谱(Lead Sheet)自动生成符合和弦与旋律约束的钢琴伴奏问题。其核心方法是提出D3PIA,一个基于离散去噪扩散的概率模型,直接在离散化的钢琴卷帘(piano roll)表示上操作。与之前基于连续扩散或Transformer的方法相比,D3PIA的新颖之处在于:1)采用离散扩散处理固有二值化的钢琴卷帘;2)设计了一个基于邻域注意力(NA)的编码器来编码主旋律谱,并用它来条件化解码器,从而有效建模局部对齐关系。实验在POP909数据集上进行,结果表明D3PIA在客观指标(和弦准确率CA=80.1%,和弦相似度CS=93.6%)和主观听感评价上均优于连续扩散(Polyffusion)和Transformer(C&E-E)基线模型,同时模型参数量极小(2.2M)且推理速度快(1.7秒)。该工作的实际意义在于为符号音乐生成提供了一种高效、高保真且易于控制的伴奏生成范式。其主要局限性是未建模音符力度,且仅生成8小节片段,未验证长曲生成能力。
18. Evaluating Disentangled Representations for Controllable Music Generation
✅ 7.5/10 | 前25% | #音乐生成 | #模型评估 | #解纠缠学习 #数据集
👥 作者与机构
- 第一作者:Laura Ibáñez-Martínez(巴塞罗那庞培法布拉大学音乐技术组)
- 通讯作者:未说明
- 作者列表:Laura Ibáñez-Martínez(巴塞罗那庞培法布拉大学音乐技术组)、Chukwuemeka Nkama(巴塞罗那庞培法布拉大学音乐技术组)、Andrea Poltronieri(巴塞罗那庞培法布拉大学音乐技术组)、Xavier Serra(巴塞罗那庞培法布拉大学音乐技术组)、Martín Rocamora(巴塞罗那庞培法布拉大学音乐技术组)
💡 毒舌点评
这篇论文最大的亮点是构建了一套系统、多维度的评估框架,直指当前音乐生成领域“可控性”声称背后的表示学习软肋,揭示了“声称解纠缠”与“实际解纠缠”之间的差距。然而,其短板在于实验结论的力度受制于其仅评估了三个特定模型(且模型配置非完全受控),且对“解纠缠”在实际生成任务中(如音色迁移)的效果缺乏端到端验证,使得警示意义强于解决方案的提出。
🔗 开源详情
- 代码:论文提供评估框架的代码仓库链接:
https://github.com/lauraibnz/synesis。用于训练被评估模型的代码,论文称使用了各模型的官方仓库(未给出具体链接)。 - 模型权重:论文中未提及是否公开了重训后的模型权重。
- 数据集:评估使用的Slakh2100和MAESTRO是公开数据集,论文中提供了参考文献。探测用的SynTheory数据集也是公开的。
- Demo:论文中未提及提供在线演示。
- 复现材料:提供了评估框架代码和部分数据集信息。但被评估模型的具体训练配置(除表1列出的维度等)未详细给出。
- 论文中引用的开源项目:引用了
mir eval用于MIR指标计算,以及被评估模型的官方代码库(SS-VQ-VAE [9], TS-DSAE [10], AFTER [11])。 - 论文中未提及完整的开源计划。
📌 核心摘要
- 要解决什么问题:当前许多可控音乐生成模型声称通过解纠缠表示(如分离“结构/音符”与“音色/风格”)来实现对生成音乐的精确控制,但这些表示本身的质量、语义一致性以及是否真正解纠缠,缺乏超越简单下游任务的系统性评估。
- 方法核心是什么:本文将来自图像/语音领域的
synesis表示评估框架适配到音乐音频领域,提出一个包含信息性(Informativeness)、等变性(Equivariance)、不变性(Invariance)和解纠缠性(Disentanglement)四个轴的综合评估协议,并应用于评估三种无监督的结构-音色解纠缠模型(SS-VQ-VAE, TS-DSAE, AFTER)。 - 与已有方法相比新在哪里:不同于以往仅通过生成质量或简单下游任务(如乐器分类)来评估可控性,本文的方法深入到表示的内部结构性质,通过设计受控变换来测试表示的响应,并量化两个潜在表示之间的信息泄漏,从而更本质地诊断解纠缠的有效性。
- 主要实验结果如何:
- 信息性:容量更大的SS-VQ-VAE在多数任务上信息性更强(如乐器分类准确率0.982),但TS-DSAE在特定任务(如速度预测,MSE 0.187)更优。所有模型在音符级任务(多音高估计F1最高0.258)上表现均不佳。
- 等变性/不变性:观察到信息性与等变性之间存在权衡关系。较大的SS-VQ-VAE等变性较弱。数据增强和对抗损失等策略对改善不变性和解纠缠性影响更大。
- 解纠缠性:发现普遍且不对称的信息泄漏。例如,SS-VQ-VAE的音色嵌入中包含大量结构信息(ΔAcc高达0.318);而AFTER的结构嵌入中则包含音色信息(ΔAcc 0.068)。此外,所有模型的音色嵌入都系统性地编码了速度信息(ΔMSE显著)。相对而言,TS-DSAE的解纠缠表现最为均衡。
- 实际意义是什么:研究结果对当前音乐生成领域广泛采用的“结构-音色”解纠缠范式提出了严肃质疑。它表明这些学习到的表示在语义上并不纯净,这直接限制了它们在可控生成(如精确的音色迁移或结构编辑)中的可靠性和可预测性,提示社区需要重新审视“可控性”的定义和实现路径。
- 主要局限性是什么:1) 评估仅限于表示层面,未结合生成器的解码能力来评估最终输出的可控性;2) 使用的评估模型(及其默认配置)数量有限,可能无法代表所有解纠缠策略;3) 对于音符级任务的低性能,简单探测器可能无法充分提取复杂嵌入中的信息。
19. Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints
✅ 7.5/10 | 前25% | #音乐生成 | #强化学习 | #大语言模型 #自回归模型
👥 作者与机构
- 第一作者:Hao Meng(Hao Meng,来自Zuoyebang Education Technology)
- 通讯作者:未说明
- 作者列表:Hao Meng (Zuoyebang Education Technology), Siyuan Zheng (Zuoyebang Education Technology), Shuran Zhou (Zuoyebang Education Technology), Qiangqiang Wang (Zuoyebang Education Technology), Yang Song (Zuoyebang Education Technology)
💡 毒舌点评
亮点:巧妙地将音乐理论“规则化”,并设计了一套完全自动化的偏好数据生成与模型对齐流水线,成功绕开了RLHF依赖人工标注的痛点,是“用领域知识指导大模型”的一个干净利落的范例。短板:所定义的五条规则虽然解决了“合规性”,但可能过于刚性,容易让生成的旋律陷入“安全但平庸”的境地;此外,最终的主观MOS提升虽显著,但绝对值(3.42 vs GT 3.50)显示在感知层面仍有优化空间,评估完全依赖固定规则而非更灵活的人类偏好也是其潜在局限。
🔗 开源详情
- 代码:论文提供了一个交互演示链接:
https://arain233.github.io/AligningMelody-demo/,并提到了代码仓库可能位于https://github.com/arain233(根据推断),但论文正文中未明确提供完整的代码仓库链接。文中描述为“An interactive demo with audio comparisons is available at…”,并未承诺开源训练代码。 - 模型权重:论文中未提及是否公开模型权重。
- 数据集:训练和评估数据集未公开,部分来自SongComposer数据集和专有来源。
- Demo:是,提供了在线交互演示和音频对比。
- 复现材料:给出了基础模型(Qwen2.5-0.5B)、主要超参数(β=0.1,学习率1e-6)、训练步数(SFT 50万步)和硬件(8x A800),但未提供完整的训练代码、数据预处理脚本、模型检查点或详细的配置文件。
- 论文中引用的开源项目:引用了
SongComposer[3]、TeleMelody[10]、SongMASS[9]、Qwen2.5[17]、TechSinger[18]等开源或已公开的模型/数据集。
📌 核心摘要
- 要解决的问题:当前基于监督微调的大语言模型在歌词到旋律生成任务中,常常产生音乐上不合理的“约束违反”旋律,如节奏尴尬、音域不合适、单调重复等,限制了其实际应用。
- 方法核心:提出一个无需人工标注的对齐框架。首先定义五类基于规则的音乐约束,用于自动评估SFT模型生成的旋律;然后自动生成包含“优胜”和“失败”样本的偏好数据集;最后通过顺序应用直接偏好优化和卡尼曼-特沃斯基优化来对齐模型。
- 与已有方法相比新在哪里:与传统依赖人工标注的RLHF或仅依赖SFT的模仿学习不同,本文创新性地利用确定性的音乐规则来构造偏好信号,并设计了顺序DPO-KTO的两阶段对齐策略,以充分利用配对和不配对数据,实现了全自动、可扩展的领域知识注入。
- 主要实验结果:在客观指标上,所提方法在中英文测试集上的音高分布相似度(PD)和时长分布相似度(DD)均优于所有基线(如英文PD:32.37% vs SongComposer 31.58%),旋律距离(MD)也显著降低。主观MOS得分(3.42)远超基线(如SongComposer 2.92),并接近真实歌唱音频(3.50)。消融实验证明顺序对齐策略(DPO+KTO)优于单独使用任一方法。规则违反频率分析显示,所提方法在所有五类约束上的错误均大幅减少。
主要实验结果表格:
表1. 不同歌词到旋律生成方法在客观指标上的比较
| 方法 | 英文测试集 | 中文测试集 | ||||
|---|---|---|---|---|---|---|
| PD(%) ↑ | DD(%) ↑ | MD ↓ | PD(%) ↑ | DD(%) ↑ | MD ↓ | |
| SongMASS | 30.11 | 19.61 | 1.87 | - | - | - |
| TeleMelody | 30.08 | 31.51 | 3.41 | 25.08 | 35.09 | 3.25 |
| TeleMelody(RelyMe) | 31.27 | 30.99 | 3.32 | 27.59 | 34.70 | 3.29 |
| SongComposer | 31.58 | 31.44 | 3.31 | 30.79 | 33.68 | 3.11 |
| Proposed | 32.37 | 37.11 | 2.63 | 33.94 | 43.44 | 2.58 |
表2. 整体音乐质量主观MOS评估
| 方法 | MOS ↑ |
|---|---|
| GT | 3.50 |
| SongMASS | 3.18 |
| TeleMelody | 3.09 |
| TeleMelody(RelyMe) | 3.26 |
| SongComposer | 2.92 |
| Step-Audio-TTS | 3.19 |
| Proposed | 3.42 |
表3. 对齐组件的消融研究
| 方法 | 英文测试集 | 中文测试集 | ||||
|---|---|---|---|---|---|---|
| PD(%) ↑ | DD(%) ↑ | MD ↓ | PD(%) ↑ | DD(%) ↑ | MD ↓ | |
| Proposed (SFT+DPO+KTO) | 32.37 | 37.11 | 2.63 | 33.94 | 43.44 | 2.58 |
| DPO | 31.22 | 37.25 | 2.77 | 30.83 | 40.98 | 2.87 |
| KTO | 31.62 | 37.96 | 2.77 | 28.64 | 40.53 | 3.10 |
| SFT | 30.42 | 36.46 | 2.95 | 27.00 | 40.02 | 3.12 |
规则违反频率分析(图2):图表显示,与SFT基线相比,所提方法(Proposed)在格式、歌词、音符、时长和音域五种规则上的违反频率均大幅下降,直接证明了其对齐效果。
- 实际意义:提供了一种可扩展的、低成本的方法,将领域专家知识系统性地注入到生成式大模型中,显著提升了生成内容的专业性和可用性,可应用于辅助音乐创作和增强语音交互能力。
- 主要局限性:1) 偏好数据完全由预定义的规则生成,可能无法捕捉到更复杂或更主观的音乐审美偏好;2) 对齐效果高度依赖规则集的设计,规则的完备性和阈值设定至关重要;3) 论文未讨论模型在面对规则未覆盖的、更具创造性的旋律时的表现。
20. FUSEMOS: Perceptual Evaluation of Text-to-Music Generation with Dual-Encoder Fusion and Ranking-Aware Composite Loss
✅ 7.5/10 | 前25% | #音乐生成 | #多任务学习 | #模型评估 #预训练
👥 作者与机构
- 第一作者:Jing Yang(武汉大学电子信息学院, MiLM Plus (小米))
- 通讯作者:Ningning Pan(西南财经大学计算机与人工智能学院), Gongping Huang(武汉大学电子信息学院)
- 作者列表:Jing Yang(武汉大学电子信息学院, MiLM Plus (小米)), Haoyu Wang(西南财经大学计算机与人工智能学院, MiLM Plus (小米)), Ningning Pan(西南财经大学计算机与人工智能学院, 通讯作者), Zhao Wang(MiLM Plus (小米)), Jianxuan Yang(MiLM Plus (小米)), Gongping Huang(武汉大学电子信息学院, 通讯作者)
💡 毒舌点评
亮点:非常务实地解决了T2M评估中的一个痛点——单一CLAP编码器“懂语义不懂音乐”,通过双编码器融合显著提升了评估精度,消融实验做得扎实有力。短板:虽然方法有效,但核心创新(融合两个预训练模型+设计一个损失)在深度学习领域属于常见套路,且论文缺乏对模型推理速度或轻量化可能性的讨论,这在实际部署评估系统时是个关键问题。
🔗 开源详情
- 代码:论文中未提及代码仓库链接。
- 模型权重:论文中未提及公开的FUSEMOS模型权重。但提到了其初始化和依赖的预训练模型:CLAP模型(使用
lukewys/laion_clap/music_audioset_epoch_15_esc_90.14.pt)和MERT模型(m-a-p/MERT-v1-95M)。 - 数据集:使用了公开的MusicEval数据集(提供了链接:https://www.aishelltech.com/AISHELL_7A),可获取。
- Demo:未提及。
- 复现材料:提供了较详细的超参数、优化器设置、硬件信息(单张H800 GPU)和模型结构描述,理论上具备可复现性基础,但缺少完整的代码和配置文件。
- 论文中引用的开源项目:CLAP预训练模型、MERT预训练模型、以及基线方法中提到的31个生成模型(具体模型未列出,但引用了相关论文)。
- 总结:论文未提及开源计划(代码、模型),但复现所需的训练细节在论文中有较多说明,且依赖的关键预训练模型和评估数据集均为公开可用。
📌 核心摘要
- 问题:现有文本到音乐生成(T2M)的自动评估方法大多依赖单一的CLAP模型,它擅长捕捉文本-音频的语义对齐,但在反映音色、表现力等细粒度音乐特征方面存在不足,导致评估不全面。
- 方法核心:提出FUSEMOS框架,采用双编码器融合架构。该架构并行使用CLAP(擅长语义对齐)和MERT(擅长音乐结构建模)两个预训练模型分别提取特征。采用后期融合策略,在各自预测出中间分数(整体音乐印象OMI和文本对齐TA)后进行线性加权融合,得到最终分数。
- 创新点:a) 双编码器互补:整合了CLAP的语义能力和MERT的音乐性建模能力。b) 后期融合策略:相比早期特征融合,更能保留各模态的特性。c) 排序感知复合损失:结合了截断回归损失(抑制噪声标签)和对比排序损失(建模人类偏好的相对排序),同时优化绝对精度和相对排序一致性。
- 实验结果:在MusicEval基准数据集上,FUSEMOS全面超越现有基线(MusicEval, CLAP-only)。关键指标对比见下表:
指标 MusicEval (基线) FUSEMOS (本文) 改进幅度 OMI U-MSE↓ 0.560 0.260 53.6% OMI U-SRCC↑ 0.637 0.811 +0.174 TA U-MSE↓ 0.568 0.392 31.0% TA U-SRCC↑ 0.495 0.644 +0.149 OMI S-SRCC↑ 0.862 0.977 +0.115 TA S-SRCC↑ 0.861 0.940 +0.079 - 实际意义:为T2M研究社区提供了一个更可靠、与人类判断更一致的自动评估工具,有助于加速模型的迭代和比较。
- 主要局限性:(1) 评估框架依赖两个较大的预训练模型,可能带来较高的推理成本。(2) 实验仅在单一基准(MusicEval)上验证,在其他生成模型或音乐风格上的泛化性未知。(3) 论文未涉及评估模型本身的速度或轻量化设计。
21. Fine-Tuning Bigvgan-V2 for Robust Musical Tuning Preservation
✅ 7.5/10 | 前25% | #音乐生成 | #领域适应 | #数据增强 #声码器
👥 作者与机构
- 第一作者:未说明(论文作者列表按字母顺序排列,未明确指出第一作者)
- 通讯作者:未说明(论文中未明确标注通讯作者)
- 作者列表:Hans-Ulrich Berendes(国际音频实验室埃尔兰根)、Ben Maman(国际音频实验室埃尔兰根)、Meinard Müller(国际音频实验室埃尔兰根)
💡 毒舌点评
亮点:论文精准地抓住了神经声码器在音乐处理中的一个“阿喀琉斯之踵”——调音偏差,并用一套非常工整的实验设计(构建调音均匀分布测试集、对比不同调音分布训练数据、结合客观指标与主观听测)给出了令人信服的解决方案,证明了即使低分辨率模型也能通过针对性适应达到高分辨率模型的性能。短板:其本质是对现有模型(BigVGAN-V2)的微调应用,核心方法(领域适应、数据增强)并非原创;此外,论文未开源代码和模型,复现依赖项目主页上的有限资源,对推动该方向的快速跟进略有阻碍。
🔗 开源详情
- 代码:论文中未提及代码链接。项目主页(https://www.audiolabs-erlangen.de/resources/MIR/2026-ICASSP-VocoderFineTuning)提供了一些音频示例,但未说明是否包含微调代码。
- 模型权重:未提及。微调后的模型权重未公开。
- 数据集:未公开。使用的内部古典音乐数据集未提供。
- Demo:项目主页提供了听测示例音频和更多示例,可视为一种有限形式的Demo。
- 复现材料:论文提供了微调的基本设置(数据集构建方法、训练步数、基线模型信息),但缺少关键的训练超参数(学习率、优化器等)、硬件配置和完整的数据处理/训练脚本。复现需要依赖BigVGAN-V2的官方代码库。
- 论文中引用的开源项目:
- BigVGAN-V2:作为基础和对比模型。
- Rubber Band库:用于音高偏移数据增强。
- librosa 和 libfmp:用于调音估计。
- 开源计划:论文中未提及明确的开源计划。
📌 核心摘要
本文针对神经声码器(以BigVGAN-V2为例)在处理非标准调音音频时产生的音高偏移(调音偏差)问题,提出了通过微调来缓解该问题的解决方案。方法核心是构建包含不同调音分布的训练数据集(自然调音分布、均匀调音分布、通过音高偏移增强的均匀调音分布),并在这些数据集上对BigVGAN-V2的80频段版本进行微调。与现有工作相比,新在首次系统研究了如何通过数据策略而非增加模型复杂度(如使用更高频段)来解决调音偏差问题,并证明了数据增强方法的有效性。主要实验结果表明,使用均匀分布数据(特别是通过音高偏移增强的数据)微调后,80频段模型的调音保持精度(平均偏差<3 cents)达到了未微调的128频段模型的水平,且主观听测显示微调模型在非标准调音(尤其是钢琴)下更受偏好。该工作的实际意义在于提供了一种计算高效且鲁棒的方案,使轻量级声码器能可靠地应用于多样化调音条件下的音乐合成。主要局限性在于该解决方案针对BigVGAN-V2模型,其泛化性到其他声码器架构有待验证;且研究局限于西方音乐系统,未涉及非西方调音体系。
22. Visual Keys to Symphonies: Latent Diffusion for Multi-Scene Video-to-Music Generation
✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #跨模态 #数据集
👥 作者与机构
- 第一作者:Chiu Fai Ng(华为中央媒体技术研究院⋆,清华大学深圳国际研究生院†)
- 通讯作者:未说明
- 作者列表:Chiu Fai Ng(华为中央媒体技术研究院,清华大学深圳国际研究生院), Karsper So(华为中央媒体技术研究院), Jing Yang(华为中央媒体技术研究院), Patricio Ovalle(华为中央媒体技术研究院), Simon Lui(华为中央媒体技术研究院), Fan Fan(华为中央媒体技术研究院), Yuhan Dong(清华大学深圳国际研究生院)
💡 毒舌点评
亮点在于将关键帧采样、多模态特征(视觉语义、情绪、光流)与DPO偏好学习结合,形成了一套逻辑自洽且实验验证较为完整的V2M生成管线,尤其在数据构建和节拍对齐上做了细致工作。短板在于核心生成模型高度依赖Stable Audio的DiT架构,原创性主要体现在“组装”和任务适配上,且评估指标(如KAD、Audiobox-Aesthetics)对于普通读者理解“好音乐”的直观性有限,缺乏更贴近人类音乐感知的主观评价分析。
🔗 开源详情
- 代码:论文中未提及代码仓库链接。
- 模型权重:未提及是否公开模型权重。
- 数据集:论文提到构建了包含660小时视频-音乐对的数据集,但未提及是否公开及获取方式。
- Demo:提供了在线演示页面链接:https://jasonng-glitch.github.io/v2m-demo/。
- 复现材料:给出了模型架构、训练超参数(如学习率、batch size、优化器)、评估指标计算方法等细节。未提供训练配置、检查点或详细附录。
- 论文中引用的开源项目:TransNet(镜头边界检测)、OpenCLIP(视觉特征)、NeuFlow v2(光流估计)、Stable Audio 2.0(DiT架构)、ImageBind(多模态相似度)、Audiobox-Aesthetics(质量评估)、Librosa(音频分析)、RAFT/MemFlow(光流对比基线)。
- 总结:论文提供了用于理解与初步验证的Demo和较多技术细节,但未提及完整的开源计划(代码、模型、数据),复现门槛较高。
📌 核心摘要
- 解决的问题:现有视频到音乐(V2M)生成方法在处理多场景视频时,难以同时保证全局连贯性、情感共鸣以及准确的节拍-视觉事件同步。
- 方法核心:提出一个基于潜在扩散的V2M框架。首先设计了一个可扩展的数据过滤与重评分管道构建高质量视频-音乐对齐数据集。模型采用关键帧作为条件输入,提取视觉语义(OpenCLIP)、情绪标签和光流特征(NeuFlow v2)并进行融合,作为DiT模型的条件信号。最后,通过直接偏好优化(DPO)对模型进行微调,使其输出更符合人类对“高光时刻”音画同步的偏好。
- 新颖之处:首次在V2M领域应用DPO进行微调;主张并验证了关键帧采样优于均匀采样;构建了一个包含节拍同步约束的高质量数据子集用于偏好学习;系统整合了多种视频特征(语义、情绪、运动)以指导音乐生成的不同方面(内容、情感、节奏)。
- 主要实验结果:在多个指标上与现有方法对比(见表1)。DPO微调后的模型在ImageBind语义相似度(5.612)和提出的新指标“Beat Sync”(0.0489)上达到最优,同时Audiobox美学评分与基线模型相当或略优。消融实验表明,关键帧采样在语义和情感对齐上与1FPS采样相当,但计算成本更低(表2);特征融合模型在PQ和ImageBind上优于单一特征模型(表3)。
- 实际意义:为视频创作者提供了一种自动生成与其内容语义和情绪相符、节拍对齐良好的背景音乐的新工具,有望降低视频制作门槛并避免版权问题。
- 主要局限性:生成模型的核心架构(DiT)并非原创;评估指标偏向于客观度量,缺乏大规模的人类主观偏好评分;数据集中视频类型和音乐流派可能仍有偏见;DPO微调的效果依赖于精心构建的正负样本对。
23. VMSP: Video-to-Music Generation with Two-Stage Alignment and Synthesis
✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 | #多模态模型 #跨模态
👥 作者与机构
- 第一作者:Xin Gu(中国传媒大学信息与通信工程学院)
- 通讯作者:Wei Jiang*(中国传媒大学信息与通信工程学院)
- 作者列表:Xin Gu(中国传媒大学信息与通信工程学院)、Wei Jiang*(中国传媒大学信息与通信工程学院)、Yujian Jiang(中国传媒大学信息与通信工程学院)、Zhibin Su(中国传媒大学信息与通信工程学院)、Ming Yan(中国传媒大学信息与通信工程学院)
💡 毒舌点评
论文的亮点在于其清晰的“先对齐中间表示,再生成”的两阶段框架设计,这有效缓解了端到端模型常忽略音乐结构的问题,逻辑自洽。但短板也明显:它严重依赖特定的、可能闭源的MLLM(Qwen2.5-VL, Qwen2-Audio)来生成感知描述,这增加了复现成本和不可控性,且论文未开源任何资源,让后续研究者“只能看,不能练”。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:未提及公开的模型权重。
- 数据集:使用了公开数据集MVED, MuVi-Sync, V2M-bench,但论文未说明其自身的数据预处理脚本或额外数据是否公开。
- Demo:未提供在线演示。
- 复现材料:给出了部分训练细节(优化器、学习率调度、训练轮数、硬件)和模型架构参数(Transformer层数、维度),但关键组件的完整训练配置(如VAE-GAN)、MLLM的详细使用方式(Prompt、是否微调)、以及评估脚本未提供。
- 论文中引用的开源项目:引用并依赖了MetaClip、CLAP、Qwen2.5-VL、Qwen2-Audio等模型/工具。
- 开源计划:论文中未提及开源计划。
📌 核心摘要
- 问题:现有的视频生成音乐(V2M)方法大多直接将视频特征映射到声学标记或波形,跳过了对音乐中间表示(如语义、结构)的建模,导致生成的音乐结构连贯性差、和声不丰富。
- 方法核心:提出VMSP,一个基于分层条件映射的两阶段生成框架。第一阶段(跨模态映射)通过Transformer学习视频与音乐语义特征的段级对齐,并利用多模态大语言模型(MLLM)确保视频与音乐在感知层面的一致性。第二阶段(音乐生成)使用扩散Transformer(DiT),将上述对齐后的语义特征和感知信息作为分层条件,指导音乐波形的生成。
- 与已有方法的新颖性:相比于直接映射或依赖文本中间描述的方法,VMSP显式地建模了音乐的“中间表示”(语义和感知),并设计了分层条件注入机制(全局感知条件+局部语义条件),旨在同时保证全局氛围一致和局部时间对齐。
- 主要实验结果:在MVED和MuVi-Sync数据集上训练,在V2M-bench数据集上评估。定量对比显示VMSP在KL、FAD、Density和Coverage指标上均优于CMT、Video2Music、M2UGen和VidMuse等基线模型。消融实验表明两阶段框架和双重条件(语义+感知)缺一不可。用户研究也显示VMSP在音频质量、音乐性、对齐度和感知和谐度上具有优势。
| 模型/方法 | KL↓ | FAD↓ | Density↑ | Coverage↑ |
|---|---|---|---|---|
| GT | 0.000 | 0.000 | 1.167 | 1.000 |
| CMT[7] | 1.220 | 8.637 | 0.080 | 0.070 |
| Video2Music[9] | 1.782 | 18.722 | 0.103 | 0.023 |
| M2UGen[18] | 0.997 | 5.104 | 0.608 | 0.433 |
| VidMuse[6] | 0.734 | 2.459 | 1.250 | 0.730 |
| VMSP | 0.607 | 2.580 | 1.280 | 0.870 |
表1: 客观定量对比结果(来自论文)
| 模型变体 | KL↓ | FAD↓ | Density↑ | Coverage↑ |
|---|---|---|---|---|
| VMSP w/o T | 0.844 | 3.488 | 0.531 | 0.487 |
| VMSP w/o P | 0.705 | 2.553 | 1.032 | 0.730 |
| VMSP w/o S | 0.773 | 2.783 | 0.606 | 0.582 |
| VMSP | 0.607 | 2.580 | 1.280 | 0.870 |
表2: 消融实验结果(来自论文)
- 实际意义:为视频自动配乐提供了一种新的、注重音乐结构连贯性的解决方案,有望应用于视频剪辑、广告创作等多媒体内容生成领域。
- 主要局限性:框架依赖外部大型多模态模型(Qwen系列)提取感知描述,计算成本高且可能引入黑箱不确定性;论文未开源代码和模型,限制了可复现性;在更长视频或更复杂语义场景下的泛化能力有待验证。
24. Etude: Piano Cover Generation with a Three-Stage Approach — Extract, Structuralize, and Decode
✅ 7.0/10 | 前25% | #音乐生成 | #自回归模型 | #生成模型 #音乐信息检索
👥 作者与机构
- 第一作者:Tse-Yang Chen(National Taiwan University)
- 通讯作者:论文中未明确标注通讯作者
- 作者列表:Tse-Yang Chen(National Taiwan University), Yuh-Jzer Joung(National Taiwan University)
💡 毒舌点评
论文的核心亮点在于三阶段解耦架构的设计非常巧妙,通过“提取-结构化解码”的流水线,强制让模型关注节拍对齐这一被以往工作忽视的关键,从而在主观听感上实现了质的飞跃(尤其是流畅度)。然而,其短板也显而易见:所构建的~4700首歌曲数据集虽然规模尚可,但高度集中于J-pop/K-pop,方法的泛化能力在其他音乐风格(如古典、爵士)上的有效性存疑,且“风格注入”的实际控制粒度和效果在论文中并未得到充分展示。
🔗 开源详情
- 代码:论文中明确提供了项目页面链接:
https://xiugapurin.github.io/Etude/,并声称所有代码将在该页面开源。 - 模型权重:论文中未明确提及是否公开训练好的模型权重。
- 数据集:论文描述了自行收集和筛选的数据集规模(4,752对,约500小时),但未明确说明是否公开原始音频数据集。仅提到代码、音频演示和完整手稿可在项目页面获取。
- Demo:项目页面提供了音频演示(Audio Demonstrations)。
- 复现材料:论文详细说明了数据集构建流程、模型架构细节(如GPT-NeoX参数配置)、训练超参数(学习率、批次大小、优化器、调度策略等),为复现提供了较好的信息基础。
- 论文中引用的开源项目:使用了Beat-Transformer[8]、MrMsDTW[14]、SyncToolbox[15]、GPT-NeoX[16]、AdamW[17]。
- 论文中未提及开源计划:论文中明确表示将在项目页面提供代码和演示,因此不能说未提及开源计划。但关于数据集和模型权重的公开情况,信息不完整。
📌 核心摘要
- 问题:现有深度学习自动钢琴编曲(APCG)模型在生成的钢琴谱中经常出现节奏不一致、拍子混乱等问题,导致音乐结构感缺失,整体质量不高。
- 核心方法:提出三阶段框架“Etude”。Extract阶段从原始音频中提取密集的、类MIDI的音乐事件特征;Structuralize阶段(与Extract并行)使用预训练Beat-Transformer提取精确的节拍框架(Fbeat);Decode阶段基于Transformer,以小节为单位,结合提取的特征(X)、风格向量和前四小节的上下文,自回归生成目标钢琴序列(Y)。
- 创新点:相比已有两阶段模型(如PiCoGen),新方法显式解耦了节拍检测,保证了结构一致性;设计了极简的Tiny-REMI标记化方案,移除了对APCG任务冗余的Token,降低了学习难度;引入了可控的风格向量,允许用户调节音乐织体和表情。
- 主要实验结果:在100首测试集上,Etude(默认设置)在主观平均分(OVL)上达到3.50(满分5),显著优于基线PiCoGen2(2.97)、AMT-APC(2.46)和Music2MIDI(2.27),且统计显著(p<0.001)。在所提出的结构相似度(WPD)、节奏网格一致性(RGC)和节奏模式复杂度(IPE)等客观指标上,也表现出更接近人类演奏的平衡状态。详细结果见下表。
模型 主观总体分 (OVL) ↑ 主观流畅度 (FL) ↑ WPD ↓ RGC ↓ IPE Human 3.92 ± 0.96 4.03 ± 1.02 0.49 0.042 10.13 Etude - Default 3.50 ± 0.99 3.73 ± 0.98 0.21 0.020 9.02 Etude - Prompted 3.46 ± 1.00 3.70 ± 1.05 0.23 0.026 9.11 Etude Extractor 3.33 ± 1.00 3.31 ± 1.13 0.12 0.028 10.62 PiCoGen2 [3] 2.97 ± 1.04 3.33 ± 1.12 1.00 0.059 7.97 AMT-APC [4] 2.46 ± 1.04 2.37 ± 1.11 0.09 0.114 10.69 Music2MIDI [5] 2.27 ± 1.07 2.29 ± 1.13 0.18 0.160 8.94 - 实际意义:该方法显著提升了自动钢琴编曲的音乐性和结构合理性,使其主观评价接近人类水平,为社交媒体内容创作、音乐教育辅助等应用提供了更强大的工具。
- 局限性:数据集主要基于流行音乐(J/K-pop),在其他音乐类型上的有效性未经验证;风格控制虽然引入,但仅以三个离散等级(低、中、高)实现,精细度和可控范围有限;论文未公开模型权重。
25. Towards Multi-View Hierarchical Video-to-Piano Generation with MIDI Guidance
✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 | #多模态模型 #跨模态
👥 作者与机构
- 第一作者:Chang Liu(巨像AI Lab;特伦托大学)
- 通讯作者:Zihao Chen†(巨像AI Lab)
- 作者列表:Chang Liu(巨像AI Lab;特伦托大学), Zihao Chen†(巨像AI Lab), Gongyu Chen(巨像AI Lab), Chaofan Ding(巨像AI Lab), Nicu Sebe(特伦托大学)
💡 毒舌点评
论文的核心思路——用分层、多视角的符号化MIDI信息来“指挥”扩散模型生成更精准的钢琴音频,是清晰且有效的,实验中SI-SDR的巨幅提升(如从-4.87 dB到2.45 dB)也极具说服力。然而,这篇工作就像在精心打磨一个高度定制的工具,却对工具的内部齿轮(控制分支具体如何融合MIDI特征)和打造工具的材料(训练数据集细节)语焉不详,这给希望跟进的同行留下了不小的障碍。
🔗 开源详情
- 代码:论文中未提及代码链接或开源计划。
- 模型权重:论文中未提及公开模型权重。
- 数据集:论文未说明训练数据的来源和获取方式。仅提及在公开的Audeo和EGQ测试集上进行评估。
- Demo:未提及在线演示。
- 复现材料:仅给出了非常基础的训练配置(GPU型号、batch size、优化器、部分训练步数),缺乏模型超参数、数据预处理、代码框架等关键信息,复现难度高。
- 引用的开源项目:论文引用了MMAudio、AudioX、YingSound等基线模型论文,但未明确说明是否基于其开源代码进行复现和扩展。
📌 核心摘要
- 问题:现有视频到音频(V2A)的生成方法在直接映射视频到波形时,难以精确捕捉钢琴演奏中细微的时序、力度和延音控制,导致生成音频的时序对齐和音乐表现力不足。
- 方法核心:提出一个分层的视频到钢琴(V2P)生成框架。其核心是引入MIDI作为中间表示,通过一个多视角MIDI预测器从不同摄像头视角(顶视、前视、侧视、踏板视)渐进式地预测音符起始、力度和延音等符号信息,然后利用一个控制分支将这些层级化的MIDI信息注入到基于扩散变换器(DiT)的音频生成模型中,以引导更精确的波形合成。
- 创新性:相比于现有“视频->波形”的端到端方法,该工作首次在V2P任务中提出:a) 分层MIDI引导的生成范式;b) 利用多视角视频(特别是踏板视角)捕捉完整演奏动态;c) 通用的控制分支设计,可集成到不同V2A模型中。
- 主要实验结果:在Audeo和EGQ两个测试集上,将所提方法应用于YingSound、MMAudio等多个基线模型。结果显示,加入MIDI引导后,音频生成质量显著提升。例如,在MMAudio-S-16kHz模型上,SI-SDR从-2.15 dB提升至2.31 dB(提升207.44%),FDPANNS从3.0643降至2.0657(降低32.59%)。频谱图对比也显示MIDI引导能有效修复基线模型生成的不准确片段。
- 实际意义:该方法能生成与演奏视频高度同步且富有表现力的钢琴音频,可应用于无声钢琴视频配音、音乐教学反馈、自动乐谱生成辅助等场景。
- 主要局限性:a) 方法目前仅针对钢琴这一种乐器,未验证其对其他乐器的泛化性;b) 多视角输入在实际应用中可能增加部署复杂度和成本;c) 训练依赖多视角同步录制的钢琴视频-MIDI数据集,数据获取门槛较高。
26. ViTex: Visual Texture Control for Multi-Track Symbolic Music Generation via Discrete Diffusion Models
✅ 7.0/10 | 前50% | #音乐生成 | #扩散模型 | #可控生成 #多轨道
👥 作者与机构
- 第一作者:Xiaoyu Yi(北京大学信息科学与技术学院,MBZUAI 音乐实验室)
- 通讯作者:未明确说明(论文中未使用“通讯作者”标识)
- 作者列表:Xiaoyu Yi(北京大学信息科学与技术学院,MBZUAI 音乐实验室)、Qi He(MBZUAI 音乐实验室)、Gus Xia(MBZUAI 音乐实验室)、Ziyu Wang(纽约大学柯朗数学科学研究所,MBZUAI 音乐实验室)
💡 毒舌点评
亮点:将“画图”这一直观操作引入多轨道音乐的“织体”控制,比提供抽象的潜在变量或文本描述更贴近人类作曲思维,解决了实际创作中的一个痛点。短板:ViTex的基于规则的织体特征提取(如静音比例阈值0.3)显得有些“手工匠气”,可能难以捕捉和表达更复杂、更主观的音乐织体,且离散化的视觉表示在表达连续性强弱变化时存在固有局限。
🔗 开源详情
- 代码:提供链接
https://vitex2025.github.io/,论文中声明代码可在该页面获取。 - 模型权重:论文中未明确提及是否公开预训练模型权重。
- 数据集:使用了公开的Lakh MIDI和Meta MIDI数据集,但提供了具体的筛选条件和最终规模(7175首)。论文未提及是否公开其筛选处理后的子集。
- Demo:论文中声明提供了Demo页面,链接为
https://vitex2025.github.io/。 - 复现材料:提供了详细的训练设置(优化器、学习率、batch size、调度策略)、数据处理工具(muspy)、硬件环境(4 H100 GPU)、以及关键的模型架构图和条件表示细节。
- 论文中引用的开源项目:使用了
muspy进行数据处理,引用了GETMusic[8]的吸收态离散扩散框架。 - 总结:论文提供了较好的开源基础,代码和Demo链接明确,训练细节清晰。但模型权重和处理数据集的公开性未明确说明。
📌 核心摘要
- 问题:现有的多轨道符号音乐生成系统缺乏一种直观、细粒度的“乐器织体”控制方式,无法让用户直接指定不同乐器在特定音区和时间点如何演奏。
- 方法:提出ViTex,一种将乐器织体可视化的表示方法(颜色编码乐器,位置编码音高/时间,笔触属性编码局部纹理)。基于此,构建了一个以ViTex和和弦进行为条件的离散扩散模型,使用无分类器引导进行训练,以生成8小节多轨道音乐。
- 创新点:首次将视觉化的织体表示用于多轨道音乐生成控制;该表示同时支持人类直观操作和作为模型条件;结合离散扩散模型实现了高质量、可控的生成。
- 实验结果:在Lakh MIDI和Meta MIDI的子集上训练和评估。定量实验(表1)显示,在条件生成任务中,本方法在乐器控制准确率(IA=0.600 vs Q&A-1: 0.584)、和弦准确率(CA=0.875 vs Q&A-1: 0.607)及排列质量(DOA=0.296 vs Q&A-1: 0.188)上均优于基线。无条件生成(表2)在律动相似度(GPS)和排列质量(DOA)上也优于AMT和MMT基线。主观听音测试(图3)表明,在给定乐器的生成任务中,本方法在连贯性、音乐性和创造性评分上均高于基线。
- 实际意义:为音乐制作人和爱好者提供了一种更自然、更精细的方式来控制AI生成的多声部音乐,有望成为音乐创作辅助工具的新范式。
- 主要局限性:ViTex表示基于规则,可能无法涵盖所有织体类型;当前仅支持8小节的片段生成;控制维度(音色、音区、密度)虽比之前工作更细,但仍有限。
27. Instrument Generation Through Distributional Flow Matching and Test-Time Search
✅ 7.0/10 | 前25% | #音乐生成 | #流匹配 | #扩散模型 #测试时搜索
👥 作者与机构
- 第一作者:Qihui Yang(University of California, San Diego)
- 通讯作者:未说明
- 作者列表:Qihui Yang(University of California, San Diego)、Randal Leistikow(Smule Labs)、Yongyi Zang(Smule Labs)
💡 毒舌点评
亮点在于,论文巧妙地将“承认不确定性”引入流匹配框架,让模型不再“固执己见”,并通过测试时搜索将计算力转化为音色一致性的提升,这在概念上很优雅。短板是实验仅在相对“干净”且规模有限的NSynth数据集上进行,对于真实世界中更复杂、噪声更多或音色更微妙的乐器场景,其泛化能力和实际效用仍有待验证,且开源代码的缺失让这一新颖方法停留在了“可读但不可复用”的阶段。
🔗 开源详情
- 代码:论文中未提及代码链接。项目主页(https://flowsynth.github.io/)可能包含演示或资料,但未明确提供训练/推理代码仓库。
- 模型权重:未提及是否公开预训练模型权重。
- 数据集:使用公开的NSynth数据集,但论文未说明是否提供预处理后的数据或具体处理脚本。
- Demo:项目主页可能包含音频演示,但论文中未明确提及在线交互式Demo。
- 复现材料:提供了部分训练超参数(优化器、学习率、步数、批次大小)和推理设置(求解器、步数),但缺少模型完整配置、环境依赖、完整评估脚本等信息。复现材料有限。
- 论文中引用的开源项目:引用了并可能基于以下开源工作:DiffRhythm的VAE,CLAP编码器,DiT架构。这些是构建FlowSynth的基础组件。
📌 核心摘要
问题:现有基于音符级模型的虚拟乐器生成方法,在生成不同音高和力度的音符时,难以保持一致的音色(timbre),限制了其在专业音乐制作中的应用。
方法核心:提出FlowSynth,其核心是分布式流匹配(DFM)。与传统流匹配学习确定性速度场不同,DFM将速度场参数化为高斯分布(预测均值和方差),并直接使用负对数似然(NLL)进行训练,使模型能显式表达其预测的不确定性。
创新点:1)提出DFM,通过NLL优化直接学习速度场分布,无需变分下界或辅助隐变量;2)提出一个基于模型置信度(不确定性)的测试时搜索框架,结合音色一致性目标,在推理时生成多个候选轨迹并选择最优者。
主要实验结果:在NSynth数据集上,FlowSynth在单音生成和多音(乐器)生成上均优于基线TokenSynth。 关键实验结果表格:
表1:单音生成结果(无引导搜索)
模型 MADpitch (↓) MSS (↓) CLAP (↑) FADvgg (↓) TCC (↓) Ground Truth 67.63 0.0 0.1601 0.0 2.819 TokenSynth 37.99 31.29 0.1290 9.359 3.055 FlowSynth (No Search) 23.42 17.71 0.0583 3.977 1.523 FlowSynth (Uncond. Search, N=32) 26.06 16.65 0.1821 3.832 1.385 表2:多音生成结果(无引导搜索)
模型 F-score (↑) CLAP (↑) FADvgg (↓) TCC (↓) Ground Truth 1.0 0.1920 0.0 1.219 TokenSynth 0.5999 0.1560 10.68 2.597 FlowSynth (No Search) 0.9171 0.0942 1.652 2.328 FlowSynth (Uncond. Search, N=32) 0.9091 0.1575 1.680 2.303 实验表明,即使无搜索,FlowSynth在FAD(音频质量)和TCC(音色一致性)上已大幅领先。引入引导搜索后,CLAP分数(文本一致性)和TCC能进一步优化。图表内容描述:图2展示了引导搜索步数与CLAP分数的关系,显示性能随步数呈对数增长并逐渐饱和,说明适度搜索即可获得大部分收益。
实际意义:为生成专业级、可实时演奏的、音色一致的虚拟乐器提供了一条新路径,其“计算预算换质量”的范式具有实用价值。
主要局限性:模型在规模有限的NSynth数据集上评估,对更大、更多样化乐器库的泛化性未验证;代码和模型未开源,复现依赖论文有限描述。
28. When Noise Lowers the Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models
✅ 7.0/10 | 前25% | #音乐生成 | #模型评估 | #自回归模型 #音频大模型
👥 作者与机构
- 第一作者:Xiaosha Li (Georgia Institute of Technology)
- 通讯作者:未说明(根据惯例,最后一位作者Ziyu Wang可能为通讯作者,但论文中未明确标注)
- 作者列表:Xiaosha Li (Georgia Institute of Technology), Chun Liu (ByteDance Inc.), Ziyu Wang (Courant Institute of Mathematical Sciences, New York University; Mohamed bin Zayed University of Artificial Intelligence (MBZUAI))
💡 毒舌点评
亮点在于发现了一个反直觉但可重复验证的现象(“噪声降低损失”),并据此提出了一个新颖的、基于损失曲线形状的评估视角,而非简单否定损失指标,这为音乐生成评估提供了具体的诊断工具和改进方向。短板在于,论文的核心论证主要基于“噪声注入”和“顺序打乱”两种人工扰动,其与真实音乐质量(如乐感、结构、情感表达)的关联性仍需更多元、更贴近实际场景的验证,且提出的“基于曲线形状”的评估框架目前更多是定性描述,缺乏可直接应用的定量标准。
🔗 开源详情
- 代码:提供了官方代码与演示页面链接:
https://noiseloss.github.io。 - 模型权重:论文分析的模型(MusicGen系列, YuE)均为已公开的预训练模型,论文中未提及自己训练或发布新模型权重。
- 数据集:论文使用了部分公开数据集(ASAP)和私有数据(Shutterstock子集)。Generated数据由公开模型生成,可复现。
- Demo:提供了在线演示页面(链接同上)。
- 复��材料:论文详细描述了噪声注入和顺序打乱的实验设置(参数、位置、长度),并提供了分析代码,复现其核心实验具有较高可行性。
- 引用的开源项目:明确依赖 EnCodec(音频分词器)、MusicGen 模型、YuE 模型、ASAP 数据集。
📌 核心摘要
- 问题:当前音乐大语言模型(LLM)普遍采用基于似然(或交叉熵损失)的指标来评估生成音乐的质量,但该指标的可靠性在音乐领域尚未得到充分验证,可能出现模型认为“更差”的音乐(如加了噪声)反而损失更低的情况。
- 方法核心:通过系统的“噪声注入”和“顺序打乱”实验,分析模型损失曲线在面对输入扰动时的动态变化,提出了“上下文遗忘效应”(Context Amnesia Effect)的概念来解释该现象。
- 新意:不同于以往研究仅指出似然评估的偏差,本文系统量化了音乐LLM对不同类型扰动的反应模式,发现模型仅对非常短暂的局部扰动敏感(表现为损失峰值),但对持续较长或结构性的扰动表现出“遗忘”和适应(损失回落或不变),因此提出评估应关注损失曲线的形状(profile) 而非绝对值。
- 主要实验结果:
- 对MusicGen系列和YuE模型的实验一致显示:注入的噪声或打乱的片段越长,序列整体损失越可能降低(损失差为负值)。相关性分析显示噪声长度与损失差呈强负相关(r < -0.85, p < 0.001)。
- 逐Token分析揭示了三阶段行为:1)扰动开始时损失急剧上升(Peak);2)随后损失迅速下降并保持低位(Assimilation);3)扰动结束后损失不稳定波动(Recovery)。
- 在训练集、生成数据和分布外数据上均观察到此效应。
- 实际意义:揭示了当前主流音乐生成模型评估体系的一个根本缺陷,即基于绝对损失的指标无法可靠区分音乐的结构完整性。这促使研究者和开发者需重新审视评估基准,并考虑更关注局部动态或设计新的评估范式。
- 主要局限性:研究主要聚焦于自回归模型在音频波形域(使用RVQ分词器)的行为,未探讨其他架构(如扩散模型)。所提的“基于曲线形状的评估”目前是一个方向性建议,缺乏具体的、可自动化的评估协议和算法。实验扰动类型(白噪声、顺序打乱)相对简单,与真实音乐编辑或低质量生成的差异仍需进一步研究。
29. Symphony Rendering: Midi and Composer-Conditioned Auto Orchestration with Flow-Matching Transformers
✅ 7.0/10 | 前50% | #音乐生成 | #流匹配 | #扩散Transformer #数据集
👥 作者与机构
- 第一作者:Jiahe Lei(香港中文大学电子工程系)
- 通讯作者:Qiuqiang Kong(香港中文大学电子工程系)
- 作者列表:Jiahe Lei(香港中文大学电子工程系)、Qiuqiang Kong(香港中文大学电子工程系)
💡 毒舌点评
亮点:数据集构建思路巧妙,利用现成的音乐转录模型“凭空”创造出训练所需的MIDI-交响乐音频配对数据,堪称“无中生有”,且全部数据、代码、模型开源,诚意十足。短板:风格控制能力(24%的作曲家分类准确率)虽显著高于随机,但与真实录音(93%)差距巨大,模型更像是学会了“交响乐”的通用音色,而非精准复刻12位大师各自细腻的风格指纹。
🔗 开源详情
- 代码:论文明确表示将公开训练代码,并在项目主页(https://symphony-rendering.github.io)提供链接。
- 模型权重:论文明确表示将公开预训练的模型检查点(checkpoints)。
- 数据集:论文明确表示将公开完整的源录音列表(包含原始YouTube URLs)和预处理脚本,这意味着数据集的获取路径是开源的。
- Demo:论文明确表示在项目主页提供音频演示(audio demos)。
- 复现材料:论文提供了详细的模型架构、训练细节(优化器、学习率、batch size、步数)、硬件配置(4xRTX 4090)以及超参数(模型维度、层数等),复现信息充分。
- 论文中引用的开源项目:
- 转录模型:引用了 [13] (Onsets and Frames) 和 [14] (High-resolution piano transcription),表明使用了基于这些工作的现成转录模型。
- VAE:引用了 [12] (LeVo),表明使用了来自LeVo项目的预训练VAE。
- DiT架构:引用了 [10] (Scalable Diffusion Models with Transformers),表明其Transformer块的设计遵循此工作。
- 评估工具:使用了
mir_eval库计算Onset F1,引用了[17]。使用了Audiobox-Aesthetics进行美学评估,引用了[18]。使用了HuBERT(通过XCodec)进行风格分类,引用了[19, 20]。 - 基线模型:引用了FluidSynth和Spectrogram Diffusion [1]作为对比基线。
📌 核心摘要
解决的问题:如何将一段单声部旋律(MIDI)或钢琴缩编谱,自动编曲渲染成完整、高保真且符合特定作曲家风格的交响乐音频,尤其是在缺乏MIDI与真实交响乐录音配对数据的情况下。
方法核心:提出一个基于流匹配(Flow Matching) 和扩散Transformer(DiT) 的条件生成框架。系统先通过一个自动音乐转录(AMT)模型,将输入的钢琴音频或MIDI转换为时间对齐的钢琴卷帘(Piano Roll)表示。这个表示与作曲家标签一起,作为条件输入到流匹配模型中,该模型在一个预训练音频VAE的潜在空间中,将高斯噪声逐步变换为目标交响乐音频的潜在表示,最后由VAE解码器输出波形。
与已有方法的新颖性:核心创新是利用AMT构建伪配对数据,从而摆脱了对稀缺的MIDI-交响乐配对数据的依赖,使得训练数据只需包含纯交响乐音频即可。这解决了该任务数据获取的瓶颈。方法上将流匹配与DiT架构应用于这种多条件(内容+风格)的符号到音频生成任务。
主要实验结果:
- MIDI转交响乐渲染:在FAD(音频质量与分布真实性)指标上,本文方法(Transcription + Ours)得分为2.460,显著优于基线“频谱扩散”(8.219)和“FluidSynth”(6.099),表明生成的音频更逼真。在Onset F1(音符准确性)上达到0.409。
- 作曲家风格控制:使用独立的HuBERT分类器对生成音频进行作曲家分类,本文方法(w/ composer)达到22.7%-24.1% 的准确率,远高于无作曲家条件的版本(8.5%,接近1/12的随机基线),证明模型确实能响应作曲家条件。
表1: MIDI-to-audio rendering 结果对比
模型 FAD ↓ Onset F1 ↑ CE ↑ CU ↑ PC ↑ PQ ↑ 训练集原始音频 (Train set Raw) / / 6.948 7.647 5.338 7.549 频谱扩散 (Spectrogram diffusion [1]) 8.219 0.345 5.024 6.339 4.418 6.421 FluidSynth (GM SoundFont) 6.099 0.481 6.763 7.821 4.654 7.813 MIDI + 本文方法 2.660 0.477 6.370 6.947 5.697 7.025 转录 + 本文方法 2.460 0.409 6.932 7.315 5.961 7.307 表2: 作曲家分类准确率
方法 测试集准确率 (%) ↑ 测试集(真实音频) 93.4 本文方法(无作曲家条件) 8.5 MIDI + 本文方法(含作曲家条件) 24.1 转录 + 本文方法(含作曲家条件) 22.7 实际意义:为AI辅助交响乐编曲提供了新的工具和可能性,有望帮助作曲家学习大师风格、续写未完成作品,或为影视、游戏生成定制风格的管弦乐配乐。开源全部资源促进了该小众领域的研究。
主要局限性:(1) 风格控制精度有限:生成的音频能被识别为某种作曲家风格,但与真实作品的风格纯度差距很大,更偏向于“交响乐感”而非精准的风格模仿。(2) 依赖转录模型质量:AMT模型的准确率直接影响输入条件,从而影响最终生成质量。(3) 评估局限:缺乏人类主观听感评估(如MOS)和与当前最先进通用音乐生成模型的对比。
30. Pianoroll-Event: A Novel Score Representation for Symbolic Music
✅ 6.5/10 | 前25% | #音乐生成 | #自回归模型 | #数据集 #模型评估
👥 作者与机构
- 第一作者:未说明(论文标注了“Equal contribution”,但未明确哪位是第一作者)
- 通讯作者:未说明(论文标注了“†Corresponding authors”,对应作者为Boyu Cao和Qi Liu)
- 作者列表:Lekai Qian(华南理工大学未来技术学院)、Haoyu Gu(华南理工大学未来技术学院)、Dehan Li(华南理工大学未来技术学院)、Boyu Cao(华南理工大学未来技术学院)、Qi Liu(华南理工大学未来技术学院)
💡 毒舌点评
亮点在于将钢琴卷帘的“空间感”与离散事件的“效率”巧妙结合,设计出的四种事件类型逻辑自洽,且在多个主流自回归模型上都展现出稳定的性能提升,说明方法具有一定的普适性。短板是创新的增量性较强,更像是对现有表示的“精装修”而非“新建材”,且完全未开源,对于旨在复现和比较的研究者来说不够友好。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:未提及。
- 数据���:使用MuseScore数据集,但论文未说明该数据集的公开获取方式。
- Demo:未提及。
- 复现材料:论文提供了一些训练超参数(学习率、批大小、轮数、模型配置)和硬件信息(RTX 4090),但关键编码参数(帧长L、块高h)、优化器、具体推理策略等细节缺失,复现存在较大困难。
- 论文中引用的开源项目:论文引用了MIDI [3]、REMI [8]、Compound Word [9]、BPE [11]、MusicBERT/OctupleMIDI [10] 等作为基线或相关工作,但未明确依赖的具体开源实现。
- 总体而言,论文未提及开源计划。
📌 核心摘要
- 本文针对符号音乐表示中网格表示(如钢琴卷帘)数据稀疏、编码效率低,以及离散事件表示(如REMI)难以捕获结构不变性和空间局部性的互补局限,提出了一种新的编码方案Pianoroll-Event。
- 该方法核心是将钢琴卷帘表示先进行时间分帧,再沿音高维度分块,然后通过四种互补的事件类型(帧事件、间隙事件、模式事件、音乐结构事件)将稀疏的块信息高效地编码为一个离散事件序列。
- 与已有方法相比,Pianoroll-Event首次将基于帧的压缩(处理连续空块)与基于块的模式编码相结合,并在序列长度和词表大小之间取得了更优的平衡。
- 实验结果表明,在GPT-2、Llama、LSTM等多种架构上,使用该表示的模型在客观指标(如JS相似度)和主观评估(MOS)上均优于基线方法。例如,在GPT-2-Large模型上,其JS相似度达到68.86,显著高于REMI(35.85)和ABC表示(65.18)。编码效率分析显示,其预算感知难度指数(BDI)最低,相比ABC表示提升了7.16倍。
- 该工作为符号音乐生成提供了一个更高效、保真度更高的统一表示框架,有助于提升生成音乐的质量和模型训练效率。
- 主要局限性在于该表示依赖固定的帧和块大小,对极度不规则的节奏或非标准音域可能灵活性不足;此外,论文未提供开源代码,限制了其直接应用和后续研究。
31. Melos: Sentence-To-Section Training with Multi-Task Learning for LLM-Driven Song Generation
✅ 6.5/10 | 前50% | #音乐生成 | #多任务学习 | #自回归模型 #歌唱语音合成
👥 作者与机构
- 第一作者:Dapeng Wu(清华大学深圳国际研究生院)
- 通讯作者:Zhiyong Wu(清华大学深圳国际研究生院)
- 作者列表:Dapeng Wu†(清华大学深圳国际研究生院),Jinhong Lu†(Wonderai, Beijing, China),Bin Su(Wonderai, Beijing, China),Shun Lei(清华大学深圳国际研究生院),Xiong Cai(Wonderai, Beijing, China),Zhiyong Wu*(清华大学深圳国际研究生院) †:共同第一作者;*:通讯作者。
💡 毒舌点评
亮点:论文提出的“句子到段落”两阶段训练策略非常务实,有效缓解了长序列建模和数据稀缺问题,让一个0.5B的模型在0.5M数据上就能生成结构相对完整的歌曲,证明了该分治思路的有效性。 短板:在音乐性(MUS)、记忆性(MEM)等主观评价维度上明显落后于Suno、Mureka等工业系统,且未开源代码和模型,其“高质量”结论难以被社区直接复现和验证,削弱了论文的说服力和实用价值。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:未提及。
- 数据集:训练数据集为专有数据集,未提及公开。
- Demo:提供了音频样本演示页面(https://thuhcsi.github.io/Melos/)。
- 复现材料:论文给出了部分训练细节(如优化器、学习率、batch size、硬件),但缺乏完整的代码、配置、数据预处理脚本和模型检查点,复现难度大。
- 论文中引用的开源项目:
- MuCodec:音频编解码器(引用[12])。
- CAM++:说话人编码器(引用[13])。
- Qwen2:作为骨干LLM(引用[14])。
- WavLM:用于评估SECS指标(引用[16])。
- FireRedASR:用于评估PER指标(引用[17])。
- CLAP:用于评估文本-音频对齐(引用[18])。
- Audiobox Aesthetics & SongEval:用于美学评估(引用[19], [20])。
- All-in-One:用于歌曲段落切分(脚注1)。
- 总体开源情况:论文中未提及开源计划。
📌 核心摘要
- 问题:当前基于大语言模型(LLM)的端到端歌曲生成面临长音频序列建模难、训练数据有限以及歌词与歌声对齐挑战等问题。
- 方法核心:提出Melos框架,采用两阶段训练策略:首先在句子级别训练模型掌握基本的演唱能力;然后在段落(如主歌、副歌)级别训练以增强整体音乐性。同时,引入多任务学习,将歌词和声带(人声)信息作为辅助训练目标(放在序列末尾),以增强音色可控性和歌词准确性,且不增加推理开销。
- 与已有方法相比新在哪里:不同于直接在段落级别训练(如YuE),本文的渐进式学习范式使模型先易后难。不同于生成思维链(CoT)会增加推理成本,本文将辅助信息作为后置的监督信号,实现了“训练时多任务,推理时单目标”。
- 主要实验结果:在0.5M歌曲(约3万小时)上训练。在客观评估中,模型在音色相似性(SECS)和文本控制(CLAP)上表现优异(SECS 0.584, CLAP 0.270),但在FAD和PER上不及最佳基线。主观评估(MOS)显示,其整体质量(OQ 3.54)和歌词准确性(LA 4.21)与LeVo、Mureka等系统相当。消融实验证实了两阶段训练和辅助任务的有效性。
- 实际意义:为资源受限场景下的高质量歌曲生成提供了一种高效、可扩展的训练范式,证明了通过精细的训练策略可以在小数据集上获得有竞争力的生成效果。
- 主要局限性:1)未开源,限制了其影响力和可复现性;2)在音乐性、制作复杂度等核心主观指标上仍与领先的工业系统有差距;3)性能高度依赖音乐分离和说话人编码器的质量。