ICASSP 2026 - 音乐生成
共 31 篇论文
📋 论文详情
🥇 MuseTok: Symbolic Music Tokenization for Generation and Semantic Understanding
🔥 8.5/10 | 前25% | #音乐生成 | #预训练 | #音乐理解 #数据集
👥 作者与机构
- 第一作者:Jingyue Huang(University of California San Diego, USA)
- 通讯作者:未说明
- 作者列表:Jingyue Huang(University of California San Diego, USA)、Zachary Novack(University of California San Diego, USA)、Phillip Long(University of California San Diego, USA)、Yupeng Hou(University of California San Diego, USA)、Ke Chen(University of California San Diego, USA)、Taylor Berg-Kirkpatrick(University of California San Diego, USA)、Julian McAuley(University of California San Diego, USA)
💡 毒舌点评
本文首次尝试为符号音乐构建一个“通用”的离散表示学习框架,并通过生成和多个语义理解任务进行了验证,这种“一体两面”的评估视角比多数只关注单一任务的工作更为全面。然而,其在核心的旋律提取任务上表现远低于专用模型(81.92% vs. 92.62%),暴露了当前“通用”表示在捕获细粒度、关键音乐结构上的根本局限,说明“通用”与“专用”之间的鸿沟依然显著。
📌 核心摘要
解决的问题:当前离散表示学习在图像、语音和语言领域成果显著,但在符号音乐领域发展滞后,缺乏一种能同时支持音乐生成和多维度语义理解的通用表示方法。
方法核心:提出MuseTok,采用基于残差向量量化变分自编码器(RQ-VAE)的编码器-解码器框架,在Transformer架构下对小节(bar)级别的音乐片段进行离散化编码,生成多层级的音乐代码(codes)。
创新之处:这是首个针对符号音乐的通用离散表示学习框架,其创新在于将RQ-VAE应用于音乐小节,并证明了单一表示在生成、旋律提取、和弦识别、情感识别等多个任务上的有效性,同时揭示了不同代码层对不同音乐概念(如节奏、音高)的隐式分离能力。
主要实验结果:
- 重建性能:MuseTok-Large在单声部、合唱和多声部音乐上的重建准确率分别达到99.58%、93.71%和82.68%,接近或超越VAE上界。
- 音乐生成:在音乐续写任务中,MuseTok在客观指标(色度相似度、律动相似度)上优于REMI和AMT基线,但在主观“音高”评分上落后。
- 语义理解:在情感识别任务上显著超越所有基线(78.95% vs. 最高73.15%),在和弦识别上也表现最佳(49.87% vs. 38.03%),但在旋律提取任务上表现最差(81.92% vs. 最高92.62%)。
任务/模型 MuseTok REMI / RNN MusicBERT / AMT PianoBART / MIDI-BERT 音乐生成 (Objective) 色度相似度 (simchr) 95.19 94.61 94.72 - 律动相似度 (simgrv) 88.77 87.41 84.08 - 语义理解 (Accuracy %) 旋律提取 81.92 89.98 92.47 92.62 和弦识别 49.87 38.03 - - 情感识别 78.95 53.46 71.06 73.15 实际意义:该工作为符号音乐领域提供了一种统一的、数据驱动的离散表示学习范式,有望推动音乐AI在生成、检索、理解等多个下游任务上的协同发展。
主要局限性:模型在旋律提取任务上表现不佳,表明其学习到的通用表示未能充分编码旋律相关的细粒度语义信息;同时,固定深度的量化方案可能对不同复杂度的音乐(如简单单声部)不够自适应。
🥈 Time-Shifted Token Scheduling for Symbolic Music Generation
🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 | #多轨音乐
👥 作者与机构
- 第一作者:Ting-Kang Wang(台湾大学通讯工程研究所)
- 通讯作者:未说明
- 作者列表:Ting-Kang Wang(台湾大学通讯工程研究所)、Chih-Pin Tan(台湾大学通讯工程研究所)、Yi-Hsuan Yang(台湾大学通讯工程研究所)
💡 毒舌点评
这篇论文巧妙地将音频领域已有的“延迟模式”思想移植到符号音乐生成,用近乎零成本的方式显著改善了复合token建模的短板,体现了“好移植胜过坏发明”的实用主义智慧。不过,其核心创新更多是工程技巧的适配与验证,缺乏更深层的理论分析或架构上的原创性,并且实验局限于管弦乐MIDI生成,对于更复杂或更抽象的音乐结构建模能力有待观察。
📌 核心摘要
- 问题:符号音乐生成中,紧凑的复合token表示(将音符多个属性打包)虽提高了效率,但导致模型在并行预测这些属性时忽略了它们内部的依赖关系(如音高与时长的相关性),影响生成质量。
- 方法核心:提出一种轻量级的延迟调度机制(DP),将复合token的各个子字段(如类型、节拍、音高等)在解码时按固定顺序延迟一步预测,从而将并行预测转化为自回归预测,以建模属性间的依赖关系。
- 创新:该方法并非新的表示方案,而是一种可即插即用到现有复合token表示上的调度策略,不引入任何额外参数,仅需微小的数据加载器改动。它借鉴了音频领域的延迟模式(如MusicGen),但创新性地应用于符号音乐的异质属性依赖建模。
- 实验结果:在SymphonyNet管弦乐数据集上的实验表明,将DP应用于基线模型(MMT-DP)后,所有评估指标均优于标准复合token模型。主观听觉测试(26名参与者)显示,MMT-DP在连贯性、丰富性、一致性和总体评分上均有提升,达到了与更复杂的嵌套Transformer(NMT)和细粒度表示(REMI+)相当的水平。客观评估表格如下:
模型 音高类熵(越接近真值越好) 音阶一致性(越接近真值越好) 律动一致性(越接近真值越好) Ground truth 2.70 (±0.39) 0.92 (±0.08) 0.90 (±0.07) MMT 2.42 (±0.46) 0.96 (±0.05) 0.90 (±0.07) NMT 2.74 (±0.43) 0.92 (±0.07) 0.99 (±0.00) REMI+ 2.64 (±0.46) 0.92 (±0.07) 0.88 (±0.08) MMT-DP (Ours) 2.53 (±0.46) 0.95 (±0.06) 0.93 (±0.05) - 实际意义:为复合token表示在效率与质量之间的权衡提供了一个极低成本的优化方案,能无缝集成到现有系统中,提升生成音乐的连贯性和准确性。
- 主要局限性:方法有效性在多大程度上依赖于特定的子字段顺序和延迟步长未充分探讨;实验仅在管弦乐生成任务上验证,对其他音乐类型或更复杂的长篇结构生成能力未加检验。
🥉 Low-Resource Guidance for Controllable Latent Audio Diffusion
🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #控制生成 #推理优化
👥 作者与机构
- 第一作者:Zachary Novack(UC San Diego & Stability AI, †表示工作完成于Stability AI实习期间)
- 通讯作者:未明确说明(论文未明确指定通讯作者)
- 作者列表:Zachary Novack(UC San Diego & Stability AI)、Zack Zukowski(Stability AI)、CJ Carr(Stability AI)、Julian Parker(Stability AI)、Zach Evans(Stability AI)、Josiah Taylor(Stability AI)、Taylor Berg-Kirkpatrick(UC San Diego)、Julian McAuley(UC San Diego)、Jordi Pons(Stability AI)
💡 毒舌点评
亮点:巧妙地将“Readout”思想引入音频扩散模型,并设计了“Latent-Control Heads”,绕过了极其耗时的解码器反向传播,将推理时间和显存占用降低了约一个数量级(端到端150秒 vs LatCH 17.5秒),这是非常实用的工程优化。短板:该方法本质上是给一个已有的“大模型”(Stable Audio Open)外挂一个“小控制器”,控制精度严重依赖这个小控制器的拟合能力,实验也显示对于快速变化的音高控制效果仍然不佳,且核心控制逻辑(TFG)并非首次提出。
📌 核心摘要
这篇论文旨在解决可控音频扩散模型推理成本过高的问题。现有基于指导(Guidance)的控制方法需要在采样时通过音频解码器进行反向传播,计算开销巨大。论文的核心方法是:(1)引入“潜在控制头(Latent-Control Heads, LatCH)”,这是一个轻量级(7M参数)的可训练模型,直接将扩散模型的潜在表示映射到控制特征,从而完全避免了通过解码器的反向传播;(2)提出“选择性TFG(Selective TFG)”,即仅在采样的早期部分步骤应用指导,以平衡控制精度与生成质量。与基线相比,该方法在Stable Audio Open上实现了对强度、音高和节拍的有效控制。主要结果表明(见下表),LatCH-B方法在音频质量上与原始SAO模型相当,控制对齐度优于随机基线,且计算成本(运行时和显存)相比端到端指导方法降低了约8-9倍。该方法的实际意义在于大幅降低了实现可控音频生成的资源门槛。主要局限性在于,控制精度受限于训练好的LatCH模型,对于音高这种高频变化的控制效果仍不完美。
关键实验结果(节选自表1)
| 方法 | 控制类型 | 音频质量 (FDopenl3 ↓) | 控制对齐 (MSE/BCE ↓) | 运行时 (s ↓) | 显存 (GB ↓) |
|---|---|---|---|---|---|
| SAO (基线) | 无控制 | 96.51 | - | 11.3 | 5.51 |
| End-to-end | 节拍 | 87.49 | 0.200 | 150.1 | 30.42 |
| LatCH-B (本文) | 节拍 | 89.43 | 0.138 | 17.6 | 5.59 |
| Readout | 节拍 | 97.79 | 0.209 | 15.7 | 5.59 |
| End-to-end | 强度 | 80.76 | 2.14 | 103.0 | 26.31 |
| LatCH-B (本文) | 强度 | 77.00 | 2.52 | 17.5 | 5.56 |
| Readout | 强度 | 89.81 | 1.38 | 15.6 | 5.57 |
4. A Generative-First Neural Audio Autoencoder
🔥 8.5/10 | 前25% | #音乐生成 | #生成模型 | #音频大模型 #流式处理
👥 作者与机构
- 第一作者:Jonah Casebeer(Adobe Research)
- 通讯作者:未说明
- 作者列表:Jonah Casebeer(Adobe Research),Ge Zhu(Adobe Research),Zhepei Wang(Adobe Research),Nicholas J. Bryan(Adobe Research)
💡 毒舌点评
亮点在于其“生成优先”的设计哲学非常务实,通过一系列巧妙的工程优化(如SnakeLite、下采样策略)实现了编码速度一个数量级的提升,这对大规模生成模型训练是关键杠杆。短板是论文作为ICASSP 2026投稿,其声称的SOTA对比基线(如CoDiCodec)虽然最新,但缺乏更广泛的跨领域音频编解码器(如面向语音的极低比特率模型)对比,其“统一模型”的普适性边界尚待更多下游任务验证。
📌 核心摘要
- 问题:现有的神经音频自编码器(如SoundStream, EnCodec, DAC)主要针对“重建优先”设计,存在潜变量率高、编码速度慢、需要针对不同音频格式(单声道、立体声、中侧声道)维护不同模型等问题,这阻碍了它们在需要大规模、快速编码的生成模型(如扩散模型、语言模型)中的高效应用。
- 方法核心:提出“生成优先自编码器”(GenAE),这是一个单一的编码器-瓶颈-解码器架构。通过一系列架构优化(高效激活函数SnakeLite、早期下采样、可分离卷积、激进的时间下采样、梅尔谱融合、窗口化自注意力)和训练优化(多��式数据增强、辅助梅尔损失、互质多分辨率损失),在压缩率、重建质量和处理速度之间取得更佳平衡。
- 创新点:1) 提出了一种统一的架构,支持连续(KL)和离散(VQ)潜变量,以及单声道、立体声、中侧声道等多种音频格式,无需单独变体;2) 通过架构修改,将时间下采样率从2048倍提升至3360倍,并实现了10倍更快的编码速度;3) 提出了一种后训练离散化步骤,允许在训练好的连续模型上添加RVQ瓶颈以支持离散潜变量,无需重训骨干网络。
- 实验结果:GenAE(13.125 Hz)在SI-SDR、多分辨率STFT损失、梅尔谱L1距离等指标上,以仅60%的基线(SAO)潜变量率达到了更优的重建质量;编码速度比SAO快12倍,内存占用仅为SAO的1/3。一个60秒的单声道信号仅压缩为788个令牌。具体数值见下表。
| 模型 | 潜变量率 (Hz) | 上下文长度 (秒) ↑ | L/R 梅尔↓ | M/S 梅尔↓ |
|---|---|---|---|---|
| EnCodec-48 | 150 | 73 | 0.5485 | 0.6602 |
| DAC | 86 | 127 | 0.5144 | 0.5114 |
| CoDiCodec-FSQ | 11 | 993 | 0.9586 | 1.0553 |
| GenAE-VQ (ours) | 13.125 | 832 | 0.5956 | 0.5943 |
| SAO | 21.5 | 106 | 0.6863 | 0.7506 |
| CoDiCodec | 11 | 206 | 0.9252 | 1.0218 |
| GenAE-KL (ours) | 13.125 | 173 | 0.5384 | 0.5369 |
| GenAE-KL (ours) | 36.75 | 62 | 0.4005 | 0.4054 |
- 实际意义:显著降低了使用神经音频编解码器进行生成模型训练和推理的计算成本(时间和内存),使得在有限资源下处理长音频上下文成为可能,从而能够开发更强大、更高效的音频/音乐生成与理解应用。
- 主要局限性:论文未提供代码、预训练模型或训练数据集,阻碍了立即复现;评估主要集中在44.1kHz音乐音频上,在其他音频类型(如语音、环境声)上的性能未充分验证;与CoDiCodec相比,在极高压缩率下(11Hz)的重建质量仍有差距。
5. Virtual Consistency for Audio Editing
🔥 8.0/10 | 前25% | #音乐生成 | #扩散模型 | #音频处理
👥 作者与机构
- 第一作者:Matthieu Cervera (Mila-Québec AI Institute, Laval University)
- 通讯作者:Cem Subakan (Concordia University, Mila-Québec AI Institute)
- 作者列表:Matthieu Cervera (Mila-Québec AI Institute, Laval University)、Francesco Paissan (Mila-Québec AI Institute, Laval University)、Mirco Ravanelli (Concordia University, University of Montreal, Mila-Québec AI Institute)、Cem Subakan (Concordia University, Laval University, Mila-Québec AI Institute)
💡 毒舌点评
亮点:该工作巧妙地将虚拟一致性(Virtual Consistency)思想从图像编辑迁移到音频领域,并引入了控制编辑强度的超参数φ,成功地在编辑质量和保真度之间取得了更好的平衡,同时推理速度相较于主流基线有数量级的提升(如1.6秒 vs. 16-64秒)。 短板:其核心创新“无需反转的虚拟一致性”本质上是迁移了InfEdit [20]的方法,并非原创理论突破;此外,用户研究的规模较小(16人),且缺乏对更长音频(>2分钟)和复杂编辑场景的深入讨论,实际应用的鲁棒性有待验证。
📌 核心摘要
- 问题:现有的基于反转(inversion)的神经音频编辑方法需要计算冗长的反转过程,导致编辑速度缓慢,实用性受限。
- 方法:提出了一种基于虚拟一致性(Virtual Consistency)的无反转音频编辑流程。其核心是修改扩散模型的逆向采样公式,使其在每一步都能计算出一个“虚拟噪声”εcons,该噪声能保证对原始音频的完美重建。编辑过程则通过混合目标文本噪声与该虚拟噪声来实现。
- 创新:相较于传统方法,1)完全避免了耗时的反转步骤;2)引入了新的超参数φ,用于精细地控制编辑强度(Edit Strength),平衡文本对齐和音频保真度;3)该方法模型无关(Model-Agnostic),无需对预训练的扩散模型进行微调或架构修改。
- 主要实验结果:在ZoME Bench和MedleyDB两个基准测试上,与DDIM、SDEdit、ZETA、MusicGen等基线进行了定量和定性比较。定量结果(表1)显示,ControlVCI(本文方法)在音频保真度指标(LPAPS, FAD, Audiobox-AE)上普遍取得最优或次优,同时在文本一致性指标(CLAP)上保持竞争力,且延迟(Latency)大幅降低(ZoME: 1.6秒 vs. 其他方法8.8-23.8秒)。
- 实际意义:显著提升了文本引导音频编辑的推理效率,使得神经音频编辑更接近实时应用,为交互式音乐创作和声音设计提供了更实用的工具。
- 主要局限性:1)性能高度依赖于预训练的扩散模型(如AudioLDMv2)的质量;2)实验数据集的音频长度和复杂度有限;3)控制参数φ的选择可能需要针对不同任务进行调优,缺乏自适应机制。
6. AnyAccomp: Generalizable Accompaniment Generation Via Quantized Melodic Bottleneck
🔥 8.0/10 | 前25% | #音乐生成 | #流匹配 #量化 | #流匹配 #量化
👥 作者与机构
- 第一作者:Junan Zhang(香港中文大学深圳分校),Yunjia Zhang(香港中文大学深圳分校),两人贡献相等(Equal Contribution)。
- 通讯作者:Zhizheng Wu(香港中文大学深圳分校;澳门城市大学;深圳湾区实验室;Amphion Technology Co., Ltd.)
- 作者列表:
- Junan Zhang(香港中文大学深圳分校)
- Yunjia Zhang(香港中文大学深圳分校)
- Xueyao Zhang(香港中文大学深圳分校)
- Zhizheng Wu(香港中文大学深圳分校;澳门城市大学;深圳湾区实验室;Amphion Technology Co., Ltd.)
💡 毒舌点评
亮点:该工作精准地抓住了歌唱伴奏生成模型“过拟合于分离伪影”这一关键痛点,并设计了“量化音高瓶颈”这一优雅的解决方案,通过剥离音色和瑕疵信息,显著提升了模型在干净人声和纯乐器上的泛化能力,思路清晰且效果立竿见影。短板:目前的评估主要依赖于AI美学评分(audiobox-aesthetics)和FAD等指标,虽然全面,但对于“伴奏质量”和“音乐性”的衡量,可能仍需更贴近人类感知的细粒度评测;此外,瓶颈表示选择固定的音高特征图,对于非主调音乐或复杂编曲的泛化能力尚待验证。
📌 核心摘要
- 问题:现有的歌唱伴奏生成(SAG)模型在训练时使用了带有分离伪影的歌声,导致模型过拟合这些伪影,当输入为干净、真实的歌声时性能严重下降,存在严重的“训练-测试不匹配”问题。
- 方法核心:提出ANYACCOMP框架,分为两阶段。第一阶段使用VQ-VAE将输入的音高特征图(Chromagram)量化为离散的、音色不变的旋律码本表示。第二阶段使用基于Flow Matching的Transformer,以这些离散码本为条件,生成伴奏的梅尔频谱,最后用声码器合成音频。
- 创新点:与已有方法直接使用梅尔频谱或SSL特征不同,ANYACCOMP通过量化的音高瓶颈,主动解耦了旋律内容与源相关的音色及分离伪影,从而提供了鲁棒的生成条件。
- 实验结果:在领域内数据集(YuE,分离歌声)上,ANYACCOMP表现与基线(FastSAG, FM-Mel)持平或略优(见Table 1)。在关键的泛化测试集上(MUSDB18干净歌声、MoisesDB乐器独奏),基线方法的APA(条件一致性)得分接近0,表明生成失败;而ANYACCOMP的APA分别达到0.710和0.203,且FAD和美学分数也远优于基线,证明了其强大的泛化能力。
- 实际意义:该工作使得伴奏生成模型能够泛化到干净录音甚至纯乐器输入,首次实现了为纯乐器音轨自动生成伴奏,拓宽了AI音乐协作工具的应用范围。
- 主要局限:瓶颈表示完全基于音高特征,可能对打击乐或非调性音乐效果有限;部分评估指标(如PC, 内容复杂度)的解读需注意;未公开训练数据集本身。
7. Stemphonic: All-At-Once Flexible Multi-Stem Music Generation
✅ 7.7/10 | 前25% | #音乐生成 | #扩散模型 #流匹配 | #扩散模型 #流匹配
👥 作者与机构
- 第一作者:Shih-Lun Wu(MIT CSAIL, Adobe Research)
- 通讯作者:未说明
- 作者列表:Shih-Lun Wu(MIT CSAIL, Adobe Research)、Ge Zhu(Adobe Research)、Juan-Pablo Caceres(Adobe Research)、Cheng-Zhi Anna Huang(MIT CSAIL)、Nicholas J. Bryan(Adobe Research)
💡 毒舌点评
亮点:这篇论文精准地抓住了现有音轨生成范式的“鱼与熊掌”困境(并行模型僵化,串行模型太慢),并用一组简洁而巧妙的训练时干预(分组+噪声共享)同时解决了速度和灵活性问题,工程思维很清晰。短板:其评估建立在理想化的分离音轨数据集上,但真实世界的音乐制作涉及更复杂的混音、动态和乐器交互,该框架在面对“用真实、不完美的子混音条件生成新音轨”这类更贴近创作流程的任务时,其稳健性和音质上限仍有待验证。
📌 核心摘要
- 要解决什么问题:现有音轨生成方法要么并行生成固定数量/类型的音轨(快但僵化),要么逐轨顺序生成(灵活但慢)。STEMPHONIC旨在实现“一次推理,生成可变数量、相互同步的音轨”,统一速度与灵活性。
- 方法核心是什么:基于扩散/流匹配模型,通过两项训练时技巧:(1) 分组:在训练batch中将来自同一首音乐的音轨组织在一起;(2) 噪声共享:为同一组内的所有音轨分配相同的初始噪声潜变量,从而将同步性先验注入模型。
- 与已有方法相比新在哪里:不同于并行模型(如[13-16])预设固定音轨架构,也不同于串行模型(如[19-22])一次只生成一轨。STEMPHONIC在推理时使用共享噪声和分组文本提示,在单次前向传播中生成一组音轨,用户可灵活决定一次生成多少轨。
- 主要实验结果如何:
- 核心消融(表1):完整设置C-(ii)(分组+训练时噪声共享+推理时噪声共享)在FADstem(音轨控制)和FADmix(混音质量)上均优于所有消融设置,尤其在更复杂的MoisesDB数据集上。
- 工作流对比(表2):生成K个音轨时,采用2次推理的C-(ii)工作流(一次从头生成,一次基于子混音条件生成)相比传统的K次推理基线(A-(i)),在MoisesDB数据集上,将总推理时间从6.88-8.28秒降低至3.03-3.27秒(加速25-50%以上),同时FADmix和CLAP指标更优。
- 活动控制(表3):模型训练加入活动控制后,帧级F1值达到99.42%-99.43%,证明控制近乎完美,但会略微降低FADstem和CLAP分数。
- 实际意义是什么:为音乐制作人提供了一种更高效、更可控的AI辅助工具。他们可以一次性生成多个协调的乐器声部进行混音,或基于已有片段迭代地添加新乐器,并精确控制每个乐器何时进出,极大地贴合了音乐创作的非线性和分层工作流。
- 主要局限性是什么:评估主要依赖公开的分离音轨数据集,可能无法完全反映模型在处理复杂、专业混音时的真实表现;文本描述依赖外部模型生成(Qwen2.5-Omni);未来工作需探索更细粒度的自由文本音轨控制。
8. MR-FlowDPO: Multi-Reward Direct Preference Optimization for Flow-Matching Text-to-Music Generation
✅ 7.5/10 | 前25% | #音乐生成 | #流匹配 | #强化学习 #自监督学习
👥 作者与机构
- 第一作者:Alon Ziv(FAIR Team, Meta MSL & The Hebrew University of Jerusalem)
- 通讯作者:未说明
- 作者列表:Alon Ziv(FAIR Team, Meta MSL & The Hebrew University of Jerusalem), Sanyuan Chen(FAIR Team, Meta MSL), Andros Tjandra(FAIR Team, Meta MSL), Yossi Adi(FAIR Team, Meta MSL & The Hebrew University of Jerusalem), Wei-Ning Hsu(FAIR Team, Meta MSL), Bowen Shi(FAIR Team, Meta MSL)
💡 毒舌点评
亮点:该工作的核心亮点在于其系统性思维,将单一、模糊的“人类偏好”拆解为文本对齐、制作质量、语义一致性三个可量化的奖励维度,并设计了“强支配对”的配对策略来解决多目标优化中的样本构建难题,这一框架对后续所有基于偏好优化的生成模型都有参考价值。短板:论文在核心生成模型的架构细节上着墨极少,只说明了是Flow-Matching模型,但并未深入描述其具体结构,使得分析停留在“偏好优化外挂”的层面;此外,所用的制作质量预测器和语义一致性评估器本身都依赖于外部预训练模型,这可能会限制该方法在缺乏这些基础模型的场景下的直接应用。
📌 核心摘要
- 要解决的问题:音乐生成模型难以与主观、多变的人类偏好对齐,传统单目标优化方法在文本对齐、音频质量和音乐性(如节奏稳定性)之间难以兼顾。
- 方法核心:提出MR-FlowDPO,一个用于微调Flow-Matching文本到音乐生成模型的多奖励直接偏好优化框架。其核心包括:(1) 设计并整合文本对齐(CLAP)、制作质量(Aesthetics预测器)和语义一致性(自训练HuBERT)三个奖励函数;(2) 提出“多奖励强支配”偏好数据对构建算法,确保正样本在所有奖励维度上均优于负样本;(3) 引入奖励提示机制,将奖励值信息融入文本输入。
- 与已有方法的对比:区别于先前仅优化单一文本对齐奖励的方法,该工作首次在Flow-Matching音乐生成中实现多维度奖励的联合优化。相较于TangoFlux等工作,其引入了专门的语义一致性奖励来解决节奏不稳定问题,并提出了更严谨的偏好数据配对策略。
- 主要实验结果:在MusicCaps基准上,MR-FLOWDPO-1B模型将节奏稳定性指标BPM标准差从基线的9.09降至6.11;在人类评估中,相对于强基线MelodyFlow-1B,在整体偏好、音频质量和音乐性上均取得显著胜率(如整体偏好胜率+16.67%,音频质量+43.26%)。关键消融实验证明,三个奖励轴缺一不可,且强支配配对策略和奖励提示机制均对性能有显著提升。
- 实际意义:为音乐生成乃至更广泛的音频内容生成领域提供了一套可扩展的偏好对齐范式,能够系统性地提升生成内容的多方面品质,减少“对齐税”。
- 主要局限性:生成模型本身的架构创新有限;评估高度依赖预训练的奖励模型,其本身的偏见和局限性会被引入;论文未深入探讨该方法在更长时长(如完整歌曲)生成任务上的适用性。
9. Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation
✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #音频生成 #开源工具
👥 作者与机构
- 第一作者:Tongxi Wang(Southeast University, 中国)
- 通讯作者:Junlang Qian(Nanyang Technological University, 新加坡)
- 作者列表:Tongxi Wang(Southeast University), Yang Yu(Southeast University), Qing Wang(Southeast University), Junlang Qian(Nanyang Technological University)
💡 毒舌点评
这篇论文的“先乐谱后表演”范式巧妙地将复杂音频生成问题解耦为可解释的符号生成和相对成熟的音频渲染问题,在可控性和效率上取得了显著进步,是思路清晰的“曲线救国”方案。然而,其“演奏”阶段严重依赖商用歌声合成软件VOCALOID和通用MIDI合成器FluidSynth,这使得最终音频质量的上限被锁定在这些工具的能力上,论文的“端到端”生成能力并非完全自包含,这在一定程度上削弱了其作为完全自主生成系统的创新性说服力。
📌 核心摘要
- 问题:现有基于音频的歌曲生成方法存在可控性差、可解释性弱、计算开销大的问题。将歌曲生成视为同时学习音乐理论与演奏的“即兴表演”,任务过于复杂。
- 方法核心:提出“先作曲后演奏”的新范式和BACH(Bar-level AI Composing Helper)框架。核心是使用小节(bar)作为语义单元进行符号乐谱生成,再将生成的乐谱渲染为音频。
- 创新点:首次将小节级符号乐谱生成引入歌曲生成;提出小节流分块(bar-stream patching) 和双流预测(Dual-NTP) 方法,分别处理人声与伴奏;引入链式乐谱(Chain-of-Score) 条件化以保持长程结构一致性。
- 实验结果:
- 自动评估(表1):BACH在多个指标上达到SOTA,尤其是内容感知指标(CE、CU)和音频-文本对齐指标(CLaMP3)。其KL散度显著优于商业系统(如0.391 vs Suno的0.620)。
- 人类评估(图4):BACH在音乐性上超越所有开源基线(YuE、YuE-light等),并与Udio有竞争力,略逊于Suno。在可控性(图5)上,其节拍/节奏和人声伴奏平衡表现突出。
- 效率:在RTX 4090上生成3分钟歌曲仅需约5分钟,远快于YuE等模型。
- 实际意义:提供了一种高效、可控、可解释的AI歌曲生成路径,生成的乐谱可被人直接阅读和编辑,极大促进了人机协作创作。代码开源有助于推动该方向研究。
- 主要局限性:最终音频渲染质量受限于外部工具(VOCALOID, FluidSynth),非端到端的纯AI生成;在风格和情感控制等可控性维度上仍有提升空间;论文未公开模型权重和完整训练细节。
10. Automatic Music Mixing Using a Generative Model of Effect Embeddings
✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #领域适应 #音乐信息检索
👥 作者与机构
- 第一作者:Eloi Moliner(Aalto大学,DICE声学实验室)
- 通讯作者:未说明
- 作者列表:Eloi Moliner(Aalto大学,DICE声学实验室)、Marco A. Mart´ınez-Ram´ırez(Sony AI)、Junghyun Koo(Sony AI)、Wei-Hsiang Liao(Sony AI)、Kin Wai Cheuk(Sony AI)、Joan Serr`a(Sony AI)、Vesa V¨alim¨aki(Aalto大学,DICE声学实验室)、Yuki Mitsufuji(Sony AI, Sony Group Corporation)
💡 毒舌点评
MEGAMI的核心亮点在于巧妙地将扩散模型应用于效应嵌入空间,解决了自动混音中“一对多”的根本难题,同时其领域适应策略为利用海量无配对湿录音数据提供了优雅的解决方案,架构设计完整且有深度。然而,论文的评估严重依赖内部数据集,缺乏在大型公开基准上的可复现比较,且其“接近人类水平”的结论在部分主观测试结果中略显主观,实际泛化能力与可落地性仍有疑问。
📌 核心摘要
这篇论文旨在解决自动音乐混音中的核心挑战:专业混音本质上是主观的,同一组干录音存在多种同样有效的混音方案,而现有的确定性回归方法无法捕捉这种多样性。论文提出了MEGAMI(Multitrack Embedding Generative Auto MIxing),一个生成式框架,它使用条件扩散模型在效应嵌入空间中建模给定干音轨的专业混音的条件分布。其核心方法是将混音决策(由效应嵌入表示)与音乐内容分离,并设计了一个排列等变的Transformer架构以处理任意数量和顺序的音轨。与已有方法相比,MEGAMI的创新在于:(1)首次将生成模型(扩散模型)用于自动混音;(2)提出了一种效应嵌入因式分解;(3)通过领域适应策略,使模型能利用大量仅有湿录音的公开数据集进行训练。实验表明,在客观分布性指标(KAD)上,MEGAMI优于所有基线;主观听力测试显示其性能接近人类混音师,在部分曲目上甚至超越了人类参考混音。这项工作为自动音乐生成开辟了新方向,其框架可用于合成混音数据集。主要局限性在于评估数据集大部分为内部数据,且模型性能依赖于CLAP和FxEncoder++等预训练嵌入模型的质量。
11. Sing2Song: An Accompaniment Generation System Based on Solo Singing
✅ 7.5/10 | 前25% | #音乐生成 | #规则与模板 | #音乐信息检索 #歌唱语音合成
👥 作者与机构
- 第一作者:Sen Ho Choi(华为中央媒体技术研究院)
- 通讯作者:Yaolong Ju(大湾区大学)
- 作者列表:Sen Ho Choi, Isaac Fung Chap, Huicheng Zhang, Yulun Wu, Yueqiao Zhang(华为中央媒体技术研究院),Hao Shen, Huu Quyen Dang, Zhili Tan, Simon Lui(华为中央媒体技术研究院),Qiuqiang Kong(香港中文大学),Yaolong Ju(大湾区大学)
💡 毒舌点评
亮点: 这是一个非常扎实的工程化系统,针对“清唱生成伴奏”这一具体场景,将数据驱动的MIR模型与基于规则的音乐生成、音频合成紧密结合,在解决“长音频”和“可定制化”这两个实际痛点上表现出色,效果显著优于端到端基线。 短板: 核心的伴奏生成模块严重依赖规则和预设模板库(MIDI片段),在音乐创作的灵活性和创新性上存在天花板,更像是一个“智能乐手跟随”系统,而非具备真正创造力的“作曲AI”。其创新更多体现在系统集成和工程优化,而非音乐生成算法本身的突破。
📌 核心摘要
- 问题:现有清唱伴奏生成系统(如SingSong、FastSAG)难以处理长音频输入(通常<30秒),且在音乐流派、前奏长度等参数上用户控制能力有限。
- 方法核心:提出Sing2Song,一个混合系统。其核心分为三步:(1) 使用专门在清唱数据上训练的MIR模型提取关键信息(音高、节拍、结构);(2) 基于规则和音乐理论,生成多轨MIDI伴奏;(3) 基于规则,将MIDI渲染为音频并进行自适应混音。
- 新意:与现有端到端生成音频的方法不同,Sing2Song生成符号化的MIDI,从而支持用户定制和无限长度生成。同时,其MIR模块专门针对“无伴奏”场景训练,克服了现有模型在清唱输入上性能下降的问题。
- 主要结果:在MIR任务上,其模型在清唱场景下的F1分数显著优于现有SOTA(例如,音高转录F1达88.32%,节拍追踪F1达90.59%)。在整体伴奏质量上,其MOS(音乐性3.923, 旋律对齐3.940)远高于SingSong(2.971, 3.063)和FastSAG(1.831, 1.811)。
- 实际意义:该系统为用户提供了一种能处理任意长度清唱、并生成可定制、专业音质伴奏的实用工具,推动了个性化AI音乐创作。
- 主要局限:伴奏生成的核心依赖规则和有限的模板库,在音乐复杂性和创新性上受限。系统流程固定,对规则和模板的质量要求高,可能难以泛化到模板库之外的复杂音乐风格。
12. Differentiable Pulsetable Synthesis for Wind Instrument Modeling
✅ 7.5/10 | 前25% | #音乐生成 | #可微分DSP | #信号处理 #轻量模型
👥 作者与机构
- 第一作者:Simon Schwär(International Audio Laboratories Erlangen, Germany)
- 通讯作者:未说明
- 作者列表:Simon Schwär(International Audio Laboratories Erlangen, Germany)、Christian Dittmar(Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Stefan Balke(International Audio Laboratories Erlangen, Germany)、Meinard Müller(International Audio Laboratories Erlangen, Germany)
💡 毒舌点评
亮点:论文巧妙地将与风琴乐器物理发声机制高度吻合的脉冲表(Pulsetable)合成方法引入可微分框架,不仅免去了繁琐的手工脉冲提取,还通过仅60k参数的轻量模型和几分钟录音实现了高效训练,物理可解释性强。 短板:实验主要依赖客观的谐波幅度差异指标,缺少正式的主观听感评估(如MOS测试),说服力略显不足;模型的泛化能力(如对复杂演奏技巧的建模)和更广泛乐器类型的适用性尚未得到充分验证。
📌 核心摘要
本文针对传统脉冲表(Pulsetable)合成方法需要大量人工调参和脉冲提取的痛点,提出了一种可微分的脉冲表合成器。该方法直接通过梯度下降优化脉冲原型波形,并与一个轻量神经网络联合训练,根据目标音高和力度选择脉冲。基于此,作者构建了一个风琴乐器合成框架,其核心创新在于将基于物理激励机制(如簧片、铜管乐器的周期性脉冲激励)的合成模型与端到端学习相结合,仅使用约6万个参数和目标乐器几分钟的录音即可无监督训练。主要实验(如表1所示)表明,在同一音域内,脉冲表、波表和加法合成方法性能相近;但在跨音域(不同声部)泛化时,脉冲表方法在铜管乐器(小号、上低音号)上显著优于其他方法。该框架提供了音高、力度等可解释控制参数,并支持音色迁移。其主要局限性在于:对于音色随音高变化显著的乐器(如单簧管),固定频谱包络的脉冲表方法效果不佳;模型未建模音符起振等瞬态噪声成分。
关键实验结果表格(表1:谐波幅度平均差异,单位dB)
| 乐器 | 合成方式 | 脉冲数M | 同一音域(SV) | 不同音域(DV) |
|---|---|---|---|---|
| 小号(tp) | Pulsetable | 2 | 2.84 | 4.90 |
| 4 | 2.67 | 4.96 | ||
| 16 | 2.57 | 4.96 | ||
| Wavetable | 2 | 2.80 | 5.22 | |
| 4 | 2.71 | 5.39 | ||
| 16 | 2.66 | 5.62 | ||
| Add | - | 2.80 | 6.50 | |
| 上低音号(bar) | Pulsetable | 2 | 3.78 | 3.67 |
| 4 | 3.80 | 3.88 | ||
| 16 | 3.89 | 3.61 | ||
| Wavetable | 2 | 3.81 | 5.24 | |
| 4 | 4.14 | 4.35 | ||
| 16 | 3.78 | 5.18 | ||
| 单簧管(cl) | Pulsetable | 2 | 5.85 | 9.41 |
| 4 | 5.81 | 9.82 | ||
| 16 | 5.84 | 10.23 | ||
| Wavetable | 2 | 5.46 | 3.80 | |
| 4 | 5.65 | 3.54 | ||
| 16 | 5.44 | 5.73 | ||
| 双簧管(ob) | Pulsetable | 2 | 3.65 | - |
| 4 | 3.55 | - | ||
| 16 | 3.58 | - | ||
| Wavetable | 2 | 3.86 | - | |
| 4 | 3.69 | - | ||
| 16 | 3.09 | - |
13. Compression meets Sampling: LZ78-SPA for Efficient Symbolic Music Generation
✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #压缩感知 #高效计算
👥 作者与机构
- 第一作者:Abhiram Gorle(斯坦福大学电气工程系)
- 通讯作者:未说明
- 作者列表:Abhiram Gorle(斯坦福大学电气工程系)、Connor Ding(斯坦福大学电气工程系)、Sagnik Bhattacharya(斯坦福大学电气工程系)、Amit Kumar Singh Yadav(普渡大学电气与计算机工程学院)、Tsachy Weissman(斯坦福大学电气工程系)
💡 毒舌点评
亮点:论文将“压缩即学习”的思想应用于符号音乐生成,提供了扎实的理论保证(如有限样本边界),并以惊人的计算效率(30倍训练加速、300倍生成加速)挑战了深度学习模型在资源消耗上的“暴力美学”。短板:作为生成模型,其音乐创作的“灵魂”——即长期结构、复杂和声与旋律发展——可能受限于LZ78上下文树的局部性,论文在“无条件生成”上的成功是否能扩展到更有用的“条件生成”场景存在疑问。此外,将训练1小时的扩散模型(ASD3PM A1)作为主要效率对比对象,虽然体现了计算预算匹配,但难免让人感觉像是在和“半成品”赛跑。
📌 核心摘要
- 要解决什么问题:现有的符号音乐生成深度学习模型(如Transformer、扩散模型)计算成本高昂,严重限制了其可扩展性和在通用CPU设备上的部署。
- 方法核心是什么:提出LZMidi框架,它基于LZ78压缩算法构建一个序列概率分配器(SPA)。该方法通过增量解析训练MIDI序列来构建一棵树,树的每个节点记录上下文出现后各符号的频率,从而隐式地学习数据分布。生成时,从树中采样下一个符号,无需反向传播或梯度更新。
- 与已有方法相比新在哪里:首次将具有理论保证的LZ78-SPA系统性地应用于符号音乐生成任务,并提供了从渐近收敛到有限样本性能的完整理论分析。与深度生成模型相比,它彻底摆脱了对GPU的依赖,实现了极低的训练和推理成本。
- 主要实验结果如何:在Lakh MIDI数据集上,LZMidi在生成质量(FAD, WD)上与经典基线(HMM,CTW)和轻量级深度基线(MusicVAE,训练1小时的ASD3PM)相比具有竞争力,有时甚至更优。在计算效率上,与ASD3PM相比,训练速度快30倍,单样本生成速度快300倍,能耗降低数个数量级。
关键实验结果表格:
表1:一致性(C)和方差(Var)指标(↑更好)
| 模型 | 训练集-音高C | 训练集-音高Var | 训练集-时值C | 训练集-时值Var | 测试集-音高C | 测试集-音高Var | 测试集-时值C | 测试集-时值Var |
|---|---|---|---|---|---|---|---|---|
| LZMidi | 0.97 | 0.92 | 0.97 | 0.93 | 0.97 | 0.93 | 0.97 | 0.94 |
| ASD3PM(A2) | 0.98 | 0.86 | 0.98 | 0.87 | 0.99 | 0.89 | 0.96 | 0.87 |
| HMM | 0.91 | 0.75 | 0.92 | 0.78 | 0.90 | 0.76 | 0.91 | 0.77 |
| CTW | 0.94 | 0.80 | 0.95 | 0.82 | 0.94 | 0.81 | 0.95 | 0.82 |
| MusicVAE | 0.97 | 0.84 | 0.98 | 0.89 | 0.96 | 0.84 | 0.98 | 0.87 |
表2:WD、FAD和KL散度指标(↓更好)
| 模型 | 训练集WD | 训练集FAD | 训练集KL | 测试集WD | 测试集FAD | 测试集KL |
|---|---|---|---|---|---|---|
| LZMidi | 8.57 | 0.69 | 1.42 | 8.39 | 0.64 | 1.37 |
| ASD3PM (A1) | 27.91 | 4.22 | 2.29 | 27.96 | 4.05 | 2.26 |
| HMM | 28.31 | 4.38 | 2.90 | 27.44 | 4.31 | 2.88 |
| CTW | 10.82 | 1.22 | 1.92 | 10.35 | 1.05 | 1.85 |
| MusicVAE | 7.76 | 0.71 | 1.37 | 7.55 | 0.62 | 1.34 |
| ASD3PM (A2) | 7.51 | 0.64 | 1.23 | 7.42 | 0.61 | 1.22 |
表3:训练/生成时间、内存和能耗(ASD3PM (A1)用于对比)
| 模型 | 训练时间(s) | 生成时间(s/样本) | 模型大小(MB) | 训练能耗(kJ) | 生成能耗(J/样本) |
|---|---|---|---|---|---|
| LZMidi | 107.7 | 0.016 | 287.1 | 9.144 | 1.36 |
| ASD3PM | 3480 | 5.4 | 306.2 | 2088 | 3240 |
图5显示,在相等的训练时间内,LZMidi的FAD分数(衡量感知质量)远低于ASD3PM,表明其“质量-计算效率”权衡更优。
- 实际意义是什么:为资源受限环境(如教育软件、移动应用、快速创作原型)下的高质量音乐生成提供了一个轻量级、理论扎实的可行方案。证明了通用压缩算法可以作为参数化深度学习模型的高效替代品,用于特定结构化数据的生成。
- 主要局限性是什么:目前仅支持无条件生成,难以控制生成音乐的特定属性(如风格、和弦进行)。对于需要捕捉极长程音乐结构(如整首歌曲的段落发展)的任务,可能力有不逮。随着训练语料库的急剧增长,LZ树的规模管理将成为挑战。
14. Break-the-Beat! Controllable MIDI-to-Drum audio synthesis
✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #预训练 #音频生成
👥 作者与机构
- 第一作者:Shuyang Cui (Sony Group Corporation)
- 通讯作者:未说明(论文中未明确标注)
- 作者列表:Shuyang Cui¹, Zhi Zhong¹, Qiyu Wu¹, Zachary Novack¹*, Woosung Choi², Keisuke Toyama¹, Kin Wai Cheuk², Junghyun Koo², Yukara Ikemiya², Christian Simon¹, Chihiro Nagashima¹, Shusuke Takahashi¹ (1: Sony Group Corporation, 2: Sony AI)
💡 毒舌点评
这篇论文技术方案完备,从数据构建、模型设计到实验评估都做得非常扎实,成功填补了“MIDI-to-Drum”这一特定任务的研究空白,对于音乐制作工具开发具有明确的导向性。然而,其主要创新集中在对现有框架的适配和针对性设计上,在生成模型基础架构层面的突破性略显不足,且缺乏与更多元、更强的基线模型在相似音乐生成任务上的横向比较,说服力可再增强。
📌 核心摘要
这篇论文解决了数字音乐制作中,从鼓MIDI序列生成高质量、可控音色鼓音频的难题,传统方法费时费力且需要专业技能。其核心方法是微调预训练的文本到音频扩散模型(Stable Audio Open),通过一个专门设计的内容编码器处理目标鼓MIDI和参考音频,并采用结合拼接、输入相加和前缀的混合条件机制,将节奏和音色信息注入生成过程。与以往专注于文本生成音乐或钢琴MIDI到音频的工作不同,这是首个专门针对打击乐、非调性MIDI到音频合成的可控模型。实验表明,该模型在音频质量、节奏对齐和节拍连续性上均表现良好,例如在64音符分辨率下,其FAD_VGGish为0.09,起音F1分数为70.08%。该工作为音乐制作人提供了一个新的、可控的鼓音色合成工具。主要局限性在于生成的音频长度被限制在2小节,且未与同领域的生成式音乐模型进行更广泛的性能对比。
15. Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment
✅ 7.5/10 | 前25% | #音乐生成 | #强化学习 | #文本到音乐 #自回归模型
👥 作者与机构
- 第一作者:Abhinaba Roy (新加坡科技设计大学)
- 通讯作者:未明确说明,从致谢和贡献看,Dorien Herremans或Geeta Puri可能为通讯作者,但论文中未明确标注。
- 作者列表:Abhinaba Roy (新加坡科技设计大学)、Geeta Puri (新加坡科技设计大学)、Dorien Herremans (新加坡科技设计大学)
💡 毒舌点评
本文巧妙地将大语言模型领域成熟的“推理时对齐”范式跨界应用到符号音乐生成,通过精心设计的奖励函数(文本-音频一致性+调性一致性)引导搜索,无需重训模型即可显著提升生成质量,尤其是对自由文本描述的适应性(2.6:1偏好),思路清晰且实用。不过,其核心贡献更像是一次“优秀的系统集成与工程优化”,在音乐生成的深层理论或全新架构上并未突破;奖励函数的设计(如固定权重)以及对“音乐性”的衡量仍依赖于CLAP等外部模型和调性规则,可能限制了其捕捉更复杂、更人性化音乐美学的能力。
📌 核心摘要
- 解决的问题:现有端到端文本到MIDI生成模型(如Text2midi)在推理时,生成的符号音乐在语义上与输入文本对齐不足,且常出现破坏音乐结构性(如调性不协和)的问题。
- 方法核心:提出Text2midi-InferAlign,一种无需重训练的推理时对齐框架。将生成过程建模为奖励引导的树搜索,交替进行“探索”(使用LLM对原始标题进行变异以扩展搜索空间)和“利用”(基于两个奖励函数:CLAP衡量文本-音频一致性,调性检查衡量和声一致性,对候选序列进行排序和替换)。
- 创新之处:首次将基于奖励的推理时对齐技术应用于符号音乐生成;设计并验证了针对语义和结构完整性的互补奖励函数;引入标题变异机制以促进生成多样性。
- 主要实验结果:在MidiCaps测试集上,相比基线Text2midi模型,所有客观指标均有提升,其中CLAP分数提升31.8%,速度(TB)提升32.5%。主观听音测试中,68.75%的听众认为其音乐质量更优。消融实验显示,变异数T=5、替换周期m=100时效果较优。
- 实际意义:提供了一种即插即用的增强模块,可提升任意自回归音乐生成模型的输出质量与可控性,推动更实用的AI音乐创作工具发展。
- 主要局限性:性能提升高度依赖奖励函数的设计和外部模型(如CLAP)的质量;对于包含丰富音乐细节的标题(如MidiCaps),探索空间受限,提升幅度有限;推理时间略有增加(约7%)。
16. Diffusion Timbre Transfer via Mutual Information Guided Inpainting
✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #音频生成 #零样本
👥 作者与机构
- 第一作者:Ching Ho Lee(Queen Mary University of London)
- 通讯作者:未说明
- 作者列表:Ching Ho Lee(Queen Mary University of London)、Javier Nistal(Sony Computer Science Laboratories, Paris, France)、Stefan Lattner(Sony Computer Science Laboratories, Paris, France)、Marco Pasini(Queen Mary University of London;Sony Computer Science Laboratories, Paris, France)、George Fazekas(Queen Mary University of London)
💡 毒舌点评
亮点:该方法巧妙地将“免训练”和“推理时控制”结合,通过互信息分析“外科手术式”地定位音色通道,再用扩散模型的采样特性来“手术”,在保持旋律节奏和改变音色之间找到了一个精巧的平衡点。短板:这种基于统计的通道解缠在实际复杂音频上可能不够完美(论文中k值仍需调优),且极度依赖底层编码器M2L2和扩散模型DaR的特定性质,方法的普适性和鲁棒性有待更广泛验证。
📌 核心摘要
- 解决的问题:如何利用一个预训练的、通用的潜在扩散模型(如Diff-A-Riff),在无需额外训练或架构修改的情况下,实现音乐音���的音色迁移(改变乐器音色,同时保持旋律、节奏等结构内容)。
- 方法核心:提出一种基于互信息引导的“修复式”推理时控制方法。首先,通过互信息分析识别出潜空间中与乐器身份(音色)最相关的通道(维度);然后在扩散采样过程中,仅对这些“音色通道”注入噪声以进行重新生成,同时“夹紧”(即恢复)代表结构(旋律、节奏)的通道,以强制保持原始内容。
- 与已有方法相比新在哪里:区别于需要为每个目标乐器单独训练或添加控制模块的方法,也区别于需要在推理时进行逐样本优化的方法。本文方法是无训练、无优化的,直接在预训练模型的采样过程中施加轻量级干预,成本与标准采样相当。
- 主要实验结果:在客观指标上,该方法在音色相似度(CLAP)与内容保持(动态音高距离DPD、音符起始点F1)之间取得了优于简单部分噪声注入(PnI)和DDIM部分噪声注入的平衡。与DDIM反转(DDIM-inversion)基线相比,它能显著改善内容保持(DPD更低,F1更高),但音色相似度(CLAP)略低。消融实验表明,通过调整掩模比例k和夹紧步长比例f,可以控制这种权衡。主观听测(MUSHRA)表明,该方法在音频质量上显著优于对比基线(WaveTransfer-BDDM19),在内容保持上与之无显著差异,但在音色相似度上略逊。其生成的音频真实度MOS评分(3.52)也远高于对比系统(2.10)。
| 方法 | k | f | FAD ↓ | DPD (¢) ↓ | CLAP ↑ | F1 Onset ↑ |
|---|---|---|---|---|---|---|
| PnI | - | - | 3.74 | 110.79 | 0.63 | 0.37 |
| DDIM-PnI | - | - | 1.48 | 29.71 | 0.52 | 0.78 |
| DDIM-inversion | - | - | 1.333 | 196.93 | 0.76 | 0.14 |
| MI-Guided (Setting 4) | 0.50 | 0.45 | 1.75 | 97.96 | 0.59 | 0.59 |
| (low-k, long-f) | 0.4 | 0.5 | 1.81 | 56.04 | 0.54 | 0.71 |
(表格展示了部分关键结果,其中MI-Guided方法为论文提出的最佳平衡点之一) 5. 实际意义:为音乐制作人提供了一种灵活的、无需训练的音色变换工具,可以快速探索编曲中的音色可能性,加速创意迭代。方法架构无关,理论上可适配于其他基于潜在扩散的生成模型。 6. 主要局限性:通道的音色与结构解缠依赖于互信息分析,并非完美分离(尤其是中间通道),因此需要权衡超参数k和f。方法的性能受限于所使用的预训练模型(Diff-A-Riff)的能力。论文未提供代码和模型权重。
17. D3PIA: A Discrete Denoising Diffusion Model for Piano Accompaniment Generation from Lead Sheet
✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #邻域注意力 #钢琴伴奏
👥 作者与机构
- 第一作者:Eunjin Choi(KAIST, Graduate School of Culture Technology)
- 通讯作者:未说明(论文未明确指定通讯作者)
- 作者列表:Eunjin Choi(KAIST, Graduate School of Culture Technology)、Hounsu Kim(KAIST, Graduate School of Culture Technology)、Hayeon Bang(KAIST, Graduate School of Culture Technology)、Taegyun Kwon(KAIST, Graduate School of Culture Technology)、Juhan Nam(KAIST, Graduate School of Culture Technology)
💡 毒舌点评
亮点:巧妙地将离散扩散模型应用于钢琴伴奏生成,结合邻域注意力高效捕捉局部和弦-旋律对齐,在仅2.2M参数下实现了远超基线的和弦保真度与推理速度。短板:彻底放弃了力度(velocity)建模,虽简化了问题但也限制了音乐表现力,且对长程结构与风格多样性的探索不足。
📌 核心摘要
这篇论文旨在解决从主旋律谱(Lead Sheet)自动生成符合和弦与旋律约束的钢琴伴奏问题。其核心方法是提出D3PIA,一个基于离散去噪扩散的概率模型,直接在离散化的钢琴卷帘(piano roll)表示上操作。与之前基于连续扩散或Transformer的方法相比,D3PIA的新颖之处在于:1)采用离散扩散处理固有二值化的钢琴卷帘;2)设计了一个基于邻域注意力(NA)的编码器来编码主旋律谱,并用它来条件化解码器,从而有效建模局部对齐关系。实验在POP909数据集上进行,结果表明D3PIA在客观指标(和弦准确率CA=80.1%,和弦相似度CS=93.6%)和主观听感评价上均优于连续扩散(Polyffusion)和Transformer(C&E-E)基线模型,同时模型参数量极小(2.2M)且推理速度快(1.7秒)。该工作的实际意义在于为符号音乐生成提供了一种高效、高保真且易于控制的伴奏生成范式。其主要局限性是未建模音符力度,且仅生成8小节片段,未验证长曲生成能力。
18. Evaluating Disentangled Representations for Controllable Music Generation
✅ 7.5/10 | 前25% | #音乐生成 | #模型评估 | #解纠缠学习 #数据集
👥 作者与机构
- 第一作者:Laura Ibáñez-Martínez(巴塞罗那庞培法布拉大学音乐技术组)
- 通讯作者:未说明
- 作者列表:Laura Ibáñez-Martínez(巴塞罗那庞培法布拉大学音乐技术组)、Chukwuemeka Nkama(巴塞罗那庞培法布拉大学音乐技术组)、Andrea Poltronieri(巴塞罗那庞培法布拉大学音乐技术组)、Xavier Serra(巴塞罗那庞培法布拉大学音乐技术组)、Martín Rocamora(巴塞罗那庞培法布拉大学音乐技术组)
💡 毒舌点评
这篇论文最大的亮点是构建了一套系统、多维度的评估框架,直指当前音乐生成领域“可控性”声称背后的表示学习软肋,揭示了“声称解纠缠”与“实际解纠缠”之间的差距。然而,其短板在于实验结论的力度受制于其仅评估了三个特定模型(且模型配置非完全受控),且对“解纠缠”在实际生成任务中(如音色迁移)的效果缺乏端到端验证,使得警示意义强于解决方案的提出。
📌 核心摘要
- 要解决什么问题:当前许多可控音乐生成模型声称通过解纠缠表示(如分离“结构/音符”与“音色/风格”)来实现对生成音乐的精确控制,但这些表示本身的质量、语义一致性以及是否真正解纠缠,缺乏超越简单下游任务的系统性评估。
- 方法核心是什么:本文将来自图像/语音领域的
synesis表示评估框架适配到音乐音频领域,提出一个包含信息性(Informativeness)、等变性(Equivariance)、不变性(Invariance)和解纠缠性(Disentanglement)四个轴的综合评估协议,并应用于评估三种无监督的结构-音色解纠缠模型(SS-VQ-VAE, TS-DSAE, AFTER)。 - 与已有方法相比新在哪里:不同于以往仅通过生成质量或简单下游任务(如乐器分类)来评估可控性,本文的方法深入到表示的内部结构性质,通过设计受控变换来测试表示的响应,并量化两个潜在表示之间的信息泄漏,从而更本质地诊断解纠缠的有效性。
- 主要实验结果如何:
- 信息性:容量更大的SS-VQ-VAE在多数任务上信息性更强(如乐器分类准确率0.982),但TS-DSAE在特定任务(如速度预测,MSE 0.187)更优。所有模型在音符级任务(多音高估计F1最高0.258)上表现均不佳。
- 等变性/不变性:观察到信息性与等变性之间存在权衡关系。较大的SS-VQ-VAE等变性较弱。数据增强和对抗损失等策略对改善不变性和解纠缠性影响更大。
- 解纠缠性:发现普遍且不对称的信息泄漏。例如,SS-VQ-VAE的音色嵌入中包含大量结构信息(ΔAcc高达0.318);而AFTER的结构嵌入中则包含音色信息(ΔAcc 0.068)。此外,所有模型的音色嵌入都系统性地编码了速度信息(ΔMSE显著)。相对而言,TS-DSAE的解纠缠表现最为均衡。
- 实际意义是什么:研究结果对当前音乐生成领域广泛采用的“结构-音色”解纠缠范式提出了严肃质疑。它表明这些学习到的表示在语义上并不纯净,这直接限制了它们在可控生成(如精确的音色迁移或结构编辑)中的可靠性和可预测性,提示社区需要重新审视“可控性”的定义和实现路径。
- 主要局限性是什么:1) 评估仅限于表示层面,未结合生成器的解码能力来评估最终输出的可控性;2) 使用的评估模型(及其默认配置)数量有限,可能无法代表所有解纠缠策略;3) 对于音符级任务的低性能,简单探测器可能无法充分提取复杂嵌入中的信息。
19. Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints
✅ 7.5/10 | 前25% | #音乐生成 | #强化学习 | #大语言模型 #自回归模型
👥 作者与机构
- 第一作者:Hao Meng(Hao Meng,来自Zuoyebang Education Technology)
- 通讯作者:未说明
- 作者列表:Hao Meng (Zuoyebang Education Technology), Siyuan Zheng (Zuoyebang Education Technology), Shuran Zhou (Zuoyebang Education Technology), Qiangqiang Wang (Zuoyebang Education Technology), Yang Song (Zuoyebang Education Technology)
💡 毒舌点评
亮点:巧妙地将音乐理论“规则化”,并设计了一套完全自动化的偏好数据生成与模型对齐流水线,成功绕开了RLHF依赖人工标注的痛点,是“用领域知识指导大模型”的一个干净利落的范例。短板:所定义的五条规则虽然解决了“合规性”,但可能过于刚性,容易让生成的旋律陷入“安全但平庸”的境地;此外,最终的主观MOS提升虽显著,但绝对值(3.42 vs GT 3.50)显示在感知层面仍有优化空间,评估完全依赖固定规则而非更灵活的人类偏好也是其潜在局限。
📌 核心摘要
- 要解决的问题:当前基于监督微调的大语言模型在歌词到旋律生成任务中,常常产生音乐上不合理的“约束违反”旋律,如节奏尴尬、音域不合适、单调重复等,限制了其实际应用。
- 方法核心:提出一个无需人工标注的对齐框架。首先定义五类基于规则的音乐约束,用于自动评估SFT模型生成的旋律;然后自动生成包含“优胜”和“失败”样本的偏好数据集;最后通过顺序应用直接偏好优化和卡尼曼-特沃斯基优化来对齐模型。
- 与已有方法相比新在哪里:与传统依赖人工标注的RLHF或仅依赖SFT的模仿学习不同,本文创新性地利用确定性的音乐规则来构造偏好信号,并设计了顺序DPO-KTO的两阶段对齐策略,以充分利用配对和不配对数据,实现了全自动、可扩展的领域知识注入。
- 主要实验结果:在客观指标上,所提方法在中英文测试集上的音高分布相似度(PD)和时长分布相似度(DD)均优于所有基线(如英文PD:32.37% vs SongComposer 31.58%),旋律距离(MD)也显著降低。主观MOS得分(3.42)远超基线(如SongComposer 2.92),并接近真实歌唱音频(3.50)。消融实验证明顺序对齐策略(DPO+KTO)优于单独使用任一方法。规则违反频率分析显示,所提方法在所有五类约束上的错误均大幅减少。
主要实验结果表格:
表1. 不同歌词到旋律生成方法在客观指标上的比较
| 方法 | 英文测试集 | 中文测试集 | ||||
|---|---|---|---|---|---|---|
| PD(%) ↑ | DD(%) ↑ | MD ↓ | PD(%) ↑ | DD(%) ↑ | MD ↓ | |
| SongMASS | 30.11 | 19.61 | 1.87 | - | - | - |
| TeleMelody | 30.08 | 31.51 | 3.41 | 25.08 | 35.09 | 3.25 |
| TeleMelody(RelyMe) | 31.27 | 30.99 | 3.32 | 27.59 | 34.70 | 3.29 |
| SongComposer | 31.58 | 31.44 | 3.31 | 30.79 | 33.68 | 3.11 |
| Proposed | 32.37 | 37.11 | 2.63 | 33.94 | 43.44 | 2.58 |
表2. 整体音乐质量主观MOS评估
| 方法 | MOS ↑ |
|---|---|
| GT | 3.50 |
| SongMASS | 3.18 |
| TeleMelody | 3.09 |
| TeleMelody(RelyMe) | 3.26 |
| SongComposer | 2.92 |
| Step-Audio-TTS | 3.19 |
| Proposed | 3.42 |
表3. 对齐组件的消融研究
| 方法 | 英文测试集 | 中文测试集 | ||||
|---|---|---|---|---|---|---|
| PD(%) ↑ | DD(%) ↑ | MD ↓ | PD(%) ↑ | DD(%) ↑ | MD ↓ | |
| Proposed (SFT+DPO+KTO) | 32.37 | 37.11 | 2.63 | 33.94 | 43.44 | 2.58 |
| DPO | 31.22 | 37.25 | 2.77 | 30.83 | 40.98 | 2.87 |
| KTO | 31.62 | 37.96 | 2.77 | 28.64 | 40.53 | 3.10 |
| SFT | 30.42 | 36.46 | 2.95 | 27.00 | 40.02 | 3.12 |
规则违反频率分析(图2):图表显示,与SFT基线相比,所提方法(Proposed)在格式、歌词、音符、时长和音域五种规则上的违反频率均大幅下降,直接证明了其对齐效果。
- 实际意义:提供了一种可扩展的、低成本的方法,将领域专家知识系统性地注入到生成式大模型中,显著提升了生成内容的专业性和可用性,可应用于辅助音乐创作和增强语音交互能力。
- 主要局限性:1) 偏好数据完全由预定义的规则生成,可能无法捕捉到更复杂或更主观的音乐审美偏好;2) 对齐效果高度依赖规则集的设计,规则的完备性和阈值设定至关重要;3) 论文未讨论模型在面对规则未覆盖的、更具创造性的旋律时的表现。
20. FUSEMOS: Perceptual Evaluation of Text-to-Music Generation with Dual-Encoder Fusion and Ranking-Aware Composite Loss
✅ 7.5/10 | 前25% | #音乐生成 | #多任务学习 | #模型评估 #预训练
👥 作者与机构
- 第一作者:Jing Yang(武汉大学电子信息学院, MiLM Plus (小米))
- 通讯作者:Ningning Pan(西南财经大学计算机与人工智能学院), Gongping Huang(武汉大学电子信息学院)
- 作者列表:Jing Yang(武汉大学电子信息学院, MiLM Plus (小米)), Haoyu Wang(西南财经大学计算机与人工智能学院, MiLM Plus (小米)), Ningning Pan(西南财经大学计算机与人工智能学院, 通讯作者), Zhao Wang(MiLM Plus (小米)), Jianxuan Yang(MiLM Plus (小米)), Gongping Huang(武汉大学电子信息学院, 通讯作者)
💡 毒舌点评
亮点:非常务实地解决了T2M评估中的一个痛点——单一CLAP编码器“懂语义不懂音乐”,通过双编码器融合显著提升了评估精度,消融实验做得扎实有力。短板:虽然方法有效,但核心创新(融合两个预训练模型+设计一个损失)在深度学习领域属于常见套路,且论文缺乏对模型推理速度或轻量化可能性的讨论,这在实际部署评估系统时是个关键问题。
📌 核心摘要
- 问题:现有文本到音乐生成(T2M)的自动评估方法大多依赖单一的CLAP模型,它擅长捕捉文本-音频的语义对齐,但在反映音色、表现力等细粒度音乐特征方面存在不足,导致评估不全面。
- 方法核心:提出FUSEMOS框架,采用双编码器融合架构。该架构并行使用CLAP(擅长语义对齐)和MERT(擅长音乐结构建模)两个预训练模型分别提取特征。采用后期融合策略,在各自预测出中间分数(整体音乐印象OMI和文本对齐TA)后进行线性加权融合,得到最终分数。
- 创新点:a) 双编码器互补:整合了CLAP的语义能力和MERT的音乐性建模能力。b) 后期融合策略:相比早期特征融合,更能保留各模态的特性。c) 排序感知复合损失:结合了截断回归损失(抑制噪声标签)和对比排序损失(建模人类偏好的相对排序),同时优化绝对精度和相对排序一致性。
- 实验结果:在MusicEval基准数据集上,FUSEMOS全面超越现有基线(MusicEval, CLAP-only)。关键指标对比见下表:
指标 MusicEval (基线) FUSEMOS (本文) 改进幅度 OMI U-MSE↓ 0.560 0.260 53.6% OMI U-SRCC↑ 0.637 0.811 +0.174 TA U-MSE↓ 0.568 0.392 31.0% TA U-SRCC↑ 0.495 0.644 +0.149 OMI S-SRCC↑ 0.862 0.977 +0.115 TA S-SRCC↑ 0.861 0.940 +0.079 - 实际意义:为T2M研究社区提供了一个更可靠、与人类判断更一致的自动评估工具,有助于加速模型的迭代和比较。
- 主要局限性:(1) 评估框架依赖两个较大的预训练模型,可能带来较高的推理成本。(2) 实验仅在单一基准(MusicEval)上验证,在其他生成模型或音乐风格上的泛化性未知。(3) 论文未涉及评估模型本身的速度或轻量化设计。
21. Fine-Tuning Bigvgan-V2 for Robust Musical Tuning Preservation
✅ 7.5/10 | 前25% | #音乐生成 | #领域适应 | #数据增强 #声码器
👥 作者与机构
- 第一作者:未说明(论文作者列表按字母顺序排列,未明确指出第一作者)
- 通讯作者:未说明(论文中未明确标注通讯作者)
- 作者列表:Hans-Ulrich Berendes(国际音频实验室埃尔兰根)、Ben Maman(国际音频实验室埃尔兰根)、Meinard Müller(国际音频实验室埃尔兰根)
💡 毒舌点评
亮点:论文精准地抓住了神经声码器在音乐处理中的一个“阿喀琉斯之踵”——调音偏差,并用一套非常工整的实验设计(构建调音均匀分布测试集、对比不同调音分布训练数据、结合客观指标与主观听测)给出了令人信服的解决方案,证明了即使低分辨率模型也能通过针对性适应达到高分辨率模型的性能。短板:其本质是对现有模型(BigVGAN-V2)的微调应用,核心方法(领域适应、数据增强)并非原创;此外,论文未开源代码和模型,复现依赖项目主页上的有限资源,对推动该方向的快速跟进略有阻碍。
📌 核心摘要
本文针对神经声码器(以BigVGAN-V2为例)在处理非标准调音音频时产生的音高偏移(调音偏差)问题,提出了通过微调来缓解该问题的解决方案。方法核心是构建包含不同调音分布的训练数据集(自然调音分布、均匀调音分布、通过音高偏移增强的均匀调音分布),并在这些数据集上对BigVGAN-V2的80频段版本进行微调。与现有工作相比,新在首次系统研究了如何通过数据策略而非增加模型复杂度(如使用更高频段)来解决调音偏差问题,并证明了数据增强方法的有效性。主要实验结果表明,使用均匀分布数据(特别是通过音高偏移增强的数据)微调后,80频段模型的调音保持精度(平均偏差<3 cents)达到了未微调的128频段模型的水平,且主观听测显示微调模型在非标准调音(尤其是钢琴)下更受偏好。该工作的实际意义在于提供了一种计算高效且鲁棒的方案,使轻量级声码器能可靠地应用于多样化调音条件下的音乐合成。主要局限性在于该解决方案针对BigVGAN-V2模型,其泛化性到其他声码器架构有待验证;且研究局限于西方音乐系统,未涉及非西方调音体系。
22. Visual Keys to Symphonies: Latent Diffusion for Multi-Scene Video-to-Music Generation
✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #跨模态 #数据集
👥 作者与机构
- 第一作者:Chiu Fai Ng(华为中央媒体技术研究院⋆,清华大学深圳国际研究生院†)
- 通讯作者:未说明
- 作者列表:Chiu Fai Ng(华为中央媒体技术研究院,清华大学深圳国际研究生院), Karsper So(华为中央媒体技术研究院), Jing Yang(华为中央媒体技术研究院), Patricio Ovalle(华为中央媒体技术研究院), Simon Lui(华为中央媒体技术研究院), Fan Fan(华为中央媒体技术研究院), Yuhan Dong(清华大学深圳国际研究生院)
💡 毒舌点评
亮点在于将关键帧采样、多模态特征(视觉语义、情绪、光流)与DPO偏好学习结合,形成了一套逻辑自洽且实验验证较为完整的V2M生成管线,尤其在数据构建和节拍对齐上做了细致工作。短板在于核心生成模型高度依赖Stable Audio的DiT架构,原创性主要体现在“组装”和任务适配上,且评估指标(如KAD、Audiobox-Aesthetics)对于普通读者理解“好音乐”的直观性有限,缺乏更贴近人类音乐感知的主观评价分析。
📌 核心摘要
- 解决的问题:现有视频到音乐(V2M)生成方法在处理多场景视频时,难以同时保证全局连贯性、情感共鸣以及准确的节拍-视觉事件同步。
- 方法核心:提出一个基于潜在扩散的V2M框架。首先设计了一个可扩展的数据过滤与重评分管道构建高质量视频-音乐对齐数据集。模型采用关键帧作为条件输入,提取视觉语义(OpenCLIP)、情绪标签和光流特征(NeuFlow v2)并进行融合,作为DiT模型的条件信号。最后,通过直接偏好优化(DPO)对模型进行微调,使其输出更符合人类对“高光时刻”音画同步的偏好。
- 新颖之处:首次在V2M领域应用DPO进行微调;主张并验证了关键帧采样优于均匀采样;构建了一个包含节拍同步约束的高质量数据子集用于偏好学习;系统整合了多种视频特征(语义、情绪、运动)以指导音乐生成的不同方面(内容、情感、节奏)。
- 主要实验结果:在多个指标上与现有方法对比(见表1)。DPO微调后的模型在ImageBind语义相似度(5.612)和提出的新指标“Beat Sync”(0.0489)上达到最优,同时Audiobox美学评分与基线模型相当或略优。消融实验表明,关键帧采样在语义和情感对齐上与1FPS采样相当,但计算成本更低(表2);特征融合模型在PQ和ImageBind上优于单一特征模型(表3)。
- 实际意义:为视频创作者提供了一种自动生成与其内容语义和情绪相符、节拍对齐良好的背景音乐的新工具,有望降低视频制作门槛并避免版权问题。
- 主要局限性:生成模型的核心架构(DiT)并非原创;评估指标偏向于客观度量,缺乏大规模的人类主观偏好评分;数据集中视频类型和音乐流派可能仍有偏见;DPO微调的效果依赖于精心构建的正负样本对。
23. VMSP: Video-to-Music Generation with Two-Stage Alignment and Synthesis
✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 | #多模态模型 #跨模态
👥 作者与机构
- 第一作者:Xin Gu(中国传媒大学信息与通信工程学院)
- 通讯作者:Wei Jiang*(中国传媒大学信息与通信工程学院)
- 作者列表:Xin Gu(中国传媒大学信息与通信工程学院)、Wei Jiang*(中国传媒大学信息与通信工程学院)、Yujian Jiang(中国传媒大学信息与通信工程学院)、Zhibin Su(中国传媒大学信息与通信工程学院)、Ming Yan(中国传媒大学信息与通信工程学院)
💡 毒舌点评
论文的亮点在于其清晰的“先对齐中间表示,再生成”的两阶段框架设计,这有效缓解了端到端模型常忽略音乐结构的问题,逻辑自洽。但短板也明显:它严重依赖特定的、可能闭源的MLLM(Qwen2.5-VL, Qwen2-Audio)来生成感知描述,这增加了复现成本和不可控性,且论文未开源任何资源,让后续研究者“只能看,不能练”。
📌 核心摘要
- 问题:现有的视频生成音乐(V2M)方法大多直接将视频特征映射到声学标记或波形,跳过了对音乐中间表示(如语义、结构)的建模,导致生成的音乐结构连贯性差、和声不丰富。
- 方法核心:提出VMSP,一个基于分层条件映射的两阶段生成框架。第一阶段(跨模态映射)通过Transformer学习视频与音乐语义特征的段级对齐,并利用多模态大语言模型(MLLM)确保视频与音乐在感知层面的一致性。第二阶段(音乐生成)使用扩散Transformer(DiT),将上述对齐后的语义特征和感知信息作为分层条件,指导音乐波形的生成。
- 与已有方法的新颖性:相比于直接映射或依赖文本中间描述的方法,VMSP显式地建模了音乐的“中间表示”(语义和感知),并设计了分层条件注入机制(全局感知条件+局部语义条件),旨在同时保证全局氛围一致和局部时间对齐。
- 主要实验结果:在MVED和MuVi-Sync数据集上训练,在V2M-bench数据集上评估。定量对比显示VMSP在KL、FAD、Density和Coverage指标上均优于CMT、Video2Music、M2UGen和VidMuse等基线模型。消融实验表明两阶段框架和双重条件(语义+感知)缺一不可。用户研究也显示VMSP在音频质量、音乐性、对齐度和感知和谐度上具有优势。
| 模型/方法 | KL↓ | FAD↓ | Density↑ | Coverage↑ |
|---|---|---|---|---|
| GT | 0.000 | 0.000 | 1.167 | 1.000 |
| CMT[7] | 1.220 | 8.637 | 0.080 | 0.070 |
| Video2Music[9] | 1.782 | 18.722 | 0.103 | 0.023 |
| M2UGen[18] | 0.997 | 5.104 | 0.608 | 0.433 |
| VidMuse[6] | 0.734 | 2.459 | 1.250 | 0.730 |
| VMSP | 0.607 | 2.580 | 1.280 | 0.870 |
表1: 客观定量对比结果(来自论文)
| 模型变体 | KL↓ | FAD↓ | Density↑ | Coverage↑ |
|---|---|---|---|---|
| VMSP w/o T | 0.844 | 3.488 | 0.531 | 0.487 |
| VMSP w/o P | 0.705 | 2.553 | 1.032 | 0.730 |
| VMSP w/o S | 0.773 | 2.783 | 0.606 | 0.582 |
| VMSP | 0.607 | 2.580 | 1.280 | 0.870 |
表2: 消融实验结果(来自论文)
- 实际意义:为视频自动配乐提供了一种新的、注重音乐结构连贯性的解决方案,有望应用于视频剪辑、广告创作等多媒体内容生成领域。
- 主要局限性:框架依赖外部大型多模态模型(Qwen系列)提取感知描述,计算成本高且可能引入黑箱不确定性;论文未开源代码和模型,限制了可复现性;在更长视频或更复杂语义场景下的泛化能力有待验证。
24. Etude: Piano Cover Generation with a Three-Stage Approach — Extract, Structuralize, and Decode
✅ 7.0/10 | 前25% | #音乐生成 | #自回归模型 | #生成模型 #音乐信息检索
👥 作者与机构
- 第一作者:Tse-Yang Chen(National Taiwan University)
- 通讯作者:论文中未明确标注通讯作者
- 作者列表:Tse-Yang Chen(National Taiwan University), Yuh-Jzer Joung(National Taiwan University)
💡 毒舌点评
论文的核心亮点在于三阶段解耦架构的设计非常巧妙,通过“提取-结构化解码”的流水线,强制让模型关注节拍对齐这一被以往工作忽视的关键,从而在主观听感上实现了质的飞跃(尤其是流畅度)。然而,其短板也显而易见:所构建的~4700首歌曲数据集虽然规模尚可,但高度集中于J-pop/K-pop,方法的泛化能力在其他音乐风格(如古典、爵士)上的有效性存疑,且“风格注入”的实际控制粒度和效果在论文中并未得到充分展示。
📌 核心摘要
- 问题:现有深度学习自动钢琴编曲(APCG)模型在生成的钢琴谱中经常出现节奏不一致、拍子混乱等问题,导致音乐结构感缺失,整体质量不高。
- 核心方法:提出三阶段框架“Etude”。Extract阶段从原始音频中提取密集的、类MIDI的音乐事件特征;Structuralize阶段(与Extract并行)使用预训练Beat-Transformer提取精确的节拍框架(Fbeat);Decode阶段基于Transformer,以小节为单位,结合提取的特征(X)、风格向量和前四小节的上下文,自回归生成目标钢琴序列(Y)。
- 创新点:相比已有两阶段模型(如PiCoGen),新方法显式解耦了节拍检测,保证了结构一致性;设计了极简的Tiny-REMI标记化方案,移除了对APCG任务冗余的Token,降低了学习难度;引入了可控的风格向量,允许用户调节音乐织体和表情。
- 主要实验结果:在100首测试集上,Etude(默认设置)在主观平均分(OVL)上达到3.50(满分5),显著优于基线PiCoGen2(2.97)、AMT-APC(2.46)和Music2MIDI(2.27),且统计显著(p<0.001)。在所提出的结构相似度(WPD)、节奏网格一致性(RGC)和节奏模式复杂度(IPE)等客观指标上,也表现出更接近人类演奏的平衡状态。详细结果见下表。
模型 主观总体分 (OVL) ↑ 主观流畅度 (FL) ↑ WPD ↓ RGC ↓ IPE Human 3.92 ± 0.96 4.03 ± 1.02 0.49 0.042 10.13 Etude - Default 3.50 ± 0.99 3.73 ± 0.98 0.21 0.020 9.02 Etude - Prompted 3.46 ± 1.00 3.70 ± 1.05 0.23 0.026 9.11 Etude Extractor 3.33 ± 1.00 3.31 ± 1.13 0.12 0.028 10.62 PiCoGen2 [3] 2.97 ± 1.04 3.33 ± 1.12 1.00 0.059 7.97 AMT-APC [4] 2.46 ± 1.04 2.37 ± 1.11 0.09 0.114 10.69 Music2MIDI [5] 2.27 ± 1.07 2.29 ± 1.13 0.18 0.160 8.94 - 实际意义:该方法显著提升了自动钢琴编曲的音乐性和结构合理性,使其主观评价接近人类水平,为社交媒体内容创作、音乐教育辅助等应用提供了更强大的工具。
- 局限性:数据集主要基于流行音乐(J/K-pop),在其他音乐类型上的有效性未经验证;风格控制虽然引入,但仅以三个离散等级(低、中、高)实现,精细度和可控范围有限;论文未公开模型权重。
25. Towards Multi-View Hierarchical Video-to-Piano Generation with MIDI Guidance
✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 | #多模态模型 #跨模态
👥 作者与机构
- 第一作者:Chang Liu(巨像AI Lab;特伦托大学)
- 通讯作者:Zihao Chen†(巨像AI Lab)
- 作者列表:Chang Liu(巨像AI Lab;特伦托大学), Zihao Chen†(巨像AI Lab), Gongyu Chen(巨像AI Lab), Chaofan Ding(巨像AI Lab), Nicu Sebe(特伦托大学)
💡 毒舌点评
论文的核心思路——用分层、多视角的符号化MIDI信息来“指挥”扩散模型生成更精准的钢琴音频,是清晰且有效的,实验中SI-SDR的巨幅提升(如从-4.87 dB到2.45 dB)也极具说服力。然而,这篇工作就像在精心打磨一个高度定制的工具,却对工具的内部齿轮(控制分支具体如何融合MIDI特征)和打造工具的材料(训练数据集细节)语焉不详,这给希望跟进的同行留下了不小的障碍。
📌 核心摘要
- 问题:现有视频到音频(V2A)的生成方法在直接映射视频到波形时,难以精确捕捉钢琴演奏中细微的时序、力度和延音控制,导致生成音频的时序对齐和音乐表现力不足。
- 方法核心:提出一个分层的视频到钢琴(V2P)生成框架。其核心是引入MIDI作为中间表示,通过一个多视角MIDI预测器从不同摄像头视角(顶视、前视、侧视、踏板视)渐进式地预测音符起始、力度和延音等符号信息,然后利用一个控制分支将这些层级化的MIDI信息注入到基于扩散变换器(DiT)的音频生成模型中,以引导更精确的波形合成。
- 创新性:相比于现有“视频->波形”的端到端方法,该工作首次在V2P任务中提出:a) 分层MIDI引导的生成范式;b) 利用多视角视频(特别是踏板视角)捕捉完整演奏动态;c) 通用的控制分支设计,可集成到不同V2A模型中。
- 主要实验结果:在Audeo和EGQ两个测试集上,将所提方法应用于YingSound、MMAudio等多个基线模型。结果显示,加入MIDI引导后,音频生成质量显著提升。例如,在MMAudio-S-16kHz模型上,SI-SDR从-2.15 dB提升至2.31 dB(提升207.44%),FDPANNS从3.0643降至2.0657(降低32.59%)。频谱图对比也显示MIDI引导能有效修复基线模型生成的不准确片段。
- 实际意义:该方法能生成与演奏视频高度同步且富有表现力的钢琴音频,可应用于无声钢琴视频配音、音乐教学反馈、自动乐谱生成辅助等场景。
- 主要局限性:a) 方法目前仅针对钢琴这一种乐器,未验证其对其他乐器的泛化性;b) 多视角输入在实际应用中可能增加部署复杂度和成本;c) 训练依赖多视角同步录制的钢琴视频-MIDI数据集,数据获取门槛较高。
26. ViTex: Visual Texture Control for Multi-Track Symbolic Music Generation via Discrete Diffusion Models
✅ 7.0/10 | 前50% | #音乐生成 | #扩散模型 | #可控生成 #多轨道
👥 作者与机构
- 第一作者:Xiaoyu Yi(北京大学信息科学与技术学院,MBZUAI 音乐实验室)
- 通讯作者:未明确说明(论文中未使用“通讯作者”标识)
- 作者列表:Xiaoyu Yi(北京大学信息科学与技术学院,MBZUAI 音乐实验室)、Qi He(MBZUAI 音乐实验室)、Gus Xia(MBZUAI 音乐实验室)、Ziyu Wang(纽约大学柯朗数学科学研究所,MBZUAI 音乐实验室)
💡 毒舌点评
亮点:将“画图”这一直观操作引入多轨道音乐的“织体”控制,比提供抽象的潜在变量或文本描述更贴近人类作曲思维,解决了实际创作中的一个痛点。短板:ViTex的基于规则的织体特征提取(如静音比例阈值0.3)显得有些“手工匠气”,可能难以捕捉和表达更复杂、更主观的音乐织体,且离散化的视觉表示在表达连续性强弱变化时存在固有局限。
📌 核心摘要
- 问题:现有的多轨道符号音乐生成系统缺乏一种直观、细粒度的“乐器织体”控制方式,无法让用户直接指定不同乐器在特定音区和时间点如何演奏。
- 方法:提出ViTex,一种将乐器织体可视化的表示方法(颜色编码乐器,位置编码音高/时间,笔触属性编码局部纹理)。基于此,构建了一个以ViTex和和弦进行为条件的离散扩散模型,使用无分类器引导进行训练,以生成8小节多轨道音乐。
- 创新点:首次将视觉化的织体表示用于多轨道音乐生成控制;该表示同时支持人类直观操作和作为模型条件;结合离散扩散模型实现了高质量、可控的生成。
- 实验结果:在Lakh MIDI和Meta MIDI的子集上训练和评估。定量实验(表1)显示,在条件生成任务中,本方法在乐器控制准确率(IA=0.600 vs Q&A-1: 0.584)、和弦准确率(CA=0.875 vs Q&A-1: 0.607)及排列质量(DOA=0.296 vs Q&A-1: 0.188)上均优于基线。无条件生成(表2)在律动相似度(GPS)和排列质量(DOA)上也优于AMT和MMT基线。主观听音测试(图3)表明,在给定乐器的生成任务中,本方法在连贯性、音乐性和创造性评分上均高于基线。
- 实际意义:为音乐制作人和爱好者提供了一种更自然、更精细的方式来控制AI生成的多声部音乐,有望成为音乐创作辅助工具的新范式。
- 主要局限性:ViTex表示基于规则,可能无法涵盖所有织体类型;当前仅支持8小节的片段生成;控制维度(音色、音区、密度)虽比之前工作更细,但仍有限。
27. Instrument Generation Through Distributional Flow Matching and Test-Time Search
✅ 7.0/10 | 前25% | #音乐生成 | #流匹配 | #扩散模型 #测试时搜索
👥 作者与机构
- 第一作者:Qihui Yang(University of California, San Diego)
- 通讯作者:未说明
- 作者列表:Qihui Yang(University of California, San Diego)、Randal Leistikow(Smule Labs)、Yongyi Zang(Smule Labs)
💡 毒舌点评
亮点在于,论文巧妙地将“承认不确定性”引入流匹配框架,让模型不再“固执己见”,并通过测试时搜索将计算力转化为音色一致性的提升,这在概念上很优雅。短板是实验仅在相对“干净”且规模有限的NSynth数据集上进行,对于真实世界中更复杂、噪声更多或音色更微妙的乐器场景,其泛化能力和实际效用仍有待验证,且开源代码的缺失让这一新颖方法停留在了“可读但不可复用”的阶段。
📌 核心摘要
问题:现有基于音符级模型的虚拟乐器生成方法,在生成不同音高和力度的音符时,难以保持一致的音色(timbre),限制了其在专业音乐制作中的应用。
方法核心:提出FlowSynth,其核心是分布式流匹配(DFM)。与传统流匹配学习确定性速度场不同,DFM将速度场参数化为高斯分布(预测均值和方差),并直接使用负对数似然(NLL)进行训练,使模型能显式表达其预测的不确定性。
创新点:1)提出DFM,通过NLL优化直接学习速度场分布,无需变分下界或辅助隐变量;2)提出一个基于模型置信度(不确定性)的测试时搜索框架,结合音色一致性目标,在推理时生成多个候选轨迹并选择最优者。
主要实验结果:在NSynth数据集上,FlowSynth在单音生成和多音(乐器)生成上均优于基线TokenSynth。 关键实验结果表格:
表1:单音生成结果(无引导搜索)
模型 MADpitch (↓) MSS (↓) CLAP (↑) FADvgg (↓) TCC (↓) Ground Truth 67.63 0.0 0.1601 0.0 2.819 TokenSynth 37.99 31.29 0.1290 9.359 3.055 FlowSynth (No Search) 23.42 17.71 0.0583 3.977 1.523 FlowSynth (Uncond. Search, N=32) 26.06 16.65 0.1821 3.832 1.385 表2:多音生成结果(无引导搜索)
模型 F-score (↑) CLAP (↑) FADvgg (↓) TCC (↓) Ground Truth 1.0 0.1920 0.0 1.219 TokenSynth 0.5999 0.1560 10.68 2.597 FlowSynth (No Search) 0.9171 0.0942 1.652 2.328 FlowSynth (Uncond. Search, N=32) 0.9091 0.1575 1.680 2.303 实验表明,即使无搜索,FlowSynth在FAD(音频质量)和TCC(音色一致性)上已大幅领先。引入引导搜索后,CLAP分数(文本一致性)和TCC能进一步优化。图表内容描述:图2展示了引导搜索步数与CLAP分数的关系,显示性能随步数呈对数增长并逐渐饱和,说明适度搜索即可获得大部分收益。
实际意义:为生成专业级、可实时演奏的、音色一致的虚拟乐器提供了一条新路径,其“计算预算换质量”的范式具有实用价值。
主要局限性:模型在规模有限的NSynth数据集上评估,对更大、更多样化乐器库的泛化性未验证;代码和模型未开源,复现依赖论文有限描述。
28. When Noise Lowers the Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models
✅ 7.0/10 | 前25% | #音乐生成 | #模型评估 | #自回归模型 #音频大模型
👥 作者与机构
- 第一作者:Xiaosha Li (Georgia Institute of Technology)
- 通讯作者:未说明(根据惯例,最后一位作者Ziyu Wang可能为通讯作者,但论文中未明确标注)
- 作者列表:Xiaosha Li (Georgia Institute of Technology), Chun Liu (ByteDance Inc.), Ziyu Wang (Courant Institute of Mathematical Sciences, New York University; Mohamed bin Zayed University of Artificial Intelligence (MBZUAI))
💡 毒舌点评
亮点在于发现了一个反直觉但可重复验证的现象(“噪声降低损失”),并据此提出了一个新颖的、基于损失曲线形状的评估视角,而非简单否定损失指标,这为音乐生成评估提供了具体的诊断工具和改进方向。短板在于,论文的核心论证主要基于“噪声注入”和“顺序打乱”两种人工扰动,其与真实音乐质量(如乐感、结构、情感表达)的关联性仍需更多元、更贴近实际场景的验证,且提出的“基于曲线形状”的评估框架目前更多是定性描述,缺乏可直接应用的定量标准。
📌 核心摘要
- 问题:当前音乐大语言模型(LLM)普遍采用基于似然(或交叉熵损失)的指标来评估生成音乐的质量,但该指标的可靠性在音乐领域尚未得到充分验证,可能出现模型认为“更差”的音乐(如加了噪声)反而损失更低的情况。
- 方法核心:通过系统的“噪声注入”和“顺序打乱”实验,分析模型损失曲线在面对输入扰动时的动态变化,提出了“上下文遗忘效应”(Context Amnesia Effect)的概念来解释该现象。
- 新意:不同于以往研究仅指出似然评估的偏差,本文系统量化了音乐LLM对不同类型扰动的反应模式,发现模型仅对非常短暂的局部扰动敏感(表现为损失峰值),但对持续较长或结构性的扰动表现出“遗忘”和适应(损失回落或不变),因此提出评估应关注损失曲线的形状(profile) 而非绝对值。
- 主要实验结果:
- 对MusicGen系列和YuE模型的实验一致显示:注入的噪声或打乱的片段越长,序列整体损失越可能降低(损失差为负值)。相关性分析显示噪声长度与损失差呈强负相关(r < -0.85, p < 0.001)。
- 逐Token分析揭示了三阶段行为:1)扰动开始时损失急剧上升(Peak);2)随后损失迅速下降并保持低位(Assimilation);3)扰动结束后损失不稳定波动(Recovery)。
- 在训练集、生成数据和分布外数据上均观察到此效应。
- 实际意义:揭示了当前主流音乐生成模型评估体系的一个根本缺陷,即基于绝对损失的指标无法可靠区分音乐的结构完整性。这促使研究者和开发者需重新审视评估基准,并考虑更关注局部动态或设计新的评估范式。
- 主要局限性:研究主要聚焦于自回归模型在音频波形域(使用RVQ分词器)的行为,未探讨其他架构(如扩散模型)。所提的“基于曲线形状的评估”目前是一个方向性建议,缺乏具体的、可自动化的评估协议和算法。实验扰动类型(白噪声、顺序打乱)相对简单,与真实音乐编辑或低质量生成的差异仍需进一步研究。
29. Symphony Rendering: Midi and Composer-Conditioned Auto Orchestration with Flow-Matching Transformers
✅ 7.0/10 | 前50% | #音乐生成 | #流匹配 | #扩散Transformer #数据集
👥 作者与机构
- 第一作者:Jiahe Lei(香港中文大学电子工程系)
- 通讯作者:Qiuqiang Kong(香港中文大学电子工程系)
- 作者列表:Jiahe Lei(香港中文大学电子工程系)、Qiuqiang Kong(香港中文大学电子工程系)
💡 毒舌点评
亮点:数据集构建思路巧妙,利用现成的音乐转录模型“凭空”创造出训练所需的MIDI-交响乐音频配对数据,堪称“无中生有”,且全部数据、代码、模型开源,诚意十足。短板:风格控制能力(24%的作曲家分类准确率)虽显著高于随机,但与真实录音(93%)差距巨大,模型更像是学会了“交响乐”的通用音色,而非精准复刻12位大师各自细腻的风格指纹。
📌 核心摘要
解决的问题:如何将一段单声部旋律(MIDI)或钢琴缩编谱,自动编曲渲染成完整、高保真且符合特定作曲家风格的交响乐音频,尤其是在缺乏MIDI与真实交响乐录音配对数据的情况下。
方法核心:提出一个基于流匹配(Flow Matching) 和扩散Transformer(DiT) 的条件生成框架。系统先通过一个自动音乐转录(AMT)模型,将输入的钢琴音频或MIDI转换为时间对齐的钢琴卷帘(Piano Roll)表示。这个表示与作曲家标签一起,作为条件输入到流匹配模型中,该模型在一个预训练音频VAE的潜在空间中,将高斯噪声逐步变换为目标交响乐音频的潜在表示,最后由VAE解码器输出波形。
与已有方法的新颖性:核心创新是利用AMT构建伪配对数据,从而摆脱了对稀缺的MIDI-交响乐配对数据的依赖,使得训练数据只需包含纯交响乐音频即可。这解决了该任务数据获取的瓶颈。方法上将流匹配与DiT架构应用于这种多条件(内容+风格)的符号到音频生成任务。
主要实验结果:
- MIDI转交响乐渲染:在FAD(音频质量与分布真实性)指标上,本文方法(Transcription + Ours)得分为2.460,显著优于基线“频谱扩散”(8.219)和“FluidSynth”(6.099),表明生成的音频更逼真。在Onset F1(音符准确性)上达到0.409。
- 作曲家风格控制:使用独立的HuBERT分类器对生成音频进行作曲家分类,本文方法(w/ composer)达到22.7%-24.1% 的准确率,远高于无作曲家条件的版本(8.5%,接近1/12的随机基线),证明模型确实能响应作曲家条件。
表1: MIDI-to-audio rendering 结果对比
模型 FAD ↓ Onset F1 ↑ CE ↑ CU ↑ PC ↑ PQ ↑ 训练集原始音频 (Train set Raw) / / 6.948 7.647 5.338 7.549 频谱扩散 (Spectrogram diffusion [1]) 8.219 0.345 5.024 6.339 4.418 6.421 FluidSynth (GM SoundFont) 6.099 0.481 6.763 7.821 4.654 7.813 MIDI + 本文方法 2.660 0.477 6.370 6.947 5.697 7.025 转录 + 本文方法 2.460 0.409 6.932 7.315 5.961 7.307 表2: 作曲家分类准确率
方法 测试集准确率 (%) ↑ 测试集(真实音频) 93.4 本文方法(无作曲家条件) 8.5 MIDI + 本文方法(含作曲家条件) 24.1 转录 + 本文方法(含作曲家条件) 22.7 实际意义:为AI辅助交响乐编曲提供了新的工具和可能性,有望帮助作曲家学习大师风格、续写未完成作品,或为影视、游戏生成定制风格的管弦乐配乐。开源全部资源促进了该小众领域的研究。
主要局限性:(1) 风格控制精度有限:生成的音频能被识别为某种作曲家风格,但与真实作品的风格纯度差距很大,更偏向于“交响乐感”而非精准的风格模仿。(2) 依赖转录模型质量:AMT模型的准确率直接影响输入条件,从而影响最终生成质量。(3) 评估局限:缺乏人类主观听感评估(如MOS)和与当前最先进通用音乐生成模型的对比。
30. Pianoroll-Event: A Novel Score Representation for Symbolic Music
✅ 6.5/10 | 前25% | #音乐生成 | #自回归模型 | #数据集 #模型评估
👥 作者与机构
- 第一作者:未说明(论文标注了“Equal contribution”,但未明确哪位是第一作者)
- 通讯作者:未说明(论文标注了“†Corresponding authors”,对应作者为Boyu Cao和Qi Liu)
- 作者列表:Lekai Qian(华南理工大学未来技术学院)、Haoyu Gu(华南理工大学未来技术学院)、Dehan Li(华南理工大学未来技术学院)、Boyu Cao(华南理工大学未来技术学院)、Qi Liu(华南理工大学未来技术学院)
💡 毒舌点评
亮点在于将钢琴卷帘的“空间感”与离散事件的“效率”巧妙结合,设计出的四种事件类型逻辑自洽,且在多个主流自回归模型上都展现出稳定的性能提升,说明方法具有一定的普适性。短板是创新的增量性较强,更像是对现有表示的“精装修”而非“新建材”,且完全未开源,对于旨在复现和比较的研究者来说不够友好。
📌 核心摘要
- 本文针对符号音乐表示中网格表示(如钢琴卷帘)数据稀疏、编码效率低,以及离散事件表示(如REMI)难以捕获结构不变性和空间局部性的互补局限,提出了一种新的编码方案Pianoroll-Event。
- 该方法核心是将钢琴卷帘表示先进行时间分帧,再沿音高维度分块,然后通过四种互补的事件类型(帧事件、间隙事件、模式事件、音乐结构事件)将稀疏的块信息高效地编码为一个离散事件序列。
- 与已有方法相比,Pianoroll-Event首次将基于帧的压缩(处理连续空块)与基于块的模式编码相结合,并在序列长度和词表大小之间取得了更优的平衡。
- 实验结果表明,在GPT-2、Llama、LSTM等多种架构上,使用该表示的模型在客观指标(如JS相似度)和主观评估(MOS)上均优于基线方法。例如,在GPT-2-Large模型上,其JS相似度达到68.86,显著高于REMI(35.85)和ABC表示(65.18)。编码效率分析显示,其预算感知难度指数(BDI)最低,相比ABC表示提升了7.16倍。
- 该工作为符号音乐生成提供了一个更高效、保真度更高的统一表示框架,有助于提升生成音乐的质量和模型训练效率。
- 主要局限性在于该表示依赖固定的帧和块大小,对极度不规则的节奏或非标准音域可能灵活性不足;此外,论文未提供开源代码,限制了其直接应用和后续研究。
31. Melos: Sentence-To-Section Training with Multi-Task Learning for LLM-Driven Song Generation
✅ 6.5/10 | 前50% | #音乐生成 | #多任务学习 | #自回归模型 #歌唱语音合成
👥 作者与机构
- 第一作者:Dapeng Wu(清华大学深圳国际研究生院)
- 通讯作者:Zhiyong Wu(清华大学深圳国际研究生院)
- 作者列表:Dapeng Wu†(清华大学深圳国际研究生院),Jinhong Lu†(Wonderai, Beijing, China),Bin Su(Wonderai, Beijing, China),Shun Lei(清华大学深圳国际研究生院),Xiong Cai(Wonderai, Beijing, China),Zhiyong Wu*(清华大学深圳国际研究生院) †:共同第一作者;*:通讯作者。
💡 毒舌点评
亮点:论文提出的“句子到段落”两阶段训练策略非常务实,有效缓解了长序列建模和数据稀缺问题,让一个0.5B的模型在0.5M数据上就能生成结构相对完整的歌曲,证明了该分治思路的有效性。 短板:在音乐性(MUS)、记忆性(MEM)等主观评价维度上明显落后于Suno、Mureka等工业系统,且未开源代码和模型,其“高质量”结论难以被社区直接复现和验证,削弱了论文的说服力和实用价值。
📌 核心摘要
- 问题:当前基于大语言模型(LLM)的端到端歌曲生成面临长音频序列建模难、训练数据有限以及歌词与歌声对齐挑战等问题。
- 方法核心:提出Melos框架,采用两阶段训练策略:首先在句子级别训练模型掌握基本的演唱能力;然后在段落(如主歌、副歌)级别训练以增强整体音乐性。同时,引入多任务学习,将歌词和声带(人声)信息作为辅助训练目标(放在序列末尾),以增强音色可控性和歌词准确性,且不增加推理开销。
- 与已有方法相比新在哪里:不同于直接在段落级别训练(如YuE),本文的渐进式学习范式使模型先易后难。不同于生成思维链(CoT)会增加推理成本,本文将辅助信息作为后置的监督信号,实现了“训练时多任务,推理时单目标”。
- 主要实验结果:在0.5M歌曲(约3万小时)上训练。在客观评估中,模型在音色相似性(SECS)和文本控制(CLAP)上表现优异(SECS 0.584, CLAP 0.270),但在FAD和PER上不及最佳基线。主观评估(MOS)显示,其整体质量(OQ 3.54)和歌词准确性(LA 4.21)与LeVo、Mureka等系统相当。消融实验证实了两阶段训练和辅助任务的有效性。
- 实际意义:为资源受限场景下的高质量歌曲生成提供了一种高效、可扩展的训练范式,证明了通过精细的训练策略可以在小数据集上获得有竞争力的生成效果。
- 主要局限性:1)未开源,限制了其影响力和可复现性;2)在音乐性、制作复杂度等核心主观指标上仍与领先的工业系统有差距;3)性能高度依赖音乐分离和说话人编码器的质量。