📄 Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs #音乐生成 #生成模型 #音频编码
📝 4.0/10 | 前50% | #音乐生成 | #生成模型 | #音频编码 | arxiv
学术质量 4.0/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度 中
👥 作者与机构 第一作者:Konstantinos Soiledis(University of Ioannina, University of Patras) 通讯作者:未说明 作者列表:Konstantinos Soiledis(University of Ioannina, University of Patras)、Maximos Kaliakatsos-Papakostas(University of Ioannina)、Dimos Makris(University of Ioannina)、Konstantinos Tsamis(University of Ioannina, University of Patras) 💡 毒舌点评 本文系统性地比较了三种神经音频编解码器在鼓网格到音频生成任务中的表现,为后续工作选择目标表示提供了有价值的实证参考,这是其亮点。然而,论文主要贡献是将已有技术(神经编解码器+Transformer)进行组合应用,且核心实验发现(增大模型反而导致性能下降)未能给出深入分析或有效解决方案,显得方法部分的创新深度和工程鲁棒性有所不足。
📌 核心摘要 问题:如何从包含微时值和力度信息的鼓网格(Expressive Drum Grid)生成真实、富有表现力的鼓音频,以捕捉人类演奏的细微感觉(“groove”)。 方法核心:采用“编解码器token预测”范式。系统将鼓网格输入到一个非自回归Transformer编码器中,预测预训练神经音频编解码器(EnCodec, DAC, X-Codec)的离散token序列,然后使用固定的编解码器解码器将token序列转换为波形音频。 创新点:与现有方法相比,本文的主要创新在于: 提出了一个完整的从表达性鼓网格到音频的生成系统(DrumGrid2Audio)。 在一个受控的、统一的建模框架下,首次(原文描述为“one of the first”)对EnCodec、DAC和X-Codec三种主流神经音频编解码器作为中间表示的效能进行了系统比较。 在公开的大规模鼓数据集E-GMD上进行了多方面的客观评估。 主要实验结果: 在Base模型设置下,EnCodec在大多数指标上表现最优:token准确率最高(单套鼓42.7%,全套鼓43.4%),感知距离(FAD)最低(单套鼓0.281,全套鼓0.193)。 DAC在样本级误差(RMSE/MAE)上最低,但token预测难度极大(困惑度高达500+),感知质量最差(FAD最高,全套鼓0.405)。 X-Codec性能介于两者之间。 反常发现:将模型容量从Base增大到Large后,所有编解码器的性能均显著下降,表明训练过程不稳定。 实际意义:为音乐制作和音频生成领域提供了一种新的从符号化鼓谱(MIDI+表情信息)渲染逼真音频的途径,并为如何选择神经音频编解码器作为生成目标提供了实践指导。 主要局限性:论文明确承认缺乏主观听感评估和正式统计检验;Large模型训练不稳定,原因未深究;研究仅限于鼓音频,结论的泛化性未验证。 🔗 开源详情 代码:https://github.com/kostantinos-soiledis/midigroove_poc 模型权重: EnCodec: facebook/encodec_32khz (HuggingFace预训练检查点) DAC: descript/dac_44khz (HuggingFace预训练检查点) X-Codec: hf-audio/xcodec-hubert-general (HuggingFace预训练检查点,配置为2.0 kbps带宽) 数据集:Expanded Groove MIDI Dataset (E-GMD)。论文中未提供该数据集的具体下载链接。 Demo:论文中未提及在线演示链接。 复现材料: 项目页面:https://github.com/kostantinos-soiledis/midigroove_poc(包含生成的音频示例和扩展结果/图表,如所有套件的完整评估细分)。 训练配置:Base模型 (d_model=768, L=6, H=8) 和 Large模型 (d_model=1536, L=10, H=12) 的详细架构参数;优化器为AdamW,学习率 6×10^{-5},全局梯度裁剪1.0,最大200,000步,早停5000步。 训练硬件:所有模型均在单个NVIDIA GeForce RTX 3080 GPU (10 GB VRAM)上训练。 评估协议:具体评估指标(NLL, PPL, Acc, RMSE, MAE, MR-STFT SC, Env RMS corr, TTER MAE, Onset P/R/F1, FAD)的定义和计算方法。 论文中引用的开源项目: EnCodec (神经音频编解码器): https://github.com/facebookresearch/encodec (论文引用 [4]) DAC (神经音频编解码器): https://github.com/descriptinc/descript-audio-codec (论文引用 [6]) X-Codec (神经音频编解码器): https://github.com/zhangzwfcn/xcodec (论文引用 [5]) AudioLM (基于编解码器令牌的语言模型): https://github.com/google-research/audioLM (论文引用 [1]) MusicLM (文本到音乐生成): https://github.com/google-research/musiclm (论文引用 [2]) SoundStream (神经音频编解码器): https://arxiv.org/abs/2107.10759 (论文引用 [11]) GrooVAE (表达性节奏建模): https://github.com/wayne391/beat-dance-datasets (论文引用 [8],数据集链接) CRASH (基于分数的扩散模型): https://github.com/hugoflorentino/CRASH (论文引用 [10]) MIDI-VALLE (符号到音频合成): https://github.com/yangdongchao/MIDI-VALLE (论文引用 [12]) STAGE (伴奏生成): https://github.com/facebookresearch/audiocraft (论文引用 [13]) DARC (鼓生成): https://github.com/DARG/darc (论文引用 [14]) TRIA (基于令牌的鼓合成): https://github.com/ZiyueXu77/TRIA (论文引用 [15]) madmom (用于起点检测): https://github.com/CPJKU/madmom (论文引用 [16],隐含) fadtk (用于计算FAD): https://github.com/AudioLDM/fadtk (论文引用 [17],隐含) 🏗️ 方法概述和架构 本文提出的方法(命名为DrumGrid2Audio)是一个条件生成系统,旨在将输入的表达性鼓网格转换为对应的鼓音频波形。整个系统可以看作一个两阶段流水线:首先是一个由Transformer构成的“网格到token”预测器,然后是一个固定的神经音频编解码器解码器。
...