Break-the-Beat! Controllable MIDI-to-Drum Audio Synthesis

📄 Break-the-Beat! Controllable MIDI-to-Drum Audio Synthesis #音频生成 #音乐生成 #扩散模型 #迁移学习 #MIDI ✅ 6.8/10 | 前50% | #音频生成 | #扩散模型 | #音乐生成 #迁移学习 | arxiv 学术质量 5.8/8 | 影响力 0.6/1 | 可复现性 0.4/1 | 置信度 中 👥 作者与机构 第一作者:Shuyang Cui (Sony AI) 通讯作者:未说明 作者列表:Shuyang Cui(Sony AI),Zhi Zhong(Sony AI),Qiyu Wu(Sony AI),Zachary Novack(Sony AI),Woosung Choi(Sony AI),Keisuke Toyama(Sony AI),Kin Wai Cheuk(Sony AI),Junghyun Koo(Sony AI),Yukara Ikemiya(Sony AI),Christian Simon(Sony AI),Chihiro Nagashima(Sony AI),Shusuke Takahashi(Sony AI) 💡 毒舌点评 这篇论文精准地瞄准了音乐制作中一个真实存在但此前被研究界忽略的垂直需求(MIDI到鼓音频的可控合成),并通过巧妙的系统集成(微调预训练模型+设计混合条件机制)提供了扎实的解决方案和充分的消融实验。其主要短板在于技术新颖性相对有限,核心是将已有组件(预训练扩散模型、Transformer编码器、多种条件注入方式)进行有效组合与适配,而非提出全新的生成范式或突破性架构。此外,尽管提供了演示页面,但未开源代码和权重,在一定程度上影响了研究的可复现性和直接影响力。 📌 核心摘要 要解决什么问题:数字音乐制作中,根据MIDI序列生成高质量、且能复现特定参考音频音色的鼓声循环音频,传统方法(单一样本拼接或重采样)耗时费力,而现有生成模型缺乏精细的控制能力。 方法核心是什么:提出“Break-the-Beat!”模型,这是一个基于预训练Stable Audio Open(SAO)的扩散Transformer(DiT)。通过设计一个新的双输入内容编码器来处理目标MIDI和参考音频MIDI,并采用一种“混合条件机制”将MIDI内容特征和参考音频潜在特征注入到DiT中,从而同时控制节奏(来自MIDI)和音色(来自参考音频)。 与已有方法相比新在哪里:据作者所知,这是第一个专门针对“MIDI到鼓声”合成任务的工作。与MIDI-to-Piano工作不同,鼓声具有多音色、非调性的特点。与纯文本到音频或旋律控制生成不同,本方法引入了高分辨率MIDI作为精确的节奏控制信号,并实现了对参考音频音色的迁移。 主要实验结果如何:在E-GMD和StemGMD数据集上,使用64音符分辨率训练的模型取得了最佳性能。主要指标包括:FAD-VGG: 0.09, FAD-CLAP: 0.061, Onset F1: 70.08%, CMLt: 0.42。消融实验表明,高分辨率MIDI、混合条件机制(特别是输入相加方式)以及从预训练SAO微调对性能至关重要。使用检测到的伪Tap替代真实Tap,性能下降有限。 实际意义是什么:为音乐制作人提供了一个新的可控工具:输入一段鼓MIDI序列和一段想要模仿的鼓声音频(参考),即可生成遵循该MIDI节奏且具有参考音色的新鼓声音轨,简化创作流程。 主要局限性是什么:模型性能高度依赖于预训练的SAO模型,从头训练性能急剧下降。参考音频的音色迁移范围受限于训练数据中出现的鼓组音色。论文未提供在更复杂、更长或非4/4拍音乐上的泛化性验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接(论文指出基于预训练的Stable Audio Open [6] 模型进行微调,但未提供微调后或原始权重的具体下载链接)。 数据集:论文中未提及数据集的公开下载链接。文中说明训练与评估使用的数据集为“Groove MIDI Dataset (GMD)”、“Expanded Groove MIDI Dataset (E-GMD)”和“StemGMD”,并描述了其内容与划分,但未提供获取这些数据集的具体开源地址或协议。 Demo:https://ik4sumii.github.io/break-the-beat/ 复现材料:论文中未提及训练配置、模型检查点、附录等具体复现材料。 论文中引用的开源项目: Stable Audio Open (SAO) [6]:论文中未提供具体链接。 librosa [19]:论文中未提供具体链接。 DPM-Solver++ [18]:论文中未提供具体链接。 🏗️ 方法概述和架构 图1展示了系统的整体架构。核心是一个预训练的Stable Audio Open(SAO)扩散Transformer(DiT),其输入从原始的文本条件,被扩展和修改为同时接受鼓MIDI条件和参考音频条件。图中的数据流显示,目标MIDI和参考音频MIDI首先通过一个共享权重的“内容编码器”进行处理,该编码器还融合了参考音频的潜在表示。编码后的内容特征通过“混合条件机制”以两种方式注入DiT:1)参考音频的潜在表示(xref)直接与噪声潜在序列(zt)在通道维度拼接;2)编码后的内容特征(ccont)经过一个“内容对齐器”后,以加法形式融入DiT的输入。同时,全局条件(扩散步、目标时长、排列步数)被前置到DiT的输入序列中。最终,DiT输出去噪后的潜在表示,经解码器生成鼓声音频。 ...

2026-05-15 · 更新于 2026-05-19 · 3 min · 517 words

语音/音频论文速递 2026-05-15

语音/音频论文速递 2026-05-15 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音生物标志物 2篇 ██ #说话人验证 2篇 ██ #基准测试 1篇 █ #语音翻译 1篇 █ #音频生成 1篇 █ #基础模型 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 FutureSim: Replaying World Events to Evaluate Adaptive 7.6分 前25% #基准测试 🥈 Refining Pseudo-Audio Prompts with Speech-Text Alignmen 7.5分 前50% #语音识别 🥉 AudioMosaic: Contrastive Masked Audio Representation Le 7.3分 前50% #音频分类 4. A Benchmark for Early-stage Parkinson’s Disease Detecti 7.2分 前30% #语音生物标志物 5. SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker 7.0分 前25% #说话人验证 6. Streaming Speech-to-Text Translation with a SpeechLLM 6.8分 前25% #语音翻译 7. Break-the-Beat! Controllable MIDI-to-Drum Audio Synthes 6.8分 前50% #音频生成 8. Mini-JEPA Foundation Model Fleet Enables Agentic Hydrol 6.8分 前50% #基础模型 9. Persian MusicGen: A Large-Scale Dataset and Culturally- 6.7分 前50% #音乐生成 10. Physics-Based iOCT Sonification for Real-time Interacti 6.5分 前40% #医疗音频 11. From Text to Voice: A Reproducible and Verifiable Frame 6.3分 前50% #模型评估 12. IsoNet: Spatially-aware audio-visual target speech extr 6.0分 前50% #语音提取 13. FSD50K-Solo: Automated Curation of Single-Source Sound 5.5分 前50% #数据清洗 14. UMo: Unified Sparse Motion Modeling for Real-Time Co-Sp 5.5分 前25% #语音合成 15. Masked Autoencoders with Limited Data: Does It Work? A 5.5分 前50% #音频分类 16. Text-Dependent Speaker Verification (TdSV) Challenge 20 5.5分 前40% #说话人验证 17. PROCESS-2: A Benchmark Speech Corpus for Early Cognitiv 5.4分 前50% #语音生物标志物 18. Transmit Beamforming for High-Rate Underwater Acoustic 5.3分 前50% #水声通信 19. A Calculus-Based Framework for Determining Vocabulary S 3.9分 后50% #语音识别 20. MediaClaw: Multimodal Intelligent-Agent Platform Techni 3.3分 后50% #多模态模型 📋 论文列表 🥇 FutureSim: Replaying World Events to Evaluate Adaptive Agents ✅ 7.6/10 | 前25% | #基准测试 | #大语言模型 | #自适应代理 #测试时适应 | arxiv ...

2026-05-15 · 更新于 2026-05-19 · 15 min · 3187 words