Synthcloner: Synthesizer-Style Audio Transfer via Factorized Codec with ADSR Envelope Control

📄 Synthcloner: Synthesizer-Style Audio Transfer via Factorized Codec with ADSR Envelope Control #音频生成 #解耦表征学习 #因子分解 #合成器 #音频迁移 🔥 8.5/10 | 前25% | #音频生成 | #解耦表征学习 | #因子分解 #合成器 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jeng-Yue Liu(国立台湾大学,中央研究院,卡内基梅隆大学) 通讯作者:未说明(论文标注“Jeng-Yue Liu1,2,3∗, Ting-Chao Hsu1∗”为共同第一作者,未明确通讯作者) 作者列表:Jeng-Yue Liu(国立台湾大学,中央研究院,卡内基梅隆大学)、Ting-Chao Hsu(国立台湾大学)、Yen-Tung Yeh(国立台湾大学)、Li Su(中央研究院)、Yi-Hsuan Yang(国立台湾大学) 💡 毒舌点评 论文直击合成器音频迁移中“包络控制”这个长期被忽略的痛点,并给出了一个从数据集到模型的完整解决方案,消融实验清晰地证明了显式建模ADSR的必要性,技术路线扎实。然而,其核心依赖的“音色”定义(从平稳区域提取one-shot)和数据集构建(依赖特定商业软件Serum及其预设)可能限制了模型对真实世界复杂合成器声音的泛化能力,使得“通用合成器迁移”的承诺打了一点折扣。 🔗 开源详情 代码: 论文提供了代码仓库链接:https://buffett0323.github.io/synthcloner/。 模型权重: 论文明确提到提供了模型检查点(model checkpoint),可通过上述链接获取。 数据集: 论文提出了SynthCAT数据集,并说明了其构成和渲染管线,但具体下载方式需查阅提供的链接或项目主页。 Demo: 论文提供了音频示例(audio examples)链接。 复现材料: 论文给出了详细的训练细节(实现框架、优化器、学习率、损失函数及权重、批量大小、训练步数、硬件),超参数(RVQ配置、音频段长)也已说明。 论文中引用的开源项目: 引用了audiotools(用于计算MSTFT)、torchcrepe(用于提取F0)等开源工具。模型架构灵感来源于FACodec和NANSY。 论文中未提及开源计划: 论文未提及。 📌 核心摘要 本文针对合成器风格音频迁移(SAT)任务,指出现有方法缺乏对ADSR包络(声音的时域动态)的显式控制。为此,作者提出了两个核心贡献:1)SynthCloner,一个因子分解编解码器模型,将音频解耦为ADSR包络、音色(时不变频谱特征)和内容(音高序列)三个独立属性,并支持对它们的独立控制和迁移;2)SynthCAT,一个通过系统化渲染流程构建的大规模合成器数据集,覆盖了250种音色、120种ADSR包络和100个MIDI序列的笛卡尔积,总计约3M样本。实验表明,在SynthCAT数据集上,SynthCloner在客观指标(多尺度STFT损失、对数RMS距离、F0 RMSE)和主观评估(音色相似度、ADSR包络相似度、内容相似度MOS)上均显著优于SS-VAE和CTD等基线模型。消融实验证实了显式ADSR建模对于高保真迁移至关重要。该工作为电子音乐制作提供了新的自动化工具,但其模型和数据集目前聚焦于单声道基础合成器声音,尚未涵盖LFO等复杂调制效果。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 324 words