Synthcloner: Synthesizer-Style Audio Transfer via Factorized Codec with ADSR Envelope Control

📄 Synthcloner: Synthesizer-Style Audio Transfer via Factorized Codec with ADSR Envelope Control #音频生成 #解耦表征学习 #因子分解 #合成器 #音频迁移 🔥 8.5/10 | 前25% | #音频生成 | #解耦表征学习 | #因子分解 #合成器 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jeng-Yue Liu(国立台湾大学,中央研究院,卡内基梅隆大学) 通讯作者:未说明(论文标注“Jeng-Yue Liu1,2,3∗, Ting-Chao Hsu1∗”为共同第一作者,未明确通讯作者) 作者列表:Jeng-Yue Liu(国立台湾大学,中央研究院,卡内基梅隆大学)、Ting-Chao Hsu(国立台湾大学)、Yen-Tung Yeh(国立台湾大学)、Li Su(中央研究院)、Yi-Hsuan Yang(国立台湾大学) 💡 毒舌点评 论文直击合成器音频迁移中“包络控制”这个长期被忽略的痛点,并给出了一个从数据集到模型的完整解决方案,消融实验清晰地证明了显式建模ADSR的必要性,技术路线扎实。然而,其核心依赖的“音色”定义(从平稳区域提取one-shot)和数据集构建(依赖特定商业软件Serum及其预设)可能限制了模型对真实世界复杂合成器声音的泛化能力,使得“通用合成器迁移”的承诺打了一点折扣。 📌 核心摘要 本文针对合成器风格音频迁移(SAT)任务,指出现有方法缺乏对ADSR包络(声音的时域动态)的显式控制。为此,作者提出了两个核心贡献:1)SynthCloner,一个因子分解编解码器模型,将音频解耦为ADSR包络、音色(时不变频谱特征)和内容(音高序列)三个独立属性,并支持对它们的独立控制和迁移;2)SynthCAT,一个通过系统化渲染流程构建的大规模合成器数据集,覆盖了250种音色、120种ADSR包络和100个MIDI序列的笛卡尔积,总计约3M样本。实验表明,在SynthCAT数据集上,SynthCloner在客观指标(多尺度STFT损失、对数RMS距离、F0 RMSE)和主观评估(音色相似度、ADSR包络相似度、内容相似度MOS)上均显著优于SS-VAE和CTD等基线模型。消融实验证实了显式ADSR建模对于高保真迁移至关重要。该工作为电子音乐制作提供了新的自动化工具,但其模型和数据集目前聚焦于单声道基础合成器声音,尚未涵盖LFO等复杂调制效果。 模型/方法 MSTFT↓ LRMSD↓ F0RMSE↓ TMOS↑ ADSRMOS↑ CMOS↑ Ground Truth – – – 4.08 3.96 4.25 SS-VAE [4] 7.22 0.92 641.62 2.20 2.25 3.41 CTD [6] 5.69 0.89 583.01 2.34 2.48 1.86 SynthCloner (ours) 3.00 0.17 20.64 3.91 3.94 4.11 – w/o ADSR envelope path 3.84 0.42 29.04 3.09 2.40 3.76 表1:合成器风格音频迁移的客观和主观结果(摘自论文)。 ...

2026-04-29