音频迁移 | 语音/音乐/音频论文速递

📄 Synthcloner: Synthesizer-Style Audio Transfer via Factorized Codec with ADSR Envelope Control #音频生成 #解耦表征学习 #因子分解 #合成器 #音频迁移 🔥 8.5/10 | 前25% | #音频生成 | #解耦表征学习 | #因子分解 #合成器学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jeng-Yue Liu（国立台湾大学，中央研究院，卡内基梅隆大学）通讯作者：未说明（论文标注“Jeng-Yue Liu1,2,3∗, Ting-Chao Hsu1∗”为共同第一作者，未明确通讯作者）作者列表：Jeng-Yue Liu（国立台湾大学，中央研究院，卡内基梅隆大学）、Ting-Chao Hsu（国立台湾大学）、Yen-Tung Yeh（国立台湾大学）、Li Su（中央研究院）、Yi-Hsuan Yang（国立台湾大学） 💡 毒舌点评论文直击合成器音频迁移中“包络控制”这个长期被忽略的痛点，并给出了一个从数据集到模型的完整解决方案，消融实验清晰地证明了显式建模ADSR的必要性，技术路线扎实。然而，其核心依赖的“音色”定义（从平稳区域提取one-shot）和数据集构建（依赖特定商业软件Serum及其预设）可能限制了模型对真实世界复杂合成器声音的泛化能力，使得“通用合成器迁移”的承诺打了一点折扣。 🔗 开源详情代码：论文提供了代码仓库链接：https://buffett0323.github.io/synthcloner/。模型权重：论文明确提到提供了模型检查点（model checkpoint），可通过上述链接获取。数据集：论文提出了SynthCAT数据集，并说明了其构成和渲染管线，但具体下载方式需查阅提供的链接或项目主页。 Demo：论文提供了音频示例（audio examples）链接。复现材料：论文给出了详细的训练细节（实现框架、优化器、学习率、损失函数及权重、批量大小、训练步数、硬件），超参数（RVQ配置、音频段长）也已说明。论文中引用的开源项目：引用了audiotools（用于计算MSTFT）、torchcrepe（用于提取F0）等开源工具。模型架构灵感来源于FACodec和NANSY。论文中未提及开源计划：论文未提及。 📌 核心摘要本文针对合成器风格音频迁移（SAT）任务，指出现有方法缺乏对ADSR包络（声音的时域动态）的显式控制。为此，作者提出了两个核心贡献：1）SynthCloner，一个因子分解编解码器模型，将音频解耦为ADSR包络、音色（时不变频谱特征）和内容（音高序列）三个独立属性，并支持对它们的独立控制和迁移；2）SynthCAT，一个通过系统化渲染流程构建的大规模合成器数据集，覆盖了250种音色、120种ADSR包络和100个MIDI序列的笛卡尔积，总计约3M样本。实验表明，在SynthCAT数据集上，SynthCloner在客观指标（多尺度STFT损失、对数RMS距离、F0 RMSE）和主观评估（音色相似度、ADSR包络相似度、内容相似度MOS）上均显著优于SS-VAE和CTD等基线模型。消融实验证实了显式ADSR建模对于高保真迁移至关重要。该工作为电子音乐制作提供了新的自动化工具，但其模型和数据集目前聚焦于单声道基础合成器声音，尚未涵盖LFO等复杂调制效果。 ...