Token-Based Audio Inpainting via Discrete Diffusion
📄 Token-Based Audio Inpainting via Discrete Diffusion #音频生成 #扩散模型 #音乐生成 #离散表示 #音频修复 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音乐生成 #离散表示 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Tali Dror, Iftach Shoham (论文中为共同第一作者) 通讯作者:未说明 作者列表:Tali Dror (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Iftach Shoham (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center), Moshe Buchris (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Oren Gal (University of Haifa), Haim H. Permuter (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Gilad Katz (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center), Eliya Nachmani (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) 💡 毒舌点评 本文开创性地将离散扩散模型应用于音频修复,将问题转化为token序列补全,并通过精心设计的span masking和导数损失来模拟音频的连续性,实验结果在长空缺修复上显著超越传统方法,这无疑是其最大的亮点。然而,其性能天花板几乎被WavTokenizer这个“黑盒”tokenizer完全锁死,且训练时的“先tokenize再mask”与推理时的“先mask再tokenize”的不匹配可能引入难以量化的误差,这是两个明显的理论与实践短板。 ...