离散表示 | 语音/音乐/音频论文速递

📄 Token-Based Audio Inpainting via Discrete Diffusion #音频生成 #扩散模型 #音乐生成 #离散表示 #音频修复 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音乐生成 #离散表示学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Tali Dror, Iftach Shoham (论文中为共同第一作者) 通讯作者：未说明作者列表：Tali Dror (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Iftach Shoham (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center), Moshe Buchris (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Oren Gal (University of Haifa), Haim H. Permuter (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Gilad Katz (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center), Eliya Nachmani (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) 💡 毒舌点评本文开创性地将离散扩散模型应用于音频修复，将问题转化为token序列补全，并通过精心设计的span masking和导数损失来模拟音频的连续性，实验结果在长空缺修复上显著超越传统方法，这无疑是其最大的亮点。然而，其性能天花板几乎被WavTokenizer这个“黑盒”tokenizer完全锁死，且训练时的“先tokenize再mask”与推理时的“先mask再tokenize”的不匹配可能引入难以量化的误差，这是两个明显的理论与实践短板。 ...