Token-Based Audio Inpainting via Discrete Diffusion

📄 Token-Based Audio Inpainting via Discrete Diffusion #音乐生成 #扩散模型 #预训练 #离散模型 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #预训练 #离散模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Tali Dror, Iftach Shoham(*为共同第一作者)(Ben-Gurion University of the Negev) 通讯作者:未明确标注(从作者列表及邮箱推测,Eliya Nachmani可能是负责人) 作者列表: Tali Dror (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Iftach Shoham (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center) Moshe Buchris (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Oren Gal (University of Haifa) Haim Permuter (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Gilad Katz (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center) Eliya Nachmani (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) 💡 毒舌点评 这篇论文的亮点在于它为音频修复这个“老”问题提供了一个“新”且优雅的技术范式——直接在离散token空间用扩散模型“填空”,避开了连续波形或频谱建模的诸多麻烦,并在长间隙修复上证明了其有效性。然而,其理论深度和创新野心略显不足,本质上是现有组件(WavTokenizer, DiT, DWDSE)的巧妙集成与适配,且实验规模(如数据集量级、模型参数)与当前大模型时代的主流工作相比显得较为“迷你”,限制了其更广泛的影响力。 ...

2026-05-04 · 更新于 2026-05-19 · 3 min · 508 words