Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation
📄 Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation #音乐生成 #自回归模型 #音频大模型 #预训练 #模型评估 ✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #音频大模型 #预训练 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiafeng Liu (中央音乐学院) 通讯作者:Maosong Sun (清华大学) 作者列表:Jiafeng Liu (中央音乐学院), Yuanliang Dong (中央音乐学院), Hongjia Liu (中央音乐学院), Yuqing Cheng (中央音乐学院), Zhancheng Guo (中央音乐学院), Huijing Liang (中央音乐学院), Wenbo Zhan (中央音乐学院), Yuming Sun (中央音乐学院), Xiaobing Li (中央音乐学院), Feng Yu (中央音乐学院), Maosong Sun (清华大学) 💡 毒舌点评 亮点:大胆摒弃了音乐生成中常见的“语义token+声学解码器”或“扩散模型”的双阶段异构范式,提出并验证了在一个统一的64层RVQ声学token层次中完成从结构到高保真度生成的可能性,这种思路的简洁性和统一性本身就是一个重要的理论贡献。 短板:虽然人类评估结果亮眼,但论文避开了与当前最强开源模型(如MusicGen, Udio等)在标准客观指标(如FAD, CLAP score)上的直接对比,使得“开源最强”的宣称在客观比较维度上显得不够硬核;其核心发现“文本对齐可在纯声学模型中涌现”极度依赖精巧的训练技巧(Task 0),这暗示了纯声学路径的脆弱性,并未真正消解对显式语义建模的需求。 ...