UT-AISTimprt submission for ICME 2026 Grand Challenge on Academic Text-to-Music Generation
📄 UT-AISTimprt submission for ICME 2026 Grand Challenge on Academic Text-to-Music Generation 4.1/10 | 创新 0.4/2 | 严谨 0.8/1.5 | 实验 0.7/1.5 | 清晰 0.5/1 | 影响 0.3/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 📝 4.1/10 | 后50% | #音乐生成 | arxiv 👥 作者与机构 第一作者:Shunsuke Yoshida(未说明) 通讯作者:未说明 作者列表:Shunsuke Yoshida(未说明)、Yu-Hua Chen(未说明)、Satoru Fukayama(未说明) 💡 毒舌点评 这篇挑战赛技术报告的核心贡献,是将NLP社区已知的批次构建策略(CommonIT)应用到低资源文本-音乐生成场景,并验证了“使用条件模态(文本)聚类优于音频聚类”这一符合直觉的结论。方法几乎无创新,其增量价值仅在于特定架构(FluxAudio)上的控制实验。实验设计虽提供了簇数trade-off的初步现象,但缺失了关键的统计显著性检验,且非正式听感测试毫无科学效力,使得关键结论“簇数影响主客观指标偏好”沦为无法采信的轶事。作为技术报告是可接受的工程验证,但作为顶会投稿,其深度和新颖性远未达到录用门槛。 📌 核心摘要 要解决什么问题:论文尝试缓解低资源、小模型条件下,文本生成音乐(TTA)训练中的数据异质性所引发的梯度冲突和训练不稳定问题,从而改善生成质量。 方法核心是什么:完全遵循NLP领域的CommonIT[7]策略。在训练前,分别使用文本嵌入(CLAP)或音频嵌入(VAE编码器)对数据集进行k-means聚类;训练时,每个mini-batch仅从单一聚类簇内采样,以提升批内同质性,减少梯度冲突。 与已有方法相比新在哪里:将单模态NLP中的批次聚类策略迁移至跨模态(文本->音频)音乐生成任务,并首次在此场景下系统对比了基于文本语义和基于音频声学特征两种模态进行聚类的效果差异。 主要实验结果如何:在ICME 2026挑战赛官方评测中,Text-500模型(480M,3.7K数据)FAD=0.646、CLAP=0.260、CSS=0.767,超越了数据量相同的官方基线FluxAudio-S(FAD=0.757),但远逊于数据量和参数量均占优的MusicGen和Stable Audio Open等SOTA模型。额外控制实验表明,聚类采样均优于无聚类基线,且K=50簇取得最佳客观指标(FAD=0.491),但非正式听感显示K=500簇的音乐结构更连贯。详细对比表如下: 表I:官方评测结果(节选自论文) 模型 参数量 训练数据(小时) FAD↓ CLAP↑ CSS↑ proposed (Text-500) 480M 3.7K 0.646 0.260 0.767 FluxAudio-S (基线) 120M 3.7K 0.757 0.088 0.592 Stable Audio Open[3] 1.1B 7.3K 0.574 0.321 0.800 MusicGen-small[2] 300M 20K 0.574 0.370 0.875 MusicGen-medium[2] 1.5B 20K 0.548 0.353 0.892 MusicGen-large[2] 3.3B 20K 0.553 0.379 0.888 MeanAudio-S-Full[6] 120M 10K 0.649 0.210 0.808 MeanAudio-L-Full[6] 480M 10K 0.660 0.202 0.783 表II:额外控制实验(相同架构与配置,仅采样策略不同) ...