A novel LSTM music generator based on the fractional time-frequency feature extraction
📄 A novel LSTM music generator based on the fractional time-frequency feature extraction #音乐生成 #LSTM #时频分析 #数据集 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 第一作者:Li Ya(海南师范大学音乐学院) 通讯作者:根据邮箱推断,Li Ya (liya@hainnu.edu.cn) 和 Chen Wei (chenwei@hainanu.edu.cn) 可能为共同通讯作者。 其他作者: Chen Wei(海南师范大学外国语学院) Li Xiulai(海南海瑞众创科技有限公司,研发部) Yu Lei(海南师范大学音乐学院) Deng Xinyi(海南师范大学音乐学院) Chen Chaofan(海南海瑞众创科技有限公司,研发部) 💡 毒舌点评 这篇论文的亮点在于把信号处理领域的“古老神器”分数阶傅里叶变换(FrFT)拽进了AI音乐生成的派对,试图在时频平面上找个更刁钻的角度来“撬开”音乐的特征,想法值得点赞。但槽点在于,实验部分寒酸得像用MIDI键盘弹了个单音旋律就宣称自己复刻了交响乐团——缺乏与SOTA方法的正面PK,没有听众盲测,仅靠几条损失曲线和波形对比图就得出“生成质量媲美人类”的结论,这自信程度堪比认为学会了音阶就能写《月光奏鸣曲》。 🔗 开源详情 代码:论文在“Experimental support”部分提到“please view the build logs for errors”并提供了GitHub Issue报告链接(格式为“Report GitHub Issue ×”),暗示代码可能托管在GitHub上,但未提供完整的仓库URL。因此,无法确认代码是否完全开源及具体状态。 模型权重:未提及是否公开。 数据集:使用了公开的GiantMIDI-Piano数据集,但论文未提供基于此数据集处理后的具体数据或索引。 预训练权重:未提及。 在线Demo:未提及。 引用的开源项目:未明确列出。 📌 核心摘要 本文提出了一种基于分数阶傅里叶变换(FrFT)和长短期记忆网络(LSTM)的新型AI音乐生成系统。核心目标是利用FrFT在分数阶域(时频平面的旋转表示)中提取比传统时域或频域更丰富的音乐信号特征,以解决传统LSTM在捕捉音乐复杂时频结构上的不足。关键方法是将输入音乐信号进行FrFT变换,分离其实部和虚部并归一化后,分别输入到一个多层LSTM网络中进行训练和预测,最后将网络输出的实部和虚部合并并通过逆FrFT重构为音频信号。主要发现是,在GiantMIDI-Piano钢琴数据集上,该方法在训练集的损失值(0.0155)低于不使用FrFT的基线方法(0.0351),并且生成的波形与原始音乐在视觉上相似。实际意义在于探索了将经典信号处理工具与深度学习结合用于音乐生成的新路径。主要局限性在于实验验证极不充分,缺乏与SOTA方法的对比、客观音乐质量评估和主观听感测试,方法细节(如FrFT公式的准确性、为何选择α=0.05)阐述模糊,结论的可靠性存疑。 🏗️ 模型架构 该模型是一个端到端的音乐音频生成系统,流程如下: ...