Empirical Study of Pop and Jazz Mix Ratios for Genre-Adaptive Chord Generation

📄 Empirical Study of Pop and Jazz Mix Ratios for Genre-Adaptive Chord Generation #音乐生成 #和弦识别 #迁移学习 #领域适应 ✅ 7.5/10 | 前50% | #音乐生成 | #迁移学习 | #和弦识别 #领域适应 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jinju Lee(PearlLeeStudio) 通讯作者:Jinju Lee(pearl1379@gmail.com) 作者列表:Jinju Lee(PearlLeeStudio) 💡 毒舌点评 本文的亮点在于极其扎实和清晰的实验设计,将“跨风格微调时需要多少旧数据”这个模糊问题量化为了一个可复现的实证研究,并给出了“1.5倍”这个具有实操价值的启发式阈值。其短板则在于任务本身和评估手段的局限性:一个25M参数的模型在两个小数据集上的结论,且最关键的“风格偏好”判断仅依赖作者一人的主观听感,缺乏形式化的听觉研究来支撑“指标最优≠听感最佳”的有趣结论,使得说服力打了折扣。 📌 核心摘要 本文研究了在将流行音乐预训练的和弦生成模型微调至爵士风格时,为防止“灾难性遗忘”所需的“复习”数据量。核心方法是固定使用全部约1,500条爵士训练序列,系统性地变化混合其中的流行音乐训练序列数量(从0到10,000条),使用一个25M参数的Music Transformer进行微调。实验发现:1)所有微调模型在爵士和弦预测准确率上均提升7-9个百分点;2)当流行复习数据量达到爵士数据量的1.5至2倍(约2,500条序列)时,即可完全防止流行音乐预测性能的崩溃;3)超过此阈值,性能收益饱和。论文还通过作者的非正式听感指出,虽然指标最优的中间混合比例(F3)在量化指标上平衡,但风格特征更鲜明的端点模型(流行偏向的F1或爵士偏向的F4)可能更受创作者青睐。这表明在音乐生成工具中,提供多种风格倾向的模型供用户选择可能比提供单一“最优”模型更具价值。主要局限在于实验仅基于单一模型架构和规模,且缺乏正式的多人听觉评估研究。 🔗 开源详情 代码:论文中未提及代码链接。论文中说明代码库由作者私人维护,访问权限需通过电子邮件(pearl1379@gmail.com)申请。 模型权重:所有六个检查点已发布于 HuggingFace Hub,链接为:https://huggingface.co/PearlLeeStudio。 数据集:论文中提及了六个使用的语料库,但未提供统一的开源数据集页面或下载链接。论文说明:“许可的源数据集本身不重新分发”。具体数据集名称及来源如下: Pop:Chordonomicon(用户生成)、McGill Billboard(CC0协议)。 Jazz:Jazz Harmony Treebank (JHT)(公开)、JazzStandards (iReal Pro)(社区)、Weimar Jazz Database (WJazzD)(ODbL协议)、JAAH(研究许可)。 外部数据集下载链接已包含在模型卡中。 Demo:论文中未提及在线演示链接。 复现材料:论文中提及,所有运行结果的每轮CSV、配置文件、随机种子以及分词器均打包在HuggingFace模型卡的元数据中,可用于端到端地重新生成本文结果。具体文件未在论文中列出,但可通过上述HuggingFace链接获取。 论文中引用的开源项目:论文在相关工作中提及了多个项目,但未在本文直接使用其代码。具体提及的项目包括:DoReMi(论文链接:https://arxiv.org/abs/2104.14216)、The Pile(论文链接:https://arxiv.org/abs/2101.00027)。 🏗️ 模型架构 论文采用标准的 Music Transformer 架构,专注于和弦符号序列的建模。 ...

2026-05-07 · 更新于 2026-05-19 · 2 min · 282 words

语音/音频论文速递 2026-05-07

语音/音频论文速递 2026-05-07 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频分类 3篇 ███ #音乐信息检索 2篇 ██ #音乐生成 2篇 ██ #音频质量评估 1篇 █ #语音识别 1篇 █ #语音情感识别 1篇 █ #标签分布学习 1篇 █ #视频编辑 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Ev 8.5分 前10% #音频质量评估 🥈 PHALAR: Phasors for Learned Musical Audio Representatio 8.5分 前10% #音乐信息检索 🥉 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分 前25% #语音识别 4. To Fuse or to Drop? Dual-Path Learning for Resolving Mo 8.0分 前25% #语音情感识别 5. Trustworthy Federated Label Distribution Learning under 8.0分 前25% #标签分布学习 6. AVI-Edit: Audio-sync Video Instance Editing with Granul 8.0分 前25% #视频编辑 7. Empirical Study of Pop and Jazz Mix Ratios for Genre-Ad 7.5分 前50% #音乐生成 8. Hearing the Ocean: Bio-inspired Gammatone-CNN framework 7.5分 前25% #音频分类 9. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 7.5分 前25% #音频安全 10. SEI-SHIELD: Robust Specific Emitter Identification Unde 7.5分 前25% #信号处理 11. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.5分 前25% #音频分类 12. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分 前25% #语音对话系统 13. APEX: Large-scale Multi-task Aesthetic-Informed Popular 7.5分 前25% #音乐评估 14. Spatial-Magnifier: Spatial upsampling for multichannel 7.0分 前25% #语音增强 15. VocalParse: Towards Unified and Scalable Singing Voice 7.0分 前25% #音乐转录 16. Benchmarking LLMs on the Massive Sound Embedding Benchm 7.0分 前50% #音频分类 17. Stage-adaptive audio diffusion modeling 7.0分 前25% #音频生成 18. Adaptive Diagonal Loading for Norm Constrained Beamform 7.0分 前25% #波束成形 19. RenCon 2025: Revival of the Expressive Performance Rend 7.0分 前50% #音乐生成 20. Beyond Seeing Is Believing: On Crowdsourced Detection o 7.0分 前25% #音频深度伪造检测 21. Stage Light is Sequence^2: Multi-Light Control via Imit 7.0分 前25% #舞台技术 22. Library learning with e-graphs on jazz harmony 6.5分 前50% #音乐信息检索 📋 论文列表 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv ...

2026-05-07 · 更新于 2026-05-19 · 14 min · 2879 words