和弦识别 | 语音/音乐/音频论文速递

📄 Empirical Study of Pop and Jazz Mix Ratios for Genre-Adaptive Chord Generation #音乐生成 #和弦识别 #迁移学习 #领域适应 ✅ 7.5/10 | 前50% | #音乐生成 | #迁移学习 | #和弦识别 #领域适应 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jinju Lee（PearlLeeStudio）通讯作者：Jinju Lee（pearl1379@gmail.com）作者列表：Jinju Lee（PearlLeeStudio） 💡 毒舌点评本文的亮点在于极其扎实和清晰的实验设计，将“跨风格微调时需要多少旧数据”这个模糊问题量化为了一个可复现的实证研究，并给出了“1.5倍”这个具有实操价值的启发式阈值。其短板则在于任务本身和评估手段的局限性：一个25M参数的模型在两个小数据集上的结论，且最关键的“风格偏好”判断仅依赖作者一人的主观听感，缺乏形式化的听觉研究来支撑“指标最优≠听感最佳”的有趣结论，使得说服力打了折扣。 📌 核心摘要本文研究了在将流行音乐预训练的和弦生成模型微调至爵士风格时，为防止“灾难性遗忘”所需的“复习”数据量。核心方法是固定使用全部约1,500条爵士训练序列，系统性地变化混合其中的流行音乐训练序列数量（从0到10,000条），使用一个25M参数的Music Transformer进行微调。实验发现：1）所有微调模型在爵士和弦预测准确率上均提升7-9个百分点；2）当流行复习数据量达到爵士数据量的1.5至2倍（约2,500条序列）时，即可完全防止流行音乐预测性能的崩溃；3）超过此阈值，性能收益饱和。论文还通过作者的非正式听感指出，虽然指标最优的中间混合比例（F3）在量化指标上平衡，但风格特征更鲜明的端点模型（流行偏向的F1或爵士偏向的F4）可能更受创作者青睐。这表明在音乐生成工具中，提供多种风格倾向的模型供用户选择可能比提供单一“最优”模型更具价值。主要局限在于实验仅基于单一模型架构和规模，且缺乏正式的多人听觉评估研究。 🔗 开源详情代码：论文中未提及代码链接。论文中说明代码库由作者私人维护，访问权限需通过电子邮件（pearl1379@gmail.com）申请。模型权重：所有六个检查点已发布于 HuggingFace Hub，链接为：https://huggingface.co/PearlLeeStudio。数据集：论文中提及了六个使用的语料库，但未提供统一的开源数据集页面或下载链接。论文说明：“许可的源数据集本身不重新分发”。具体数据集名称及来源如下： Pop：Chordonomicon（用户生成）、McGill Billboard（CC0协议）。 Jazz：Jazz Harmony Treebank (JHT)（公开）、JazzStandards (iReal Pro)（社区）、Weimar Jazz Database (WJazzD)（ODbL协议）、JAAH（研究许可）。外部数据集下载链接已包含在模型卡中。 Demo：论文中未提及在线演示链接。复现材料：论文中提及，所有运行结果的每轮CSV、配置文件、随机种子以及分词器均打包在HuggingFace模型卡的元数据中，可用于端到端地重新生成本文结果。具体文件未在论文中列出，但可通过上述HuggingFace链接获取。论文中引用的开源项目：论文在相关工作中提及了多个项目，但未在本文直接使用其代码。具体提及的项目包括：DoReMi（论文链接：https://arxiv.org/abs/2104.14216）、The Pile（论文链接：https://arxiv.org/abs/2101.00027）。 🏗️ 模型架构论文采用标准的 Music Transformer 架构，专注于和弦符号序列的建模。 ...

语音/音乐/音频论文速递 2026-05-07 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频分类 3篇 ███ #音乐信息检索 2篇 ██ #音乐生成 2篇 ██ #音频质量评估 1篇 █ #语音识别 1篇 █ #语音情感识别 1篇 █ #标签分布学习 1篇 █ #视频编辑 1篇 █ 📊 论文评分排行榜（22 篇，按分数降序）排名论文评分分档主任务 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Ev 8.5分前10% #音频质量评估 🥈 PHALAR: Phasors for Learned Musical Audio Representatio 8.5分前10% #音乐信息检索 🥉 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分前25% #语音识别 4. To Fuse or to Drop? Dual-Path Learning for Resolving Mo 8.0分前25% #语音情感识别 5. Trustworthy Federated Label Distribution Learning under 8.0分前25% #标签分布学习 6. AVI-Edit: Audio-sync Video Instance Editing with Granul 8.0分前25% #视频编辑 7. Empirical Study of Pop and Jazz Mix Ratios for Genre-Ad 7.5分前50% #音乐生成 8. Hearing the Ocean: Bio-inspired Gammatone-CNN framework 7.5分前25% #音频分类 9. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 7.5分前25% #音频安全 10. SEI-SHIELD: Robust Specific Emitter Identification Unde 7.5分前25% #信号处理 11. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.5分前25% #音频分类 12. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分前25% #语音对话系统 13. APEX: Large-scale Multi-task Aesthetic-Informed Popular 7.5分前25% #音乐评估 14. Spatial-Magnifier: Spatial upsampling for multichannel 7.0分前25% #语音增强 15. VocalParse: Towards Unified and Scalable Singing Voice 7.0分前25% #音乐转录 16. Benchmarking LLMs on the Massive Sound Embedding Benchm 7.0分前50% #音频分类 17. Stage-adaptive audio diffusion modeling 7.0分前25% #音频生成 18. Adaptive Diagonal Loading for Norm Constrained Beamform 7.0分前25% #波束成形 19. RenCon 2025: Revival of the Expressive Performance Rend 7.0分前50% #音乐生成 20. Beyond Seeing Is Believing: On Crowdsourced Detection o 7.0分前25% #音频深度伪造检测 21. Stage Light is Sequence^2: Multi-Light Control via Imit 7.0分前25% #舞台技术 22. Library learning with e-graphs on jazz harmony 6.5分前50% #音乐信息检索 📋 论文列表 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv ...