音乐理解 | 语音/音乐/音频论文速递

Decomposer: Learning to Decompile Symbolic Music to Programs

📄 Decomposer: Learning to Decompile Symbolic Music to Programs #音乐理解 #音乐生成 #强化学习 #可解释性 8.4/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 🔥 8.4/10 | 前25% | #音乐理解 | #强化学习 | #音乐生成 #可解释性 | arxiv 👥 作者与机构第一作者：Yewon Kim (Carnegie Mellon University) 通讯作者：Chris Donahue (Carnegie Mellon University，作为共同作者排在最后，惯例默认为通讯作者) 作者列表：Yewon Kim, Apurva Gandhi, David Chung, Graham Neubig, Chris Donahue (全为Carnegie Mellon University) 💡 毒舌点评将音乐“反编译”为程序的想法颇具巧思，两阶段的SFT+RL框架确实在逼真度和可读性之间找到了一个相对实用的平衡点，工程实现完整度也高。然而，可读性的衡量标尺看似面面俱到，实则是用LLM法官打钩的清单来逼近人类的审美直觉，略显机械；此外，这种清单对Chiptune等特定音乐风格的适配性存疑，但作者对此论证不足。整体而言，这是一个优雅但不乏瑕疵的跨领域应用，在音乐AI领域开辟了一个有趣但尚需打磨的新方向。 ...

Profy: Interpretable Visualization of Expertise-Dependent Motor Skills Toward Supporting Piano Practice

📄 Profy: Interpretable Visualization of Expertise-Dependent Motor Skills Toward Supporting Piano Practice #多模态模型 #正则化微调 #音乐信息检索 #音乐理解 6.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.9/10 | 前50% | #音乐信息检索 | #多模态模型 | #正则化微调 #音乐理解 | arxiv 👥 作者与机构 Kazuki Kawamura (东京大学，索尼计算机科学实验室), Fujiki Nakamura (东京大学), Hayato Nishioka (索尼计算机科学实验室， NeuroPiano研究所), Momoko Shioki (索尼计算机科学实验室， NeuroPiano研究所), Shinichi Furuya (索尼计算机科学实验室， NeuroPiano研究所), Jun Rekimoto (东京大学，索尼计算机科学实验室) ...

Can LLMs understand LilyPond? A benchmark for symbolic music generation and understanding

📄 Can LLMs understand LilyPond? A benchmark for symbolic music generation and understanding #音乐生成 #音乐理解 #基准测试 #大语言模型 7/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7/10 | 前50% | #音乐生成 | #音乐理解 | #基准测试 #大语言模型 | arxiv 👥 作者与机构 Matteo Spanio, Mohammad Torabi, Andrea Poltronieri, Antonio Rodà。主要机构：Centro di Sonologia Computazionale, University of Padova, Italy；Music Technology Group, Universitat Pompeu Fabra, Barcelona, Spain。 ...

Exploring LLMs for South Asian Music Understanding and Generation

📄 Exploring LLMs for South Asian Music Understanding and Generation #音乐理解 #音乐生成 #低资源 #大语言模型 7.7/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前50% | #音乐生成 | #音乐理解 | #低资源 #大语言模型 | arxiv 👥 作者与机构 Faria Binte Kader, Mohtasim Hadi Rafi, Shah Wasif Sazzad, Santu Karmaker University of Central Florida, Auburn University ...

MOSS-Audio Technical Report

📄 MOSS-Audio Technical Report #语音识别 #音乐理解 #多模态模型 #预训练 9.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.2/10 | 前25% | #语音识别 | #预训练 | #音乐理解 #多模态模型 | arxiv 👥 作者与机构核心贡献者：Chen Yang, Chufan Yu, Hanfu Chen, Jie Zhu, Jingqi Chen, Ke Chen, Wenxuan Wang, Yang Wang, Yaozhou Jiang, Yi Jiang, Zhengyuan Lin, Ziqi Chen, Zhaoye Fei 贡献者：Chenghao Liu, Jun Zhan, Kang Yu, Kexin Huang, Mingshu Chen, Qinyuan Cheng, Ruixiao Li, Shimin Li, Songlin Wang, Yang Gao, Yiyang Zhang 顾问：Xipeng Qiu§ 单位：上海创新研究院 (Shanghai Innovation Institute)、MOSI Intelligence、复旦大学 (Fudan University) ...

Library learning with e-graphs on jazz harmony

📄 Library learning with e-graphs on jazz harmony #音乐信息检索 #音乐理解 #程序合成 #库学习 ✅ 6.5/10 | 前50% | #音乐信息检索 | #程序合成 | #音乐理解 #库学习 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Zeng Ren (EPFL Lausanne, Vaud, Switzerland) 通讯作者：Martin Rohrmeier (EPFL Lausanne, Vaud, Switzerland) 作者列表：Zeng Ren (EPFL Lausanne, Vaud, Switzerland)、Maddy Bowers (MIT, Cambridge, Massachusetts, USA)、Xinyi Guan (EPFL Lausanne, Vaud, Switzerland)、Martin Rohrmeier (EPFL Lausanne, Vaud, Switzerland) 💡 毒舌点评这篇论文将音乐模式发现巧妙地形式化为可重用程序片段的合成问题，并在技术上创造性地整合了演绎解析与e-graph上的库学习，理论框架新颖且自洽。然而，核心实验仅在3首长度有限的爵士乐曲上进行概念验证，其计算效率、对更复杂或更大规模语料库的适用性，以及学习到的模式是否具有音乐理论上的普适意义，都亟需更大规模的实验来验证，目前看更像一个技术探索而非成熟的解决方案。 ...

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

📄 APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music #音乐理解 #多任务学习 #自监督学习 #音乐生成 🔥 8.0/10 | 前25% | #音乐理解 | #多任务学习 | #自监督学习 #音乐生成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Jaavid Aktar Husain（AMAAI Lab, Singapore University of Technology and Design）通讯作者：Dorien Herremans（AMAAI Lab, Singapore University of Technology and Design）作者列表：Jaavid Aktar Husain（AMAAI Lab, Singapore University of Technology and Design）、Dorien Herremans（AMAAI Lab, Singapore University of Technology and Design） 💡 毒舌点评论文的最大亮点是首次为AI生成音乐构建了流行度与美学质量的联合预测框架，并用严谨的跨架构泛化实验证明了美学特征的有效性，为这一新兴领域提供了有价值的分析视角。短板在于其核心的多任务学习框架在技术上相对常规，且实验结果显示美学辅助任务对主流行度任务的提升有限，这使得“联合预测”带来的增益不够突出。 ...

PHALAR: Phasors for Learned Musical Audio Representations

📄 PHALAR: Phasors for Learned Musical Audio Representations #音乐信息检索 #对比学习 #音乐理解 #复数值神经网络 #等变学习 🔥 8.0/10 | 前10% | #音乐信息检索 | #对比学习 | #音乐理解 #复数值神经网络 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文未明确标注）通讯作者：未说明作者列表：Davide Marincione（未说明机构）、Michele Mancusi（未说明机构）、Giorgio Strano（未说明机构）、Luca Cerovaz（未说明机构）、Donato Crisostomi（未说明机构）、Roberto Ribuoli（未说明机构）、Emanuele Rodolà（未说明机构）（注：论文正文中未提供作者所属机构信息，仅在致谢中提到获得意大利MUR和Sapienza大学资助。） 💡 毒舌点评亮点在于用优雅的数学（傅里叶位移定理）和几何（复平面旋转）思想解决了一个音频领域的具体痛点（音乐连贯性），实验设计堪称典范，从检索任务到人类评估再到涌现能力验证，逻辑链条非常完整。短板是任务场景相对垂直，在更广泛的“音乐理解”或“通用音频表示”上的泛化能力尚未充分证明，且其核心依赖时域周期性的假设在处理自由速度（rubato）音乐时存在理论局限。 🔗 开源详情代码：https://github.com/gladia-research-group/phalar 模型权重：论文中提到检查点（checkpoints）与代码一并发布在上述GitHub仓库中（具体路径未在文中明确说明）。数据集：论文中提及并使用了以下三个数据集： MoisesDB Slakh2100 ChocoChorales （注：论文未提供这些数据集的具体下载链接，但这些是公开可用的数据集。） Demo：论文中未提及在线演示链接。复现材料：论文中提到，代码、检查点和人类评估结果（复现材料的核心部分）已发布于 GitHub 仓库。此外，训练配置等细节在论文的实验设置（Section 4.1）及附录中有详细描述。论文中引用的开源项目： COCOLA: (Ciranni et al., 2025) - 论文中未提供链接。 MERT: (Li et al., 2024) - 论文中未提供链接。 CLAP: (Wu* et al., 2023) - 论文中未提供链接。 CDPAM: (Manocha et al., 2021) - 论文中未提供链接。 ViSQOL: (Chinen et al., 2020) - 论文中未提供链接。 Audiobox-Aesthetics: (Tjandra et al., 2025) - 论文中未提供链接。常量Q变换 (CQT): 引用了 Holighaus et al., 2012 - 论文中未提供具体实现链接。 Muon优化器: (Jordan et al., 2024) - 论文中未提供链接。 MUSDB18-HQ数据集: (Rafii et al., 2017, 2019) - 论文中未提供链接。 StableAudio-ControlNet: (Evans et al., 2025) - 论文中未提供链接。 STAGE: (Strano et al., 2025) - 论文中未提供链接。 Beat This!: (Foscarin et al., 2024) - 论文中未提供链接。 DAC: (Kumar et al., 2023) - 论文中未提供链接。 EnCodec: (Défossez et al., ) - 论文中未提供链接。补充信息 [模型架构] 补充：在设计相位感知双线性相似度时，论文明确指出，为了确保高能量瞬态对最终分数的贡献成比例，而低能量背景噪声的贡献较小，故意省略了tanh等饱和非线性激活函数。这是对标准双线性模型的一个重要调整。 [细节详述] 补充：在损失函数细节上，论文明确使用了InfoNCE损失，并应用了标签平滑技术，将正样本的目标概率设置为 l=0.9，以缓解音乐训练集中因共享调性、节奏而产生的“假负例”问题。 [作者与机构] 补充：虽然论文正文的作者列表未标注机构，但在致谢部分明确提到本工作得到了“Sapienza大学”的资助，这暗示了部分作者可能隶属于该校。 [实验结果] 补充：论文在“人类相关性”实验部分，对实验设计给出了更具体的描述：共使用了来自MUSDB18-HQ测试集的 98个样本（49个Bass，49个Drums），为每个样本生成了4个变体（Ground Truth + 3个生成模型），最终产生了 880个个人评分。分析中未给出这些具体的实验规模数字。 [实验结果] 补充：在描述与SOTA的差距时，可以更精确地引用原文数据：在最具挑战性的MoisesDB K=64设置下，PHALAR（2.3M参数）的准确率为 70.87%，相比COCOLA基线（5.2M参数）的 41.84%，相对提升约为 69%（(70.87-41.84)/41.84 ≈ 0.692）。 [毒舌点评/核心摘要] 补充：在论文的“局限性”部分，除分析已指出的周期性假设和音频压缩问题外，还明确提到了数据集偏差：训练数据主要来自西方流行音乐，因此模型的“连贯性”概念可能无法与那些将微时序偏差视为风格特征（而非错误）的音乐文化或风格中的人类判断相匹配。 📌 核心摘要要解决什么问题：现有音乐音频表示学习模型（如CLAP、COCOLA）通过全局平均池化（GAP）丢弃了关键的时间对齐和相位信息，导致无法有效建模音乐中不同音轨（如鼓和贝斯）之间的“结构连贯性”（即时间与和声上的契合度）。方法核心是什么：提出PHALAR框架，核心是利用傅里叶位移定理，通过学习频谱池化层（将时间维度进行FFT）和复数值神经网络（CVNN）头，将时间偏移显式编码为复数潜空间中的相位旋转，从而强制模型学习相位等变性。与已有方法相比新在哪里：根本性地从追求“时间不变性”（传统分类任务需要）转变为追求“时间等变性”（结构连贯性任务需要）。具体体现在用学习频谱池化替代了GAP，用CVNN替代了实值MLP，并设计了相位感知的双线性相似度度量。主要实验结果如何：检索任务：在MoisesDB、Slakh2100、ChocoChorales三个数据集的K-way检索任务上均达到SOTA。在最具挑战性的MoisesDB K=64设置下，PHALAR（2.3M参数）准确率为70.87%，相比COCOLA基线（5.2M参数，41.84%）相对提升约69%。人类相关性：在人类感知相关性测试中，PHALAR的皮尔逊相关系数（ρ=0.387）和斯皮尔曼系数（r_s=0.414）均显著高于所有基线（p<0.05），且线性混合模型的AIC值最低（2451.48）。消融研究：移除频谱池化层导致准确率下降18.9%，移除相位等变性（仅用幅度）下降10.3%，证实了核心组件的必要性。涌现能力：在从未经过节奏或和声监督训练的情况下，PHALAR在零样本节拍追踪任务上达到了F1=0.627（基准Beat This!为0.888），在和弦线性探测任务上准确率为55.2%（超越Chroma CQT基线的50.6%）。实际意义是什么：为音乐制作中的音轨匹配、干声检索提供了高效的自动化工具。更重要的是，提出了一种可参考、可感知对齐的音频生成评估指标，能够评估生成的音轨是否与其互补音轨在时间上“合拍”，弥补了传统分布度量（如FAD）忽略条件匹配的缺陷。主要局限性是什么：模型依赖RFFT的周期性假设，在非周期性速度变化（如自由速度rubato）的音乐中性能会下降；对音频压缩损失敏感；其“连贯性”概念可能受西方流行音乐数据集偏见影响。 🏗️ 模型架构 PHALAR的整体架构分为三个阶段：谐波特征提取、频谱聚合、复数值头处理与相似度计算。 ...

CustomDancer: Customized Dance Recommendation by Text-Dance Retrieval

📄 CustomDancer: Customized Dance Recommendation by Text-Dance Retrieval #音频检索 #音乐理解 #对比学习 #多模态模型 #数据集 ✅ 6.5/10 | 前50% | #音频检索 #音乐理解 | #对比学习 #多模态模型 | #音频检索 #音乐理解 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yawen Qin（中南民族大学， South-Central Minzu University）通讯作者：未明确说明（根据作者列表，通讯作者可能是Qin Zhang或Ke Qiu，但论文中未明确标注）作者列表：Yawen Qin（中南民族大学）、Ke Qiu（未说明所属机构）、Qin Zhang（未说明所属机构） 💡 毒舌点评亮点是构建了首个针对文本-舞蹈检索的专用大规模数据集（TD-Data），并采用了严谨的专家标注流程，为后续研究奠定了重要基础。短板是主实验对比的基线过于简单（仅有两个通用的跨模态检索模型），未能与更相关的音频-文本或动作-文本检索方法进行比较，削弱了“State-of-the-Art”声称的说服力，且代码未开源。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及数据集开源链接（论文介绍了自建的 TD-Data 数据集，但未提供任何可供下载的链接或开源仓库地址） Demo：论文中未提及复现材料：论文中未提及复现所需的具体代码仓库、训练脚本或检查点链接，但提供了详细的超参数和实现细节，可参考论文第4.8节。论文中引用的开源项目：论文引用了CLIP、Librosa、SMPL等工具，但未在正文中提供这些项目的具体GitHub或主页链接。补充信息 [细节详述] 补充：论文在实施细节（第4.8节）中明确了关键训练设置：文本编码器使用CLIP预训练权重初始化，其学习率设置得小于新初始化的MLP适配器以及音乐和运动编码器。此外，音乐和运动编码器是从零开始训练，因其输入分布与CLIP预训练数据差异大。论文未具体提及优化器类型、学习率数值、批次大小或训练硬件/时长。 [细节详述/实验结果] 补充：在主对比实验（表1）中，CustomDancer的Recall@1（10.23%）相较于最强基线XPool（9.46%）提升了0.77个百分点。用户研究（表4）具体说明为单盲研究，由10位参与者（包括业余舞者、编舞者和教师）进行。 [模型架构] 补充：文本编码器中的MLP适配器的作用是将CLIP嵌入投影到检索空间的维度 d（第4.3节）。 [创新点] 补充：论文在引言末尾明确总结了三点贡献，与分析中的核心创新点对应：1）为文本-舞蹈检索任务制定基准并引入TD-Data数据集；2）提出CustomDancer多模态框架；3）进行了广泛的实验、消融、用户研究和可视化分析。 [细节详述] 补充：TD-Data数据集的具体统计信息包括：由27位专业舞者表演，总时长14.6小时（第3.2节）。 [实验结果] 补充：论文在第5.2节强调，训练时采用单向（文本到舞蹈）的对齐作为主要目标，因为这符合用户交互场景。评估时使用整个测试集作为候选库进行排序，而非小子集，以模拟真实的大规模检索场景。 [核心摘要/模型架构] 补充：论文在摘要和引言中明确指出其核心任务定义与动机：现有方法（文本到动作生成、音乐到舞蹈、视频文本检索）存在不足，无法同时满足用户对音乐节奏和身体动态语义的自然语言检索需求，从而形成了本文的任务和方法。 [评分理由/毒舌点评] 补充：论文在摘要中明确声明“CustomDancer achieves state-of-the-art performance on TD-Data”，但其主实验对比的基线（仅两个通用的跨模态检索模型）的选择广度和领域相关性有限，这与该声明的说服力存在落差。 [核心摘要] 补充：论文在第5.6节详细讨论了三种失败案例：1）对高度专业化舞蹈术语的匹配不佳；2）当视觉运动与音乐情感冲突时的歧义；3）可能被表演者个人风格作为捷径所利用。这构成了其自我声明的局限性的一部分。 [核心摘要] 补充：论文在结论和未来工作部分提出，未来方向包括扩展TD-Data至多语言标注、更细粒度的编舞标签和交互式检索反馈，并探索将检索与生成耦合（先检索相关舞蹈，再适应新音乐/风格/表演者）。 [模型架构/评分理由] 补充：论文在第5.8节讨论中强调，文本-舞蹈检索不是文本-视频检索的更小变体，因为舞蹈中存在视觉相似但编舞含义不同的情况，反之亦然，这构成了独特的排名挑战。 [开源详情] 补充：论文在引用的开源项目（如CLIP、Librosa、SMPL）处也未提供具体的GitHub或主页链接（第2、4节）。 📌 核心摘要要解决什么问题：解决在线舞蹈内容爆炸式增长下的个性化发现难题，提出“文本-舞蹈检索”任务，即根据自然语言描述检索同时满足音乐节奏和身体动态语义的舞蹈片段。现有方法或忽视节奏，或缺乏自然语言接口。方法核心是什么：提出CustomDancer多模态检索框架。使用CLIP文本编码器处理查询，使用独立的Transformer编码器分别处理音乐（Librosa特征）和3D运动（SMPL参数）时序信息，然后通过一个同时包含加法和乘法交互的“音乐-运动混合模块”将二者融合为统一的舞蹈表征，最后通过对比学习对齐文本与舞蹈的嵌入空间。与已有方法相比新在哪里：1) 数据层面：构建并开放了首个大规模、高质量的文本-舞蹈检索数据集TD-Data，包含约4000个片段，由专家进行结构化标注并生成自然语言描述。2) 模型层面：专门针对舞蹈的音乐-运动同步特性设计了多模态融合架构，而非直接套用通用的视频-文本或音频-文本检索模型。主要实验结果如何：在自建TD-Data测试集上，CustomDancer的检索性能优于两个强基线（TABLE， XPool）。例如，在Recall@1上达到10.23%，比最强基线XPool（9.46%）高0.77个百分点。消融实验表明，Transformer优于RNN/LSTM，加法+乘法的融合策略优于单一策略。用户研究显示，其检索结果在文本-运动一致性（3.82）和文本-音乐相关性（3.68）上均优于基线。实际意义是什么：为舞蹈内容平台（如TikTok、B站舞蹈区）提供更精准的搜索和推荐技术，帮助用户、编舞者、学习者高效发现符合特定风格、节奏或动作描述的舞蹈内容，促进舞蹈文化的传播与学习。主要局限性是什么：1) 数据集：规模（约4k片段）和多样性（22种风格）对于通用舞蹈检索仍有限。2) 模型与对比：模型创新为有效整合而非突破；实验对比的基线与任务相关性不够强。3) 任务定义：未深入探讨用户查询的模糊性（如情绪描述 vs. 具体动作）和检索结果的多义性。4) 泛化性：依赖3D运动数据（SMPL），在真实2D视频场景中的应用需要额外转换。 🏗️ 模型架构 CustomDancer的整体架构如图3所示，是一个四模块的多模态对齐框架，旨在将文本查询与包含音乐和3D运动的舞蹈候选进行匹配。 ...

GaMMA: Towards Joint Global-Temporal Music Understanding in Large Multimodal Models

📄 GaMMA: Towards Joint Global-Temporal Music Understanding in Large Multimodal Models #音乐理解 #多模态模型 #预训练 #强化学习 #基准测试 ✅ 7.0/10 | 前25% | #音乐理解 | #多模态模型 | #预训练 #强化学习 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：未说明（摘要仅列出作者顺序，未明确标注第一作者）通讯作者：未说明（摘要未提供此信息）作者列表：Zuyao You、Zhesong Yu、Mingyu Liu、Bilei Zhu、Yuan Wan、Zuxuan Wu（所属机构均未说明） 💡 毒舌点评亮点：论文的野心不小，试图用一个统一模型搞定音乐的“全局理解”和“时序理解”两大类任务，并顺手造了个号称最大最全的音乐问答基准MusicBench，对推动领域标准化评估功不可没。短板：模型架构本身是LLaVA在音频领域的直接迁移，核心创新“混合专家音频编码器”听起来很美，但在摘要中缺乏具体的结构对比和性能消融来证明其不可替代性，更像是工程上的“搭积木”而非原理突破。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文中提及使用了“精心策划的规模化数据集”，但未给出具体名称或开源链接。同时，论文推出了 MusicBench 基准，但未提供其数据集的公开获取地址。 Demo：论文中未提及。复现材料：论文中描述了“包含预训练、监督微调（SFT）和强化学习（RL）的渐进式训练流程”，但未提供具体的训练配置、检查点或详细的复现指南附录。论文中引用的开源项目： LLaVA：论文指出其架构继承自LLaVA，但未在文中提供该项目的具体链接。 📌 核心摘要问题：现有的大型多模态模型在音乐内容理解方面，难以同时高效处理需要时序分析的（如节奏、旋律跟踪）和非时序的（如风格、情绪识别）任务，且缺乏全面的评估基准。方法核心：提出GaMMA模型，基于LLaVA架构，采用混合专家（MoE）模式整合多个音频编码器，以一套参数统一处理时序与非时序音乐任务。采用包含预训练、监督微调（SFT）和强化学习（RL）的渐进式训练管线。新意：1) 架构上，MoE音频编码器的设计使模型能自适应地从不同“专家”获取处理不同任务所需的特征。2) 流程上，结合大规模数据与预训练-SFT-RL的三阶段训练，系统性地提升模型能力。3) 贡献了当前最大的音乐理解基准测试集MusicBench。实验结果：在多个基准上取得SOTA：MuchoMusic上79.1%准确率，MusicBench-Temporal上79.3%，MusicBench-Global上81.3%。论文声称一致超越了先前方法。实际意义：为音乐信息检索、音乐生成评估、智能音乐助手等应用提供了更强大的底层理解模型，并设立了新的评估标杆（MusicBench）。局限性：摘要未提及模型的具体参数规模、训练计算开销以及在更广泛音乐流派或噪声环境下的泛化能力。其通用性与效率的权衡有待进一步探讨。 🏗️ 模型架构 GaMMA的整体架构继承自LLaVA，是一个典型的“视觉（音频）编码器-投影层-大语言解码器”的三明治结构，但核心修改在于“音频编码器”部分。 ...