Aligning MusicLLM with Emotion using Instruction Tuning and Feedback-Driven Alignment
📄 Aligning MusicLLM with Emotion using Instruction Tuning and Feedback-Driven Alignment #音乐情感识别 #指令微调 #强化学习 4.9/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.2/1.5 📝 4.9/10 | 后50% | #音乐情感识别 | #指令微调 | #强化学习 | arxiv 👥 作者与机构 作者:Takuya Hasumi, Welly Naptali 机构:LY Corporation 💡 毒舌点评 这篇论文的动机尚可,但执行和论证的深度令人失望。它本质上是一次技术应用的报告,而非方法论上的创新。所谓“反馈驱动对齐”不过是将已有的GRPO算法直接套用到一个新任务上,论文未提供任何为何该算法在此场景有效的深度洞察或实验分析。更糟糕的是,实验结果明确显示,即使应用了这一“对齐”,模型的性能依然被简单的MusicFM probing基线轻松碾压。这不禁让人质疑整个工作的必要性——如果一个专门为情感回归设计的、更简单的模型已经表现更好,我们为何要耗费数倍的资源去训练一个庞大、低效且性能更差的多任务模型?论文反复强调“保持了MusicQA能力”,但这更像是一个为了合理化低回归性能的借口。如果回归是主要目标,那么在主要目标上不及格,而次要目标上“达标”,并不能构成一个强有力的故事。 📌 核心摘要 本文探讨了如何通过指令微调和反馈驱动对齐(FDA)来提升音乐大语言模型(MusicLLM)在情感回归任务上的表现。作者基于SLAM-LLM架构,构建了由MusicFM编码器和Vicuna解码器组成的模型。实验对比了仅指令微调、指令微调后接FDA(采用GRPO算法)等策略。结果表明,单独的指令微调对效度(valence)预测提升有限,而引入基于回归误差的数值奖励的FDA后,唤醒度和效度预测均得到显著提升,并且模型的通用音乐问答能力得以维持。然而,该方法最终的回归性能仍低于传统的MusicFM probing基线和部分编码器专用模型。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重: 音乐编码器 (MusicFM): https://huggingface.co/ExponentialML/MusicFM-LMS-256 文本解码器 (Vicuna): https://huggingface.co/lmsys/vicuna-7b-v1.5 作为基线评估的开源模型: Qwen2-Audio: https://huggingface.co/Qwen/Qwen2-Audio-7B-Instruct Phi-4-Multimodal: https://huggingface.co/microsoft/Phi-4-multimodal-instruct 数据集: DEAM: http://cvml.unige.ch/databases/DEAM/ MERGE: https://github.com/wangsixu/MERGE MusicQA: https://github.com/RuslanLukashen/MusicQA (用于评估通用音乐问答能力) Demo:论文中未提及。 复现材料:论文中提及了详细的训练配置(如优化器、批次大小、梯度累积步数、LoRA参数、GRPO参数等),但未提供具体的训练脚本、配置文件或预训练检查点。 论文中引用的开源项目: SLAM-LLM: https://github.com/fanhuashuo/SLAM-LLM (本工作基于的模型架构) GRPO (Group Relative Policy Optimization): https://github.com/airobotlab-KoGrPO/GRPO (论文中采用的对齐算法) LoRA (Low-Rank Adaptation): https://github.com/microsoft/LoRA (训练时使用的技术) 作者与机构 作者:Takuya Hasumi, Welly Naptali 机构:LY Corporation ...