音乐分离，

📄 Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models #音乐分离， #自回归模型， #大语言模型， #音频大模型 ✅ 评分：7.0/10 | arxiv 👥 作者与机构第一作者/通讯作者：彭博吕 (Pengbo Lyu) （阿里巴巴通义应用业务组，中国）其他作者：赵翔宇 (Xiangyu Zhao) （阿里巴巴通义应用业务组，中国）刘成伟 (Chengwei Liu) （阿里巴巴通义应用业务组，中国）闫浩音 (Haoyin Yan) （阿里巴巴通义应用业务组，中国）梁晓涛 (Xiaotao Liang) （阿里巴巴通义应用业务组，中国）王宏宇 (Hongyu Wang) （阿里巴巴通义应用业务组，中国）薛少飞 (Shaofei Xue) （推断，根据邮箱mullerxue@126.com，可能为独立研究者或与阿里巴巴合作） 💡 毒舌点评亮点：成功把“分离”这个传统的“信号复原”问题，包装成了“生成”问题，用上了时髦的大语言模型，思路清奇，算是在音频领域给LLM找到了一个新“乐子”。槽点：处理鼓点这种“快准狠”的声音还是不行，暴露了自回归模型“慢工出细活”的本质短板；更尴尬的是，训练用的“标准答案”（伪标签）还是隔壁BS-RoFormer模型生成的，有种“用老师教学生，还怪学生超不过老师”的黑色幽默。 🔗 开源详情代码：论文中提供了GitHub链接（https://anonymous.4open.science/w/mss-demo-page-2F80/），表明代码已开源。模型权重：论文中未明确说明是否公开预训练模型权重。数据集：训练使用内部大规模数据集（未公开），评估使用公开的MUSDB18-HQ数据集。在线Demo：论文提供了演示页面链接（https://anonymous.4open.science/w/mss-demo-page-2F80/）。依赖的开源工具/模型： BS-RoFormer：用于生成伪标签的SOTA分离模型。 HCodec：用于音频令牌化和重构的双路径编解码器。 HuBERT：用于提取语义特征的预训练语音模型。 Silero VAD：用于语音活动检测。 LLaMA：作为解码器-only语言模型的架构基础。 MUSDB18-HQ：公开的评估数据集。 📌 核心摘要本文提出了一种用于多轨音乐源分离的生成式框架，其核心创新在于将分离任务重新定义为条件离散令牌生成问题。传统方法直接在时频域估计连续信号，而本文方法首先利用HCodec神经音频编解码器将音频波形转换为离散的声学与语义令牌序列。然后，一个基于Conformer的条件编码器从混合音频中提取特征，作为解码器-only大语言模型（LLaMA架构）的条件前缀。该语言模型以自回归的方式，按照固定顺序（人声、鼓、贝斯、其他）依次生成四个目标轨道的令牌序列，最后由HCodec解码器重构为波形。在MUSDB18-HQ基准上的实验表明，该生成方法在整体感知质量（ViSQOL）上接近顶尖的判别式方法（如BS-RoFormer），并且在人声轨道的NISQA感知质量评分上取得了最高分（2.50）。消融研究证实了可学习Conformer编码器和顺序跨轨道生成策略的有效性。然而，该方法在处理具有尖锐瞬态的鼓组时性能存在差距，且依赖于其他模型的伪标签进行训练，这限制了其性能上限。 ...