PHALAR: Phasors for Learned Musical Audio Representations

📄 PHALAR: Phasors for Learned Musical Audio Representations #音乐信息检索 #对比学习 #音乐理解 #复数值神经网络 #等变学习 🔥 8.0/10 | 前10% | #音乐信息检索 | #对比学习 | #音乐理解 #复数值神经网络 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文未明确标注) 通讯作者:未说明 作者列表:Davide Marincione(未说明机构)、Michele Mancusi(未说明机构)、Giorgio Strano(未说明机构)、Luca Cerovaz(未说明机构)、Donato Crisostomi(未说明机构)、Roberto Ribuoli(未说明机构)、Emanuele Rodolà(未说明机构) (注:论文正文中未提供作者所属机构信息,仅在致谢中提到获得意大利MUR和Sapienza大学资助。) 💡 毒舌点评 亮点在于用优雅的数学(傅里叶位移定理)和几何(复平面旋转)思想解决了一个音频领域的具体痛点(音乐连贯性),实验设计堪称典范,从检索任务到人类评估再到涌现能力验证,逻辑链条非常完整。短板是任务场景相对垂直,在更广泛的“音乐理解”或“通用音频表示”上的泛化能力尚未充分证明,且其核心依赖时域周期性的假设在处理自由速度(rubato)音乐时存在理论局限。 🔗 开源详情 代码:https://github.com/gladia-research-group/phalar 模型权重:论文中提到检查点(checkpoints)与代码一并发布在上述GitHub仓库中(具体路径未在文中明确说明)。 数据集:论文中提及并使用了以下三个数据集: MoisesDB Slakh2100 ChocoChorales (注:论文未提供这些数据集的具体下载链接,但这些是公开可用的数据集。) Demo:论文中未提及在线演示链接。 复现材料:论文中提到,代码、检查点和人类评估结果(复现材料的核心部分)已发布于 GitHub 仓库。此外,训练配置等细节在论文的实验设置(Section 4.1)及附录中有详细描述。 论文中引用的开源项目: COCOLA: (Ciranni et al., 2025) - 论文中未提供链接。 MERT: (Li et al., 2024) - 论文中未提供链接。 CLAP: (Wu* et al., 2023) - 论文中未提供链接。 CDPAM: (Manocha et al., 2021) - 论文中未提供链接。 ViSQOL: (Chinen et al., 2020) - 论文中未提供链接。 Audiobox-Aesthetics: (Tjandra et al., 2025) - 论文中未提供链接。 常量Q变换 (CQT): 引用了 Holighaus et al., 2012 - 论文中未提供具体实现链接。 Muon优化器: (Jordan et al., 2024) - 论文中未提供链接。 MUSDB18-HQ数据集: (Rafii et al., 2017, 2019) - 论文中未提供链接。 StableAudio-ControlNet: (Evans et al., 2025) - 论文中未提供链接。 STAGE: (Strano et al., 2025) - 论文中未提供链接。 Beat This!: (Foscarin et al., 2024) - 论文中未提供链接。 DAC: (Kumar et al., 2023) - 论文中未提供链接。 EnCodec: (Défossez et al., ) - 论文中未提供链接。 补充信息 [模型架构] 补充:在设计相位感知双线性相似度时,论文明确指出,为了确保高能量瞬态对最终分数的贡献成比例,而低能量背景噪声的贡献较小,故意省略了tanh等饱和非线性激活函数。这是对标准双线性模型的一个重要调整。 [细节详述] 补充:在损失函数细节上,论文明确使用了InfoNCE损失,并应用了标签平滑技术,将正样本的目标概率设置为 l=0.9,以缓解音乐训练集中因共享调性、节奏而产生的“假负例”问题。 [作者与机构] 补充:虽然论文正文的作者列表未标注机构,但在致谢部分明确提到本工作得到了“Sapienza大学”的资助,这暗示了部分作者可能隶属于该校。 [实验结果] 补充:论文在“人类相关性”实验部分,对实验设计给出了更具体的描述:共使用了来自MUSDB18-HQ测试集的 98个样本(49个Bass,49个Drums),为每个样本生成了4个变体(Ground Truth + 3个生成模型),最终产生了 880个个人评分。分析中未给出这些具体的实验规模数字。 [实验结果] 补充:在描述与SOTA的差距时,可以更精确地引用原文数据:在最具挑战性的MoisesDB K=64设置下,PHALAR(2.3M参数)的准确率为 70.87%,相比COCOLA基线(5.2M参数)的 41.84%,相对提升约为 69%((70.87-41.84)/41.84 ≈ 0.692)。 [毒舌点评/核心摘要] 补充:在论文的“局限性”部分,除分析已指出的周期性假设和音频压缩问题外,还明确提到了数据集偏差:训练数据主要来自西方流行音乐,因此模型的“连贯性”概念可能无法与那些将微时序偏差视为风格特征(而非错误)的音乐文化或风格中的人类判断相匹配。 📌 核心摘要 要解决什么问题:现有音乐音频表示学习模型(如CLAP、COCOLA)通过全局平均池化(GAP)丢弃了关键的时间对齐和相位信息,导致无法有效建模音乐中不同音轨(如鼓和贝斯)之间的“结构连贯性”(即时间与和声上的契合度)。 方法核心是什么:提出PHALAR框架,核心是利用傅里叶位移定理,通过学习频谱池化层(将时间维度进行FFT)和复数值神经网络(CVNN)头,将时间偏移显式编码为复数潜空间中的相位旋转,从而强制模型学习相位等变性。 与已有方法相比新在哪里:根本性地从追求“时间不变性”(传统分类任务需要)转变为追求“时间等变性”(结构连贯性任务需要)。具体体现在用学习频谱池化替代了GAP,用CVNN替代了实值MLP,并设计了相位感知的双线性相似度度量。 主要实验结果如何: 检索任务:在MoisesDB、Slakh2100、ChocoChorales三个数据集的K-way检索任务上均达到SOTA。在最具挑战性的MoisesDB K=64设置下,PHALAR(2.3M参数)准确率为70.87%,相比COCOLA基线(5.2M参数,41.84%)相对提升约69%。 人类相关性:在人类感知相关性测试中,PHALAR的皮尔逊相关系数(ρ=0.387)和斯皮尔曼系数(r_s=0.414)均显著高于所有基线(p<0.05),且线性混合模型的AIC值最低(2451.48)。 消融研究:移除频谱池化层导致准确率下降18.9%,移除相位等变性(仅用幅度)下降10.3%,证实了核心组件的必要性。 涌现能力:在从未经过节奏或和声监督训练的情况下,PHALAR在零样本节拍追踪任务上达到了F1=0.627(基准Beat This!为0.888),在和弦线性探测任务上准确率为55.2%(超越Chroma CQT基线的50.6%)。 实际意义是什么:为音乐制作中的音轨匹配、干声检索提供了高效的自动化工具。更重要的是,提出了一种可参考、可感知对齐的音频生成评估指标,能够评估生成的音轨是否与其互补音轨在时间上“合拍”,弥补了传统分布度量(如FAD)忽略条件匹配的缺陷。 主要局限性是什么:模型依赖RFFT的周期性假设,在非周期性速度变化(如自由速度rubato)的音乐中性能会下降;对音频压缩损失敏感;其“连贯性”概念可能受西方流行音乐数据集偏见影响。 🏗️ 模型架构 PHALAR的整体架构分为三个阶段:谐波特征提取、频谱聚合、复数值头处理与相似度计算。 ...

2026-05-06 · 更新于 2026-05-19 · 3 min · 491 words

Stage Light is Sequence$^2$: Multi-Light Control via Imitation Learning

📄 Stage Light is Sequence$^2$: Multi-Light Control via Imitation Learning #音乐信息检索 #强化学习 #生成模型 #模仿学习 ✅ 7.5/10 | 前25% | #音乐信息检索 | #强化学习 | #生成模型 #模仿学习 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zijian Zhao(The Hong Kong University of Science and Technology) 通讯作者:Xiaoyu Zhang(City University of Hong Kong) 作者列表: Zijian Zhao(The Hong Kong University of Science and Technology) Dian Jin(The Hong Kong Polytechnic University) Zijing Zhou(The University of Hong Kong) Xiaoyu Zhang(City University of Hong Kong) 💡 毒舌点评 亮点:论文巧妙地将复杂的多灯光控制问题拆解为“总体分布预测”和“分布到单灯的分解”两个阶段,后者通过创新的三阶段模仿学习(结合HER、AIRL、GRPO)在无专家演示的情况下实现,设计思路严谨且富有工程巧思。短板:所有验证仅在由8个点光源构成的简化模拟环境中进行,真实舞台灯光涉及灯具物理属性、空间布局、动态效果等多重复杂因素,模拟结果与实际应用之间可能存有显著鸿沟。 ...

2026-05-06 · 更新于 2026-05-19 · 3 min · 497 words

MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention

📄 MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention #音乐生成 #音乐信息检索 #预训练 #多模态模型 #大语言模型 ✅ 7.0/10 | 前50% | #音乐生成 | #预训练 | #音乐信息检索 #多模态模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(论文声明Yimeng Zhang, Yueru Sun, Haoyu Gu贡献相等) 通讯作者:未说明 作者列表:Yimeng Zhang(华南理工大学)、Yueru Sun(华南理工大学)、Haoyu Gu*(华南理工大学) 💡 毒舌点评 亮点:论文提出了一个完整且逻辑清晰的“EEG-情感-干预计划-音乐生成”闭环框架,巧妙地引入“情感中介”来规避直接EEG-音乐映射的对齐难题,工程集成度高。 短板:核心用户研究仅在小规模(未说明具体人数)的短期实验内进行,缺乏临床有效性和长期效果验证;且系统严重依赖未公开的知识库和特定闭源大模型(Qwen2.5),限制了可复现性与独立验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中提及使用了公开的DEAP数据集(用于EEG情感建模)和MusicCaps数据集(用于音乐-文本数据,论文中使用了其2000个片段的子集进行情感标注)。论文中未提供这两个数据集的具体下载链接。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点等具体的复现材料链接。 论文中引用的开源项目: DEAP (Dataset for Emotion Analysis using Physiological Signals):论文中提及的公开EEG情感数据集,无具体链接。 MusicCaps:论文中提及的公开音乐-文本数据集,无具体链接。 MusicGen-medium (1.5B):论文中提及用作预训练音乐生成骨干的模型,无具体链接。 Qwen2.5-7B-Instruct:论文中提及作为干预规划器中使用的大语言模型,无具体链接。 CLAP:论文中提及的用于文本和音频对齐的模型,无具体链接。 JASCO:论文中提及的用于可控音乐生成的模型,无具体链接。 补充信息 [模型架构] 补充:论文明确指出,局部情感轨迹(local affect trajectory)的训练采用了弱监督学习。这是因为原始数据集(如DEAP)仅提供试次(trial)级别的效价-唤醒度标注,而非连续的片段级标注。因此,系统通过构造与全局标签一致性的弱监督信号,来学习EEG片段内部细粒度的情感时序变化。这是一个关键的设计动机,直接针对EEG数据标注稀疏的核心挑战。 [细节详述] 补充:论文在描述用于音乐生成辅助监督的MusicCaps子集标注时,强调了标注流程的规范性以确保数据质量。具体包括:向标注员提供书面说明和低/高效价、低/高唤醒度的锚点示例;音乐片段以随机顺序呈现;最终标签取三名标注员评分的平均值。此外,论文指出该标注子集涵盖了MusicCaps中多样化的流派和乐器编排模式,有助于减少模型训练时的风格偏差(style-specific bias),增强了辅助监督数据的可靠性。 [作者与机构] 补充:论文致谢部分提及该工作由本科生创新创业国家级训练计划(项目编号:202510561174) 支持。 📌 核心摘要 要解决什么问题:现有数字音乐服务依赖静态偏好,无法根据用户的实时心理状态(如压力、焦虑)进行自适应调整,难以满足个性化心理干预的需求。 方法核心是什么:构建一个名为MindMelody的闭环系统。其核心是“情感中介”策略:首先使用混合Transformer-GNN模型从实时EEG信号中解码全局效价-唤醒度(VA)状态和局部情感轨迹;接着,将这些状态输入到一个配备了检索增强生成(RAG)技术的大语言模型(LLM),生成结构化的音乐干预计划(包括节奏、动态等);最后,通过一个分层的EEG控制器,将这些控制条件注入到预训练的音乐生成模型(MusicGen)中,合成音乐,并根据用户反馈的EEG变化持续更新参数,形成闭环。 与已有方法相比新在哪里:不同于直接映射EEG到波形(数据稀疏且不可解释)或静态推荐,MindMelody引入了层次化的语义桥梁(情感解码 -> 语言计划 -> 层次化音乐控制),并通过闭环反馈机制实现了动态适应。其分层控制器能同时处理全局情感方向和局部时序变化,提升了可控性。 主要实验结果如何:在自动评估中,完整模型在情感对齐(Emo-MSE: 0.082)、动态一致性(Dyn-Corr: 0.63)和计划符合度(Plan-Cons: 0.78)上均优于基线。在包含人类选择歌单、纯文本、文本+静态VA等条件的主观评估中,MindMelody在情感匹配度(Emo.-MOS: 4.21)、感知帮助性(Help.: 4.18)、效价提升(ΔValence: 0.22)和唤醒度偏差(Aro.-Dev.: 0.14)方面取得最佳表现。其在DEA数据集上的跨被试情感解码精度分别为效价76.8%,唤醒度72.4%。 实际意义是什么:该工作为利用可穿戴生理传感设备(如EEG)进行实时、自适应的数字音乐情绪干预提供了一个完整的技术框架和概念验证,展示了脑机接口与生成式AI结合在心理健康领域的应用潜力。 主要局限性是:用户研究规模较小且为短期实验,缺乏临床对照和长期效果验证;系统依赖未公开的音乐治疗知识库和特定大模型,通用性和可复现性受限;情感解码的跨被试泛化能力仍是挑战。 🏗️ 模型架构 MindMelody系统是一个端到端的闭环框架,其整体架构如图2所示,包含三个核心模块:情感编码器(Affect Encoder)、干预计划器(Intervention Planner)和EEG控制模块(EEG Control Module)。 ...

2026-05-05 · 更新于 2026-05-19 · 2 min · 331 words

RenCon 2025: Revival of the Expressive Performance Rendering Competition

📄 RenCon 2025: Revival of the Expressive Performance Rendering Competition #音乐生成 #模型评估 #音乐信息检索 #基准测试 ✅ 7.5/10 | 前25% | #音乐生成 | #模型评估 | #音乐信息检索 #基准测试 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Huan Zhang(Queen Mary University of London) 通讯作者:未说明 作者列表:Huan Zhang(Queen Mary University of London)、Taegyun Kwon(Korea Advanced Institute of Science and Technology)、Anders Friburg(KTH Royal Institute of Technology)、Junyan Jiang(New York University)、Hayeon Bang(Korea Advanced Institute for Science and Technology (KAIST))、Hyeyoon Cho(Korea Advanced Institute for Science and Technology (KAIST))、Gus Xia(Mohamed bin Zayed University of Artificial Intelligence)、Akira Maezawa(Yamaha Corporation)、Simon Dixon(Queen Mary University of London)、Dasaem Jeong(Sogang University) 💡 毒舌点评 亮点:这篇论文作为时隔12年的竞赛复兴报告,其核心价值在于系统性地重新建立了该领域的评测框架,其两阶段赛制设计和对MIDI动态校准问题的讨论,为未来研究提供了清晰的实践路线图和待解决难题清单。 短板:本质上是一篇优秀的“竞赛会议纪要”,其贡献局限于描述已发生的事情和汇总结果,在提出新的、具有启发性的科学假设或算法洞见方面略显不足,更像是一个工作的终点而非新研究的起点。 ...

2026-05-05 · 更新于 2026-05-19 · 2 min · 277 words

Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style #音乐信息检索 #音乐生成 #多任务学习 #扩散模型 #解耦表示学习 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 | #音乐生成 #扩散模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 通讯作者:Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Singapore, Email: dcswangy@nus.edu.sg) 作者列表:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing), Junchuan Zhao (National University of Singapore, School of Computing), Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 💡 毒舌点评 亮点:巧妙地将演奏渲染(EPR)和乐谱转录(APT)这两个互逆任务统一到一个解耦表示学习的框架中,不仅提升了两个任务的性能,还为可控的音乐表达(风格迁移、自动推荐)开辟了新路径,理论动机清晰,工程实现完整。 短板:模型本身规模较大(188M参数),且PSR模块需要单独训练和推理,增加了部署复杂性;实验数据主要局限于古典钢琴音乐,其在更广泛音乐流派(如爵士、流行)上的泛化能力未得到验证。 ...

2026-05-04 · 更新于 2026-05-19 · 3 min · 577 words

Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction

📄 Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction #音乐生成 #强化学习 #对抗训练 #实时处理 #音乐信息检索 ✅ 7.0/10 | 前25% | #音乐生成 | #强化学习 | #对抗训练 #实时处理 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yusong Wu (Mila, Quebec Artificial Intelligence Institute, Université de Montréal) 通讯作者:Natasha Jaques (University of Washington), Cheng-Zhi Anna Huang (Massachusetts Institute of Technology) 作者列表:Yusong Wu (Mila, Université de Montréal), Stephen Brade (Massachusetts Institute of Technology), Aleksandra Teng Ma (Georgia Institute of Technology), Tia-Jane Fowler (University of Washington), Enning Yang (McGill University), Berker Banar (Independent Researcher), Aaron Courville (Mila, Université de Montréal), Natasha Jaques (University of Washington), Cheng-Zhi Anna Huang (Massachusetts Institute of Technology) 💡 毒舌点评 亮点:在强化学习后训练中巧妙引入对抗训练思想来解决“奖励黑客”问题,特别是通过一个自适应更新的判别器来平衡“真实感”与任务目标,方案设计精巧且有实验验证。短板:方法的核心创新是将GAN和RL思想结合用于序列模型,这并非完全原创;研究场景(实时旋律-和弦伴奏)非常垂直,其影响力可能局限于音乐生成领域,对更广泛的序列生成任务(如对话)的普适性未得到充分论证。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 342 words

ICLR 2026 - 音乐信息检索 论文列表

ICLR 2026 - 音乐信息检索 共 2 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Bridging Piano Transcription and Rendering via Disentangled 8.0分 前25% 🥈 LLM2Fx-Tools: Tool Calling for Music Post-Production 7.0分 前25% 📋 论文详情 🥇 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 | #音乐生成 #扩散模型 👥 作者与机构 第一作者:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 通讯作者:Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Singapore, Email: dcswangy@nus.edu.sg) 作者列表:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing), Junchuan Zhao (National University of Singapore, School of Computing), Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 262 words

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

📄 LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection #音乐理解 #多模态模型 #端到端 #音乐信息检索 🔥 8.0/10 | 前25% | #音乐理解 | #多模态模型 | #端到端 #音乐信息检索 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Benjamin Shiue-Hal Chou(Purdue University) 通讯作者:未说明(论文未明确指定,但联系邮箱主要为{作者名}@purdue.edu,可能为共同指导) 作者列表: Benjamin Shiue-Hal Chou(Purdue University) Purvish Jajal(Purdue University) Nick John Eliopoulos(Purdue University) James C. Davis(Purdue University) George K. Thiruvathukal(Loyola University Chicago) Kristen Yeon-Ji Yun(Purdue University) Yung-Hsiang Lu(Purdue University) 💡 毒舌点评 亮点:论文将“音乐练习错误检测”这一序列比较问题,巧妙地转化为一个多模态编码与解码任务,并且通过架构设计(Ladder编码器)和输入表示(符号提示)两个层面,针对性地解决了之前方法在对齐能力和输入歧义上的痛点,设计思路清晰且有效。短板:符号提示策略在更简单的CocoChorales-E数据集上(尤其对Extra Note)带来的增益有限,甚至略有下降,表明这种多模态融合的收益可能与任务复杂度强相关;此外,模型对大幅节奏变化和复杂和弦遮蔽的处理仍有明显局限。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 331 words

LLM2Fx-Tools: Tool Calling for Music Post-Production

📄 LLM2Fx-Tools: Tool Calling for Music Post-Production #音乐信息检索 #大语言模型 #多模态模型 #数据集 ✅ 7.0/10 | 前25% | #音乐信息检索 | #大语言模型 | #多模态模型 #数据集 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:SeungHeon Doh(KAIST, Sony AI)、Junghyun Koo(Sony AI)(共同第一作者) 通讯作者:未明确说明 作者列表:SeungHeon Doh (KAIST, Sony AI), Junghyun Koo (Sony AI), Marco A. Martínez-Ramírez (Sony AI), Woosung Choi (Sony AI), Wei-Hsiang Liao (Sony AI), Qiyu Wu (Sony Group Corporation), Juhan Nam (KAIST), Yuki Mitsufuji (Sony AI, Sony Group Corporation) 💡 毒舌点评 亮点是这篇论文首次将LLM的工具调用范式引入到音频效果链生成任务,框架设计完整(从感知、推理到执行),并配套发布了高质量的对话式数据集LP-Fx,为后续研究建立了不错的基础。短板是实验验证范围主要局限于单声道、单乐器音频,在真正复杂的多轨混音场景下有效性存疑,且“可解释性”在面对多效果器组合产生的复杂听感时可能大打折扣。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 385 words

Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style #音乐信息检索 #多任务学习 #解耦表示学习 #扩散模型 #钢琴转录 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 #解耦表示学习 | #多任务学习 #解耦表示学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wei Zeng(新加坡国立大学,综合科学与工程项目,计算学院) 通讯作者:Ye Wang(新加坡国立大学,综合科学与工程项目,计算学院) 作者列表:Wei Zeng(新加坡国立大学,综合科学与工程项目,计算学院)、Junchuan Zhao(新加坡国立大学,计算学院)、Ye Wang(新加坡国立大学,综合科学与工程项目,计算学院) 💡 毒舌点评 亮点在于其统一的框架设计与“内容-风格”解耦的清晰思路,巧妙地利用了EPR和APT的互逆性进行联合训练,并无需繁琐的音符级对齐数据,这在方法论上颇具启发性。短板是,虽然框架通用,但实验主要基于古典钢琴音乐,其对于更丰富多变的流行音乐等风格的泛化能力未被验证;此外,模型参数量(188M)显著高于一些基线,计算成本是一个需要考虑的实际问题。 🔗 开源详情 代码:论文明确表示“代码将在论文被接受后发布”,提供了项目主页链接(https://wei-zeng98.github.io/joint-apt-epr/),表明有开源计划。 模型权重:未提及是否公开预训练模型权重。 数据集:使用了公开的ASAP和ATEPP数据集,以及从MuseScore收集并过滤的公开乐谱数据。论文未提及是否提供已处理的未配对演奏MIDI数据。 Demo:提供了在线演示页面(https://wei-zeng98.github.io/joint-apt-epr/),包含EPR渲染和风格迁移的示例。 复现材料:附录B提供了极其详细的模型实现细节(PyTorch Lightning、多任务训练设置、优化器、掩码策略等),是高质量的复现指南。 论文中引用的开源项目:提到了MidiTok(用于MIDI分词)、Aria-AMT(用于音频转MIDI)和Partitura(用于音乐处理)。 总体开源情况:论文有明确的开源承诺和详尽的复现材料,开源状态积极,但代码和权重尚未发布。 📌 核心摘要 这篇论文旨在解决钢琴演奏渲染(EPR)和自动钢琴转录(APT)两个基础但互逆的任务长期被独立研究的问题。其核心方法是构建一个基于Transformer的统一序列到序列(Seq2Seq)框架,通过解耦“音符级乐谱内容”和“全局演奏风格”两种表示,来联合学习这两个任务。与已有方法相比,其新意在于:1)首次将EPR和APT统一建模,实现双向监督;2)提出无需音符级对齐的Seq2Seq训练范式,降低了数据标注门槛;3)设计了一个独立的、基于扩散模型的演奏风格推荐(PSR)模块,能够仅从乐谱内容生成合适的风格嵌入。实验表明,该联合模型在ASAP数据集的APT任务上,达到了与最先进端到端模型(Beyer & Dai, 2024)可比的性能(例如,ScoreSimilarity平均误差Eavg从14.10降至12.48)。在EPR任务上,其客观指标(如速度MAE为0.37)和主观评价均优于或接近现有基线。消融实验验证了联合训练和无对齐数据的重要性。该工作的实际意义在于实现了音乐模态间转换的双向建模,并支持风格可控的演奏生成;主要局限性在于计算开销较大,且实验验证局限于古典钢琴音乐。 🏗️ 模型架构 本文提出一个统一的、模块化的框架,用于联合处理EPR和APT任务,并支持独立的风格推荐。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 417 words