PHALAR: Phasors for Learned Musical Audio Representations

📄 PHALAR: Phasors for Learned Musical Audio Representations #音乐表示学习 #对比学习 #音乐信息检索 #音频评估 🔥 8.5/10 | 前10% | #音乐信息检索 | #对比学习 | #音乐表示学习 #音频评估 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Davide Marincione(未明确说明具体所属机构,根据论文末尾致谢推断可能隶属于Sapienza University of Rome) 通讯作者:未说明 作者列表:Davide Marincione (未说明)、Michele Mancusi (未说明)、Giorgio Strano (未说明)、Luca Cerovaz (未说明)、Donato Crisostomi (未说明)、Roberto Ribuoli (未说明)、Emanuele Rodolà (Sapienza University of Rome) 💡 毒舌点评 亮点:PHALAR巧妙地将信号处理中的经典理论(傅里叶移位定理)转化为深度学习的归纳偏置,通过让特征在复平面“旋转”而非“抹平”来编码节奏,为解决音乐表示学习中“保留时序结构”这一难题提供了优美且有效的几何方案,效果提升显著。 短板:其核心假设(RFFT对时间周期性敏感)在面对真实世界中常见的速度渐变、自由节奏(rubato)时面临理论瓶颈;此外,论文的评估高度聚焦于“茎检索”这一特定代理任务,其学到的表示能否无缝迁移至更复杂的音乐理解任务(如结构分析、生成质量评估)尚缺乏更广泛的验证。 📌 核心摘要 要解决的问题:现有音乐音频表示学习模型(如CLAP、COCOLA)依赖全局平均池化(GAP),丢弃了关键的时序和相位信息,导致它们在需要评估音乐“结构相干性”(即不同音轨是否在时间和和声上匹配)的任务上表现糟糕,本质上是“结构盲”的。 方法核心:提出PHALAR框架,其核心是用Learned Spectral Pooling层替代GAP。该层对提取的特征进行时域快速傅里叶变换(RFFT),依据傅里叶移位定理,将时间偏移映射为复数域中的相位旋转。随后,使用复数值神经网络(CVNN)头处理这些复数嵌入,以保持相位等变性,最终通过一个参数化的埃尔米特内积计算“相干性”分数。 与已有方法相比新在哪里: 范式转变:从追求“时序不变性”(如GAP)转向明确建模“时序等变性”,这是根本性的设计哲学变化。 架构创新:结合了音高等变的骨干网络(基于CQT输入)和相位等变的CVNN头,形成了端到端的相干性建模流水线。 揭示新关系:实验证明,传统的语义相似性基础模型(如CLAP)在相干性任务上表现随机,揭示了“相似性”与“相干性”建模的正交性。 主要实验结果: 检索性能:在三个数据集(MoisesDB, Slakh2100, ChocoChorales)的K-way检索任务中,PHALAR均达到新的SOTA。例如,在最困难的MoisesDB K=64任务中,PHALAR的Top-1准确率为70.87%,相比之前SOTA(COCOLA)的41.84%有≈69%的相对提升,且参数量仅为其一半(2.3M vs 5.2M)。 人类相关性:在人类听感相干性评分实验中,PHALAR的得分与人类评分的斯皮尔曼相关系数(rs=0.414)显著高于所有基线(包括COCOLA的0.153和CLAP的0.122),且AIC值最低。 零样本涌现能力:尽管未针对节奏或和声进行监督,PHALAR的嵌入在零样本节拍跟踪(F1=0.627)和线性和弦探测(55.2%准确率)任务中均表现出有效捕捉音乐结构的能力。 消融研究:证明了相位等变性(去掉后准确率降10.3%)和频谱池化(替换为GAP后准确率降18.9%)是性能的关键。 实际意义:为音乐信息检索(特别是需要理解结构对齐的检索、生成评估)提供了一个强大且与人类感知高度相关的度量工具。其方法可推广至任何需要保留相位/时序信息的领域(如雷达信号、时间序列分析)。 主要局限性:对非周期性节奏(如速度渐变rubato)的适应性有限,因为RFFT假设时间周期性;性能在重度压缩或有损音频上会下降;训练数据以西方流行音乐为主,其定义的“相干性”可能不适用于强调微时序偏差的音乐风格。 🔗 开源详情 代码:https://github.com/gladia-research-group/phalar 模型权重:论文中未提及(代码仓库包含模型检查点) 数据集:论文中使用了MoisesDB、Slakh2100、ChocoChorales,但未提供这些数据集的直接获取链接,读者需通过相应渠道获取。 Demo:论文中未提及 复现材料:代码仓库(https://github.com/gladia-research-group/phalar)包含代码、训练检查点以及人类评估结果。 论文中引用的开源项目: Muon 优化器:论文中未提及具体链接(引用为 Jordan et al., 2024) STAGE (stem生成模型):论文中未提及具体链接(引用为 Strano et al., 2025) StableAudio-ControlNet:论文中未提及具体链接(引用为 Evans et al., 2025) MERT:论文中未提及具体链接(引用为 Li et al., 2024) CLAP:论文中未提及具体链接(引用为 Wu* et al., 2023) CDPAM:论文中未提及具体链接(引用为 Manocha et al., 2021) COCOLA:论文中未提及具体链接(引用为 Ciranni et al., 2025) MUSDB18-HQ 数据集:论文中未提及具体链接(引用为 Rafii et al., 2017, 2019) DAC (神经音频编解码器):论文中未提及具体链接(引用为 Kumar et al., 2023) EnCodec (神经音频编解码器):论文中未提及具体链接(引用为 Défossez et al.) librosa:论文中未提及具体链接,通常指开源Python库 https://librosa.org/ mir_eval:论文中未提及具体链接,通常指开源Python库 https://craffel.github.io/mir_eval/ 🏗️ 模型架构 PHALAR的整体架构可分为三个阶段,如论文中的图2所示: ...

2026-05-07 · 更新于 2026-06-12 · 3 min · 468 words

RenCon 2025: Revival of the Expressive Performance Rendering Competition

📄 RenCon 2025: Revival of the Expressive Performance Rendering Competition #音乐生成 #音乐信息检索 #模型评估 #生成模型 ✅ 7.0/10 | 前50% | #音乐生成 | #生成模型 | #音乐信息检索 #模型评估 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Huan Zhang (Queen Mary University of London, London, UK) 通讯作者:未说明(论文未明确标注通讯作者) 作者列表:Huan Zhang (Queen Mary University of London), Taegyun Kwon (Korea Advanced Institute of Science and Technology, Daejeon, Korea), Anders Friberg (KTH Royal Institute of Technology, Stockholm, Sweden), Junyan Jiang (New York University, New York, USA), Hayeon Bang (Korea Advanced Institute of Science and Technology, Daejeon, South Korea), Hyeyoon Cho (Korea Advanced Institute of Science and Technology, Daejeon, South Korea), Gus Xia (Mohamed bin Zayed University of Artificial Intelligence, Abu Dhabi, UAE), Akira Maezawa (Yamaha Corporation, Hamamatsu, Japan), Simon Dixon (Queen Mary University of London), Dasaem Jeong (Sogang University, Seoul, South Korea) 💡 毒舌点评 亮点在于论文成功复兴并系统化了停滞十余年的音乐表演渲染竞赛,其严谨的两阶段赛制、对人类基准的纳入以及对评估方法的深入分析(如性能蠕虫图),为该领域建立了极具价值的当代基准。短板是论文本质是竞赛报告而非方法论创新,虽然分析细致,但对于寻求新型生成算法或模型突破的读者而言,信息增量有限,更多是“测量”而非“发明”。 ...

2026-05-07 · 更新于 2026-06-12 · 2 min · 336 words

Cosmodoit: A Python Package for Adaptive, Efficient Pipelining of Feature Extraction from Performed Music

📄 Cosmodoit: A Python Package for Adaptive, Efficient Pipelining of Feature Extraction from Performed Music #音乐信息检索 #信号处理 #开源工具 ✅ 6.5/10 | 前50% | #音乐信息检索 | #信号处理 | #开源工具 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Corentin Guichaoua(STMS Laboratoire (UMR9912) – CNRS, IRCAM, Sorbonne Université, Ministère de la Culture, Paris, France) 通讯作者:未说明 作者列表: Corentin Guichaoua(STMS Laboratoire (UMR9912) – CNRS, IRCAM, Sorbonne Université, Ministère de la Culture, Paris, France) Daniel Bedoya(STMS Laboratoire (UMR9912) – CNRS, IRCAM, Sorbonne Université, Ministère de la Culture, Paris, France) Elaine Chew(Department of Engineering and School of Biomedical Engineering & Imaging Sciences, King’s College London, United Kingdom) 💡 毒舌点评 论文的亮点在于它精准地解决了一个实际且琐碎的领域痛点,像一位细心的管家,把散落在不同房间(Matlab, C++, Python)的工具(响度、对位、和声张力)规整到同一个自动化流水线上,能有效提升特定研究团队的生产力。但短板也同样明显:作为一篇“论文”,它更像一份详尽的软件说明书或技术报告,缺乏支撑其“高效”、“自适应”宣称的定量性能数据和严谨的实验对比,说服力更多依赖于读者对工具的迫切需求。 ...

2026-05-06 · 更新于 2026-06-12 · 1 min · 207 words

PHALAR: Phasors for Learned Musical Audio Representations

📄 PHALAR: Phasors for Learned Musical Audio Representations #音乐信息检索 #对比学习 #音乐理解 #复数值神经网络 #等变学习 🔥 8.0/10 | 前10% | #音乐信息检索 | #对比学习 | #音乐理解 #复数值神经网络 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文未明确标注) 通讯作者:未说明 作者列表:Davide Marincione(未说明机构)、Michele Mancusi(未说明机构)、Giorgio Strano(未说明机构)、Luca Cerovaz(未说明机构)、Donato Crisostomi(未说明机构)、Roberto Ribuoli(未说明机构)、Emanuele Rodolà(未说明机构) (注:论文正文中未提供作者所属机构信息,仅在致谢中提到获得意大利MUR和Sapienza大学资助。) 💡 毒舌点评 亮点在于用优雅的数学(傅里叶位移定理)和几何(复平面旋转)思想解决了一个音频领域的具体痛点(音乐连贯性),实验设计堪称典范,从检索任务到人类评估再到涌现能力验证,逻辑链条非常完整。短板是任务场景相对垂直,在更广泛的“音乐理解”或“通用音频表示”上的泛化能力尚未充分证明,且其核心依赖时域周期性的假设在处理自由速度(rubato)音乐时存在理论局限。 🔗 开源详情 代码:https://github.com/gladia-research-group/phalar 模型权重:论文中提到检查点(checkpoints)与代码一并发布在上述GitHub仓库中(具体路径未在文中明确说明)。 数据集:论文中提及并使用了以下三个数据集: MoisesDB Slakh2100 ChocoChorales (注:论文未提供这些数据集的具体下载链接,但这些是公开可用的数据集。) Demo:论文中未提及在线演示链接。 复现材料:论文中提到,代码、检查点和人类评估结果(复现材料的核心部分)已发布于 GitHub 仓库。此外,训练配置等细节在论文的实验设置(Section 4.1)及附录中有详细描述。 论文中引用的开源项目: COCOLA: (Ciranni et al., 2025) - 论文中未提供链接。 MERT: (Li et al., 2024) - 论文中未提供链接。 CLAP: (Wu* et al., 2023) - 论文中未提供链接。 CDPAM: (Manocha et al., 2021) - 论文中未提供链接。 ViSQOL: (Chinen et al., 2020) - 论文中未提供链接。 Audiobox-Aesthetics: (Tjandra et al., 2025) - 论文中未提供链接。 常量Q变换 (CQT): 引用了 Holighaus et al., 2012 - 论文中未提供具体实现链接。 Muon优化器: (Jordan et al., 2024) - 论文中未提供链接。 MUSDB18-HQ数据集: (Rafii et al., 2017, 2019) - 论文中未提供链接。 StableAudio-ControlNet: (Evans et al., 2025) - 论文中未提供链接。 STAGE: (Strano et al., 2025) - 论文中未提供链接。 Beat This!: (Foscarin et al., 2024) - 论文中未提供链接。 DAC: (Kumar et al., 2023) - 论文中未提供链接。 EnCodec: (Défossez et al., ) - 论文中未提供链接。 补充信息 [模型架构] 补充:在设计相位感知双线性相似度时,论文明确指出,为了确保高能量瞬态对最终分数的贡献成比例,而低能量背景噪声的贡献较小,故意省略了tanh等饱和非线性激活函数。这是对标准双线性模型的一个重要调整。 [细节详述] 补充:在损失函数细节上,论文明确使用了InfoNCE损失,并应用了标签平滑技术,将正样本的目标概率设置为 l=0.9,以缓解音乐训练集中因共享调性、节奏而产生的“假负例”问题。 [作者与机构] 补充:虽然论文正文的作者列表未标注机构,但在致谢部分明确提到本工作得到了“Sapienza大学”的资助,这暗示了部分作者可能隶属于该校。 [实验结果] 补充:论文在“人类相关性”实验部分,对实验设计给出了更具体的描述:共使用了来自MUSDB18-HQ测试集的 98个样本(49个Bass,49个Drums),为每个样本生成了4个变体(Ground Truth + 3个生成模型),最终产生了 880个个人评分。分析中未给出这些具体的实验规模数字。 [实验结果] 补充:在描述与SOTA的差距时,可以更精确地引用原文数据:在最具挑战性的MoisesDB K=64设置下,PHALAR(2.3M参数)的准确率为 70.87%,相比COCOLA基线(5.2M参数)的 41.84%,相对提升约为 69%((70.87-41.84)/41.84 ≈ 0.692)。 [毒舌点评/核心摘要] 补充:在论文的“局限性”部分,除分析已指出的周期性假设和音频压缩问题外,还明确提到了数据集偏差:训练数据主要来自西方流行音乐,因此模型的“连贯性”概念可能无法与那些将微时序偏差视为风格特征(而非错误)的音乐文化或风格中的人类判断相匹配。 📌 核心摘要 要解决什么问题:现有音乐音频表示学习模型(如CLAP、COCOLA)通过全局平均池化(GAP)丢弃了关键的时间对齐和相位信息,导致无法有效建模音乐中不同音轨(如鼓和贝斯)之间的“结构连贯性”(即时间与和声上的契合度)。 方法核心是什么:提出PHALAR框架,核心是利用傅里叶位移定理,通过学习频谱池化层(将时间维度进行FFT)和复数值神经网络(CVNN)头,将时间偏移显式编码为复数潜空间中的相位旋转,从而强制模型学习相位等变性。 与已有方法相比新在哪里:根本性地从追求“时间不变性”(传统分类任务需要)转变为追求“时间等变性”(结构连贯性任务需要)。具体体现在用学习频谱池化替代了GAP,用CVNN替代了实值MLP,并设计了相位感知的双线性相似度度量。 主要实验结果如何: 检索任务:在MoisesDB、Slakh2100、ChocoChorales三个数据集的K-way检索任务上均达到SOTA。在最具挑战性的MoisesDB K=64设置下,PHALAR(2.3M参数)准确率为70.87%,相比COCOLA基线(5.2M参数,41.84%)相对提升约69%。 人类相关性:在人类感知相关性测试中,PHALAR的皮尔逊相关系数(ρ=0.387)和斯皮尔曼系数(r_s=0.414)均显著高于所有基线(p<0.05),且线性混合模型的AIC值最低(2451.48)。 消融研究:移除频谱池化层导致准确率下降18.9%,移除相位等变性(仅用幅度)下降10.3%,证实了核心组件的必要性。 涌现能力:在从未经过节奏或和声监督训练的情况下,PHALAR在零样本节拍追踪任务上达到了F1=0.627(基准Beat This!为0.888),在和弦线性探测任务上准确率为55.2%(超越Chroma CQT基线的50.6%)。 实际意义是什么:为音乐制作中的音轨匹配、干声检索提供了高效的自动化工具。更重要的是,提出了一种可参考、可感知对齐的音频生成评估指标,能够评估生成的音轨是否与其互补音轨在时间上“合拍”,弥补了传统分布度量(如FAD)忽略条件匹配的缺陷。 主要局限性是什么:模型依赖RFFT的周期性假设,在非周期性速度变化(如自由速度rubato)的音乐中性能会下降;对音频压缩损失敏感;其“连贯性”概念可能受西方流行音乐数据集偏见影响。 🏗️ 模型架构 PHALAR的整体架构分为三个阶段:谐波特征提取、频谱聚合、复数值头处理与相似度计算。 ...

2026-05-06 · 更新于 2026-06-12 · 3 min · 491 words

Stage Light is Sequence$^2$: Multi-Light Control via Imitation Learning

📄 Stage Light is Sequence$^2$: Multi-Light Control via Imitation Learning #音乐信息检索 #强化学习 #生成模型 #模仿学习 ✅ 7.5/10 | 前25% | #音乐信息检索 | #强化学习 | #生成模型 #模仿学习 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zijian Zhao(The Hong Kong University of Science and Technology) 通讯作者:Xiaoyu Zhang(City University of Hong Kong) 作者列表: Zijian Zhao(The Hong Kong University of Science and Technology) Dian Jin(The Hong Kong Polytechnic University) Zijing Zhou(The University of Hong Kong) Xiaoyu Zhang(City University of Hong Kong) 💡 毒舌点评 亮点:论文巧妙地将复杂的多灯光控制问题拆解为“总体分布预测”和“分布到单灯的分解”两个阶段,后者通过创新的三阶段模仿学习(结合HER、AIRL、GRPO)在无专家演示的情况下实现,设计思路严谨且富有工程巧思。短板:所有验证仅在由8个点光源构成的简化模拟环境中进行,真实舞台灯光涉及灯具物理属性、空间布局、动态效果等多重复杂因素,模拟结果与实际应用之间可能存有显著鸿沟。 ...

2026-05-06 · 更新于 2026-06-12 · 3 min · 497 words

MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention

📄 MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention #音乐生成 #音乐信息检索 #预训练 #多模态模型 #大语言模型 ✅ 7.0/10 | 前50% | #音乐生成 | #预训练 | #音乐信息检索 #多模态模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(论文声明Yimeng Zhang, Yueru Sun, Haoyu Gu贡献相等) 通讯作者:未说明 作者列表:Yimeng Zhang(华南理工大学)、Yueru Sun(华南理工大学)、Haoyu Gu*(华南理工大学) 💡 毒舌点评 亮点:论文提出了一个完整且逻辑清晰的“EEG-情感-干预计划-音乐生成”闭环框架,巧妙地引入“情感中介”来规避直接EEG-音乐映射的对齐难题,工程集成度高。 短板:核心用户研究仅在小规模(未说明具体人数)的短期实验内进行,缺乏临床有效性和长期效果验证;且系统严重依赖未公开的知识库和特定闭源大模型(Qwen2.5),限制了可复现性与独立验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中提及使用了公开的DEAP数据集(用于EEG情感建模)和MusicCaps数据集(用于音乐-文本数据,论文中使用了其2000个片段的子集进行情感标注)。论文中未提供这两个数据集的具体下载链接。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点等具体的复现材料链接。 论文中引用的开源项目: DEAP (Dataset for Emotion Analysis using Physiological Signals):论文中提及的公开EEG情感数据集,无具体链接。 MusicCaps:论文中提及的公开音乐-文本数据集,无具体链接。 MusicGen-medium (1.5B):论文中提及用作预训练音乐生成骨干的模型,无具体链接。 Qwen2.5-7B-Instruct:论文中提及作为干预规划器中使用的大语言模型,无具体链接。 CLAP:论文中提及的用于文本和音频对齐的模型,无具体链接。 JASCO:论文中提及的用于可控音乐生成的模型,无具体链接。 补充信息 [模型架构] 补充:论文明确指出,局部情感轨迹(local affect trajectory)的训练采用了弱监督学习。这是因为原始数据集(如DEAP)仅提供试次(trial)级别的效价-唤醒度标注,而非连续的片段级标注。因此,系统通过构造与全局标签一致性的弱监督信号,来学习EEG片段内部细粒度的情感时序变化。这是一个关键的设计动机,直接针对EEG数据标注稀疏的核心挑战。 [细节详述] 补充:论文在描述用于音乐生成辅助监督的MusicCaps子集标注时,强调了标注流程的规范性以确保数据质量。具体包括:向标注员提供书面说明和低/高效价、低/高唤醒度的锚点示例;音乐片段以随机顺序呈现;最终标签取三名标注员评分的平均值。此外,论文指出该标注子集涵盖了MusicCaps中多样化的流派和乐器编排模式,有助于减少模型训练时的风格偏差(style-specific bias),增强了辅助监督数据的可靠性。 [作者与机构] 补充:论文致谢部分提及该工作由本科生创新创业国家级训练计划(项目编号:202510561174) 支持。 📌 核心摘要 要解决什么问题:现有数字音乐服务依赖静态偏好,无法根据用户的实时心理状态(如压力、焦虑)进行自适应调整,难以满足个性化心理干预的需求。 方法核心是什么:构建一个名为MindMelody的闭环系统。其核心是“情感中介”策略:首先使用混合Transformer-GNN模型从实时EEG信号中解码全局效价-唤醒度(VA)状态和局部情感轨迹;接着,将这些状态输入到一个配备了检索增强生成(RAG)技术的大语言模型(LLM),生成结构化的音乐干预计划(包括节奏、动态等);最后,通过一个分层的EEG控制器,将这些控制条件注入到预训练的音乐生成模型(MusicGen)中,合成音乐,并根据用户反馈的EEG变化持续更新参数,形成闭环。 与已有方法相比新在哪里:不同于直接映射EEG到波形(数据稀疏且不可解释)或静态推荐,MindMelody引入了层次化的语义桥梁(情感解码 -> 语言计划 -> 层次化音乐控制),并通过闭环反馈机制实现了动态适应。其分层控制器能同时处理全局情感方向和局部时序变化,提升了可控性。 主要实验结果如何:在自动评估中,完整模型在情感对齐(Emo-MSE: 0.082)、动态一致性(Dyn-Corr: 0.63)和计划符合度(Plan-Cons: 0.78)上均优于基线。在包含人类选择歌单、纯文本、文本+静态VA等条件的主观评估中,MindMelody在情感匹配度(Emo.-MOS: 4.21)、感知帮助性(Help.: 4.18)、效价提升(ΔValence: 0.22)和唤醒度偏差(Aro.-Dev.: 0.14)方面取得最佳表现。其在DEA数据集上的跨被试情感解码精度分别为效价76.8%,唤醒度72.4%。 实际意义是什么:该工作为利用可穿戴生理传感设备(如EEG)进行实时、自适应的数字音乐情绪干预提供了一个完整的技术框架和概念验证,展示了脑机接口与生成式AI结合在心理健康领域的应用潜力。 主要局限性是:用户研究规模较小且为短期实验,缺乏临床对照和长期效果验证;系统依赖未公开的音乐治疗知识库和特定大模型,通用性和可复现性受限;情感解码的跨被试泛化能力仍是挑战。 🏗️ 模型架构 MindMelody系统是一个端到端的闭环框架,其整体架构如图2所示,包含三个核心模块:情感编码器(Affect Encoder)、干预计划器(Intervention Planner)和EEG控制模块(EEG Control Module)。 ...

2026-05-05 · 更新于 2026-06-12 · 2 min · 331 words

RenCon 2025: Revival of the Expressive Performance Rendering Competition

📄 RenCon 2025: Revival of the Expressive Performance Rendering Competition #音乐生成 #模型评估 #音乐信息检索 #基准测试 ✅ 7.5/10 | 前25% | #音乐生成 | #模型评估 | #音乐信息检索 #基准测试 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Huan Zhang(Queen Mary University of London) 通讯作者:未说明 作者列表:Huan Zhang(Queen Mary University of London)、Taegyun Kwon(Korea Advanced Institute of Science and Technology)、Anders Friburg(KTH Royal Institute of Technology)、Junyan Jiang(New York University)、Hayeon Bang(Korea Advanced Institute for Science and Technology (KAIST))、Hyeyoon Cho(Korea Advanced Institute for Science and Technology (KAIST))、Gus Xia(Mohamed bin Zayed University of Artificial Intelligence)、Akira Maezawa(Yamaha Corporation)、Simon Dixon(Queen Mary University of London)、Dasaem Jeong(Sogang University) 💡 毒舌点评 亮点:这篇论文作为时隔12年的竞赛复兴报告,其核心价值在于系统性地重新建立了该领域的评测框架,其两阶段赛制设计和对MIDI动态校准问题的讨论,为未来研究提供了清晰的实践路线图和待解决难题清单。 短板:本质上是一篇优秀的“竞赛会议纪要”,其贡献局限于描述已发生的事情和汇总结果,在提出新的、具有启发性的科学假设或算法洞见方面略显不足,更像是一个工作的终点而非新研究的起点。 ...

2026-05-05 · 更新于 2026-06-12 · 2 min · 277 words

Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style #音乐信息检索 #音乐生成 #多任务学习 #扩散模型 #解耦表示学习 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 | #音乐生成 #扩散模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 通讯作者:Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Singapore, Email: dcswangy@nus.edu.sg) 作者列表:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing), Junchuan Zhao (National University of Singapore, School of Computing), Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 💡 毒舌点评 亮点:巧妙地将演奏渲染(EPR)和乐谱转录(APT)这两个互逆任务统一到一个解耦表示学习的框架中,不仅提升了两个任务的性能,还为可控的音乐表达(风格迁移、自动推荐)开辟了新路径,理论动机清晰,工程实现完整。 短板:模型本身规模较大(188M参数),且PSR模块需要单独训练和推理,增加了部署复杂性;实验数据主要局限于古典钢琴音乐,其在更广泛音乐流派(如爵士、流行)上的泛化能力未得到验证。 ...

2026-05-04 · 更新于 2026-06-12 · 3 min · 577 words

Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction

📄 Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction #音乐生成 #强化学习 #对抗训练 #实时处理 #音乐信息检索 ✅ 7.0/10 | 前25% | #音乐生成 | #强化学习 | #对抗训练 #实时处理 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yusong Wu (Mila, Quebec Artificial Intelligence Institute, Université de Montréal) 通讯作者:Natasha Jaques (University of Washington), Cheng-Zhi Anna Huang (Massachusetts Institute of Technology) 作者列表:Yusong Wu (Mila, Université de Montréal), Stephen Brade (Massachusetts Institute of Technology), Aleksandra Teng Ma (Georgia Institute of Technology), Tia-Jane Fowler (University of Washington), Enning Yang (McGill University), Berker Banar (Independent Researcher), Aaron Courville (Mila, Université de Montréal), Natasha Jaques (University of Washington), Cheng-Zhi Anna Huang (Massachusetts Institute of Technology) 💡 毒舌点评 亮点:在强化学习后训练中巧妙引入对抗训练思想来解决“奖励黑客”问题,特别是通过一个自适应更新的判别器来平衡“真实感”与任务目标,方案设计精巧且有实验验证。短板:方法的核心创新是将GAN和RL思想结合用于序列模型,这并非完全原创;研究场景(实时旋律-和弦伴奏)非常垂直,其影响力可能局限于音乐生成领域,对更广泛的序列生成任务(如对话)的普适性未得到充分论证。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 342 words

ICLR 2026 - 音乐信息检索 论文列表

ICLR 2026 - 音乐信息检索 共 2 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Bridging Piano Transcription and Rendering via Disentangled 8.0分 前25% 🥈 LLM2Fx-Tools: Tool Calling for Music Post-Production 7.0分 前25% 📋 论文详情 🥇 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 | #音乐生成 #扩散模型 👥 作者与机构 第一作者:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 通讯作者:Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Singapore, Email: dcswangy@nus.edu.sg) 作者列表:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing), Junchuan Zhao (National University of Singapore, School of Computing), Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 262 words