📄 RenCon 2025: Revival of the Expressive Performance Rendering Competition

#音乐生成 #模型评估 #音乐信息检索 #基准测试

7.5/10 | 前25% | #音乐生成 | #模型评估 | #音乐信息检索 #基准测试 | arxiv

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Huan Zhang(Queen Mary University of London)
  • 通讯作者:未说明
  • 作者列表:Huan Zhang(Queen Mary University of London)、Taegyun Kwon(Korea Advanced Institute of Science and Technology)、Anders Friburg(KTH Royal Institute of Technology)、Junyan Jiang(New York University)、Hayeon Bang(Korea Advanced Institute for Science and Technology (KAIST))、Hyeyoon Cho(Korea Advanced Institute for Science and Technology (KAIST))、Gus Xia(Mohamed bin Zayed University of Artificial Intelligence)、Akira Maezawa(Yamaha Corporation)、Simon Dixon(Queen Mary University of London)、Dasaem Jeong(Sogang University)

💡 毒舌点评

亮点:这篇论文作为时隔12年的竞赛复兴报告,其核心价值在于系统性地重新建立了该领域的评测框架,其两阶段赛制设计和对MIDI动态校准问题的讨论,为未来研究提供了清晰的实践路线图和待解决难题清单。 短板:本质上是一篇优秀的“竞赛会议纪要”,其贡献局限于描述已发生的事情和汇总结果,在提出新的、具有启发性的科学假设或算法洞见方面略显不足,更像是一个工作的终点而非新研究的起点。

🔗 开源详情

  • 代码:
    • 竞赛官方结果仓库:https://github.com/ismir-mirex/RenCon2025
    • 参与系统“Midihum”代码仓库:https://github.com/erwald/midihum
    • 论文中未提及其他参与系统(如VirtuosoNet, DirectorMusices, ElegantAIPianist等)的具体代码链接。
  • 模型权重:论文中未提及。
  • 数据集:论文中提及了两个相关大型钢琴演奏数据集 ATEPP (Zhang et al., 2022) 和 ASAP (Peter et al., 2023),但未提供其具体开源链接或获取方式。
  • Demo:
    • 竞赛项目主页:https://ren-con2025.vercel.app/
    • 在线试听/评审平台:https://ren-con2025-audition-page.vercel.app/
  • 复现材料:论文中未提及(如详细的训练配置、检查点文件、环境配置等)。
  • 论文中引用的开源项目/工具:
    • Midihum:https://github.com/erwald/midihum (论文中明确给出)
    • Parangonar (用于MIDI对齐):引用为 Peter and Widmer (2024),论文中未提供具体链接。
    • partitura (用于提取表演参数):引用为 Grachten et al. (2019),论文中未提供具体链接。

补充信息

  • [毒舌点评] 补充:论文在“讨论与反思”部分明确指出了未来继续举办竞赛、加强社区建设的计划,并提出可能引入新任务(如预测乐曲技术难度)和更模态的数据(如物理演奏数据)。这反驳了“更像是一个工作的终点而非新研究的起点”的部分评论,表明论文也包含了对未来研究起点的展望。
  • [核心摘要/细节详述] 补充:现场决赛所使用的“未知新创作乐曲”是作者Hayeon Bang创作的一首新作品,其主题改编自韩国民歌《어마야 누나야 (Eommaya Nunaya)》。该乐曲为94小节的主题与变奏曲式,四个变奏分别刻意模仿了巴赫、莫扎特、肖邦和拉赫玛尼诺夫的风格,旨在评估系统处理多样音乐风格的能力。乐曲的完整乐谱已在GitHub仓库中公开。
  • [模型架构/细节详述] 补充:论文对每个参赛系统的具体技术方法有更简要的独立描述。例如,明确指出VirtuosoNet(v1.1)使用了条件变分自编码器(cVAE),DirectorMusices的参与版本是相较于已发表版本略有改进的版本,以及Contin-U使用了基于残差向量量化(RVQ)的标记进行图像到音频的合成。
  • [实验结果] 补充:论文在“讨论”部分详细解释了图5(相关性散点图)的分析方法:首先使用Parangonar工具将MIDI性能与参考乐谱对齐,然后使用partitura工具提取速度、动态、时值和连奏度等表现参数进行分析。分析明确指出,动态相关的指标与观众评分显示出最清晰的正向关联。
  • [实验结果] 补充:论文在“讨论”部分对“性能蠕虫”(图6)的分析得出一个重要补充发现:表现居中的MidihumScorePerLockNAR系统,其特点是基本保持乐谱原有时值,表现出极少的表现性速度变化(rubato),但仍获得了中等排名。这表明,在当前评估环境下,稳定的节奏本身是可以接受的,甚至可能优于选择不当的大幅速度变化。
  • [细节详述] 补充:关于现场决赛的MIDI校准,论文明确说明组织者使用Logic Pro的MIDI Velocity Processor插件调整了速度偏移和斜率,并且仅为那些没有预测延音踏板信息的MIDI文件统一添加了半踏板设置。这比分析中“全局速度偏移和斜率调整”的描述更具体,揭示了校准的针对性。
  • [细节详述] 补充:论文第3.1节明确指出了初选阶段提交的一首乐曲(Rachmaninoff作品)的版权来源:改编版本来自Musescore平台,并已获得改编者许可用于本次竞赛。这是一个重要的合规性细节。
  • [模型架构/细节详述] 补充:论文第6.2节在分析结果时,指出由于Contin-U是音频生成系统,其输出在尝试自动转录后导致MIDI数据不可靠和速度结果失真,因此该系统被排除在基于MIDI的表现力指标分析之外。这是分析中未提及的一个重要数据处理细节。
  • [创新点] 补充:论文在“讨论与反思”部分(7.1.2)诚实地记录了现场竞赛中的一个操作问题:由于首次播放音量过低,DirectorMusices的MIDI文件被播放了两次。这一细节体现了论文报告的客观性,并强调了未来建立稳健播放程序的必要性,这也是竞赛组织经验的一部分。

📌 核心摘要

  1. 要解决什么问题:音乐表达性能渲染领域在神经模型兴起后缺乏统一的评测基准,同时传统竞赛RenCon已停办多年,需要重新建立一个标准化的评估平台来比较不同技术路径的系统。
  2. 方法核心是什么:复兴并重新设计RenCon竞赛,采用“线上初选 + 现场决赛”的两阶段赛制。线上阶段评审公开提交的3首乐曲渲染结果;现场阶段要求入围系统在48小时内渲染一首未知的新创作乐曲,并与人类钢琴家的基准表演同台匿名展示,由现场观众投票。
  3. 与已有方法相比新在哪里:新在竞赛形式(结合异步线上评审与同步现场“图灵测试”),新在评估对象(涵盖了从规则系统、统计模型到最新Transformer架构和跨模态生成系统等9种多元技术路径),并尝试解决长期存在的MIDI动态校准难题。
  4. 主要实验结果如何:
    • 初选结果(基于加权平均分,满分5分):
      排名系统名称得分
      1DirectorMusices4.33
      2VirtuosoNet3.54
      3Midihum3.32
    • 现场决赛结果(包含人类基准):
      排名系统名称得分初选排名变化
      1VirtuosoNet3.62↑1
      2DirectorMusices3.06↓1
      3Midihum2.90
      -Human4.40-
    • 关键发现:规则系统(DirectorMusices)与神经网络系统(VirtuosoNet)在各阶段均表现强劲;动态变化的丰富度(速度标准差)与观众评分正相关性更强;75%的现场观众正确识别出了人类表演,表明当前AI渲染与人类仍有感知差距。
  5. 实际意义是什么:为音乐表达性能渲染领域提供了最新的、多角度的评测基准和现状快照;其竞赛设计和评估数据为研究听众如何感知AI生成的音乐表现提供了宝贵资料;明确指出了MIDI动态校准、实时渲染调整等亟待解决的工程与研究难题。
  6. 主要局限性是什么:参赛系统数量有限(9个),可能未覆盖所有前沿方向;评估高度依赖主观听众投票,存在个体差异;作为竞赛报告,未能深入剖析单个系统的内部技术细节;现场MIDI校准由组织者统一调整,可能对部分系统不公平。

🏗️ 模型架构

本论文并非提出单一模型,而是对多个竞赛参赛系统进行综述和比较。其核心“架构”是竞赛框架本身。论文描述了参与竞赛的系统的主要技术路径类别:

  1. 规则与统计学习系统:如DirectorMusices使用基于规则的短语拱规则和SVR动态模型;Midihum使用XGBoost和400多个手工特征。
  2. 层次化与概率模型:如VirtuosoNet使用分层GRU和cVAE;YQX+使用条件流匹配(CFM)的概率框架。
  3. Transformer架构:如ElegantAIPianist使用带风格自适应层归一化的编码器-解码器;ScorePerLockNAR使用非自回归Transformer。
  4. 跨模态合成:如Contin-U使用统一的跨模态Transformer,直接从MusicXML生成图像再合成音频。 (论文未提供统一的架构图,以上描述基于对各类系统的文字总结。)

💡 核心创新点

  1. 复兴并现代化竞赛框架:时隔12年重启RenCon,引入“线上初选+现场决赛”的混合赛制,解决了传统竞赛参与门槛高、评估样本有限的问题,增强了竞赛的国际参与度和影响力。
  2. 引入“现场表演图灵测试”:在现场决赛中,将人类专业钢琴家的表演作为基准匿名混入AI系统输出中,让观众直接判断,这是对系统“音乐表现力”最直接的终极测试。
  3. 对MIDI动态校准难题的实践与讨论:论文详细记录了因不同Disklavier和合成器MIDI响应曲线不一致导致的动态失真问题,并分享了使用Logic Pro MIDI Velocity Processor进行启发式校准的实践经验,为该领域提供了一个重要的实操参考案例。
  4. 提出基于表演分析的评估洞见:利用Parangonar和partitura工具对MIDI进行对齐和分析,将“性能蠕虫”(速度-动态轨迹)可视化,并发现动态变化的丰富度比速度的大幅变化与观众好感度的相关性更强。

🔬 细节详述

  • 训练数据:论文未提供各参赛系统所使用的具体训练数据集名称、规模及预处理细节。仅提及领域内有ATEPP和ASAP等大规模表演数据集。
  • 损失函数:未说明(论文聚焦竞赛评测,未深入各系统训练细节)。
  • 训练策略:未说明。
  • 关键超参数:未说明。
  • 训练硬件:未说明。
  • 推理细节:对于现场决赛,系统需要在48小时内渲染一首未知的新乐曲(主题与变奏形式,模仿巴赫、莫扎特、肖邦、拉赫玛尼诺夫风格)。评估时,所有MIDI输出由组织者使用同一台Disklavier(位于约翰·开普勒大学林茨分校)统一渲染为音频。现场播放前,组织者使用Logic Pro中的MIDI Velocity Processor插件进行了全局速度偏移和斜率调整(如图3所示),并对无延音踏板信息的MIDI文件施加了半踏板设置。
  • 正则化或稳定训练技巧:未说明。

📊 实验结果

竞赛排名与得分

  1. 初选轮次(在线评审)

    • 指标:加权平均分(评审专家自评加权)
    • 结果如核心摘要中表格所示。DirectorMusices以4.33分位列第一。
  2. 现场决赛轮次

    • 指标:现场观众平均分
    • 结果如核心摘要中表格所示。VirtuosoNet以3.62分位列第一,人类基准以4.40分最高。
    • 关键发现:在48位现场评审中,36人(75%)正确识别出了人类表演。
  3. 表现力分析(图5、图6)

    • 图5(相关性散点图):展示了四个表现力指标(速度范围、动态范围/标准差、时值偏差、连奏度)与观众评分的皮尔逊相关系数r。其中,动态范围/标准差(Dynamics Spread/Std) 与得分的正相关性最明显(r=0.65)。速度相关指标相关性较弱或不稳定。
    • 图6(性能蠕虫图):展示了第二变奏(第22-41小节)中,各系统及人类表演在速度-动态平面上的轨迹。高分表演(如Human, VirtuosoNet)呈现出连贯、有方向性的弧形轨迹,而低分系统的轨迹则呈现为更分散、无规则的点云。

图5: 表现力指标与观众评分的相关性 图5:各表现力指标(速度、动态、时值、连奏度)与观众评分的散点图及线性趋势。动态相关指标显示出最强的正相关。

图6: 表现力“蠕虫”轨迹对比 图6:第二变奏段的速度-动态轨迹。高分系统(Human, VirtuosoNet)的轨迹连贯且有方向性,低分系统的轨迹则离散无序。

⚖️ 评分理由

  • 学术质量:5.5/7:论文作为竞赛报告,逻辑严谨,数据呈现清晰,对竞赛过程的文档化和对评审数据的分析(特别是表现力指标与评分的相关性分析)具有参考价值。创新性主要体现在竞赛组织和评估框架上,而非算法突破。技术正确性高,证据(基于竞赛结果)可信。
  • 选题价值:1.5/2:音乐表达性能渲染是MIR和AI音乐生成的核心挑战之一。复兴这一标志性竞赛,为学界提供了一个清晰的当前技术状态基准,具有明确的领域服务价值和引导意义。
  • 开源与复现加成:0.5/1:论文本身提供了竞赛的官方网站、结果GitHub仓库链接(https://github.com/ismir-mirex/RenCon2025)以及在线评审页面,体现了良好的开放性。然而,它并未集中提供所有参赛系统的代码、模型或详细配置。复现依赖于分散的各个项目,论文未对此进行整合说明。


← 返回 2026-05-05 论文速递