<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>钢琴转录 on 语音/音频论文速递</title>
    <link>https://nanless.github.io/audio-paper-digest-blog/tags/%E9%92%A2%E7%90%B4%E8%BD%AC%E5%BD%95/</link>
    <description>每日 AI 自动生成的语音/AI 领域论文深度分析</description>
    <language>zh-cn</language>
    <lastBuildDate>Sat, 02 May 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://nanless.github.io/audio-paper-digest-blog/tags/%E9%92%A2%E7%90%B4%E8%BD%AC%E5%BD%95/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Bridging Piano Transcription and Rendering via Disentangled Score Content and Style</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-02-bridging-piano-transcription-and-rendering-via/</link>
      <pubDate>Sat, 02 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-02-bridging-piano-transcription-and-rendering-via/</guid>
      <description>&lt;h1 id=&#34;-bridging-piano-transcription-and-rendering-via-disentangled-score-content-and-style&#34;&gt;📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style&lt;/h1&gt;
&lt;p&gt;#音乐信息检索 #多任务学习 #解耦表示学习 #扩散模型 #钢琴转录&lt;/p&gt;
&lt;p&gt;🔥 &lt;strong&gt;8.0/10&lt;/strong&gt; | 前25% | #音乐信息检索 | #多任务学习 #解耦表示学习 | #多任务学习 #解耦表示学习&lt;/p&gt;
&lt;p&gt;学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高&lt;/p&gt;
&lt;h3 id=&#34;-作者与机构&#34;&gt;👥 作者与机构&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Wei Zeng（新加坡国立大学，综合科学与工程项目，计算学院）&lt;/li&gt;
&lt;li&gt;通讯作者：Ye Wang（新加坡国立大学，综合科学与工程项目，计算学院）&lt;/li&gt;
&lt;li&gt;作者列表：Wei Zeng（新加坡国立大学，综合科学与工程项目，计算学院）、Junchuan Zhao（新加坡国立大学，计算学院）、Ye Wang（新加坡国立大学，综合科学与工程项目，计算学院）&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-毒舌点评&#34;&gt;💡 毒舌点评&lt;/h3&gt;
&lt;p&gt;亮点在于其统一的框架设计与“内容-风格”解耦的清晰思路，巧妙地利用了EPR和APT的互逆性进行联合训练，并无需繁琐的音符级对齐数据，这在方法论上颇具启发性。短板是，虽然框架通用，但实验主要基于古典钢琴音乐，其对于更丰富多变的流行音乐等风格的泛化能力未被验证；此外，模型参数量（188M）显著高于一些基线，计算成本是一个需要考虑的实际问题。&lt;/p&gt;
&lt;h3 id=&#34;-开源详情&#34;&gt;🔗 开源详情&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;代码：论文明确表示“代码将在论文被接受后发布”，提供了项目主页链接（https://wei-zeng98.github.io/joint-apt-epr/），表明有开源计划。&lt;/li&gt;
&lt;li&gt;模型权重：未提及是否公开预训练模型权重。&lt;/li&gt;
&lt;li&gt;数据集：使用了公开的ASAP和ATEPP数据集，以及从MuseScore收集并过滤的公开乐谱数据。论文未提及是否提供已处理的未配对演奏MIDI数据。&lt;/li&gt;
&lt;li&gt;Demo：提供了在线演示页面（https://wei-zeng98.github.io/joint-apt-epr/），包含EPR渲染和风格迁移的示例。&lt;/li&gt;
&lt;li&gt;复现材料：附录B提供了极其详细的模型实现细节（PyTorch Lightning、多任务训练设置、优化器、掩码策略等），是高质量的复现指南。&lt;/li&gt;
&lt;li&gt;论文中引用的开源项目：提到了MidiTok（用于MIDI分词）、Aria-AMT（用于音频转MIDI）和Partitura（用于音乐处理）。&lt;/li&gt;
&lt;li&gt;总体开源情况：论文有明确的开源承诺和详尽的复现材料，开源状态积极，但代码和权重尚未发布。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-核心摘要&#34;&gt;📌 核心摘要&lt;/h3&gt;
&lt;p&gt;这篇论文旨在解决钢琴演奏渲染（EPR）和自动钢琴转录（APT）两个基础但互逆的任务长期被独立研究的问题。其核心方法是构建一个基于Transformer的统一序列到序列（Seq2Seq）框架，通过解耦“音符级乐谱内容”和“全局演奏风格”两种表示，来联合学习这两个任务。与已有方法相比，其新意在于：1）首次将EPR和APT统一建模，实现双向监督；2）提出无需音符级对齐的Seq2Seq训练范式，降低了数据标注门槛；3）设计了一个独立的、基于扩散模型的演奏风格推荐（PSR）模块，能够仅从乐谱内容生成合适的风格嵌入。实验表明，该联合模型在ASAP数据集的APT任务上，达到了与最先进端到端模型（Beyer &amp;amp; Dai, 2024）可比的性能（例如，ScoreSimilarity平均误差Eavg从14.10降至12.48）。在EPR任务上，其客观指标（如速度MAE为0.37）和主观评价均优于或接近现有基线。消融实验验证了联合训练和无对齐数据的重要性。该工作的实际意义在于实现了音乐模态间转换的双向建模，并支持风格可控的演奏生成；主要局限性在于计算开销较大，且实验验证局限于古典钢琴音乐。&lt;/p&gt;
&lt;h3 id=&#34;-模型架构&#34;&gt;🏗️ 模型架构&lt;/h3&gt;
&lt;p&gt;本文提出一个统一的、模块化的框架，用于联合处理EPR和APT任务，并支持独立的风格推荐。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="-bridging-piano-transcription-and-rendering-via-disentangled-score-content-and-style">📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style</h1>
<p>#音乐信息检索 #多任务学习 #解耦表示学习 #扩散模型 #钢琴转录</p>
<p>🔥 <strong>8.0/10</strong> | 前25% | #音乐信息检索 | #多任务学习 #解耦表示学习 | #多任务学习 #解耦表示学习</p>
<p>学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高</p>
<h3 id="-作者与机构">👥 作者与机构</h3>
<ul>
<li>第一作者：Wei Zeng（新加坡国立大学，综合科学与工程项目，计算学院）</li>
<li>通讯作者：Ye Wang（新加坡国立大学，综合科学与工程项目，计算学院）</li>
<li>作者列表：Wei Zeng（新加坡国立大学，综合科学与工程项目，计算学院）、Junchuan Zhao（新加坡国立大学，计算学院）、Ye Wang（新加坡国立大学，综合科学与工程项目，计算学院）</li>
</ul>
<h3 id="-毒舌点评">💡 毒舌点评</h3>
<p>亮点在于其统一的框架设计与“内容-风格”解耦的清晰思路，巧妙地利用了EPR和APT的互逆性进行联合训练，并无需繁琐的音符级对齐数据，这在方法论上颇具启发性。短板是，虽然框架通用，但实验主要基于古典钢琴音乐，其对于更丰富多变的流行音乐等风格的泛化能力未被验证；此外，模型参数量（188M）显著高于一些基线，计算成本是一个需要考虑的实际问题。</p>
<h3 id="-开源详情">🔗 开源详情</h3>
<ul>
<li>代码：论文明确表示“代码将在论文被接受后发布”，提供了项目主页链接（https://wei-zeng98.github.io/joint-apt-epr/），表明有开源计划。</li>
<li>模型权重：未提及是否公开预训练模型权重。</li>
<li>数据集：使用了公开的ASAP和ATEPP数据集，以及从MuseScore收集并过滤的公开乐谱数据。论文未提及是否提供已处理的未配对演奏MIDI数据。</li>
<li>Demo：提供了在线演示页面（https://wei-zeng98.github.io/joint-apt-epr/），包含EPR渲染和风格迁移的示例。</li>
<li>复现材料：附录B提供了极其详细的模型实现细节（PyTorch Lightning、多任务训练设置、优化器、掩码策略等），是高质量的复现指南。</li>
<li>论文中引用的开源项目：提到了MidiTok（用于MIDI分词）、Aria-AMT（用于音频转MIDI）和Partitura（用于音乐处理）。</li>
<li>总体开源情况：论文有明确的开源承诺和详尽的复现材料，开源状态积极，但代码和权重尚未发布。</li>
</ul>
<h3 id="-核心摘要">📌 核心摘要</h3>
<p>这篇论文旨在解决钢琴演奏渲染（EPR）和自动钢琴转录（APT）两个基础但互逆的任务长期被独立研究的问题。其核心方法是构建一个基于Transformer的统一序列到序列（Seq2Seq）框架，通过解耦“音符级乐谱内容”和“全局演奏风格”两种表示，来联合学习这两个任务。与已有方法相比，其新意在于：1）首次将EPR和APT统一建模，实现双向监督；2）提出无需音符级对齐的Seq2Seq训练范式，降低了数据标注门槛；3）设计了一个独立的、基于扩散模型的演奏风格推荐（PSR）模块，能够仅从乐谱内容生成合适的风格嵌入。实验表明，该联合模型在ASAP数据集的APT任务上，达到了与最先进端到端模型（Beyer &amp; Dai, 2024）可比的性能（例如，ScoreSimilarity平均误差Eavg从14.10降至12.48）。在EPR任务上，其客观指标（如速度MAE为0.37）和主观评价均优于或接近现有基线。消融实验验证了联合训练和无对齐数据的重要性。该工作的实际意义在于实现了音乐模态间转换的双向建模，并支持风格可控的演奏生成；主要局限性在于计算开销较大，且实验验证局限于古典钢琴音乐。</p>
<h3 id="-模型架构">🏗️ 模型架构</h3>
<p>本文提出一个统一的、模块化的框架，用于联合处理EPR和APT任务，并支持独立的风格推荐。</p>
<p><img alt="整体框架图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/173Pq3F31r-0.jpg">
图1：整体框架与任务关系。</p>
<p>框架主要由两部分组成：</p>
<ol>
<li>
<p>联合EPR-APT模型：基于Transformer的编码器-解码器架构，包含五个主要组件：</p>
<ul>
<li>Score Encoder：处理乐谱序列 <code>x</code>，通过记谱级特征（如IOI、音高、时值等）提取音符级内容表示 <code>zx</code>。</li>
<li>Performance Encoder：处理演奏MIDI序列 <code>y</code>，通过表情特征（音高、IOI、时值、力度）提取音符级内容表示 <code>zy</code>。</li>
<li>Style Encoder：同样处理演奏序列 <code>y</code>，但通过一个特殊的<code>&lt;CLS&gt;</code>token聚合全局信息，提取全局演奏风格表示 <code>zs</code>。<code>zs</code>通过KL散度正则化使其服从标准高斯分布。</li>
<li>Score Decoder：接收来自Performance Encoder的内容表示 <code>zy</code>，自回归地解码预测的乐谱序列 <code>^x</code>，用于APT任务。</li>
<li>Performance Decoder：接收来自Score Encoder的内容表示 <code>zx</code>与风格表示 <code>zs</code>的广播加法结果，自回归地解码预测的演奏MIDI序列 <code>^y</code>，用于EPR任务。</li>
</ul>
<p>核心设计：通过两个内容编码器（<code>fc,X</code>和<code>fc,Y</code>）分别从乐谱和演奏中提取内容表示 <code>zx</code>和 <code>zy</code>，并通过APT和EPR任务的监督损失，迫使它们对齐到同一潜在内容空间 <code>Zc</code>。风格表示 <code>zs</code>被设计为与内容解耦，作为全局条件控制演奏生成。</p>
</li>
<li>
<p>演奏风格推荐（PSR）模块：这是一个独立训练的模块，旨在模拟钢琴家仅凭乐谱选择合适演奏风格的能力。</p>
<ul>
<li>Score Encoder (PSR)：一个独立的Transformer编码器，从乐谱 <code>x</code>中提取全局内容嵌入 <code>eg</code>（使用<code>&lt;CLS&gt;</code> token）。</li>
<li>扩散模型 (DDPM)：以 <code>eg</code>为条件，通过迭代去噪从标准高斯噪声中生成风格嵌入 <code>^zs</code>。训练时，<code>zs</code>的真值来自冻结的联合模型；推理时，生成的 <code>^zs</code>被送入Performance Decoder以进行可控的EPR。</li>
</ul>
</li>
</ol>
<p>图6：PSR模块的详细架构。</p>
<p>数据流：</p>
<ul>
<li>APT：Performance (<code>y</code>) -&gt; Performance Encoder -&gt; <code>zy</code> -&gt; Score Decoder -&gt; Predicted Score (<code>^x</code>)</li>
<li>EPR：Score (<code>x</code>) -&gt; Score Encoder -&gt; <code>zx</code>; <code>zx</code> + <code>zs</code> -&gt; Performance Decoder -&gt; Predicted Performance (<code>^y</code>)</li>
<li>风格迁移：使用源乐谱的 <code>zx</code>与目标演奏的 <code>zs</code>组合进行解码。</li>
<li>PSR驱动EPR：Score (<code>x</code>) -&gt; PSR模块 -&gt; <code>^zs</code>; <code>zx</code> (来自联合模型) + <code>^zs</code> -&gt; Performance Decoder -&gt; <code>^y</code></li>
</ul>
<h3 id="-核心创新点">💡 核心创新点</h3>
<ol>
<li>统一的EPR-APT框架：首次将表现性演奏渲染和自动钢琴转录这两个互逆任务整合到一个Transformer编码器-解码器模型中，通过共享的内容表示进行联合训练，实现了双向信息互补。</li>
<li>无音符级对齐的Seq2Seq建模：将EPR建模为序列到序列的生成问题，摆脱了对精细音符级对齐数据的依赖（这在含装饰音等复杂演奏时尤为困难），仅需序列级对齐数据即可训练，提升了方法的可扩展性和通用性。</li>
<li>显式的内容-风格解耦与控制：通过架构设计（音符级内容序列 vs. 全局风格向量）和训练损失（KL正则化），显式地将乐谱内容与演奏风格解耦到不同的潜在空间。这使得风格可控生成和风格迁移成为可能。</li>
<li>基于扩散模型的演奏风格推荐（PSR）：创新性地引入一个独立的扩散模块，学习从乐谱内容到演奏风格的映射，实现自动化的风格推荐。这模拟了人类音乐家的创作过程，降低了非专家用户的使用门槛。</li>
</ol>
<h3 id="-细节详述">🔬 细节详述</h3>
<ul>
<li>训练数据：
<ul>
<li>配对数据：使用ASAP数据集，包含967个高质量的钢琴乐谱-演奏对（MIDI格式），按8:1:1划分训练/验证/测试集。</li>
<li>未配对乐谱数据：从MuseScore收集的75,913个公开领域MusicXML文件，经过严格规则过滤（如双谱表、音符数&gt;100、小节数&gt;10等）。</li>
<li>未配对演奏数据：从YouTube钢琴演奏视频中，使用Aria-AMT模型转录得到的MIDI。</li>
<li>评估数据集：ATEPP数据集（11,674个表演，49位钢琴家，25位作曲家），用于离分布评估和表示分析。</li>
</ul>
</li>
<li>损失函数：
<ul>
<li>APT/EPR损失：<code>LAPT</code> 和 <code>LEPR</code> 均为标准的交叉熵损失，分别作用于Score Decoder和Performance Decoder的输出。</li>
<li>未配对重建损失：<code>Lrec,X</code>和<code>Lrec,Y</code>，在输入序列随机掩码（Mask）后重建原始序列，类似于掩码自编码器（MAE）。</li>
<li>正则化损失：<code>LKL</code>，即风格表示后验分布与标准高斯先验之间的KL散度。
总损失：<code>Ltotal = LAPT + LEPR + λrec  (Lrec,X + Lrec,Y) + λKL * LKL</code>。其中<code>λrec = 0.2</code>，<code>λKL = 0.1</code>。</li>
</ul>
</li>
<li>训练策略：
<ul>
<li>优化器：AdamW，学习率 <code>5e-5</code>，采用余弦退火调度，前4000步线性预热。</li>
<li>批量大小：每步处理144个序列（每序列256个音符），四个子任务（APT，EPR，未配对乐谱，未配对MIDI）平均分配。</li>
<li>训练步数：40,000步。</li>
<li>掩码率：在重建任务中，编码器输入掩码率为50%；为鼓励长程依赖，在解码器输入应用更轻的掩码率：Score Decoder为0.75，Performance Decoder为0.2。</li>
<li>精度：使用混合精度（fp16）训练。</li>
</ul>
</li>
<li>关键超参数与架构：
<ul>
<li>模型大小：联合模型总参数量188.21M（见表7）。</li>
<li>Transformer配置：所有组件均采用6层、8头的标准Transformer，使用旋转位置编码（RoPE）、预层归一化和SwiGLU激活函数，前馈隐藏维度3072。</li>
<li>嵌入维度：所有组件使用统一的嵌入维度 <code>d = 512</code>。</li>
</ul>
</li>
<li>训练硬件：联合模型在3块NVIDIA A5000 GPU上训练。PSR模型在单块A5000 GPU上训练，学习率峰值为<code>1e-4</code>。</li>
<li>推理细节：
<ul>
<li>解码策略：自回归生成。在评估EPR多样性时，使用Top-k采样（k=5）。</li>
<li>PSR推理：从标准高斯分布采样噪声，通过训练好的扩散网络进行迭代去噪（使用EMA权重），生成最终风格向量 <code>^zs</code>。</li>
</ul>
</li>
</ul>
<h3 id="-实验结果">📊 实验结果</h3>
<p>主要基准测试与结果：</p>
<ol>
<li>
<p>APT任务（ASAP测试集）：使用MUSTER和ScoreSimilarity指标评估。结果如表1所示。</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">Ep</th>
          <th style="text-align: left">Emiss</th>
          <th style="text-align: left">Eextra</th>
          <th style="text-align: left">Eonset</th>
          <th style="text-align: left">Eoffset</th>
          <th style="text-align: left">Eavg</th>
          <th style="text-align: left">Emiss</th>
          <th style="text-align: left">Eextra</th>
          <th style="text-align: left">Edur.</th>
          <th style="text-align: left">Estaff</th>
          <th style="text-align: left">Estem</th>
          <th style="text-align: left">Espell</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">Neural (Liu et al., 2022)</td>
          <td style="text-align: left">2.02</td>
          <td style="text-align: left">6.81</td>
          <td style="text-align: left">9.01</td>
          <td style="text-align: left">68.28</td>
          <td style="text-align: left">54.11</td>
          <td style="text-align: left">28.04</td>
          <td style="text-align: left">17.10</td>
          <td style="text-align: left">17.67</td>
          <td style="text-align: left">66.98</td>
          <td style="text-align: left">6.86</td>
          <td style="text-align: left">-</td>
          <td style="text-align: left">9.71</td>
      </tr>
      <tr>
          <td style="text-align: left">End-to-end (Beyer &amp; Dai, 2024)</td>
          <td style="text-align: left">2.73</td>
          <td style="text-align: left">8.40</td>
          <td style="text-align: left">8.95</td>
          <td style="text-align: left">17.48</td>
          <td style="text-align: left">32.92</td>
          <td style="text-align: left">14.10</td>
          <td style="text-align: left">12.89</td>
          <td style="text-align: left">11.29</td>
          <td style="text-align: left">55.04</td>
          <td style="text-align: left">11.32</td>
          <td style="text-align: left">30.51</td>
          <td style="text-align: left">14.31</td>
      </tr>
      <tr>
          <td style="text-align: left">Ours</td>
          <td style="text-align: left">3.08‡</td>
          <td style="text-align: left">8.43</td>
          <td style="text-align: left">7.33‡</td>
          <td style="text-align: left">16.26†</td>
          <td style="text-align: left">27.30‡</td>
          <td style="text-align: left">12.48‡</td>
          <td style="text-align: left">13.43</td>
          <td style="text-align: left">9.48‡</td>
          <td style="text-align: left">51.75</td>
          <td style="text-align: left">9.43‡</td>
          <td style="text-align: left">28.60</td>
          <td style="text-align: left">6.24‡</td>
      </tr>
      <tr>
          <td style="text-align: left">结论：本文模型在多项指标上显著优于或接近最先进的端到端模型（Beyer &amp; Dai, 2024），特别是在Eextra（多余音符）、Eonset（起始时间误差）和Eavg（平均误差）上，证明其内容表示的有效性。</td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
      </tr>
  </tbody>
</table>
</li>
<li>
<p>EPR任务（ASAP测试集）：使用客观指标（方差σ²、KL散度、MAE）和主观听音测试评估。结果如表2、表3和图2所示。</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">σ² (O)</th>
          <th style="text-align: left">σ² (D)</th>
          <th style="text-align: left">σ² (V)</th>
          <th style="text-align: left">KL (D)</th>
          <th style="text-align: left">MAE (D)</th>
          <th style="text-align: left">KL (V)</th>
          <th style="text-align: left">MAE (V)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">Human</td>
          <td style="text-align: left">0.12a</td>
          <td style="text-align: left">1.72a</td>
          <td style="text-align: left">241.04a</td>
          <td style="text-align: left">-</td>
          <td style="text-align: left">-</td>
          <td style="text-align: left">-</td>
          <td style="text-align: left">-</td>
      </tr>
      <tr>
          <td style="text-align: left">DExter (Zhang et al., 2024)</td>
          <td style="text-align: left">0.20b</td>
          <td style="text-align: left">4.15c</td>
          <td style="text-align: left">238.86a</td>
          <td style="text-align: left">1.48b</td>
          <td style="text-align: left">0.88c</td>
          <td style="text-align: left">2.32b</td>
          <td style="text-align: left">24.27b</td>
      </tr>
      <tr>
          <td style="text-align: left">VirtuosoNet (Jeong et al., 2019)</td>
          <td style="text-align: left">0.02c</td>
          <td style="text-align: left">0.03d</td>
          <td style="text-align: left">52.54c</td>
          <td style="text-align: left">5.72cd</td>
          <td style="text-align: left">0.48a</td>
          <td style="text-align: left">4.91c</td>
          <td style="text-align: left">14.40c</td>
      </tr>
      <tr>
          <td style="text-align: left">Ours (Target)</td>
          <td style="text-align: left">0.02c</td>
          <td style="text-align: left">0.58f</td>
          <td style="text-align: left">151.03e</td>
          <td style="text-align: left">5.51d</td>
          <td style="text-align: left">0.37e</td>
          <td style="text-align: left">1.76d</td>
          <td style="text-align: left">10.33d</td>
      </tr>
      <tr>
          <td style="text-align: left">结论：使用目标风格（Ours-Target）的模型在力度KL和MAE上表现最佳，且生成的时值方差（0.58）比其他基线更接近人类演奏（1.72），表明其生成更自然。</td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
      </tr>
  </tbody>
</table>
<table>
  <thead>
      <tr>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">Align ↑</th>
          <th style="text-align: left">Insert ↓</th>
          <th style="text-align: left">Miss ↓</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">DExter</td>
          <td style="text-align: left">91.27b</td>
          <td style="text-align: left">5.11b</td>
          <td style="text-align: left">3.62b</td>
      </tr>
      <tr>
          <td style="text-align: left">VirtuosoNet</td>
          <td style="text-align: left">91.88c</td>
          <td style="text-align: left">4.23a</td>
          <td style="text-align: left">3.90c</td>
      </tr>
      <tr>
          <td style="text-align: left">Ours (Target)</td>
          <td style="text-align: left">91.55d</td>
          <td style="text-align: left">4.13b</td>
          <td style="text-align: left">4.32d</td>
      </tr>
      <tr>
          <td style="text-align: left">Ours (PSR)</td>
          <td style="text-align: left">92.27a</td>
          <td style="text-align: left">3.77c</td>
          <td style="text-align: left">3.96a</td>
      </tr>
      <tr>
          <td style="text-align: left">结论：使用PSR生成风格（Ours-PSR）的模型获得了最高的对齐率（92.27%）和最低的插入率（3.77%）。</td>
          <td></td>
          <td></td>
          <td></td>
      </tr>
  </tbody>
</table>
<p>主观评估（图2）：</p>
<ul>
<li>在动态、速度、风格和总体拟人度四个维度上，使用目标风格的模型（Ours-Target）得分最高，使用PSR风格的模型（Ours-PSR）紧随其后，且两者均优于基线。分作曲家来看，两者在巴赫和斯克里亚宾的作品上表现尤其出色。</li>
</ul>
</li>
<li>
<p>表示解耦分析（ATEPP数据集）：</p>
<ul>
<li>表演者/作曲家识别（表4）：使用风格表示（Style）进行作曲家识别准确率达77.46%，远高于使用内容表示（Cont）的29.99%；而用内容表示进行表演者识别则几乎无效（Acc. 9.94%）。这验证了成功的内容-风格解耦。</li>
<li>风格迁移主观测试（图5）：在三个样本中，将风格迁移至目标参考（Target）条件，其风格相似度评分最高，且不损害整体质量；均值插值（Mean）条件则获得稳定且高的质量评分，表明风格空间结构良好。</li>
</ul>
</li>
<li>
<p>PSR模块有效性（ATEPP数据集）：</p>
<ul>
<li>历史时期聚类可视��（图4）：PSR生成的风格向量（右图）在历史时期聚类结构、分离度和质心位置上，与从真实表演中提取的风格向量（左图）高度一致。</li>
</ul>
<p><img alt="主观评估图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/173Pq3F31r-1.jpg">
图2：EPR主观评估结果。 (a) 总体评估显示Ours (Target Style)在所有属性上得分最高，Ours (PSR)紧随其后。 (b) 按作曲家细分，模型在不同风格上表现均衡。</p>
<p><img alt="风格表示可视化图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/173Pq3F31r-2.jpg">
图3：演奏风格表示的二维可视化。 (a) 按作曲家着色，(b) 按表演者着色。风格表示在二维空间形成了清晰的聚类。</p>
<p>图4：历史时期的风格表示可视化。 左图为真实表演提取的风格，右图为PSR生成的风格，两者聚类模式相似。</p>
</li>
</ol>
<h3 id="-评分理由">⚖️ 评分理由</h3>
<ul>
<li>学术质量（6.0/7）：论文在方法论上有清晰且有价值的创新（统一框架、解耦、无对齐训练），技术路线正确且设计巧妙。实验评估全面，涵盖了客观指标、主观测试、消融研究（未配对数据的影响）和表示分析，证据链完整。扣分点在于，虽然框架新颖，但并非对某个单一任务（如纯APT或纯EPR）性能的突破性超越；同时，计算效率（参数量）的代价未在文内充分讨论。</li>
<li>选题价值（1.5/2）：选题切入了音乐信息检索中的一个核心矛盾点（互逆任务分离），具有很好的前沿性和启发性。统一建模和风格可控生成具有明确的应用前景。标签为“音乐信息检索”相关，对于MIR领域的研究者价值较高。</li>
<li>开源与复现加成（0.5/1）：论文承诺将开源代码，并在附录中提供了详尽的模型架构、训练细节、超参数和数据处理方法，复现性信息非常充分。如果代码得以公开，复现难度将较低。</li>
</ul>
<hr>
<p><a href="/audio-paper-digest-blog/posts/iclr2026-summary/">← 返回 ICLR 2026 论文分析</a></p>
]]></content:encoded>
      <category>音乐信息检索</category>
      <category>多任务学习</category>
      <category>解耦表示学习</category>
      <category>扩散模型</category>
      <category>钢琴转录</category>
    </item>
  </channel>
</rss>
