<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>图像压缩 on 语音/音频论文速递</title>
    <link>https://nanless.github.io/audio-paper-digest-blog/tags/%E5%9B%BE%E5%83%8F%E5%8E%8B%E7%BC%A9/</link>
    <description>每日 AI 自动生成的语音/AI 领域论文深度分析</description>
    <language>zh-cn</language>
    <lastBuildDate>Mon, 04 May 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://nanless.github.io/audio-paper-digest-blog/tags/%E5%9B%BE%E5%83%8F%E5%8E%8B%E7%BC%A9/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-diveq-differentiable-vector-quantization-using/</link>
      <pubDate>Mon, 04 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-diveq-differentiable-vector-quantization-using/</guid>
      <description>&lt;h1 id=&#34;-diveq-differentiable-vector-quantization-using-the-reparameterization-trick&#34;&gt;📄 DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick&lt;/h1&gt;
&lt;p&gt;#向量量化 #生成模型 #图像生成 #语音编码 #图像压缩&lt;/p&gt;
&lt;p&gt;🔥 &lt;strong&gt;8.0/10&lt;/strong&gt; | 前25% | #生成模型 | #向量量化 | #图像生成 #语音编码&lt;/p&gt;
&lt;p&gt;学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高&lt;/p&gt;
&lt;h3 id=&#34;-作者与机构&#34;&gt;👥 作者与机构&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Mohammad Hassan Vali（ELLIS Institute Finland &amp;amp; Department of Computer Science, Aalto University, Finland）&lt;/li&gt;
&lt;li&gt;通讯作者：未明确说明（论文提供了三位作者的共同邮箱，未指定单独通讯作者）&lt;/li&gt;
&lt;li&gt;作者列表：Mohammad Hassan Vali（ELLIS Institute Finland &amp;amp; Department of Computer Science, Aalto University, Finland）、Tom Bäckström（Department of Information and Communications Engineering, Aalto University, Finland）、Arno Solin（ELLIS Institute Finland &amp;amp; Department of Computer Science, Aalto University, Finland）&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;&lt;/h1&gt;
&lt;h3 id=&#34;-毒舌点评&#34;&gt;💡 毒舌点评&lt;/h3&gt;
&lt;p&gt;这篇论文精准地“修理”了向量量化在深度学习应用中那个著名的老毛病——梯度消失，提出的DiVeQ和SF-DiVeQ方法就像是给量化层装了一个“梯度导管”，既保持了推理时硬编码的离散性，又让训练信号能顺畅回流，实验部分更是“地毯式轰炸”，在多个任务和数据集上全面碾压了包括NSVQ、RT在内的现有花式方案。不足之处在于SF-DiVeQ的初始化有点“娇气”，需要先跑几个epoch“热身”，而且虽然解决了码本错位问题，但本质上仍是在“码本空间”内做文章，对于如何突破固定码本大小的表达能力瓶颈并未触及。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="-diveq-differentiable-vector-quantization-using-the-reparameterization-trick">📄 DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick</h1>
<p>#向量量化 #生成模型 #图像生成 #语音编码 #图像压缩</p>
<p>🔥 <strong>8.0/10</strong> | 前25% | #生成模型 | #向量量化 | #图像生成 #语音编码</p>
<p>学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高</p>
<h3 id="-作者与机构">👥 作者与机构</h3>
<ul>
<li>第一作者：Mohammad Hassan Vali（ELLIS Institute Finland &amp; Department of Computer Science, Aalto University, Finland）</li>
<li>通讯作者：未明确说明（论文提供了三位作者的共同邮箱，未指定单独通讯作者）</li>
<li>作者列表：Mohammad Hassan Vali（ELLIS Institute Finland &amp; Department of Computer Science, Aalto University, Finland）、Tom Bäckström（Department of Information and Communications Engineering, Aalto University, Finland）、Arno Solin（ELLIS Institute Finland &amp; Department of Computer Science, Aalto University, Finland）</li>
</ul>
<h1></h1>
<h3 id="-毒舌点评">💡 毒舌点评</h3>
<p>这篇论文精准地“修理”了向量量化在深度学习应用中那个著名的老毛病——梯度消失，提出的DiVeQ和SF-DiVeQ方法就像是给量化层装了一个“梯度导管”，既保持了推理时硬编码的离散性，又让训练信号能顺畅回流，实验部分更是“地毯式轰炸”，在多个任务和数据集上全面碾压了包括NSVQ、RT在内的现有花式方案。不足之处在于SF-DiVeQ的初始化有点“娇气”，需要先跑几个epoch“热身”，而且虽然解决了码本错位问题，但本质上仍是在“码本空间”内做文章，对于如何突破固定码本大小的表达能力瓶颈并未触及。</p>
<h1></h1>
<h3 id="-开源详情">🔗 开源详情</h3>
<ul>
<li>代码：论文承诺在GitHub（https://github.com/AaltoML/DiVeQ）开源代码，但截至审稿时尚未发布。论文中提供了完整的实现细节。</li>
<li>模型权重：论文中未提及公开预训练模型权重。</li>
<li>数据集：使用的是公开标准数据集（AFHQ, CELEBA-HQ, FFHQ, LSUN, VCTK），论文中未提及自己创建或发布新数据集。</li>
<li>Demo：论文中未提及在线演示。</li>
<li>复现材料：附录A提供了非常详细的实现细节，包括VQ-VAE、VQGAN、DAC的模型架构表、所有超参数设置（学习率、batch size、优化器、训练轮数、码本替换策略、DiVeQ/SF-DiVeQ的σ²选择等）、以及其他方法的实现参考（如ST-GS、RT的代码库）。复现指南充分。</li>
<li>论文中引用的开源项目：引用了DeepMind的VQ-VAE实现、zalandoresearch的PyTorch VQ-VAE、dome272的VQGAN实现、Karpathy的ST-GS实现、Lucidrains的RT实现、Pikku NAC（DAC变体）以及clean-fid评估工具。</li>
</ul>
<h3 id="-核心摘要">📌 核心摘要</h3>
<ol>
<li>要解决什么问题：向量量化（VQ）层因其最近邻赋值操作的不可微性，阻碍了端到端梯度回传（梯度崩溃问题），使得依赖VQ的模型（如VQ-VAE）难以训练。</li>
<li>方法核心是什么：提出了两种基于重参数化技巧的可微向量量化方法：DiVeQ和SF-DiVeQ。DiVeQ 将量化误差建模为一个方向与最近码本向量对齐、大小等于输入-码本距离的误差向量（<code>z_q = z + ||c-z||_2  (v_d / ||v_d||_2)</code>, 其中 <code>v_d = v + (c*-z)</code>, <code>v~N(0, σ^2 I)</code>）。通过令噪声方差σ^2趋近于零，使 <code>z_q</code> 精确指向最近码本向量。SF-DiVeQ 将量化从离散码本点扩展到连接相邻码本向量的线段上，通过在训练中随机采样线段上的点进行量化，实现了连续空间填充。</li>
<li>与已有方法相比新在哪里：与STE、EMA、RT、ST-GS等需要辅助损失或存在训练-测试不匹配的方法不同，DiVeQ/SF-DiVeQ无需额外损失项或温度调度，实现了硬分配下的端到端可微训练。与NSVQ相比，DiVeQ通过方向性约束避免了随机方向导致的额外量化误差。SF-DiVeQ进一步避免了码本错位和坍塌问题，实现了码本的完全利用。</li>
<li>主要实验结果如何：在VQ-VAE图像压缩（AFHQ, CELEBA-HQ等数据集）、VQGAN图像生成（CELEBA-HQ等）和DAC语音编码（VCTK数据集）任务上，DiVeQ和SF-DiVeQ在各项指标上一致优于其他方法。例如，在AFHQ图像压缩（11位码本）中，DiVeQ的LPIPS（越低越好）为0.349，优于NSVQ的0.473和STE的0.373。在CELEBA-HQ生成任务（HP2设置，9位码本）中，SF-DiVeQ的FID（越低越好）为6.66，远优于ST-GS的41.1和NSVQ的70.1。详见论文中表2、图6等。</li>
<li>实际意义是什么：DiVeQ和SF-DiVeQ可作为标准VQ层的即插即用替代品，简化了涉及VQ的深度模型（如压缩、生成模型）的训练流程，提高了训练稳定性和最终性能。</li>
<li>主要局限性是什么：1）SF-DiVeQ需要特定的初始化策略（先训练几个epoch再引入量化），增加了使用复杂度；2）虽然解决了码本利用率问题，但模型性能仍受限于固定的码本大小；3）论文未探讨该方法在更复杂的VQ变体（如残差VQ的更多层）或更大规模模型中的表现。</li>
</ol>
<h1></h1>
<h3 id="-模型架构">🏗️ 模型架构</h3>
<p>本文提出的DiVeQ和SF-DiVeQ并非独立模型，而是作为可微分层插入到现有VQ-VAE、VQGAN等架构中，替代原始的不可微VQ层。其核心架构即替换过程如下：</p>
<p><img alt="传统VQ操作与DiVeQ操作的对比示意图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-04/KRVnpTbx7R-0.png"></p>
<p>图1：传统VQ与DiVeQ操作对比。左图展示传统VQ（非可微），编码器E输出连续潜变量z，经过不可微的最近邻赋值 <code>argmin</code> 得到离散表示 <code>û</code>，解码器D重建 <code>x_r</code>，梯度<code>∂û/∂z</code> 无法计算。右图展示DiVeQ（可微），在连续潜变量 <code>z</code> 上添加一个方向性误差向量得到量化表示 <code>z_q</code>，<code>z_q</code> 是 <code>z</code> 和所选码本向量 <code>c</code> 的可微函数，允许梯度<code>∂z_q/∂z</code> 回传。<code>z_q</code> 的计算公式为 <code>z_q = z + ||c-z||_2  (v_d / ||v_d||_2)</code>，其中方向性噪声 <code>v_d = v + (c-z)</code>，<code>v</code> 为高斯噪声。</p>
<p>DiVeQ层的输入是编码器输出的连续潜变量 <code>z</code> 和码本 <code>C</code>。输出是量化后的潜变量 <code>z_q</code>，其维度与 <code>z</code> 相同。该层在前向传播中执行硬赋值（选择最近码本向量 <code>c*</code>），但在计算 <code>z_q</code> 时通过重参数化技巧引入了可微的误差向量。</p>
<p>SF-DiVeQ进一步扩展，其量化点不再是固定的码本向量，而是位于连接相邻码本向量的线段上。对于输入 <code>z</code>，它首先找到使 <code>z</code> 到线段 <code>(c_i, c_{i+1})</code> 距离最小的线段，然后在线段上随机采样一个点作为量化目标。其核心思想是将离散码本转化为一条连续的填充曲线，从而在训练中动态调整码本位置，使其更贴合潜变量分布。</p>
<p>关键设计选择及其动机：</p>
<ul>
<li>方向性噪声：动机是确保添加的误差向量方向与最近码本向量一致，从而精确模拟量化误差，避免NSVQ中因方向随机导致的误差放大问题（如图2所示）。</li>
<li>停止梯度操作：在计算方向 <code>v_d / ||v_d||_2</code> 时使用 <code>sg[·]</code>，是为了在保持几何一致性的同时，允许对误差大小 <code>||c*-z||_2</code> 进行梯度计算。</li>
<li>空间填充（SF-DiVeQ）：动机是解决码本坍塌和码本-潜变量分布错位问题（如图4所示）。通过量化到线段上，确保所有码本及其连线都被拉入潜变量分布的支撑区域。</li>
</ul>
<p><img alt="NSVQ量化误差示意图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-04/KRVnpTbx7R-1.png"></p>
<p>图2：NSVQ量化过程图解。输入<code>z</code>被映射到以量化误差<code>||z-ĉ||_2</code>为半径的超球面上的随机点。由于方向随机，以约0.67的概率会产生比真实最近邻距离更大的量化误差，这在高维空间中更为严重。</p>
<h3 id="-核心创新点">💡 核心创新点</h3>
<ol>
<li>提出DiVeQ：基于方向性重参数化的可微向量量化：这是本文的核心方法。它将量化视为添加一个方向与最近码本向量对齐、大小等于距离的误差向量。局限：之前的NSVQ使用随机方向，会高估量化误差；STE等方法梯度估计有偏。如何起作用：通过重参数化 <code>v_d = v + (c-z)</code>，当 <code>v</code> 的方差σ²→0时，方向趋近于 <code>(c-z)/||c-z||_2</code>，使 <code>z_q</code> 精确指向 <code>c</code>。收益：实现了无需辅助损失、无训练测试不匹配的硬分配可微训练，几何保真度更高。</li>
<li>提出SF-DiVeQ：空间填充可微向量量化：将量化从离散点扩展到连接码本的连续曲线。局限：所有现有VQ方法都仅量化到离散码本点，导致码本利用率低，易发生码本坍塌和分布错位（如图4所示）。如何起作用：训练时在连接相邻码本向量的线段上随机采样量化点，使码本及其连线被“拉入”潜变量分布区域。收益：实现了码本的完全利用，避免了码本错位，无需启发式码本替换，且量化误差可能更小（因为量化空间更大）。</li>
<li>提出改进的码本替换策略：局限：NSVQ等已有的码本替换是随机选择活跃码本进行替换。如何起作用：新策略基于码本使用频率进行重要性采样进行替换。收益：使码本利用率更快达到稳定（如图8所示），并略微提升了重建质量（如图9所示）。</li>
<li>系统性实验验证与错位分析：局限：以往研究常孤立评估或仅在部分任务上验证。本文在多个任务、数据集和超参数下进行了全面对比。如何起作用：不仅比较性能指标，还首次通过t-SNE可视化（图4）和速率失真理论分析，明确指出并诊断了其他方法中普遍存在的“码本-潜变量表示错位”问题。收益：证明了DiVeQ/SF-DiVeQ（尤其是后者）能有效避免该问题，增强了结论的说服力和方法的普适性。</li>
</ol>
<p>图3：方向性噪声方差σ²对DiVeQ量化精度的影响。从(a)到(d)，随着σ²减小，采样得到的方向<code>v_d</code>更集中于最近码本向量<code>c</code>的方向，量化点<code>z_q</code>更精确地收敛到<code>c</code>。</p>
<h3 id="-细节详述">🔬 细节详述</h3>
<ul>
<li>训练数据：
<ul>
<li>图像任务：AFHQ（15803张）、CELEBA-HQ（30k）、FFHQ（70k）、LSUN Bedroom（70k）、LSUN Church（70k），分辨率均为256×256。压缩任务使用80/20%训练-测试划分，生成任务使用全部训练集。</li>
<li>语音任务：CSTR VCTK数据集，包含109位英语说话人，80/20%训练-测试划分，无说话人和语句重叠。采样率降至16kHz。</li>
</ul>
</li>
<li>损失函数：
<ul>
<li>VQ-VAE图像压缩：使用原始重建损失（MSE）+ LPIPS感知损失（权重1.0），以及STE损失中的承诺损失（β=0.25）。DiVeQ/SF-DiVeQ本身不添加任何辅助损失。</li>
<li>VQGAN生成：使用原始VQGAN的损失（包括对抗损失、VQ损失、感知损失等）。</li>
<li>DAC语音编码：使用原始DAC的损失。</li>
</ul>
</li>
<li>训练策略：
<ul>
<li>优化器：Adam（图像任务，lr=5.5e-4，40和70 epoch减半），AdamW（语音任务，lr=1e-4, betas=(0.8, 0.99)）。</li>
<li>Batch Size：图像压缩默认32，生成任务HP1为8/HP2为32，语音编码为64（另有32、16的消融实验）。</li>
<li>训练轮数：VQ-VAE和VQGAN生成任务100 epochs，DAC语音编码300 epochs。</li>
<li>码本更新：DiVeQ/SF-DiVeQ通过损失梯度更新码本。其他方法如EMA使用衰减率γ=0.99。</li>
<li>SF-DiVeQ初始化：建议先不带VQ训练几个epoch，再用最近若干batch潜向量的均值初始化码本（见App A.6）。</li>
</ul>
</li>
<li>关键超参数：
<ul>
<li>码本大小：图像任务从2^4到2^11，语音任务从2^10到2^13。</li>
<li>DiVeQ/SF-DiVeQ方差σ²：图像压缩/语音编码为10^-3，VQGAN生成为10^-2。消融实验（App C.5）表明σ²≤10^-2时性能不敏感。</li>
<li>码本替换：对所有方法（除SF-DiVeQ）使用改进的重要性采样替换策略，丢弃阈值0.01。</li>
</ul>
</li>
<li>训练硬件：论文中未明确说明GPU型号和数量，但提及使用了Aalto Science-IT��CSC的计算资源。</li>
<li>推理细节：除SF-DiVeQ在推理时映射到空间填充曲线上最近点外，其他方法均使用硬最近邻赋值（argmin）。</li>
</ul>
<h3 id="-实验结果">📊 实验结果</h3>
<p>论文在三大任务上进行了广泛实验，关键结果如下：</p>
<ol>
<li>VQ-VAE图像压缩任务（AFHQ数据集）
下表总结了不同方法在AFHQ测试集上重构图像的定量比较（数据来源于论文图6）。DiVeQ和SF-DiVeQ在所有码本大小和指标上均表现最佳或并列最佳。</li>
</ol>
<table>
  <thead>
      <tr>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">SSIM ↑ (11-bit)</th>
          <th style="text-align: left">PSNR ↑ (11-bit)</th>
          <th style="text-align: left">LPIPS ↓ (11-bit)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">STE</td>
          <td style="text-align: left">~0.68</td>
          <td style="text-align: left">~23.5</td>
          <td style="text-align: left">~0.29</td>
      </tr>
      <tr>
          <td style="text-align: left">EMA</td>
          <td style="text-align: left">~0.68</td>
          <td style="text-align: left">~23.5</td>
          <td style="text-align: left">~0.29</td>
      </tr>
      <tr>
          <td style="text-align: left">RT</td>
          <td style="text-align: left">~0.65</td>
          <td style="text-align: left">~22.5</td>
          <td style="text-align: left">~0.35</td>
      </tr>
      <tr>
          <td style="text-align: left">ST-GS</td>
          <td style="text-align: left">~0.68</td>
          <td style="text-align: left">~23.0</td>
          <td style="text-align: left">~0.32</td>
      </tr>
      <tr>
          <td style="text-align: left">NSVQ</td>
          <td style="text-align: left">~0.60</td>
          <td style="text-align: left">~20.5</td>
          <td style="text-align: left">~0.47</td>
      </tr>
      <tr>
          <td style="text-align: left">DiVeQ</td>
          <td style="text-align: left">~0.69</td>
          <td style="text-align: left">~24.0</td>
          <td style="text-align: left">~0.28</td>
      </tr>
      <tr>
          <td style="text-align: left">SF-DiVeQ</td>
          <td style="text-align: left">~0.70</td>
          <td style="text-align: left">~24.2</td>
          <td style="text-align: left">~0.26</td>
      </tr>
  </tbody>
</table>
<p>（注：数值为从曲线图6中估读的大致趋势，精确值需参考图表）</p>
<p>图6：AFHQ数据集图像压缩定量结果。随着码本位数增加（码本变大），DiVeQ和SF-DiVeQ的SSIM、PSNR值最高，LPIPS值最低，优势明显。</p>
<p>定性结果（图5）显示，DiVeQ和SF-DiVeQ的重建图像在细节和纹理上优于其他方法，NSVQ和RT在某些情况下重建质量较差。</p>
<ol start="2">
<li>VQGAN图像生成任务（CELEBA-HQ数据集）
表2展示了在两种不同超参数设置（HP1小/HP2大）下的FID得分。在更具挑战性的HP2设置下，DiVeQ和SF-DiVeQ避免了其他方法出现的严重失分（红色高亮部分），表现稳健。</li>
</ol>
<table>
  <thead>
      <tr>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">HP1 (lr=2.5e-5, bs=8) FID↓ (9-bit)</th>
          <th style="text-align: left">HP2 (lr=2.5e-4, bs=32) FID↓ (9-bit)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">STE</td>
          <td style="text-align: left">5.57</td>
          <td style="text-align: left">334</td>
      </tr>
      <tr>
          <td style="text-align: left">EMA</td>
          <td style="text-align: left">6.30</td>
          <td style="text-align: left">7.42</td>
      </tr>
      <tr>
          <td style="text-align: left">RT</td>
          <td style="text-align: left">7.55</td>
          <td style="text-align: left">9.33</td>
      </tr>
      <tr>
          <td style="text-align: left">ST-GS</td>
          <td style="text-align: left">6.81</td>
          <td style="text-align: left">41.1</td>
      </tr>
      <tr>
          <td style="text-align: left">NSVQ</td>
          <td style="text-align: left">70.4</td>
          <td style="text-align: left">70.1</td>
      </tr>
      <tr>
          <td style="text-align: left">DiVeQ</td>
          <td style="text-align: left">6.69</td>
          <td style="text-align: left">8.01</td>
      </tr>
      <tr>
          <td style="text-align: left">SF-DiVeQ</td>
          <td style="text-align: left">5.21</td>
          <td style="text-align: left">6.66</td>
      </tr>
  </tbody>
</table>
<p>表2：CELEBA-HQ数据集VQGAN生成FID分数对比。红色数字表示发生了码本-潜变量错位，导致FID飙升。</p>
<ol start="3">
<li>DAC语音编码任务（VCTK数据集）
表3显示了在batch size=64时，不同码本大小下语音重建的定量结果。DiVeQ和SF-DiVeQ在PESQ（语音质量）、STOI（可懂度）等关键指标上领先，且在所有配置下均未发生错位（无红色高亮），而STE、EMA、ST-GS在某些配置下失败。</li>
</ol>
<table>
  <thead>
      <tr>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">PESQ ↑ (13-bit)</th>
          <th style="text-align: left">STOI ↑ (13-bit)</th>
          <th style="text-align: left">LSD ↓ (13-bit)</th>
          <th style="text-align: left">MFCC ↓ (13-bit)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">STE</td>
          <td style="text-align: left">1.22</td>
          <td style="text-align: left">0.75</td>
          <td style="text-align: left">1.11</td>
          <td style="text-align: left">96.0</td>
      </tr>
      <tr>
          <td style="text-align: left">EMA</td>
          <td style="text-align: left">1.67</td>
          <td style="text-align: left">0.84</td>
          <td style="text-align: left">1.02</td>
          <td style="text-align: left">69.1</td>
      </tr>
      <tr>
          <td style="text-align: left">RT</td>
          <td style="text-align: left">1.41</td>
          <td style="text-align: left">0.81</td>
          <td style="text-align: left">1.05</td>
          <td style="text-align: left">80.8</td>
      </tr>
      <tr>
          <td style="text-align: left">ST-GS</td>
          <td style="text-align: left">1.21</td>
          <td style="text-align: left">0.76</td>
          <td style="text-align: left">1.13</td>
          <td style="text-align: left">97.9</td>
      </tr>
      <tr>
          <td style="text-align: left">NSVQ</td>
          <td style="text-align: left">1.56</td>
          <td style="text-align: left">0.83</td>
          <td style="text-align: left">1.07</td>
          <td style="text-align: left">93.6</td>
      </tr>
      <tr>
          <td style="text-align: left">DiVeQ</td>
          <td style="text-align: left">1.64</td>
          <td style="text-align: left">0.85</td>
          <td style="text-align: left">1.02</td>
          <td style="text-align: left">72.6</td>
      </tr>
      <tr>
          <td style="text-align: left">SF-DiVeQ</td>
          <td style="text-align: left">1.75</td>
          <td style="text-align: left">0.85</td>
          <td style="text-align: left">1.01</td>
          <td style="text-align: left">66.8</td>
      </tr>
  </tbody>
</table>
<p>表3：VCTK数据集语音编码定量结果（batch size=64）。</p>
<p><img alt="不同VQ方法在VQGAN生成任务上的定性样本对比" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-04/KRVnpTbx7R-6.png"></p>
<p>图7：VQGAN生成任务定性对比（9-bit码本）。展示了不同方法生成的样本，DiVeQ和SF-DiVeQ生成的图像更清晰、细节更丰富。</p>
<p><img alt="码本-潜变量表示错位t-SNE可视化" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-04/KRVnpTbx7R-4.png"></p>
<p>图4：码本-潜变量表示错位可视化。展示了各方法学习到的码本（红色叉）和潜变量分布（灰色点）的t-SNE图。STE、EMA、RT、ST-GS、NSVQ均存在不同程度的错位（码本未均匀覆盖潜变量分布），而DiVeQ错位轻微，SF-DiVeQ几乎无错位。</p>
<h3 id="-评分理由">⚖️ 评分理由</h3>
<ul>
<li>学术质量：6.5/7：创新性明确，提出了两种几何直观且有效的可微量化方法。技术细节阐述清晰，公式推导合理。实验设计全面，在压缩、生成、语音三大类任务，多个数据集和不同超参数设置下，与六种主流基线进行了对比，结果一致且具有说服力。论文还深入分析了“码本错位”这一普遍问题并给出了可视化证据。扣分点在于SF-DiVeQ的初始化依赖特定策略，且创新属于“稳健改进”范畴。</li>
<li>选题价值：1.0/2：向量量化是多个深度生成模型的核心组件，其训练优化问题研究价值高。本文提出的方案简洁有效，易于集成，对相关领域研究人员���工程师有直接实用价值。但工作性质更偏向技术优化而非开辟全新应用场景。</li>
<li>开源与复现加成：+0.5/1：论文承诺代码开源并提供了链接，附录给出了极其详尽的复现细节（模型架构、所有超参数、训练设置），大大降低了复现门槛。代码在投稿时未公开，但复现指南完备。</li>
</ul>
<h1></h1>
<hr>
<p><a href="/audio-paper-digest-blog/posts/iclr2026-summary/">← 返回 ICLR 2026 论文分析</a></p>
]]></content:encoded>
      <category>向量量化</category>
      <category>生成模型</category>
      <category>图像生成</category>
      <category>语音编码</category>
      <category>图像压缩</category>
    </item>
  </channel>
</rss>
