<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>音频 on 语音/音频论文速递</title>
    <link>https://nanless.github.io/audio-paper-digest-blog/tags/%E9%9F%B3%E9%A2%91/</link>
    <description>每日 AI 自动生成的语音/AI 领域论文深度分析</description>
    <language>zh-cn</language>
    <lastBuildDate>Sat, 02 May 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://nanless.github.io/audio-paper-digest-blog/tags/%E9%9F%B3%E9%A2%91/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>DiffSDA: Unsupervised Diffusion Sequential Disentanglement Across Modalities</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-02-diffsda-unsupervised-diffusion-sequential/</link>
      <pubDate>Sat, 02 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-02-diffsda-unsupervised-diffusion-sequential/</guid>
      <description>&lt;h1 id=&#34;-diffsda-unsupervised-diffusion-sequential-disentanglement-across-modalities&#34;&gt;📄 DiffSDA: Unsupervised Diffusion Sequential Disentanglement Across Modalities&lt;/h1&gt;
&lt;p&gt;#无监督学习 #扩散模型 #表征学习 #零样本 #音频&lt;/p&gt;
&lt;p&gt;🔥 &lt;strong&gt;8.0/10&lt;/strong&gt; | 前25% | #无监督学习 | #扩散模型 | #表征学习 #零样本&lt;/p&gt;
&lt;p&gt;学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高&lt;/p&gt;
&lt;h3 id=&#34;-作者与机构&#34;&gt;👥 作者与机构&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Hedi Zisling（Ben-Gurion University）与Ilan Naiman并列第一作者&lt;/li&gt;
&lt;li&gt;通讯作者：Omri Azencot（Ben-Gurion University）&lt;/li&gt;
&lt;li&gt;作者列表：Hedi Zisling（Ben-Gurion University）、Ilan Naiman（Ben-Gurion University）、Nimrod Berman（Ben-Gurion University）、Supasorn Suwajanakorn（VISTEC）、Omri Azencot（Ben-Gurion University）&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;&lt;/h1&gt;
&lt;h3 id=&#34;-毒舌点评&#34;&gt;💡 毒舌点评&lt;/h3&gt;
&lt;p&gt;亮点：首次将扩散模型正式、系统地引入序列解耦任务，提出了一个简洁（单一损失项）且强大的概率框架，并在包括高分辨率真实视频在内的多个模态上验证了其SOTA性能，特别是“零样本跨数据集解耦”展示了其强大的泛化能力。
短板：生成过程目前是逐帧进行的，论文自述这可能限制视频的时空连贯性，未来需与视频扩散模型结合；此外，多因子解耦探索仍属初步，距离实用化的精细控制还有距离。&lt;/p&gt;
&lt;h1&gt;&lt;/h1&gt;
&lt;h3 id=&#34;-开源详情&#34;&gt;🔗 开源详情&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;代码：论文明确提供了GitHub代码仓库链接：https://github.com/azencot-group/DiffSDA。&lt;/li&gt;
&lt;li&gt;模型权重：论文中未提及是否公开预训练模型权重。&lt;/li&gt;
&lt;li&gt;数据集：论文中使用的数据集（MUG， TaiChi-HD， VoxCeleb， CelebV-HQ， TIMIT， LibriSpeech， PhysioNet， ETTh1， Air Quality）均为公开学术数据集，并提供了获取方式的引用。&lt;/li&gt;
&lt;li&gt;Demo：论文中未提供在线演示链接。&lt;/li&gt;
&lt;li&gt;复现材料：提供了极为详尽的复现材料，包括所有数据集的预处理步骤、训练的完整超参数配置表（Tab.6-8， 如学习率、批次大小、模型维度、序列长度、GPU型号等）、网络架构细节、评估指标定义以及消融实验设置。&lt;/li&gt;
&lt;li&gt;论文中引用的开源项目：EDM（采样框架）、LDM（潜在扩散模型， 使用预训练VQ-VAE）、U-Net、LSTM等标准架构；评估时使用了VGG-FACE（面部识别）、HRNet（姿态估计）等预训练模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-核心摘要&#34;&gt;📌 核心摘要&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;问题：现有无监督序列解耦方法主要依赖VAE/GAN，需要复杂的多损失优化，在真实世界数据上效果有限，且缺乏统一的评估协议。扩散模型虽强大，但尚无理论框架用于序列解耦。&lt;/li&gt;
&lt;li&gt;核心方法：提出DiffSDA，一个基于扩散过程的模态无关序列解耦框架。其核心是联合建模静态（时间不变）和动态（时间变化）隐因子，并引入一个条件于这些因子的扩散过程来生成数据序列。&lt;/li&gt;
&lt;li&gt;与已有方法的对比创新：(1) 提供了首个针对序列解耦的扩散模型概率建模（Eq.1-2）；(2) 与先前工作不同，建模了静态与动态因子的相互依赖性（Dependent Prior），提升了表达力；(3) 整个模型仅需一个基于分数匹配的统一损失项（Eq.5），极大简化了优化。&lt;/li&gt;
&lt;li&gt;主要实验结果：在多个真实世界数据集上全面超越SOTA（SPYL， DBSE）。视频任务中，在VoxCeleb条件交换的动态保留度（AKD）上从10.96降至2.793；音频任务中，在TIMIT上的解耦差距（Dis. Gap）从31.11%提升至42.29%；时序预测任务（ETTh1 MAE）从11.2降至9.89。首次实现了跨数据集的零样本视频解耦交换（如图2，4）。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;img alt=&#34;图1：DiffSDA模型架构&#34; loading=&#34;lazy&#34; src=&#34;https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/tooDJHBSvO-0.jpg&#34;&gt;
图1展示了DiffSDA的三大组件：序列语义编码器（上方，提取静态s0和动态d1:V 0因子）、随机编码器（下方，添加噪声得x1:V t）和随机解码器（右侧，条件于隐因子进行去噪得˜x1:V 0）。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="-diffsda-unsupervised-diffusion-sequential-disentanglement-across-modalities">📄 DiffSDA: Unsupervised Diffusion Sequential Disentanglement Across Modalities</h1>
<p>#无监督学习 #扩散模型 #表征学习 #零样本 #音频</p>
<p>🔥 <strong>8.0/10</strong> | 前25% | #无监督学习 | #扩散模型 | #表征学习 #零样本</p>
<p>学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高</p>
<h3 id="-作者与机构">👥 作者与机构</h3>
<ul>
<li>第一作者：Hedi Zisling（Ben-Gurion University）与Ilan Naiman并列第一作者</li>
<li>通讯作者：Omri Azencot（Ben-Gurion University）</li>
<li>作者列表：Hedi Zisling（Ben-Gurion University）、Ilan Naiman（Ben-Gurion University）、Nimrod Berman（Ben-Gurion University）、Supasorn Suwajanakorn（VISTEC）、Omri Azencot（Ben-Gurion University）</li>
</ul>
<h1></h1>
<h3 id="-毒舌点评">💡 毒舌点评</h3>
<p>亮点：首次将扩散模型正式、系统地引入序列解耦任务，提出了一个简洁（单一损失项）且强大的概率框架，并在包括高分辨率真实视频在内的多个模态上验证了其SOTA性能，特别是“零样本跨数据集解耦”展示了其强大的泛化能力。
短板：生成过程目前是逐帧进行的，论文自述这可能限制视频的时空连贯性，未来需与视频扩散模型结合；此外，多因子解耦探索仍属初步，距离实用化的精细控制还有距离。</p>
<h1></h1>
<h3 id="-开源详情">🔗 开源详情</h3>
<ul>
<li>代码：论文明确提供了GitHub代码仓库链接：https://github.com/azencot-group/DiffSDA。</li>
<li>模型权重：论文中未提及是否公开预训练模型权重。</li>
<li>数据集：论文中使用的数据集（MUG， TaiChi-HD， VoxCeleb， CelebV-HQ， TIMIT， LibriSpeech， PhysioNet， ETTh1， Air Quality）均为公开学术数据集，并提供了获取方式的引用。</li>
<li>Demo：论文中未提供在线演示链接。</li>
<li>复现材料：提供了极为详尽的复现材料，包括所有数据集的预处理步骤、训练的完整超参数配置表（Tab.6-8， 如学习率、批次大小、模型维度、序列长度、GPU型号等）、网络架构细节、评估指标定义以及消融实验设置。</li>
<li>论文中引用的开源项目：EDM（采样框架）、LDM（潜在扩散模型， 使用预训练VQ-VAE）、U-Net、LSTM等标准架构；评估时使用了VGG-FACE（面部识别）、HRNet（姿态估计）等预训练模型。</li>
</ul>
<h3 id="-核心摘要">📌 核心摘要</h3>
<ol>
<li>问题：现有无监督序列解耦方法主要依赖VAE/GAN，需要复杂的多损失优化，在真实世界数据上效果有限，且缺乏统一的评估协议。扩散模型虽强大，但尚无理论框架用于序列解耦。</li>
<li>核心方法：提出DiffSDA，一个基于扩散过程的模态无关序列解耦框架。其核心是联合建模静态（时间不变）和动态（时间变化）隐因子，并引入一个条件于这些因子的扩散过程来生成数据序列。</li>
<li>与已有方法的对比创新：(1) 提供了首个针对序列解耦的扩散模型概率建模（Eq.1-2）；(2) 与先前工作不同，建模了静态与动态因子的相互依赖性（Dependent Prior），提升了表达力；(3) 整个模型仅需一个基于分数匹配的统一损失项（Eq.5），极大简化了优化。</li>
<li>主要实验结果：在多个真实世界数据集上全面超越SOTA（SPYL， DBSE）。视频任务中，在VoxCeleb条件交换的动态保留度（AKD）上从10.96降至2.793；音频任务中，在TIMIT上的解耦差距（Dis. Gap）从31.11%提升至42.29%；时序预测任务（ETTh1 MAE）从11.2降至9.89。首次实现了跨数据集的零样本视频解耦交换（如图2，4）。</li>
</ol>
<p><img alt="图1：DiffSDA模型架构" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/tooDJHBSvO-0.jpg">
图1展示了DiffSDA的三大组件：序列语义编码器（上方，提取静态s0和动态d1:V 0因子）、随机编码器（下方，添加噪声得x1:V t）和随机解码器（右侧，条件于隐因子进行去噪得˜x1:V 0）。</p>
<p><img alt="图2：条件交换、零样本交换及多因子解耦示例" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/tooDJHBSvO-1.jpg">
图2左侧展示了在真实视频上的条件交换（保留第一个人的静态特征，使用第二个人的动态）；中间展示了零样本交换（在VoxCeleb上训练，在MUG上测试）；右侧展示了通过对静态因子进行PCA遍历发现的可控语义属性（如性别）。</p>
<p><img alt="图3：与SPYL方法在多个数据集上的动态交换定性对比" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/tooDJHBSvO-2.jpg">
图3对比了本文方法与SPYL方法在CelebV-HQ、VoxCeleb和TaiChi-HD数据集上的动态交换结果，表明DiffSDA能生成更高质量且动态保留更好的样本。</p>
<p><img alt="图4：零样本交换的更多示例" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/tooDJHBSvO-3.jpg">
图4展示了在VoxCeleb上训练，但在CelebV-HQ或MUG上进行零样本动态交换的结果，证明了模型的跨数据集泛化能力。</p>
<ol start="5">
<li>实际意义：为处理视频、音频、时序等序列数据的无监督解耦提供了统一、强大的生成式框架，有望应用于可控内容生成、数据增强、特征迁移等领域。</li>
<li>主要局限性：当前视频生成为逐帧独立进行，可能影响时空一致性；多因子（不止静态/动态）解耦的探索是初步的。</li>
</ol>
<h1></h1>
<h3 id="-模型架构">🏗️ 模型架构</h3>
<p>DiffSDA的整体架构如图1所示，包含三个核心组件：</p>
<ol>
<li>序列语义编码器：负责从输入序列x1:V 0中提取静态因子s0和动态因子d1:V 0。
<ul>
<li>对于视频数据，首先通过一个U-Net处理每一帧，然后通过线性层。接着，一个LSTM模块总结序列信息得到隐状态h1:V。最后，hV通过一个线性层生成静态因子s0，而h1:V序列再通过另一个LSTM和线性层生成动态因子序列d1:V 0。</li>
<li>对于音频和时序等模态，将U-Net替换为MLP，其余结构类似。</li>
<li>这个编码器实现了公式2中的后验分布p(s0 | x1:V 0)和p(dτ 0 | d&lt;τ 0, x≤τ 0)。</li>
</ul>
</li>
<li>随机编码器：遵循EDM框架，对输入序列的每个元素xτ 0添加高斯噪声ε ∼ N(0, σ²_t I)，得到噪声表示xτ t = xτ 0 + ε。这实现了后验分布p0t(x1:V t | x1:V 0)。</li>
<li>随机解码器：一个条件去噪网络Dθ。它接受噪声输入xτ t、扩散时间步t以及来自语义编码器的条件zτ 0 := (s0, dτ 0)，输出去噪估计˜xτ 0。解码过程遵循EDM（公式4），其中条件zτ 0通过AdaGN层注入到神经网络Fθ中。
<ul>
<li>对于高分辨率数据（如256x256视频），引入了潜在扩散模型（LDM），先使用预训练的VQ-VAE将高维输入压缩到低维潜在空间（例如，256x256x3 -&gt; 32x32x4），然后在潜在空间上进行扩散过程。这大大降低了计算成本。</li>
</ul>
</li>
</ol>
<h1></h1>
<h3 id="-核心创新点">💡 核心创新点</h3>
<ol>
<li>
<p>首个用于序列解耦的扩散模型概率框架：</p>
<ul>
<li>局限：此前序列解耦方法无扩散模型理论形式化。</li>
<li>创新：提出了基于两个扩散过程的联合分布建模（公式1, 2）。第一个过程对静态和动态因子进行扩散，第二个过程条件于这些因子来生成观测序列。</li>
<li>收益：为该问题建立了坚实的理论基础，并自然地利用了扩散模型强大的生成能力。</li>
</ul>
</li>
<li>
<p>依赖性因子建模与单一统一损失：</p>
<ul>
<li>局限：先前工作（如SPYL， DBSE）通常假设静态和动态因子独立，且优化需要多个平衡的损失项（例如，C-DSVAE需要5个超参数）。</li>
<li>创新：建模s0和d1:V 0为相互依赖（Dependent），并通过单一的分数匹配损失（公式5）进行优化。依赖性建模通过消融研究（App. G.1）被证明在FVD指标上带来约13%的提升。</li>
<li>收益：简化了训练过程，增强了隐空间的表达能力，使模型能生成更高质量的样本。</li>
</ul>
</li>
<li>
<p>模态无关设计与跨模态验证：</p>
<ul>
<li>局限：许多方法（如动画方法、音频专用方法）严重依赖特定模态的先验知识。</li>
<li>创新：DiffSDA的框架和核心网络设计（只需将视频的U-Net换成其他模态的MLP）不依赖于特定数据属性。</li>
<li>收益：在同一套框架下，在视频、音频和时间序列这三种差异巨大的模态上均取得了SOTA结果，证明了其通用性和鲁棒性。</li>
</ul>
</li>
<li>
<p>引入零样本解耦评估协议与新度量：</p>
<ul>
<li>局限：传统评估依赖带标签数据（如MUG）和固定的“法官”分类器，可能无法衡量模型对未见变化的泛化能力。</li>
<li>创新：(1) 首次提出并执行了零样本视频解耦任务，即在A数据集训练，在B数据集测试（如图2，4）。(2) 提出基于无监督的AED和AKD度量来评估解耦质量，避免了对特定分类器的依赖。</li>
<li>收益：推动了领域评估协议的进步，更严格地验证了模型的泛化能力和解耦有效性。</li>
</ul>
</li>
</ol>
<h1></h1>
<h3 id="-细节详述">🔬 细节详述</h3>
<ul>
<li>训练数据：
<ul>
<li>视频：MUG (64x64), TaiChi-HD (64x64), VoxCeleb (256x256), CelebV-HQ (256x256)。序列长度通常为10或15帧。</li>
<li>音频：TIMIT, LibriSpeech。使用梅尔频谱图（80维），采样580ms片段（68帧）。</li>
<li>时序：PhysioNet, ETTh1, Air Quality。遵循原始论文预处理。</li>
</ul>
</li>
<li>损失函数：单一的、加权的L2损失（公式5），用于训练去噪器Fθ。其中λ_t是时间步t的权重。没有额外的重建损失、KL散度或互信息损失。静态与动态因子的解耦通过设计（共享静态因子、动态因子低维）隐式保证（App. G.2验证）。</li>
<li>训练策略：
<ul>
<li>优化器：AdamW（权重衰减1e-5）。</li>
<li>学习率：通常为1e-4。</li>
<li>批大小：因数据集而异（从8到128）。</li>
<li>训练轮数：从40到1600不等（Tab. 6-7）。</li>
<li>噪声扰动：使用Pmean和Pstd控制训练时的噪声水平（例如，VoxCeleb为-0.4和1.0）。</li>
</ul>
</li>
<li>关键超参数：
<ul>
<li>静态因子维度(s dim)：视频为256-1024，音频/时序为16-32。</li>
<li>动态因子维度(d dim)：视频为12-64，音频/时序为2-4。</li>
<li>扩散步数(NFE)：推理时通常为63-71。</li>
<li>架构：视频使用U-Net，音频/时序使用MLP。LSTM用于序列编码。</li>
</ul>
</li>
<li>训练硬件：单张或三张NVIDIA RTX 4090 GPU。</li>
<li>推理细节：使用条件随机采样器（Alg. 1），基于EDM框架，步数少（63 NFEs），效率高。进行条件交换时，先对目标序列进行随机编码。</li>
<li>正则化：无传统正则化。通过低维动态因子和共享静态因子实现隐式正则化。</li>
</ul>
<h1></h1>
<h3 id="-实验结果">📊 实验结果</h3>
<p>本文实验全面，覆盖条件交换、零样本交换、多因子解耦、音频解耦和时序任务。关键定量结果如下表所示：</p>
<p>表2：条件交换中的物体保持(AED↓)和运动保持(AKD↓)</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">数据集</th>
          <th style="text-align: center">SPYL</th>
          <th style="text-align: center">DBSE</th>
          <th style="text-align: center">Ours (DiffSDA)</th>
          <th style="text-align: center">SPYL</th>
          <th style="text-align: center">DBSE</th>
          <th style="text-align: center">Ours (DiffSDA)</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: center">AED (Static Frozen)</td>
          <td style="text-align: center"></td>
          <td style="text-align: center"></td>
          <td style="text-align: center">AKD (Dynamics Frozen)</td>
          <td style="text-align: center"></td>
          <td style="text-align: center"></td>
      </tr>
      <tr>
          <td style="text-align: left">MUG (64×64)</td>
          <td style="text-align: center">0.766</td>
          <td style="text-align: center">0.773</td>
          <td style="text-align: center">0.751</td>
          <td style="text-align: center">1.132</td>
          <td style="text-align: center">1.118</td>
          <td style="text-align: center">0.802</td>
      </tr>
      <tr>
          <td style="text-align: left">VoxCeleb (256×256)</td>
          <td style="text-align: center">1.058</td>
          <td style="text-align: center">1.026</td>
          <td style="text-align: center">0.846</td>
          <td style="text-align: center">4.705</td>
          <td style="text-align: center">10.96</td>
          <td style="text-align: center">2.793</td>
      </tr>
      <tr>
          <td style="text-align: left">CelebV-HQ (256×256)</td>
          <td style="text-align: center">0.631</td>
          <td style="text-align: center">0.751</td>
          <td style="text-align: center">0.540</td>
          <td style="text-align: center">39.16</td>
          <td style="text-align: center">28.69</td>
          <td style="text-align: center">6.932</td>
      </tr>
      <tr>
          <td style="text-align: left">TaiChi-HD (64×64)</td>
          <td style="text-align: center">0.443</td>
          <td style="text-align: center">0.325</td>
          <td style="text-align: center">0.326</td>
          <td style="text-align: center">7.681</td>
          <td style="text-align: center">6.312</td>
          <td style="text-align: center">2.143</td>
      </tr>
  </tbody>
</table>
<p><img alt="图5：MUG数据集上“法官”评估失效案例分析" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/tooDJHBSvO-4.jpg">
<img alt="图6：另一案例分析" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/tooDJHBSvO-5.jpg">
图5和图6分析了在MUG数据集上使用预训练分类器（法官）评估时，模型可能失败的原因。尽管生成的表情（C行）更符合原始动态（B行），但法官可能因为身份变化而预测错误，这表明传统评估方法的局限性，从而支持了本文提出的AED/AKD度量。</p>
<p>表4：音频解耦指标 (TIMIT &amp; LibriSpeech)</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">方法</th>
          <th style="text-align: center">TIMIT</th>
          <th style="text-align: center"></th>
          <th style="text-align: center"></th>
          <th style="text-align: center">LibriSpeech</th>
          <th style="text-align: center"></th>
          <th style="text-align: center"></th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left"></td>
          <td style="text-align: center">Static EER↓</td>
          <td style="text-align: center">Dynamic EER↑</td>
          <td style="text-align: center">Dis. Gap↑</td>
          <td style="text-align: center">Static EER↓</td>
          <td style="text-align: center">Dynamic EER↑</td>
          <td style="text-align: center">Dis. Gap↑</td>
      </tr>
      <tr>
          <td style="text-align: left">DBSE</td>
          <td style="text-align: center">3.50%</td>
          <td style="text-align: center">34.62%</td>
          <td style="text-align: center">31.11%</td>
          <td style="text-align: center">16.75%</td>
          <td style="text-align: center">22.61%</td>
          <td style="text-align: center">5.58%</td>
      </tr>
      <tr>
          <td style="text-align: left">Ours</td>
          <td style="text-align: center">4.43%</td>
          <td style="text-align: center">46.72%</td>
          <td style="text-align: center">42.29%</td>
          <td style="text-align: center">11.02%</td>
          <td style="text-align: center">45.94%</td>
          <td style="text-align: center">34.93%</td>
      </tr>
      <tr>
          <td style="text-align: left">DiffSDA在TIMIT和LibriSpeech上的解耦差距（Dis. Gap）显著超过所有基线。</td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
      </tr>
  </tbody>
</table>
<p>表5：时序预测与分类任务</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">任务</th>
          <th style="text-align: center">GLR</th>
          <th style="text-align: center">SPYL</th>
          <th style="text-align: center">DBSE</th>
          <th style="text-align: center">Supervised</th>
          <th style="text-align: center">Ours</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">pred. AUPRC↑ (PhysioNet)</td>
          <td style="text-align: center">0.37</td>
          <td style="text-align: center">0.37</td>
          <td style="text-align: center">0.47</td>
          <td style="text-align: center">0.44</td>
          <td style="text-align: center">0.50</td>
      </tr>
      <tr>
          <td style="text-align: left">pred. AUROC↑ (PhysioNet)</td>
          <td style="text-align: center">0.75</td>
          <td style="text-align: center">0.76</td>
          <td style="text-align: center">0.86</td>
          <td style="text-align: center">0.80</td>
          <td style="text-align: center">0.87</td>
      </tr>
      <tr>
          <td style="text-align: left">pred. MAE↓ (ETTh1)</td>
          <td style="text-align: center">12.3</td>
          <td style="text-align: center">12.2</td>
          <td style="text-align: center">11.2</td>
          <td style="text-align: center">10.19</td>
          <td style="text-align: center">9.89</td>
      </tr>
      <tr>
          <td style="text-align: left">cls. PhysioNet↑</td>
          <td style="text-align: center">38.9</td>
          <td style="text-align: center">47.0</td>
          <td style="text-align: center">56.9</td>
          <td style="text-align: center">62.00</td>
          <td style="text-align: center">64.6</td>
      </tr>
      <tr>
          <td style="text-align: left">cls. Air Quality↑</td>
          <td style="text-align: center">50.3</td>
          <td style="text-align: center">57.9</td>
          <td style="text-align: center">65.9</td>
          <td style="text-align: center">62.43</td>
          <td style="text-align: center">69.2</td>
      </tr>
      <tr>
          <td style="text-align: left">在时序任务的预测和分类两个子任务上，DiffSDA均取得最佳性能。</td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
      </tr>
  </tbody>
</table>
<p>关键定性结果与图表：</p>
<ul>
<li>图2：直观展示了条件交换、零样本交换和多因子PCA遍历的能力。</li>
<li>图3：与SPYL方法的视频生成质量对比，DiffSDA结果更清晰、细节更好。</li>
<li>图4：展示了跨数据集零样本交换的更多例子。</li>
<li>图7：消融研究，展示了VQ-VAE对于实现跨数据集零样本交换的关键作用。</li>
</ul>
<p><img alt="图7：VQ-VAE对零样本交换影响的消融研究" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-02/tooDJHBSvO-6.jpg">
图7对比了使用和未使用VQ-VAE的模型在零样本交换任务上的表现，表明VQ-VAE对于生成连贯的跨数据集表示至关重要。</p>
<h1></h1>
<h3 id="-评分理由">⚖️ 评分理由</h3>
<ul>
<li>学术质量 (6.5/7)：论文提出了一个新颖的、理论基础扎实的扩散模型框架来解决序列解耦问题。其依赖性建模和单一损失的设计在简化优化的同时提升了性能。实验设计非常全面，不仅在多个模态的标准数据集上对比SOTA，还引入了更具挑战性的零样本评估协议和新的无监督度量（AED， AKD），使结论更加可信。主要不足是多因子解耦的深度和生成时序一致性的讨论略显初浅。</li>
<li>选题价值 (1.5/2)：无监督解耦表征学习是AI的核心问题之一。本文的方法因其模态无关性和强大的性能，对需要理解或操作序列数据中因素（如说话人身份vs语音内容、人物外观vs动作）的广泛领域（视频编辑、语音处理、时序分析）有潜在价值。选题具有前沿性和一定的影响力。</li>
<li>开源与复现加成 (0.0/1)：提供了代码仓库和极其详细的复现指南（数据集、预处理、超参数、架构），透明度很高。扣分为未提供预训练模型权重，这使得验证和下游使用不够便捷。</li>
</ul>
<h1></h1>
<hr>
<p><a href="/audio-paper-digest-blog/posts/iclr2026-summary/">← 返回 ICLR 2026 论文分析</a></p>
]]></content:encoded>
      <category>无监督学习</category>
      <category>扩散模型</category>
      <category>表征学习</category>
      <category>零样本</category>
      <category>音频</category>
    </item>
  </channel>
</rss>
