模型可解释性 on 语音/音频论文速递

Topological Signatures of Grokking

Fri, 08 May 2026 00:00:00 +0000

📄 Topological Signatures of Grokking

#模型可解释性 #拓扑数据分析 #神经网络表征学习 #泛化理论

学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中

👥 作者与机构

第一作者：Yifan Tang（Imperial College London，邮箱：yifan.tang23@imperial.ac.uk）
通讯作者：未明确说明，但根据邮箱后缀（@imperial.ac.uk），Anthea Monod（Imperial College London）可被视为主要联系人。
作者列表：
- Yifan Tang（Imperial College London）
- Qiquan Wang（Queen Mary University of London）
- Inés García-Redondo（University of Fribourg）
- Anthea Monod（Imperial College London）

💡 毒舌点评

本文最大的亮点在于将持久同调这一拓扑数据分析工具成功应用于解释“顿悟”现象，并通过严谨的控制实验（如标签置换）清晰地将观察到的拓扑签名与泛化能力相关联，为理解神经网络表示学习提供了新的几何视角。然而，其核心局限也显而易见：研究高度依赖具有天然循环结构的模加法任务，在结构更复杂的MNIST上效果模糊，这使得该方法的普适性存疑。更重要的是，作者坦诚承认持久同调主要提供描述性的几何摘要，而非学习动态的因果机制解释。因此，本文更像是一项针对特定现象的精细观测分析，而非一个通用的、具有强解释力的分析框架。

📌 核心摘要

问题：深度神经网络在训练过程中会出现“顿悟”现象——先记忆训练数据，然后突然泛化。目前对其内在机制，特别是表征空间的全局结构如何演变，理解有限。
方法：核心是使用持久同调（Persistent Homology, PH），一种拓扑数据分析工具，来量化分析训练过程中神经网络表征（如token embedding矩阵）的几何与拓扑结构变化。与基于傅里叶分析（频域）或局部内在维度（LID，局部几何）的诊断工具相比，PH提供了一种统一的几何与拓扑视角，能同时捕捉局部和全局多尺度结构。
创新：本文首次将持久同调应用于“顿悟”研究。论文发现了一个清晰且可复现的拓扑签名：在泛化发生时，第一同调群（H1）的持久性（最大值和总和）急剧上升，并在持久性图中出现一个主导的长寿命1维特征。这表明“顿悟”伴随着表征空间中相干1维拓扑结构的涌现。
实验：
- 核心设置：在模加法任务（质数 p=113, 149, 197；训练比例 α=0.20, 0.25, 0.30）上，使用Transformer和MLP架构验证了该签名的一致性。
- 关键结果：对于p=197，H1最大持久性从基线~~0.075-0.08跃升至~~0.20-0.25，H1总持久性从~20增至30-50，且这一变化与LID的下降以及测试准确率的突变在时间上精确对齐（图3）。该结果在p=113, 149及MLP模型上得到复现。
- 消融实验：通过控制标签随机置换比例，发现当置换比例P_frac ≤ 10%时，模型能发生顿悟，并伴随H1持久性的上升和H0持久性的下降（与测试准确率强相关，见表1）。当P_frac ≥ 20%时，顿悟失败，上述拓扑签名也随之消失（图5）。
- 跨任务对比：在缺乏简单全局循环结构的MNIST任务上，H1指标表现为缓慢渐变，无主导循环出现，与模加法形成鲜明对比（图6）。
意义：表明持久同调提供了一个原则性和可解释的框架，用于分析神经网络如何在训练中内化任务的潜在结构（如循环群结构），揭示了“顿悟”本质上是表征空间的一次拓扑重组。
局限：该强信号主要依赖于模加法这类具有简单潜在拓扑（循环）的任务。在更复杂现实任务中的普适性有待验证。此外，持久同调主要提供描述性摘要，而非学习动态的因果机制解释。

🔗 开源详情

代码：论文中未提供代码仓库的具体URL。
模型权重：论文中未提及。
数据集：
- 模加法数据集：论文未提供下载链接。该数据集由作者根据任务描述生成，具体方法在论文第3节中详细描述。
- MNIST：论文中提及用于对比实验，是公开数据集，但未提供具体下载链接。
Demo：论文中未提及。
复现材料：论文未提供训练配置文件、检查点文件或代码仓库的链接。但论文第3节“Experimental Setup”中详细描述了模型架构、训练超参数、优化器设置以及实验所用的硬件和软件环境，这些信息足以用于复现。
论文中引用的开源项目：
- Ripser：用于计算Vietoris-Rips持续同调。论文引用为 [2]。链接：https://github.com/Ripser/ripser
- skdim：用于估计局部内在维数。论文提及使用了其中的 TwoNN 估计器，引用为 [7]。链接：https://github.com/microsoft/skdim (论文未直接给出此链接，但为常用库)
- PyTorch：用于模型训练和MNIST实验的默认初始化。论文提及为 [12]。链接：https://github.com/pytorch/pytorch

🏗️ 方法概述和架构

整体流程概述：本文是一个分析框架，而非生成模型。其核心流程是：1）在神经网络训练过程中，定期保存特定层的表征（如token embedding矩阵的行向量）；2）将每一层的表征视为一个高维点云；3）对点云应用持久同调计算，生成描述其拓扑特征的持久性图；4）量化持久性图（如计算H1的最大持久性和总持久性），并将其与训练准确率、LID、傅里叶谱等指标对齐分析，以发现“顿悟”现象的拓扑签名。

主要组件/模块详解：

数据源与点云构建：
- 功能：为拓扑分析准备输入数据。
- 内部结构/实现：从训练中的Transformer或MLP模型中提取指定层的输出。对于Transformer，主要使用tok_emb.weight矩阵（p×d_model），其每一行是数字0到p-1的嵌入向量（在添加位置编码之前）。这p个向量构成了一个d_model维空间中的点云。对于分析模型隐藏状态，使用测试集数据，提取第二token位置在各层的隐藏状态。
- 输入输出：输入是模型权重和测试数据；输出是一个p×d_model或N×d_hidden的点云矩阵。
持久同调计算：
- 功能：量化点云在多尺度下的拓扑特征（连通分量、环）。
- 内部结构/实现：采用Vietoris-Rips复形进行滤流。从距离阈值ε=0开始，逐步增加ε。当两点距离≤ε时连接边；当所有点两两距离≤ε时形成高维单纯形。在这个过程中，拓扑特征（如H0的连通分量，H1的环）会“诞生”（在某个ε值出现）和“死亡”（在某个更大的ε值消失）。计算前，点云会进行中心化和归一化预处理。
- 输入输出：输入是预处理后的点云；输出是持久性图（一个包含多点(b,d)的多重集，b为诞生尺度，d为死亡尺度）和Betti数等统计量。
拓扑特征量化与分析：
- 功能：将高维的持久性图转化为可追踪的标量指标，以关联训练动态。
- 内部结构/实现：主要计算两个指标：a) H1最大持久性：持久性图中所有1维特征（环）的d-b的最大值。b) H1总持久性：所有1维特征的d-b之和。同时，也会计算H0（连通分量）的相应指标。通过追踪这些指标随训练步数的变化，识别与“顿悟”时间点对齐的突变。
- 输入输出：输入是各检查点的持久性图；输出是标量时间序列（如图3, 4, 5中的曲线）。
对比分析基线：
- 功能：将拓扑分析结果与现有方法对比，突显其独特性。
- 内部结构/实现：
  - 局部内在维度（LID）：使用TwoNN估计器（来自skdim库），在测试集的第二token位置层2隐藏状态上（子采样2000点）计算，衡量点云在局部区域的内在维度。反映表征的压缩或展开。
  - 傅里叶分析：计算token embedding的2D离散傅里叶变换（针对p×p的logit张量），以及各层embedding/key/query/value权重的1D傅里叶谱，以识别主导频率，反映表征的频域周期性结构。
- 输入输出：输入是与拓扑分析相同的表征数据源；输出是LID曲线或傅里叶谱图（如图2, 3中的对比曲线）。

组件间的数据流与交互关系：数据流是单向的分析管线：训练模型 → 定期保存检查点 → 对每个检查点提取指定层表征（构建点云）→ 并行计算PH、LID、傅里叶特征 → 将所有时间序列指标与准确率曲线对齐绘制，进行交叉分析。各分析模块独立运行，但共享相同的输入数据源，以便进行公平比较。

关键设计选择及动机：作者选择PH而非仅使用频谱或局部几何指标，动机在于PH能够提供全局、多尺度、无参数的拓扑描述。它不依赖于局部线性假设（如LID），也不局限于频域分解（如傅里叶），而是直接检测如“环”这样的全局形状，这被认为与模加法任务的循环群结构高度相关。论文将PH定位为对现有频谱和几何诊断的补充和统一。

架构图/流程图：论文未提供统一的端到端方法架构图，但图1直观展示了PH分析在训练不同阶段（Step 1, 20k, 30k, 50k）的输出——持久性图。该图清晰地展示了随着训练进行，特别是泛化发生后，持久性图中一个H1特征（蓝色点）显著远离对角线，表明一个主导长寿命1维循环特征的涌现。

专业术语解释：

持久同调（Persistent Homology）：一种拓扑数据分析方法，用于量化数据形状在不同尺度下的稳定性，特别擅长识别“环”、“空洞”等全局特征。
同调群（Homology Group）：代数拓扑中描述拓扑空间“孔洞”数量的工具。H0表示连通分量数，H1表示1维环路数。
持久性（Persistence）：一个拓扑特征（如环）从诞生到死亡的尺度范围(d-b)。持久性越大，该特征越显著，越可能代表数据的真实结构而非噪声。
Vietoris-Rips复形：一种构建点云拓扑结构的常用方法，其规则简单：边连接所有距离小于阈值的点对，更高维单纯形在其所有顶点两两相连时形成。

💡 核心创新点

首次将持久同调应用于“顿悟”现象分析：之前的研究主要依赖傅里叶分析（频域）或局部内在维度（局部几何）。本文开创性地引入了全局拓扑视角，提供了一种新的分析语言来描述表征空间的重组。
为“顿悟”提供几何与拓扑解释：论文指出，与“顿悟”相关的不仅是某些特征频率的出现或局部维度的变化，更是整个表征点云拓扑结构的根本性重组——一个主导长寿命H1特征的涌现，这提供了比频谱分析更几何化的描述。
通过消融实验证明拓扑签名与泛化的关联：通过标签置换控制实验，论文展示了H1持久性的增加与模型泛化能力的出现强相关，而当任务结构被破坏导致无法泛化时，该拓扑签名消失。这为拓扑变化作为泛化标志提供了证据。

📊 实验结果

论文没有提供传统意义上的SOTA对比表格，而是通过详实的控制实验和可视化图表来验证其拓扑签名的有效性。关键结果如下：

Transformer在模加法任务上的核心结果（p=197）：图3综合展示了关键指标的变化。

准确率：训练准确率快速达到~100%；测试准确率在训练后期发生跳跃式上升，延迟时间随α减小而增加（α=0.3时约在15k-20k步，α=0.2时约在35k-45k步）。
拓扑指标（H1 max & total persistence）：在测试准确率跳跃的同一时间点，H1最大持久性从基线~~0.075-0.08突增至~~0.20-0.25，H1总持久性从~20增至30-50。这一变化在α=0.2, 0.25, 0.3时均清晰可见。
局部几何指标（LID）：与H1上升同步，LID从~~20-25骤降至~~5，表明表征被压缩到一个低维流形上。
傅里叶分析（补充对比）：图2(a)显示token embedding的傅里叶谱从分散逐渐集中于少数主导频率；图2(b)显示限制或排除这些主导频率得到的准确率与测试准确率变化趋势一致。这提供了频域视角，而PH提供了统一的几何与拓扑视角。

MLP架构上的验证（p=197）：图4显示，在MLP上观察到相同的现象。

嵌入层（Layer 0）：H1最大持久性从~~0.08上升至0.29-0.35；H1总持久性从~~20上升至30-70，增幅显著。
第三隐藏层（Layer 3）：H1最大持久性进一步上升至0.4-0.5，表明循环结构在更深层被强化。对于p=197，H1总持久性在Layer 3也呈适度正增长，与p=113, 149的结果（H1总持久性在Layer 3下降）不同，作者将其归因于更大的群结构ℤ/197ℤ能维持更多跨层拓扑结构。

标签置换消融实验（Transformer，p=197，α=0.3）：图5和表1展示了拓扑签名与泛化的严格关联。

定量相关性（表1）：当P_frac ≤ 10%时，模型能顿悟。在此范围内，嵌入层和第一层的H0总持久性与测试准确率呈强负相关（Spearman ρ低至-0.91），H1最大持久性与测试准确率呈强正相关（ρ高达0.81）。
消融现象（图5）：当P_frac ≥ 20%时，模型无法顿悟，测试准确率维持低位，同时H0和H1的持久性指标不再出现上述规律性的突变，而是表现为波动。
时间动态分析：交叉相关分析（CCF）显示，在Transformer的顿悟运行中，测试准确率的变化领先于H0总持久性等拓扑指标的变化约1000步，提示一个两阶段学习动态：先发现正确映射，后发生空间重组。

表格数据：表1完整数据如下。

Metric	Layer	0%	1%	5%	10%	20%
H0 Max	Embed	-0.78 ± 0.04	-0.72 ± 0.07	-0.84 ± 0.07	-0.86 ± 0.06	-0.10 ± 0.32
	Layer 1	-0.55 ± 0.08	-0.70 ± 0.06	-0.89 ± 0.03	-0.85 ± 0.07	-0.05 ± 0.20
	Layer 2	-0.47 ± 0.10	-0.52 ± 0.14	-0.56 ± 0.16	-0.67 ± 0.08	+0.00 ± 0.08
H0 Total	Embed	-0.75 ± 0.03	-0.71 ± 0.10	-0.87 ± 0.06	-0.91 ± 0.03	-0.20 ± 0.36
	Layer 1	-0.49 ± 0.08	-0.67 ± 0.09	-0.90 ± 0.03	-0.88 ± 0.06	-0.14 ± 0.29
	Layer 2	-0.06 ± 0.27	-0.47 ± 0.14	-0.59 ± 0.17	-0.82 ± 0.08	-0.03 ± 0.10
H1 Max	Embed	+0.77 ± 0.03	+0.71 ± 0.06	+0.80 ± 0.06	+0.69 ± 0.10	+0.08 ± 0.10
	Layer 1	+0.49 ± 0.08	+0.70 ± 0.07	+0.81 ± 0.05	+0.68 ± 0.14	+0.09 ± 0.17
	Layer 2	-0.23 ± 0.23	+0.53 ± 0.10	+0.59 ± 0.13	+0.65 ± 0.11	+0.05 ± 0.05
H1 Total	Embed	+0.60 ± 0.10	+0.42 ± 0.39	+0.24 ± 0.49	+0.14 ± 0.51	+0.10 ± 0.21
	Layer 1	+0.33 ± 0.16	+0.71 ± 0.13	+0.74 ± 0.12	+0.71 ± 0.18	+0.10 ± 0.18
	Layer 2	+0.80 ± 0.04	+0.66 ± 0.10	+0.62 ± 0.06	+0.40 ± 0.31	+0.05 ± 0.09

MNIST上的对比结果：图6展示了在缺乏简单全局循环结构的任务上的表现。

H1最大持久性：在整个训练过程中缓慢、渐进地上升，没有在泛化拐点处的突变。
H1总持久性：在训练早期（约25k-50k步）上升到峰值，随后逐渐下降，表明初期拓扑复杂度增加，随后表征进行整合。
结论：拓扑签名在MNIST上不显著，没有出现主导的长寿命H1特征，表明本文观察到的强拓扑签名与任务本身的循环几何结构密切相关。

🔬 细节详述

训练数据：模加法任务数据集，输入是两token序列[a,b]，标签是(a+b) mod p。数据集大小为p²，训练集是随机抽样的比例α的子集。p∈{113, 149, 197}。MNIST数据集引用自Liu et al. [12]，用于对比实验，其中α指初始化缩放因子。
损失函数：未明确说明，但根据任务描述（p个类上的分类）和输出（logits），可推断使用标准的交叉熵损失。
训练策略：
- 优化器：AdamW（β1=0.9, β2=0.98, ε=1e-6, 权重衰减λ=0.1）
- 学习率：3e-3，线性预热10步后保持恒定。
- 批大小：512
- 训练步数：60，000步
- 检查点：每500步保存模型权重和指标。
- 随机种子：所有实验使用固定随机种子（46-50）以保证可复现性。
模型架构：
- Transformer：2层encoder，带预层归一化。4头注意力，key/query维度32/头，FFN维度256。Token embedding维度128，与可学习位置编码相加。无dropout。最终取第二token位置的隐藏状态，经层归一化后线性投影到p个输出类。
- MLP：共享token embedding（维度128）。a和b的embedding拼接后（256维）通过3个宽度为512、使用GELU激活的隐藏层，最后线性输出到p个类。无位置编码或自注意力。
关键超参数：d_model=128, d_attn=32, d_ff=256 (Transformer); d_embed=128, 隐藏层宽512, 3层 (MLP)。
训练硬件与环境：单卡NVIDIA GeForce RTX 3070 Laptop GPU (8GB)，AMD Ryzen 7 5800H CPU。WSL2环境，配置10 CPU线程和10GB系统内存。每个实验使用单GPU。
推理细节：不涉及生成式推理，测试时直接使用模型在测试集上计算准确率。
拓扑分析细节：使用Ripser库[2]计算Vietoris-Rips持久同调（维度0和1）。点云在计算前进行中心化和归一化。LID分析使用skdim库[7]的TwoNN估计器，对2000个采样点进行计算。单个模型的CPU-based PH和LID分析分别耗时约2和6分钟。

⚖️ 评分理由

学术质量：6.5/7：创新性（+1.5）：将拓扑分析引入“顿悟”研究，角度新颖，但作者明确其为观测性而非机制性工作。技术正确性（+1.5）：方法应用正确，实验设计严谨（多变量、消融）。实验充分性（+1.5）：覆盖了不同架构、任务参数、控制条件，证据链完整。结论可信度（+2）：图表丰富，结果一致，通过消融建立了与泛化的关联。
选题价值：1.5/2：前沿性（+0.7）：研究“顿悟”机制是理论热点。潜在影响（+0.5）：为理解表示学习提供新工具，但普适性受限于任务结构。读者相关性（+0.3）：对关注可解释性、理论机器学习的读者价值高。
开源与复现加成：0/1：论文详细描述了所有超参数和环境，但未提供代码仓库或模型权重链接，降低了即时可复现性。

← 返回 2026-05-08 论文速递

ICLR 2026 - 模型可解释性论文列表

Mon, 04 May 2026 00:00:00 +0000

ICLR 2026 - 模型可解释性

共 1 篇论文

← 返回 ICLR 2026 总览

排名	论文	评分	分档
🥇	The Deleuzian Representation Hypothesis	8.5分	前25%

📋 论文详情

🥇 The Deleuzian Representation Hypothesis

🔥 8.5/10 | 前25% | #模型可解释性 | #概念提取 | #对比学习 #自监督学习

👥 作者与机构

第一作者：Clément Cornet (Université Paris-Saclay, CEA, List)
通讯作者：Clément Cornet (论文未明确标注通讯作者，根据单位信息推断)
作者列表：Clément Cornet (Université Paris-Saclay, CEA, List)、Romaric Besançon (Université Paris-Saclay, CEA, List)、Hervé Le Borgne (Université Paris-Saclay, CEA, List)

💡 毒舌点评

这篇论文将哲学思想（德勒兹的差异论）包装成了一个工程上简洁、实验上有效的概念提取新范式，确实超越了现有稀疏自编码器方法。其核心创新——聚类激活差异而非重建激活——思路清晰且有启发性。但最大的短板在于其评估高度依赖现有的有标签数据集（用于计算探针损失），对于真正无监督的、超越已知属性的“新概念”发现能力缺乏评估框架，且对语音/音频任务本身的方法论贡献有限。

🔗 开源详情

代码：提供。论文明确给出了代码仓库链接：https://github.com/ClementCornet/Deleuzian-Hypothesis。
模型权重：未提及。论文未公开其提取的概念向量词典或修改后的模型权重。
数据集：论文使用的数据集（ImageNet, WikiArt, IMDB, CoNLL-2003, AudioSet）均为公开数据集，并在附录B中给出了获取信息。
Demo：未提及。
复现材料：提供了详尽的复现信息，包括实现细节（附录A：所有基线方法的超参数设置）、实验设置细节（附录B：数据集描述、模型版本、数据划分）、以及方法核心代码。
引用的开源项目：论文引用了多个开源项目/模型作为基线或工具，包括：scikit-learn (用于ICA)、ViT-Prisma (预训练SAE)、EleutherAI (预训练SAE)、OpenClip (CLIP实现)、PyTorch Hub (DinoV2)、HuggingFace上的多个模型（DeBERTa, BART, Pythia, AST）。

📌 核心摘要

问题：现有的稀疏自编码器（SAE）在提取神经网络内部可解释概念时面临训练困难、特征多义性以及依赖稀疏性作为可解释性代理等问题，需要一种更简单、更直接的概念提取方法。
方法核心：提出“德勒兹表征假说”，将概念定义为激活空间中数据样本之间的“差异”。具体方法是：随机采样激活差异向量，然后使用带有偏度逆权重（以促进多样性）的K-means聚类算法对这些差异进行聚类，聚类中心即为概念向量。
与已有方法的对比：与主流SAE方法（如重建+稀疏）不同，本方法不进行激活重建，而是直接识别和聚类“重复出现的差异”。它被形式化为一种无监督的判别分析，并在保持概念向量位于原始激活空间（便于无损引导）的同时，仅需一个可解释的超参数（概念数量k）。

主要实验结果：在涵盖视觉、语言、音频三个模态的五个模型和五个数据集上进行了广泛评估。结果显示，在探针损失（Probe Loss）指标上，该方法在13/20个任务中超越了所有SAE变体，其表现接近有监督的线性判别分析（LDA）基线。在跨运行一致性（MPPC）上也表现优异。关键实验数据对比如下表所示：

方法	CLIP (WikiArt Artist)	DinoV2 (WikiArt Artist)	DeBERTa (CoNLL-2003 NER)	BART (CoNLL-2003 POS)	AST (AudioSet)	平均排名 ↓
Deleuzian (Ours)	0.0119	0.0055	0.0665	0.2148	0.0164	1.65±0.85
Tk-SAE	0.0125	0.0096	0.0839	0.3478	0.0169	2.65±1.01
A-SAE	0.0130	0.0143	0.0775	0.3754	0.0169	3.20±1.72
LDA (监督基线)	0.0084	0.0044	0.0429	0.6326	0.0164	-

实际意义：提供了一种更简洁、可解释性更强的概念提取工具，可用于分析模型内部表征、进行概念引导（Steering）以可控地修改模型行为（如图像风格迁移、文本生成控制），为理解和调试大规模神经网络提供了新途径。
主要局限性：方法的评估依赖于带有语义标签的数据集，可能无法评估与已知标签无关的“新颖”概念。假设概念可在线性方向上表示，这一假设可能在某些模型中不成立。引导效果虽为定性展示，但系统性量化仍需更多研究。

The Deleuzian Representation Hypothesis

Mon, 04 May 2026 00:00:00 +0000

📄 The Deleuzian Representation Hypothesis

#模型可解释性 #概念提取 #对比学习 #自监督学习 #基准测试

🔥 8.5/10 | 前25% | #模型可解释性 | #概念提取 | #对比学习 #自监督学习

学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Clément Cornet (Université Paris-Saclay, CEA, List)
通讯作者：Clément Cornet (论文未明确标注通讯作者，根据单位信息推断)
作者列表：Clément Cornet (Université Paris-Saclay, CEA, List)、Romaric Besançon (Université Paris-Saclay, CEA, List)、Hervé Le Borgne (Université Paris-Saclay, CEA, List)

💡 毒舌点评

🔗 开源详情

代码：提供。论文明确给出了代码仓库链接：https://github.com/ClementCornet/Deleuzian-Hypothesis。
模型权重：未提及。论文未公开其提取的概念向量词典或修改后的模型权重。
数据集：论文使用的数据集（ImageNet, WikiArt, IMDB, CoNLL-2003, AudioSet）均为公开数据集，并在附录B中给出了获取信息。
Demo：未提及。
复现材料：提供了详尽的复现信息，包括实现细节（附录A：所有基线方法的超参数设置）、实验设置细节（附录B：数据集描述、模型版本、数据划分）、以及方法核心代码。
引用的开源项目：论文引用了多个开源项目/模型作为基线或工具，包括：scikit-learn (用于ICA)、ViT-Prisma (预训练SAE)、EleutherAI (预训练SAE)、OpenClip (CLIP实现)、PyTorch Hub (DinoV2)、HuggingFace上的多个模型（DeBERTa, BART, Pythia, AST）。

📌 核心摘要

问题：现有的稀疏自编码器（SAE）在提取神经网络内部可解释概念时面临训练困难、特征多义性以及依赖稀疏性作为可解释性代理等问题，需要一种更简单、更直接的概念提取方法。
方法核心：提出“德勒兹表征假说”，将概念定义为激活空间中数据样本之间的“差异”。具体方法是：随机采样激活差异向量，然后使用带有偏度逆权重（以促进多样性）的K-means聚类算法对这些差异进行聚类，聚类中心即为概念向量。
与已有方法的对比：与主流SAE方法（如重建+稀疏）不同，本方法不进行激活重建，而是直接识别和聚类“重复出现的差异”。它被形式化为一种无监督的判别分析，并在保持概念向量位于原始激活空间（便于无损引导）的同时，仅需一个可解释的超参数（概念数量k）。

方法	CLIP (WikiArt Artist)	DinoV2 (WikiArt Artist)	DeBERTa (CoNLL-2003 NER)	BART (CoNLL-2003 POS)	AST (AudioSet)	平均排名 ↓
Deleuzian (Ours)	0.0119	0.0055	0.0665	0.2148	0.0164	1.65±0.85
Tk-SAE	0.0125	0.0096	0.0839	0.3478	0.0169	2.65±1.01
A-SAE	0.0130	0.0143	0.0775	0.3754	0.0169	3.20±1.72
LDA (监督基线)	0.0084	0.0044	0.0429	0.6326	0.0164	-

实际意义：提供了一种更简洁、可解释性更强的概念提取工具，可用于分析模型内部表征、进行概念引导（Steering）以可控地修改模型行为（如图像风格迁移、文本生成控制），为理解和调试大规模神经网络提供了新途径。
主要局限性：方法的评估依赖于带有语义标签的数据集，可能无法评估与已知标签无关的“新颖”概念。假设概念可在线性方向上表示，这一假设可能在某些模型中不成立。引导效果虽为定性展示，但系统性量化仍需更多研究。

🏗️ 模型架构

该方法并非一个传统的神经网络架构，而是一个用于从预训练模型激活中提取概念的流程（Pipeline）。其核心流程如下：

输入：给定一个预训练模型（如CLIP、DeBERTa）及其在某个数据集上的激活向量集合（维度为D）。
差异采样：随机配对数据样本，计算它们激活向量之间的差值，形成一个差异向量集合 D。这步在近似“样本间的差异”分布。
偏度加权：对于每个差值向量，计算其在所有样本上投影值的偏度（skewness）。偏度高的差值向量被认为是冗余的。因此，为每个差值向量分配一个权重，该权重与其偏度成反比（1/偏度），以降低其在聚类中的影响力。
聚类：使用加权K-means聚类算法对加权后的差值向量进行聚类。算法旨在找到k个聚类中心，这些中心代表了“重复出现的差异模式”，即提取出的概念向量。
输出：k个概念向量，每个向量都位于原始模型的激活空间中，可直接用于下游任务如探针评估或概念引导。

与判别分析的联系：论文在理论上论证了该过程等价于一种无监督的线性判别分析（LDA）。在假设各类激活分布为各向同性的高斯分布时，两类样本的差值向量 xi - xj 正是最大化类间分离的最优方向。因此，聚类这些差值向量就是在寻找数据中反复出现的、最具判别力的“差异方向”。

概念引导：由于概念向量 ci 位于激活空间，对样本 x 进行引导只需线性操作：x_steered = x + α * ci。这避免了SAE方法中编码-解码带来的重建误差，实现了无损引导。

图2：概念提取方法流程概览图。展示了从模型激活中随机采样差异向量，经过偏度加权后，通过K-means聚类得到最终概念向量的过程。

💡 核心创新点

基于“差异”的概念定义：是什么：将“概念”定义为神经网络激活空间中表征样本间差异的方向，灵感来源于德勒兹的哲学思想。之前局限：SAE等方法基于“重建误差”，隐式地将概念视为表征激活空间主要方差（即普遍结构）的成分。如何起作用/收益：直接建模差异更贴近分类、判别等核心任务。实验证明这种视角下提取的概念在探针损失指标上优于基于重建的SAE，能更好地捕获与任务相关的语义属性。
偏度加权聚类以提升多样性：是什么：在对差值向量进行K-means聚类时，根据每个差值向量分布的偏度（第三阶矩）进行反向加权。之前局限：标准聚类易受少数极端值（高偏度）主导，导致概念冗余。如何起作用/收益：通过惩罚偏度高的差值方向，迫使聚类结果覆盖更多样的差异模式。消融实验（表3）证实，此步骤显著提升了概念的有效秩（多样性）并降低了最大成对余弦相似度（冗余度），是提升整体性能的关键组件。
无损的概念引导机制：是什么：利用概念向量位于原始激活空间这一特性，通过直接向量加减实现对模型内部表征的干预。之前局限：基于SAE的引导需要将激活投影到潜在空间（编码）、施加干预、再投影回激活空间（解码），两次投影不可避免地引入重建误差和信息损失。如何起作用/收益：实现了数学上精确可逆的引导操作，定性实验（如图4）展示了其对文本生成的因果影响力，为模型调试和可控生成提供了更干净的工具。

🔬 细节详述

训练数据：评估使用了五个标准数据集：ImageNet-100（图像分类）、WikiArt（图像艺术风格/流派/作者）、IMDB（文本情感）、CoNLL-2003（文本命名实体/词性/组块）、AudioSet（音频事件）。这些数据集用于提取概念并计算探针损失。
损失函数：方法本身无传统神经网络损失函数。其核心是K-means聚类，目标是最小化加权类内平方和（见公式d(di, ¯C)）。探针损失用于评估提取概念的质量，为二元或多类逻辑回归的交叉熵损失。
训练策略：方法是非迭代学习的。差异采样、偏度计算、加权K-means聚类是一次性完成的流程。K-means的具体初始化和迭代次数未在主文说明。
关键超参数：概念数量k：唯一的可解释超参数，所有实验设定为6144。激活空间：分析均使用模型最后一个Transformer块的输出。
训练硬件：论文中未说明。
推理细节：概念提取是离线完成的。概念引导时，在模型前向传播过程中直接对中间层激活进行向量加法操作（x + α*ci），然后继续后续前向传播。
正则化或稳定训练技巧：通过偏度逆权重（1/µ̃3）对K-means聚类进行正则化，以促进概念多样性并抑制冗余。通过将负偏度的差值向量取反（-di），确保了权重始终为正。

📊 实验结果

主要结果：概念质量（探针损失）论文在5个模型、5个数据集、多个任务上对比了多种方法。探针损失越低越好。下表总结了关键结果（完整表格见论文表1）：

方法	CLIP WikiArt (Artist↓)	DinoV2 WikiArt (Genre↓)	DeBERTa CoNLL (POS↓)	AST AudioSet (Median↓)	平均排名 ↓
Deleuzian (Ours)	0.0119	0.1230	0.2148	0.0164	1.65 ± 0.85
Tk-SAE	0.0125	0.1360	0.3478	0.0169	2.65 ± 1.01
Van-SAE	0.0137	0.1531	0.2719	0.0177	4.65 ± 1.56
LDA (监督)	0.0084	0.0976	0.6326	0.0164	-
结论：Deleuzian方法在平均排名上显著优于所有SAE基线。在13/20个任务上取得最低的探针损失，其表现介于无监督SAE和有监督LDA之间，在多个任务上接近甚至超越LDA（如BART-POS任务）。

概念一致性（MPPC）使用最大成对皮尔逊相关系数（MPPC）评估不同随机种子下提取概念的一致性，值越接近1越好。

数据集/模型	CLIP-ImNet	CLIP-WA	DinoV2-ImNet	DeBERTa-IMDB	AST-AudioSet
Deleuzian (Ours)	0.821	0.856	0.789	0.980	0.830
Tk-SAE	0.757	0.861	0.588	0.866	0.601
Van-SAE	0.840	0.918	0.603	0.986	0.837
结论：Deleuzian方法的概念一致性非常高，通常位列前两名。特别是在BART和AST模型上表现突出。

消融实验在CLIP-WikiArt和DeBERTa-CoNLL上验证了三个关键设计的影响（见论文表3）：

输入空间（差异 vs. 激活）：使用激活差异（diff）作为输入，比直接使用原始激活（acts.）在探针损失和多样性上都有巨大提升。
聚类方法（K-means vs. SAE）：K-means在差异上聚类，比TopKSAE在差异上训练，能获得好得多的探针损失和更高的多样性。
偏度加权（有 vs. 无）：启用偏度加权后，概念的有效秩（多样性）从5.65/17.9大幅提升至182.0/124.4，最大成对余弦（冗余度）显著下降，同时探针损失进一步改善。

图5：不同概念数量下的性能曲线。展示了在CLIP-WikiArt-任务上，随着提取概念数量k从0增加到6144，Deleuzian方法的性能（1-探针损失）变化。曲线表明，仅需约2000个概念，其性能就已超越所有比较的基线方法。

⚖️ 评分理由

学术质量：6.5/7：创新：将哲学思想转化为一个简洁、可解释且有效的技术方案，视角新颖。技术正确性：方法流程清晰，与判别分析的理论联系合理，数学推导（如偏度加权、二次扩展）正确。实验充分性：实验设计非常全面，覆盖了三个模态、多个主流模型、大量任务和数据集，并与众多基线（包括多种SAE变体）进行了公平对比。评估指标（探针损失、MPPC）选择恰当，消融实验充分验证了各组件贡献。证据可信度：结果具有统计显著性（附录中给出了Wilcoxon检验p值），定性引导示例直观地展示了因果影响。
选题价值：1.5/2：前沿性：模型可解释性是当前AI安全与信任的核心议题，该工作为概念提取提供了新思路。潜在影响：方法简洁、易于复现且效果好，有潜力成为SAE之外的另一种标准工具，尤其适用于需要无损干预的场景。应用空间：可用于模型调试、偏见检测、可控生成（如图像风格、文本内容）等。与音频/读者相关性：论文包含音频任务（AST模型，AudioSet数据集），证明了方法的跨模态适用性，但其核心贡献在于通用的模型解释方法，而非针对音频任务的特定创新。
开源与复现加成：0.5/1：论文在可重复性声明中提供了明确的代码仓库链接（https://github.com/ClementCornet/Deleuzian-Hypothesis），并详细描述了方法实现和实验设置（附录A、B）。这大大增强了论文的可信度和可复现性。但未提及是否提供预训练好的概念词典或模型权重。

← 返回 ICLR 2026 论文分析

模型可解释性 on 语音/音频论文速递

Topological Signatures of Grokking

📄 Topological Signatures of Grokking

👥 作者与机构

💡 毒舌点评

📌 核心摘要

🔗 开源详情

🏗️ 方法概述和架构

💡 核心创新点

📊 实验结果

🔬 细节详述

⚖️ 评分理由

ICLR 2026 - 模型可解释性 论文列表

ICLR 2026 - 模型可解释性

📋 论文详情

🥇 The Deleuzian Representation Hypothesis

The Deleuzian Representation Hypothesis

📄 The Deleuzian Representation Hypothesis

👥 作者与机构

💡 毒舌点评

🔗 开源详情

📌 核心摘要

🏗️ 模型架构

💡 核心创新点

🔬 细节详述

📊 实验结果

⚖️ 评分理由

ICLR 2026 - 模型可解释性论文列表