模型可解释性

Topological Signatures of Grokking

📄 Topological Signatures of Grokking #模型可解释性 #拓扑数据分析 #神经网络表征学习 #泛化理论 ✅ 7.0/10 | 前25% | #模型可解释性 | #拓扑数据分析 | #神经网络表征学习 #泛化理论 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Yifan Tang（Imperial College London，邮箱：yifan.tang23@imperial.ac.uk）通讯作者：未明确说明，但根据邮箱后缀（@imperial.ac.uk），Anthea Monod（Imperial College London）可被视为主要联系人。作者列表： Yifan Tang（Imperial College London） Qiquan Wang（Queen Mary University of London） Inés García-Redondo（University of Fribourg） Anthea Monod（Imperial College London） 💡 毒舌点评本文最大的亮点在于将持久同调这一拓扑数据分析工具成功应用于解释“顿悟”现象，并通过严谨的控制实验（如标签置换）清晰地将观察到的拓扑签名与泛化能力相关联，为理解神经网络表示学习提供了新的几何视角。然而，其核心局限也显而易见：研究高度依赖具有天然循环结构的模加法任务，在结构更复杂的MNIST上效果模糊，这使得该方法的普适性存疑。更重要的是，作者坦诚承认持久同调主要提供描述性的几何摘要，而非学习动态的因果机制解释。因此，本文更像是一项针对特定现象的精细观测分析，而非一个通用的、具有强解释力的分析框架。 📌 核心摘要问题：深度神经网络在训练过程中会出现“顿悟”现象——先记忆训练数据，然后突然泛化。目前对其内在机制，特别是表征空间的全局结构如何演变，理解有限。方法：核心是使用持久同调（Persistent Homology, PH），一种拓扑数据分析工具，来量化分析训练过程中神经网络表征（如token embedding矩阵）的几何与拓扑结构变化。与基于傅里叶分析（频域）或局部内在维度（LID，局部几何）的诊断工具相比，PH提供了一种统一的几何与拓扑视角，能同时捕捉局部和全局多尺度结构。创新：本文首次将持久同调应用于“顿悟”研究。论文发现了一个清晰且可复现的拓扑签名：在泛化发生时，第一同调群（H1）的持久性（最大值和总和）急剧上升，并在持久性图中出现一个主导的长寿命1维特征。这表明“顿悟”伴随着表征空间中相干1维拓扑结构的涌现。实验：核心设置：在模加法任务（质数 p=113, 149, 197；训练比例 α=0.20, 0.25, 0.30）上，使用Transformer和MLP架构验证了该签名的一致性。关键结果：对于p=197，H1最大持久性从基线0.075-0.08跃升至0.20-0.25，H1总持久性从~20增至30-50，且这一变化与LID的下降以及测试准确率的突变在时间上精确对齐（图3）。该结果在p=113, 149及MLP模型上得到复现。消融实验：通过控制标签随机置换比例，发现当置换比例P_frac ≤ 10%时，模型能发生顿悟，并伴随H1持久性的上升和H0持久性的下降（与测试准确率强相关，见表1）。当P_frac ≥ 20%时，顿悟失败，上述拓扑签名也随之消失（图5）。跨任务对比：在缺乏简单全局循环结构的MNIST任务上，H1指标表现为缓慢渐变，无主导循环出现，与模加法形成鲜明对比（图6）。意义：表明持久同调提供了一个原则性和可解释的框架，用于分析神经网络如何在训练中内化任务的潜在结构（如循环群结构），揭示了“顿悟”本质上是表征空间的一次拓扑重组。局限：该强信号主要依赖于模加法这类具有简单潜在拓扑（循环）的任务。在更复杂现实任务中的普适性有待验证。此外，持久同调主要提供描述性摘要，而非学习动态的因果机制解释。 🔗 开源详情代码：论文中未提供代码仓库的具体URL。模型权重：论文中未提及。数据集：模加法数据集：论文未提供下载链接。该数据集由作者根据任务描述生成，具体方法在论文第3节中详细描述。 MNIST：论文中提及用于对比实验，是公开数据集，但未提供具体下载链接。 Demo：论文中未提及。复现材料：论文未提供训练配置文件、检查点文件或代码仓库的链接。但论文第3节“Experimental Setup”中详细描述了模型架构、训练超参数、优化器设置以及实验所用的硬件和软件环境，这些信息足以用于复现。论文中引用的开源项目： Ripser：用于计算Vietoris-Rips持续同调。论文引用为 [2]。链接：https://github.com/Ripser/ripser skdim：用于估计局部内在维数。论文提及使用了其中的 TwoNN 估计器，引用为 [7]。链接：https://github.com/microsoft/skdim (论文未直接给出此链接，但为常用库) PyTorch：用于模型训练和MNIST实验的默认初始化。论文提及为 [12]。链接：https://github.com/pytorch/pytorch 🏗️ 方法概述和架构整体流程概述：本文是一个分析框架，而非生成模型。其核心流程是：1）在神经网络训练过程中，定期保存特定层的表征（如token embedding矩阵的行向量）；2）将每一层的表征视为一个高维点云；3）对点云应用持久同调计算，生成描述其拓扑特征的持久性图；4）量化持久性图（如计算H1的最大持久性和总持久性），并将其与训练准确率、LID、傅里叶谱等指标对齐分析，以发现“顿悟”现象的拓扑签名。 ...

ICLR 2026 - 模型可解释性论文列表

ICLR 2026 - 模型可解释性共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 The Deleuzian Representation Hypothesis 8.5分前25% 📋 论文详情 🥇 The Deleuzian Representation Hypothesis 🔥 8.5/10 | 前25% | #模型可解释性 | #概念提取 | #对比学习 #自监督学习 👥 作者与机构第一作者：Clément Cornet (Université Paris-Saclay, CEA, List) 通讯作者：Clément Cornet (论文未明确标注通讯作者，根据单位信息推断) 作者列表：Clément Cornet (Université Paris-Saclay, CEA, List)、Romaric Besançon (Université Paris-Saclay, CEA, List)、Hervé Le Borgne (Université Paris-Saclay, CEA, List) 💡 毒舌点评 ...

The Deleuzian Representation Hypothesis

📄 The Deleuzian Representation Hypothesis #模型可解释性 #概念提取 #对比学习 #自监督学习 #基准测试 🔥 8.5/10 | 前25% | #模型可解释性 | #概念提取 | #对比学习 #自监督学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Clément Cornet (Université Paris-Saclay, CEA, List) 通讯作者：Clément Cornet (论文未明确标注通讯作者，根据单位信息推断) 作者列表：Clément Cornet (Université Paris-Saclay, CEA, List)、Romaric Besançon (Université Paris-Saclay, CEA, List)、Hervé Le Borgne (Université Paris-Saclay, CEA, List) 💡 毒舌点评这篇论文将哲学思想（德勒兹的差异论）包装成了一个工程上简洁、实验上有效的概念提取新范式，确实超越了现有稀疏自编码器方法。其核心创新——聚类激活差异而非重建激活——思路清晰且有启发性。但最大的短板在于其评估高度依赖现有的有标签数据集（用于计算探针损失），对于真正无监督的、超越已知属性的“新概念”发现能力缺乏评估框架，且对语音/音频任务本身的方法论贡献有限。 🔗 开源详情代码：提供。论文明确给出了代码仓库链接：https://github.com/ClementCornet/Deleuzian-Hypothesis。模型权重：未提及。论文未公开其提取的概念向量词典或修改后的模型权重。数据集：论文使用的数据集（ImageNet, WikiArt, IMDB, CoNLL-2003, AudioSet）均为公开数据集，并在附录B中给出了获取信息。 Demo：未提及。复现材料：提供了详尽的复现信息，包括实现细节（附录A：所有基线方法的超参数设置）、实验设置细节（附录B：数据集描述、模型版本、数据划分）、以及方法核心代码。引用的开源项目：论文引用了多个开源项目/模型作为基线或工具，包括：scikit-learn (用于ICA)、ViT-Prisma (预训练SAE)、EleutherAI (预训练SAE)、OpenClip (CLIP实现)、PyTorch Hub (DinoV2)、HuggingFace上的多个模型（DeBERTa, BART, Pythia, AST）。 📌 核心摘要问题：现有的稀疏自编码器（SAE）在提取神经网络内部可解释概念时面临训练困难、特征多义性以及依赖稀疏性作为可解释性代理等问题，需要一种更简单、更直接的概念提取方法。方法核心：提出“德勒兹表征假说”，将概念定义为激活空间中数据样本之间的“差异”。具体方法是：随机采样激活差异向量，然后使用带有偏度逆权重（以促进多样性）的K-means聚类算法对这些差异进行聚类，聚类中心即为概念向量。与已有方法的对比：与主流SAE方法（如重建+稀疏）不同，本方法不进行激活重建，而是直接识别和聚类“重复出现的差异”。它被形式化为一种无监督的判别分析，并在保持概念向量位于原始激活空间（便于无损引导）的同时，仅需一个可解释的超参数（概念数量k）。主要实验结果：在涵盖视觉、语言、音频三个模态的五个模型和五个数据集上进行了广泛评估。结果显示，在探针损失（Probe Loss）指标上，该方法在13/20个任务中超越了所有SAE变体，其表现接近有监督的线性判别分析（LDA）基线。在跨运行一致性（MPPC）上也表现优异。关键实验数据对比如下表所示：方法 CLIP (WikiArt Artist) DinoV2 (WikiArt Artist) DeBERTa (CoNLL-2003 NER) BART (CoNLL-2003 POS) AST (AudioSet) 平均排名 ↓ Deleuzian (Ours) 0.0119 0.0055 0.0665 0.2148 0.0164 1.65±0.85 Tk-SAE 0.0125 0.0096 0.0839 0.3478 0.0169 2.65±1.01 A-SAE 0.0130 0.0143 0.0775 0.3754 0.0169 3.20±1.72 LDA (监督基线) 0.0084 0.0044 0.0429 0.6326 0.0164 - 实际意义：提供了一种更简洁、可解释性更强的概念提取工具，可用于分析模型内部表征、进行概念引导（Steering）以可控地修改模型行为（如图像风格迁移、文本生成控制），为理解和调试大规模神经网络提供了新途径。主要局限性：方法的评估依赖于带有语义标签的数据集，可能无法评估与已知标签无关的“新颖”概念。假设概念可在线性方向上表示，这一假设可能在某些模型中不成立。引导效果虽为定性展示，但系统性量化仍需更多研究。 🏗️ 模型架构该方法并非一个传统的神经网络架构，而是一个用于从预训练模型激活中提取概念的流程（Pipeline）。其核心流程如下： ...