The Deleuzian Representation Hypothesis

📄 The Deleuzian Representation Hypothesis #模型可解释性 #概念提取 #对比学习 #自监督学习 #基准测试 🔥 8.5/10 | 前25% | #模型可解释性 | #概念提取 | #对比学习 #自监督学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Clément Cornet (Université Paris-Saclay, CEA, List) 通讯作者:Clément Cornet (论文未明确标注通讯作者,根据单位信息推断) 作者列表:Clément Cornet (Université Paris-Saclay, CEA, List)、Romaric Besançon (Université Paris-Saclay, CEA, List)、Hervé Le Borgne (Université Paris-Saclay, CEA, List) 💡 毒舌点评 这篇论文将哲学思想(德勒兹的差异论)包装成了一个工程上简洁、实验上有效的概念提取新范式,确实超越了现有稀疏自编码器方法。其核心创新——聚类激活差异而非重建激活——思路清晰且有启发性。但最大的短板在于其评估高度依赖现有的有标签数据集(用于计算探针损失),对于真正无监督的、超越已知属性的“新概念”发现能力缺乏评估框架,且对语音/音频任务本身的方法论贡献有限。 🔗 开源详情 代码:提供。论文明确给出了代码仓库链接:https://github.com/ClementCornet/Deleuzian-Hypothesis。 模型权重:未提及。论文未公开其提取的概念向量词典或修改后的模型权重。 数据集:论文使用的数据集(ImageNet, WikiArt, IMDB, CoNLL-2003, AudioSet)均为公开数据集,并在附录B中给出了获取信息。 Demo:未提及。 复现材料:提供了详尽的复现信息,包括实现细节(附录A:所有基线方法的超参数设置)、实验设置细节(附录B:数据集描述、模型版本、数据划分)、以及方法核心代码。 引用的开源项目:论文引用了多个开源项目/模型作为基线或工具,包括:scikit-learn (用于ICA)、ViT-Prisma (预训练SAE)、EleutherAI (预训练SAE)、OpenClip (CLIP实现)、PyTorch Hub (DinoV2)、HuggingFace上的多个模型(DeBERTa, BART, Pythia, AST)。 📌 核心摘要 问题:现有的稀疏自编码器(SAE)在提取神经网络内部可解释概念时面临训练困难、特征多义性以及依赖稀疏性作为可解释性代理等问题,需要一种更简单、更直接的概念提取方法。 方法核心:提出“德勒兹表征假说”,将概念定义为激活空间中数据样本之间的“差异”。具体方法是:随机采样激活差异向量,然后使用带有偏度逆权重(以促进多样性)的K-means聚类算法对这些差异进行聚类,聚类中心即为概念向量。 与已有方法的对比:与主流SAE方法(如重建+稀疏)不同,本方法不进行激活重建,而是直接识别和聚类“重复出现的差异”。它被形式化为一种无监督的判别分析,并在保持概念向量位于原始激活空间(便于无损引导)的同时,仅需一个可解释的超参数(概念数量k)。 主要实验结果:在涵盖视觉、语言、音频三个模态的五个模型和五个数据集上进行了广泛评估。结果显示,在探针损失(Probe Loss)指标上,该方法在13/20个任务中超越了所有SAE变体,其表现接近有监督的线性判别分析(LDA)基线。在跨运行一致性(MPPC)上也表现优异。关键实验数据对比如下表所示: 方法 CLIP (WikiArt Artist) DinoV2 (WikiArt Artist) DeBERTa (CoNLL-2003 NER) BART (CoNLL-2003 POS) AST (AudioSet) 平均排名 ↓ Deleuzian (Ours) 0.0119 0.0055 0.0665 0.2148 0.0164 1.65±0.85 Tk-SAE 0.0125 0.0096 0.0839 0.3478 0.0169 2.65±1.01 A-SAE 0.0130 0.0143 0.0775 0.3754 0.0169 3.20±1.72 LDA (监督基线) 0.0084 0.0044 0.0429 0.6326 0.0164 - 实际意义:提供了一种更简洁、可解释性更强的概念提取工具,可用于分析模型内部表征、进行概念引导(Steering)以可控地修改模型行为(如图像风格迁移、文本生成控制),为理解和调试大规模神经网络提供了新途径。 主要局限性:方法的评估依赖于带有语义标签的数据集,可能无法评估与已知标签无关的“新颖”概念。假设概念可在线性方向上表示,这一假设可能在某些模型中不成立。引导效果虽为定性展示,但系统性量化仍需更多研究。 🏗️ 模型架构 该方法并非一个传统的神经网络架构,而是一个用于从预训练模型激活中提取概念的流程(Pipeline)。其核心流程如下: ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 285 words

The Deleuzian Representation Hypothesis

📄 The Deleuzian Representation Hypothesis #多模态模型 #模型评估 #自监督学习 #可解释性 #概念提取 ✅ 7.5/10 | 前25% | #模型评估 | #自监督学习 | #多模态模型 #可解释性 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Clément Cornet(Université Paris-Saclay, CEA, List) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表:Clément Cornet(Université Paris-Saclay, CEA, List)、Romaric Besançon(Université Paris-Saclay, CEA, List)、Hervé Le Borgne(Université Paris-Saclay, CEA, List) 💡 毒舌点评 亮点: 论文将哲学观点(德勒兹的“差异”概念)与严谨的判别分析框架结合,为神经网络可解释性提供了一个新颖且理论基础扎实的视角,并在涵盖视觉、语言、音频三大模态的跨模型、大规模实验中证明了其优于多种前沿稀疏自编码器(SAE)方法。 短板: 该方法的评估严重依赖于带有标签的数据集,这可能导致那些有意义但未与现有标签对齐的“概念”被低估;此外,其核心基于激活差异线性表达的假设,在面对高度非线性表征的模型时可能存在局限性。 📌 核心摘要 这篇论文旨在解决从神经网络中无监督地提取人类可解释“概念”这一挑战,其核心创新在于提出了一种与稀疏自编码器(SAE)不同的新方法。该方法受德勒兹哲学启发,将“概念”形式化为激活空间中捕获数据样本间差异的方向。其技术核心是无监督的判别分析:首先对激活值进行随机配对并计算差值,然后通过使用激活分布的偏度进行加权来增强多样性,并使用K均值聚类这些差异向量,从而得到一组代表“重复差异”的概念向量。与需要重建激活的SAE不同,该方法直接在激活空间中操作,允许无损的概念引导(steering)。实验在5个模型、3种模态(视觉、语言、音频)的874个属性上进行。主要结果(如表1所示)表明,该方法在探测损失(Probe Loss)指标上平均排名最优,在多个任务上显著优于各类SAE基线,并接近监督线性判别分析(LDA)的性能。例如,在CLIP的WikiArt艺术家分类任务上,该方法的探测损失为0.0119,而最优的SAE基线(Tk-SAE)为0.0125。此外,该方法提取的概念在多次运行中具有高度一致性(表2),并能成功用于模型行为引导(图3、图4)。论文的局限性在于评估依赖标签,且线性假设可能不适用于所有模型。 🏗️ 模型架构 本文提出的并非一个传统的端到端神经网络模型,而是一种用于从已有神经网络中提取可解释概念的方法框架。其流程可概括为: 输入:目标神经网络(如CLIP, DeBERTa)在给定数据集上某一层的激活值集合。每个样本产生一个D维的激活向量。 核心处理流程: 激活差值采样:为避免计算所有样本对差值的O(N^2)复杂度,随机采样N对样本对(确保每个样本恰好作为一次被减数和一次减数),计算它们的激活差值,得到N个D维向量。 偏度加权聚类:对上述N个差值向量进行聚类以得到k个概念。标准K均值对高度偏斜的分布敏感,可能产生冗余簇。因此,作者定义了基于每个候选概念方向对数据投影的偏度(公式1)来计算权重,并使用特征加权K均值进行聚类。最终,聚类的质心向量即被视为“概念向量”。 输出:k个D维的概念向量,每个向量代表激活空间中的一个方向。 概念引导(Steering):对于输入样本的激活向量x,可通过x’ = x + α * c_i 来增强或抑制概念c_i的影响,其中α为引导强度。由于概念向量直接存在于激活空间中,此操作是无损且可逆的。 图2展示了方法概览:采样激活差异,使用逆偏度进行加权,最终通过聚类得到概念向量。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 262 words