📄 The Deleuzian Representation Hypothesis #模型可解释性 #概念提取 #对比学习 #自监督学习 #基准测试
🔥 8.5/10 | 前25% | #模型可解释性 | #概念提取 | #对比学习 #自监督学习
学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构 第一作者:Clément Cornet (Université Paris-Saclay, CEA, List) 通讯作者:Clément Cornet (论文未明确标注通讯作者,根据单位信息推断) 作者列表:Clément Cornet (Université Paris-Saclay, CEA, List)、Romaric Besançon (Université Paris-Saclay, CEA, List)、Hervé Le Borgne (Université Paris-Saclay, CEA, List) 💡 毒舌点评 这篇论文将哲学思想(德勒兹的差异论)包装成了一个工程上简洁、实验上有效的概念提取新范式,确实超越了现有稀疏自编码器方法。其核心创新——聚类激活差异而非重建激活——思路清晰且有启发性。但最大的短板在于其评估高度依赖现有的有标签数据集(用于计算探针损失),对于真正无监督的、超越已知属性的“新概念”发现能力缺乏评估框架,且对语音/音频任务本身的方法论贡献有限。
🔗 开源详情 代码:提供。论文明确给出了代码仓库链接:https://github.com/ClementCornet/Deleuzian-Hypothesis。 模型权重:未提及。论文未公开其提取的概念向量词典或修改后的模型权重。 数据集:论文使用的数据集(ImageNet, WikiArt, IMDB, CoNLL-2003, AudioSet)均为公开数据集,并在附录B中给出了获取信息。 Demo:未提及。 复现材料:提供了详尽的复现信息,包括实现细节(附录A:所有基线方法的超参数设置)、实验设置细节(附录B:数据集描述、模型版本、数据划分)、以及方法核心代码。 引用的开源项目:论文引用了多个开源项目/模型作为基线或工具,包括:scikit-learn (用于ICA)、ViT-Prisma (预训练SAE)、EleutherAI (预训练SAE)、OpenClip (CLIP实现)、PyTorch Hub (DinoV2)、HuggingFace上的多个模型(DeBERTa, BART, Pythia, AST)。 📌 核心摘要 问题:现有的稀疏自编码器(SAE)在提取神经网络内部可解释概念时面临训练困难、特征多义性以及依赖稀疏性作为可解释性代理等问题,需要一种更简单、更直接的概念提取方法。 方法核心:提出“德勒兹表征假说”,将概念定义为激活空间中数据样本之间的“差异”。具体方法是:随机采样激活差异向量,然后使用带有偏度逆权重(以促进多样性)的K-means聚类算法对这些差异进行聚类,聚类中心即为概念向量。 与已有方法的对比:与主流SAE方法(如重建+稀疏)不同,本方法不进行激活重建,而是直接识别和聚类“重复出现的差异”。它被形式化为一种无监督的判别分析,并在保持概念向量位于原始激活空间(便于无损引导)的同时,仅需一个可解释的超参数(概念数量k)。 主要实验结果:在涵盖视觉、语言、音频三个模态的五个模型和五个数据集上进行了广泛评估。结果显示,在探针损失(Probe Loss)指标上,该方法在13/20个任务中超越了所有SAE变体,其表现接近有监督的线性判别分析(LDA)基线。在跨运行一致性(MPPC)上也表现优异。关键实验数据对比如下表所示: 方法 CLIP (WikiArt Artist) DinoV2 (WikiArt Artist) DeBERTa (CoNLL-2003 NER) BART (CoNLL-2003 POS) AST (AudioSet) 平均排名 ↓ Deleuzian (Ours) 0.0119 0.0055 0.0665 0.2148 0.0164 1.65±0.85 Tk-SAE 0.0125 0.0096 0.0839 0.3478 0.0169 2.65±1.01 A-SAE 0.0130 0.0143 0.0775 0.3754 0.0169 3.20±1.72 LDA (监督基线) 0.0084 0.0044 0.0429 0.6326 0.0164 - 实际意义:提供了一种更简洁、可解释性更强的概念提取工具,可用于分析模型内部表征、进行概念引导(Steering)以可控地修改模型行为(如图像风格迁移、文本生成控制),为理解和调试大规模神经网络提供了新途径。 主要局限性:方法的评估依赖于带有语义标签的数据集,可能无法评估与已知标签无关的“新颖”概念。假设概念可在线性方向上表示,这一假设可能在某些模型中不成立。引导效果虽为定性展示,但系统性量化仍需更多研究。 🏗️ 模型架构 该方法并非一个传统的神经网络架构,而是一个用于从预训练模型激活中提取概念的流程(Pipeline)。其核心流程如下:
...