📄 The Deleuzian Representation Hypothesis #多模态模型 #模型评估 #自监督学习 #可解释性 #概念提取
✅ 7.5/10 | 前25% | #模型评估 | #自监督学习 | #多模态模型 #可解释性
学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构 第一作者:Clément Cornet(Université Paris-Saclay, CEA, List) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表:Clément Cornet(Université Paris-Saclay, CEA, List)、Romaric Besançon(Université Paris-Saclay, CEA, List)、Hervé Le Borgne(Université Paris-Saclay, CEA, List) 💡 毒舌点评 亮点: 论文将哲学观点(德勒兹的“差异”概念)与严谨的判别分析框架结合,为神经网络可解释性提供了一个新颖且理论基础扎实的视角,并在涵盖视觉、语言、音频三大模态的跨模型、大规模实验中证明了其优于多种前沿稀疏自编码器(SAE)方法。 短板: 该方法的评估严重依赖于带有标签的数据集,这可能导致那些有意义但未与现有标签对齐的“概念”被低估;此外,其核心基于激活差异线性表达的假设,在面对高度非线性表征的模型时可能存在局限性。
📌 核心摘要 这篇论文旨在解决从神经网络中无监督地提取人类可解释“概念”这一挑战,其核心创新在于提出了一种与稀疏自编码器(SAE)不同的新方法。该方法受德勒兹哲学启发,将“概念”形式化为激活空间中捕获数据样本间差异的方向。其技术核心是无监督的判别分析:首先对激活值进行随机配对并计算差值,然后通过使用激活分布的偏度进行加权来增强多样性,并使用K均值聚类这些差异向量,从而得到一组代表“重复差异”的概念向量。与需要重建激活的SAE不同,该方法直接在激活空间中操作,允许无损的概念引导(steering)。实验在5个模型、3种模态(视觉、语言、音频)的874个属性上进行。主要结果(如表1所示)表明,该方法在探测损失(Probe Loss)指标上平均排名最优,在多个任务上显著优于各类SAE基线,并接近监督线性判别分析(LDA)的性能。例如,在CLIP的WikiArt艺术家分类任务上,该方法的探测损失为0.0119,而最优的SAE基线(Tk-SAE)为0.0125。此外,该方法提取的概念在多次运行中具有高度一致性(表2),并能成功用于模型行为引导(图3、图4)。论文的局限性在于评估依赖标签,且线性假设可能不适用于所有模型。
🏗️ 模型架构 本文提出的并非一个传统的端到端神经网络模型,而是一种用于从已有神经网络中提取可解释概念的方法框架。其流程可概括为:
输入:目标神经网络(如CLIP, DeBERTa)在给定数据集上某一层的激活值集合。每个样本产生一个D维的激活向量。 核心处理流程: 激活差值采样:为避免计算所有样本对差值的O(N^2)复杂度,随机采样N对样本对(确保每个样本恰好作为一次被减数和一次减数),计算它们的激活差值,得到N个D维向量。 偏度加权聚类:对上述N个差值向量进行聚类以得到k个概念。标准K均值对高度偏斜的分布敏感,可能产生冗余簇。因此,作者定义了基于每个候选概念方向对数据投影的偏度(公式1)来计算权重,并使用特征加权K均值进行聚类。最终,聚类的质心向量即被视为“概念向量”。 输出:k个D维的概念向量,每个向量代表激活空间中的一个方向。 概念引导(Steering):对于输入样本的激活向量x,可通过x’ = x + α * c_i 来增强或抑制概念c_i的影响,其中α为引导强度。由于概念向量直接存在于激活空间中,此操作是无损且可逆的。 图2展示了方法概览:采样激活差异,使用逆偏度进行加权,最终通过聚类得到概念向量。
...