Mechanistic Interpretability of ASR models using Sparse Autoencoders

📄 Mechanistic Interpretability of ASR models using Sparse Autoencoders #语音识别 #稀疏自编码器 #可解释性AI #多语言 📝 5.5/10 | 前60% | #语音识别 | #稀疏自编码器 | #可解释性AI #多语言 | arxiv 学术质量 5.0/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Dan Pluth (Vail Systems, Inc.) 通讯作者:未说明 作者列表:Dan Pluth (Vail Systems, Inc.)、Zachary Nicholas Houghton (Vail Systems, Inc. & University of Oregon)、Yu Zhou (Vail Systems, Inc.)、Vijay K. Gurbani (Vail Systems, Inc.) 💡 毒舌点评 这篇论文完成了一项“从0到1”的迁移工作,证明了稀疏自编码器(SAE)这一在文本大模型上流行的机械可解释性技术,可以应用于语音识别模型Whisper。它展示了Whisper编码器内部确实存在从音素到语义的丰富特征层级,这本身是一个有价值的发现。然而,作为一项方法迁移工作,其实验设计存在显著缺陷:缺乏与更简单、更传统方法(如线性探针)的基线对比,无法证明SAE在此任务上的优越性;仅在单一模型规模(Whisper-base)和单一SAE配置下进行验证,结论的普适性存疑;且关键训练细节的缺失严重影响了工作的可复现性和技术深度。总体而言,这是一篇合格的概念验证论文,但远未达到推动该领域方法论进步的水平。 📌 核心摘要 要解决什么问题:文本大模型(LLMs)的内部表征已能用稀疏自编码器(SAE)进行可解释性分析,但同样的技术能否有效应用于以音频为输入的端到端语音识别模型(如Whisper),以揭示其内部丰富的表示信息,目前尚无研究证明。 方法核心:在预训练的Whisper编码器最后一层之后插入一个稀疏自编码器(SAE)。该SAE将Whisper-base的512维稠密嵌入映射到一个16000维的稀疏潜在空间,通过TopK激活(K=45)强制稀疏性,并使用均方误差(MSE)损失进行训练,以重建Whisper编码器的原始输出。 与已有方法相比新在哪里:首次将SAE方法应用于语音识别模型(ASR)的机械可解释性研究。已有工作集中于文本LLM,本文证明了SAE在语音模态的潜在空间同样能够解耦出单义特征(monosemantic features),并能发现跨越语言、语音、词汇、形态和语义层面的丰富特征层级。 主要实验结果如何:实验发现Whisper编码了超出转录所需的丰富信息。具体结果包括: 语言特征:发现一个潜在索引(5106)能以74.7%的精确率和91.2%的召回率区分英语与非英语语音。 音素特征:发现表征双音素(如/R UW1/,精确率88.7%,召回率64.9%)的潜在索引。 词汇特征:发现表征特定单词(如“his”,精确率99.3%,召回率81.4%)的潜在索引。 形态特征:发现表征后缀“-ly”(精确率87.2%,召回率17.8%)的潜在索引,低召回率归因于特征分裂。 语义特征: 数字:一个潜在索引(7710)与数字相关(精确率38.1%,召回率79.2%)。论文指出该特征的时间边界不精确,假阳性多出现在含有数字的句子中。 脏话:两个潜在索引(3584, 104)共同覆盖了89.7%的脏话样本(精确率6.6%)。通过特征引导(steering)实验,成功实现了脏话的插入和替换。 跨语言引导:用于英语脏话的潜在索引(3584)同样能对西班牙语和法语(SAE训练中未包含)的脏话进行引导,证明其编码了语言无关的语义信息。 非语言特征:发现能区分纯噪声与语音的潜在索引(精确率97.7%),以及在特定时间点稳定激活的位置潜在索引。 实际意义:本研究建立了SAE作为分析ASR模型内部工作机制的有效工具,揭示了Whisper等模型在训练中自然习得了丰富的语言学层次表征,为理解端到端语音模型的内部表示提供了新途径。 主要局限性:论文明确承认了三个局限:1)仅研究了一个SAE配置(特定潜在维度);2)仅在最小的Whisper-base模型上验证;3)分析主要集中在英语,其他语言数据使用有限。 🔗 开源详情 代码:论文中提供了匿名仓库链接,用于存放训练代码、分析代码、分析数据集及潜在示例:https://anonymous.4open.science/r/COLM2026-73CF/ 模型权重:论文中未提及训练得到的SAE模型权重的公开链接。论文研究的基础模型是Whisper (base),其权重可通过HuggingFace等平台获取。 数据集: 训练数据集:论文明确列出了用于训练SAE的多个公开数据集名称:LJSpeech, LibriSpeech, Voxceleb 1, Mozilla Common Voice English, SLR39, SLR67, SLR61, SLR71-SLR75, Musan。总文件数为646,769。论文未提供这些数据集的具体下载链接。 评估数据集:用于分析的评估集部分来自Mozilla Common Voice v13.0(西班牙语和法语)以及ESC-50(噪声数据)。 Demo:论文中未提及。 复现材料:论文中提供了包含训练配置、分析代码等的匿名仓库链接:https://anonymous.4open.science/r/COLM2026-73CF/。此外,附录A、B、C提供了关于特征空间、潜在特征列表和非语言特征的详细说明。 论文中引用的开源项目: OpenAI Sparse Autoencoder: https://github.com/openai/sparse_autoencoder (论文中明确说明SAE训练框架基于此实现) 🏗️ 方法概述和架构 本文提出的方法旨在应用稀疏自编码器(SAE)作为机械可解释性工具,来探测预训练的Whisper自动语音识别(ASR)模型编码器的内部表征。整个方法流程可分为模型改造与SAE训练和特征分析与引导两个主要阶段。 ...

2026-05-13 · 更新于 2026-05-19 · 3 min · 429 words

Discovering and Steering Interpretable Concepts in Large Generative Music Models

📄 Discovering and Steering Interpretable Concepts in Large Generative Music Models #音乐生成 #稀疏自编码器 #预训练 #可解释性 🔥 8.0/10 | 前25% | #音乐生成 | #稀疏自编码器 | #预训练 #可解释性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Nikhil Singh (Dartmouth College),Manuel Cherep (MIT) —— 共同第一作者 通讯作者:未明确标注,但Pattie Maes (MIT) 可能为项目负责人 作者列表:Nikhil Singh (Dartmouth College),Manuel Cherep (MIT),Pattie Maes (MIT) 💡 毒舌点评 亮点:首次将稀疏自编码器(SAE)技术从大语言模型(LLM)的可解释性研究成功迁移到音频/音乐生成领域,并构建了端到端的自动化发现、标注与验证流水线,方法论上具有清晰的开创性和系统性。 短板:对于所发现的“概念”的边界(monosemanticity)控制和负样本分析不够深入,且部分自动化标注和评估高度依赖外部模型(如Gemini、CLAP),可能引入偏置;概念引导生成的成功率(约15-35%)虽证明可行性,但作为“强干预”实验,其鲁棒性和泛化性仍有很大提升空间。 🔗 开源详情 代码:论文中未提供明确的代码仓库链接。 模型权重:实验使用了预训练的MusicGen模型(Large和Small版本),以及Essentia和CLAP的预训练模型。论文训练的SAE权重未提及是否公开。 数据集:使用了公开的MusicSet数据集。 Demo:论文中未提及在线演示。 复现材料:附录提供了部分技术细节(如Gemini的提示词和响应格式、Essentia使用的标签模型列表、人类验证指南),但核心的SAE训练超参数(学习率、优化器等)未详细说明。 依赖的开源项目:论文明确依赖并提及了MusicGen、Essentia、CLAP、Gemini API等开源模型或工具。 📌 核心摘要 这篇论文旨在解决大型自回归音乐生成模型(如MusicGen)内部表示不透明、难以与人类音乐概念对齐的问题。核心方法是利用稀疏自编码器(SAE) 对Transformer残差流的激活进行重构,从中提取出稀疏、可解释的潜在特征(概念),并构建了一套自动化标注与评估流程(结合多模态大语言模型和预训练音频分类器)来大规模识别这些概念。与已有工作主要关注“探测已知概念”不同,本文提出了一个无监督的概念发现流水线,能够发现模型隐式学习的、甚至超越现有理论描述的音乐规律。实验结果表明,该方法在两个不同规模的MusicGen模型上都能发现熟悉的音乐概念(如鼓点、流派、乐器音色)和新兴的、难以用现有术语定义的规律(如特定的电子音效、音乐织体单元)。关键量化结果包括:在MusicGen-Large上,过滤后可保留数千个可解释特征;自动化标注质量通过CLAP分数进行评估(详见图4);通过引入特征进行引导生成,15%-35%的特征能提升生成音频与目标概念的CLAP对齐分数(表2),并且人类听辨实验(66/100的正确率)证实了引导效果的可感知性。该工作为理解生成模型如何组织音乐信息提供了实证工具,并指向了可控生成的可能性。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 224 words

Discovering and Steering Interpretable Concepts in Large Generative Music Models

📄 Discovering and Steering Interpretable Concepts in Large Generative Music Models #音乐生成 #音频大模型 #稀疏自编码器 #模型评估 #模型解释性 ✅ 7.5/10 | 前25% | #音乐生成 | #稀疏自编码器 | #音频大模型 #模型评估 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Nikhil Singh(Dartmouth College)、Manuel Cherep(MIT)(共同第一作者) 通讯作者:未说明 作者列表:Nikhil Singh(Dartmouth College), Manuel Cherep(MIT), Pattie Maes(MIT) 💡 毒舌点评 亮点在于将大语言模型可解释性领域的前沿方法(稀疏自编码器)成功移植到音乐生成模型,并提出了一个完整的、可扩展的概念发现与引导框架,具有方法论上的开创性。短板在于实验规模局限于单一模型家族(MusicGen),且自动化评估依赖CLAP等外部模型,其评估结果的可靠性有待更全面的人工验证支撑,部分技术细节(如SAE训练策略)也未完全公开。 📌 核心摘要 问题:大型音乐生成模型(如MusicGen)能生成高质量音乐,但其内部表示如同“黑箱”,缺乏可解释性。我们需要理解模型内部“学到”了哪些音乐概念,以及这些概念是否与人类音乐理论一致或能揭示新的音乐规律。 方法核心:提出一个多阶段流水线:首先,从音乐语料库中提取预训练MusicGen模型的残差流激活;其次,使用稀疏自编码器(SAEs)对这些高维激活进行降维和稀疏化,以发现潜在的、可解释的特征;最后,通过自动标注(使用多模态LLM如Gemini和预训练音频分类器)和人类验证来为这些特征命名,并通过干预残差流来测试特征的可引导性。 创新点:这是首次将稀疏自编码器技术应用于音频/音乐领域的生成模型;构建了一个可扩展的、无需监督的概念发现与自动评估流水线;不仅发现了与已知音乐理论(如流派、乐器)一致的特征,还发现了一些理论上未明确编码但感知上连贯的“涌现”规律(如特定电子音效、单音纹理)。 主要实验结果:在MusicGen-Large模型上,通过SAE发现了数千个可过滤的特征。人类验证中,基于Essentia分类器的标签获得的人类置信度(3.96/5)高于基于Gemini的标签(3.19/5)。引导实验表明,约15-35%的测试特征能成功引导生成内容向目标概念靠拢,听觉测试(10名参与者)显示66%的情况下,SAE引导的版本比基线或随机引导版本更易被识别为目标概念。结果表明,模型的深层编码了更易解释的特征,且大模型的特征组织更具层次性。 实际意义:为理解生成式AI的“音乐理解”提供了实证工具,架起了模型内部表示与人类音乐概念之间的桥梁,有望促进更透明、可控的AI音乐创作,并为音乐理论研究提供新视角。 主要局限性:研究主要针对无条件生成(未使用文本提示),未探讨文本条件下的概念表示;自动化评估指标(CLAP分数)可能不完全反映人类对音乐概念的理解;引导实验的成功率有待提高,且引导可能导致生成质量下降。 🏗️ 模型架构 该论文的核心并非提出一个新的生成模型,而是一个用于分析和引导现有模型(MusicGen)内部表示的方法流水线。其整体架构如图1所示。 完整流程分为三个主要阶段: 激活提取与数据集构建: 输入:一个大型音乐语料库(论文中使用MusicSet,约16万段音频)。 处理:将音频输入预训练的MusicGen模型(MusicGen-Large或MusicGen-Small),并提取其多个Transformer层的残差流激活向量。 输出:一个“激活数据集”,包含每段音频在不同层、不同时间步的激活向量。 特征发现与过滤: ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 297 words

Do Sparse Autoencoders Capture Concept Manifolds?

📄 Do Sparse Autoencoders Capture Concept Manifolds? #可解释性 #稀疏自编码器 #大语言模型 #表示学习 ✅ 7.0/10 | 前25% | #可解释性 | #稀疏自编码器 | #大语言模型 #表示学习 | arxiv 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Usha Bhalla(哈佛大学)、Thomas Fel(Goodfire团队) 通讯作者:Atticus Geiger(Goodfire团队)、Ekdeep Singh Lubana(Goodfire团队) 作者列表:Usha Bhalla(哈佛大学)、Thomas Fel(Goodfire团队)、Can Rager(Goodfire团队)、Sheridan Feucht(东北大学)、Tal Haklay(以色列理工学院)、Daniel Wurgaft(斯坦福大学)、Siddharth Boppana(Goodfire团队)、Matthew Kowal(Goodfire团队)、Vasudev Shyam(Goodfire团队)、Owen Lewis(Goodfire团队)、Thomas McGrath(Goodfire团队)、Jack Merullo(Goodfire团队)、Atticus Geiger(Goodfire团队)、Ekdeep Singh Lubana(Goodfire团队) 💡 毒舌点评 亮点在于它没有止步于“SAE有时不好用”的抱怨,而是构建了一套严谨的理论框架(流形捕获 vs. 稀释),并通过合成与真实LLM实验系统性地诊断了SAE的结构性缺陷,为可解释性工具的未来设计提供了清晰的病理学报告。短板是其提出的“后处理发现”方法(基于Ising模型)更像是一个补丁而非根本解决方案,且论文对SAE“稀释”状态的解释力有限,更像是一个现象总结,离真正提升可解释性质量还有距离。 🔗 开源详情 代码:https://github.com/goodfire-ai/sae-manifold 模型权重:论文中未提及 数据集:论文中提及使用 The Pile (uncopyrighted) 进行SAE训练,但未提供特定数据集的独立下载链接。 Demo:论文中未提及 复现材料:论文附录提供了详细的训练配置。附录B.2列出了在Llama-3.1-8B层19上训练所有SAE的具体设置(优化器、学习率、批量大小、激活归一化等)和各架构的超参数。附录E详细描述了合成实验的设置(流形动物园、归一化、环境嵌入、稀疏混合采样、SAE训练参数和评估指标)。附录F阐述了用于无监督流形发现的Ising模型拟合与社区检测流程。 论文中引用的开源项目: Sparse Autoencoders (SAEs): 论文作为研究对象,未提供统一代码仓库链接。 The Pile: 论文使用的训练数据集,链接为 https://pile.eleuther.ai/。 TopK / BatchTopK SAE: 论文引用的架构,链接为 https://github.com/EleutherAI/sae-lens。 JumpReLU SAE: 论文引用的架构,链接为 https://github.com/Anthropic-RL/SAELens。 Matryoshka SAE: 论文引用的架构,链接为 https://github.com/EleutherAI/sae-lens。 IsingFit: 论文用于拟合Ising模型的R包,链接为 https://CRAN.R-project.org/package=IsingFit。 补充信息 [模型架构] 补充:论文在附录C中系统地阐述了“稀疏概念的几何对偶性”,区分了两种根本不同的SAE范式:“概念作为方向”(传统SAE,重构位于稀疏非负张成锥)与“概念作为点”(重构位于稀疏凸包,即单纯形)。本文明确聚焦于前者(方向型SAE),并证明了后者(点型SAE)在叠加混合的流形场景下存在根本性障碍(引理1:点型字典无法近似分解因子流形)。这一对偶性框架为理解SAE的设计空间和局限性提供了重要背景。 [实验结果] 补充:在表3中,所有通过VE>0.85筛选的SAE中,最高方差解释(VE)达到了0.961(标准SAE,扩展因子16,λ=0.1)。这一数值突显了当前SAE在重建保真度上的强大能力,与其几何组织(“稀释”)的不足形成对比。 [细节详述 - 训练硬件] 补充:论文附录中提及了具体的训练硬件,但分析中未包含。原文指出:“所有训练均在配备NVIDIA A100 40GB GPUs的集群上进行。” [细节详述 - 消融实验] 补充:论文附录B.3进行了一项关键的消融分析(图13):通过最优传输比较不同SAE架构学习到的特征。研究发现,不同SAE在特征层面(解码器方向或随机输入上的激活)上对齐度较弱,但当在特定流形(如温度、颜色)的点上限制比较时,对齐度很强。这表明,不同SAE学到的具体特征不稳定,但它们集体编码的几何结构是稳定且共享的。 [论文自我声明的局限性] 补充:在第7节“结论”中,作者明确指出了两个主要局限性:1. “SAE以一种碎片化的方式表示流形:流形并非被捕获为连贯的子空间,而是被平铺在许多局部化、部分冗余的特征上”。2. “后处理分析是可行的但不可靠:混合选择性特征混淆了共激活信号,从Ising耦合中提取的分组仅依赖于底层平铺的质量。” 分析中的“毒舌点评”和“核心摘要”第6点虽提及,但未完整引用结论中的明确表述。 [评分理由 - 选题价值] 补充:论文在摘要和结论中明确指出其工作“暗示未来表示学习方法应将几何对象(而非仅仅单个方向)作为可解释性的基本单元”,并为开发“直接针对几何对象(而非孤立方向)的‘特征化器’(featurizer)”指明了方向。这明确了其对领域未来发展的指导性价值。 📌 核心摘要 要解决什么问题:现有工作假设神经网络概念表示为线性方向(LRH),但越来越多证据表明许多概念是沿低维流形组织的非线性结构。核心问题是:稀疏自编码器(SAE)能否捕获这些流形?如何捕获? 方法核心:提出了一个“流形混合模型”(Additive Mixture of Manifolds)作为LRH的推广。从理论上定义了SAE“捕获”流形的两种方式:全局子空间捕获(一组原子线性张成整个流形)和局部平铺(特征作为局部检测器覆盖流形不同区域)。通过合成实验和对真实LLM(Llama-3.1-8B)表示的分析,验证了SAE在实践中的工作机制。 与已有方法相比新在哪里:超越了对SAE特征作为独立方向的简单理解。首次系统性地分析了SAE如何表示连续、弯曲的几何结构,提出了“流形稀释”(Dilution)这一新现象,即SAE用大量部分冗余的特征片段化地表示流形,介于理想的全局捕获和破碎的局部平铺之间。引入了基于伊辛模型(Ising Model)的后处理方法,用于无监督地发现由特征群组表示的流形结构。 主要实验结果: 合成实验(图4,表4):证实了SAE在适中稀疏度下进入“捕获”状态,但在更高或更低稀疏度下分别进入“破碎”(Shattering)或“稀释”状态。 LLM实验:对Llama-3.1-8B层19的激活进行分析(图2),发现多个连续概念(如年龄、颜色、星期)确实存在流形结构。训练多种SAE架构后(表3),发现它们普遍处于“稀释”状态: 子空间捕获性能(图6):用少量特征重建流形的方差解释率(R²)在特征数远大于流形环境维度时才达到平台期,表明没有实现紧凑捕获。 特征平铺(图5,图7,图8):SAE特征表现为局部调谐曲线,每个特征对流形上的特定区域有选择性响应,整体像马赛克一样拼凑出流形几何。例如在“年份”流形上,特征表现出周期性的选择性。 无监督发现(图10):基于伊辛模型耦合强度(J矩阵)的社区发现方法,能够成功从SAE码中恢复出已知(温度、颜色)和未知(认知不确定性)的流形结构。 实际意义:为理解和改进基于SAE的模型可解释性提供了理论框架和诊断工具。它表明,要理解SAE表示的连续概念,不能孤立地看单个特征,而需要分析特征群组的协同活动。这为未来设计直接针对几何对象(而非孤立方向)的“特征化器”(featurizer)指明了方向。 主要局限性:当前SAE架构本身存在根本性局限(设计基于方向假设),导致其只能以“稀释”这种低效、碎片化的方式表示流形。后处理的发现方法是弥补这一局限的权宜之计,其可靠性受特征混合选择性的影响,且无法从根本上解决SAE表示的混乱组织问题。 🏗️ 模型架构 本文的核心“模型”并非一个新的神经网络架构,而是一个用于分析和理解现有SAE如何表示流形的理论分析框架。该框架主要包含以下几个概念组件: ...

2026-05-01 · 更新于 2026-05-19 · 2 min · 283 words