Mechanistic Interpretability of ASR models using Sparse Autoencoders

📄 Mechanistic Interpretability of ASR models using Sparse Autoencoders #语音识别 #稀疏自编码器 #可解释性AI #多语言 📝 5.5/10 | 前60% | #语音识别 | #稀疏自编码器 | #可解释性AI #多语言 | arxiv 学术质量 5.0/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Dan Pluth (Vail Systems, Inc.) 通讯作者:未说明 作者列表:Dan Pluth (Vail Systems, Inc.)、Zachary Nicholas Houghton (Vail Systems, Inc. & University of Oregon)、Yu Zhou (Vail Systems, Inc.)、Vijay K. Gurbani (Vail Systems, Inc.) 💡 毒舌点评 这篇论文完成了一项“从0到1”的迁移工作,证明了稀疏自编码器(SAE)这一在文本大模型上流行的机械可解释性技术,可以应用于语音识别模型Whisper。它展示了Whisper编码器内部确实存在从音素到语义的丰富特征层级,这本身是一个有价值的发现。然而,作为一项方法迁移工作,其实验设计存在显著缺陷:缺乏与更简单、更传统方法(如线性探针)的基线对比,无法证明SAE在此任务上的优越性;仅在单一模型规模(Whisper-base)和单一SAE配置下进行验证,结论的普适性存疑;且关键训练细节的缺失严重影响了工作的可复现性和技术深度。总体而言,这是一篇合格的概念验证论文,但远未达到推动该领域方法论进步的水平。 📌 核心摘要 要解决什么问题:文本大模型(LLMs)的内部表征已能用稀疏自编码器(SAE)进行可解释性分析,但同样的技术能否有效应用于以音频为输入的端到端语音识别模型(如Whisper),以揭示其内部丰富的表示信息,目前尚无研究证明。 方法核心:在预训练的Whisper编码器最后一层之后插入一个稀疏自编码器(SAE)。该SAE将Whisper-base的512维稠密嵌入映射到一个16000维的稀疏潜在空间,通过TopK激活(K=45)强制稀疏性,并使用均方误差(MSE)损失进行训练,以重建Whisper编码器的原始输出。 与已有方法相比新在哪里:首次将SAE方法应用于语音识别模型(ASR)的机械可解释性研究。已有工作集中于文本LLM,本文证明了SAE在语音模态的潜在空间同样能够解耦出单义特征(monosemantic features),并能发现跨越语言、语音、词汇、形态和语义层面的丰富特征层级。 主要实验结果如何:实验发现Whisper编码了超出转录所需的丰富信息。具体结果包括: 语言特征:发现一个潜在索引(5106)能以74.7%的精确率和91.2%的召回率区分英语与非英语语音。 音素特征:发现表征双音素(如/R UW1/,精确率88.7%,召回率64.9%)的潜在索引。 词汇特征:发现表征特定单词(如“his”,精确率99.3%,召回率81.4%)的潜在索引。 形态特征:发现表征后缀“-ly”(精确率87.2%,召回率17.8%)的潜在索引,低召回率归因于特征分裂。 语义特征: 数字:一个潜在索引(7710)与数字相关(精确率38.1%,召回率79.2%)。论文指出该特征的时间边界不精确,假阳性多出现在含有数字的句子中。 脏话:两个潜在索引(3584, 104)共同覆盖了89.7%的脏话样本(精确率6.6%)。通过特征引导(steering)实验,成功实现了脏话的插入和替换。 跨语言引导:用于英语脏话的潜在索引(3584)同样能对西班牙语和法语(SAE训练中未包含)的脏话进行引导,证明其编码了语言无关的语义信息。 非语言特征:发现能区分纯噪声与语音的潜在索引(精确率97.7%),以及在特定时间点稳定激活的位置潜在索引。 实际意义:本研究建立了SAE作为分析ASR模型内部工作机制的有效工具,揭示了Whisper等模型在训练中自然习得了丰富的语言学层次表征,为理解端到端语音模型的内部表示提供了新途径。 主要局限性:论文明确承认了三个局限:1)仅研究了一个SAE配置(特定潜在维度);2)仅在最小的Whisper-base模型上验证;3)分析主要集中在英语,其他语言数据使用有限。 🔗 开源详情 代码:论文中提供了匿名仓库链接,用于存放训练代码、分析代码、分析数据集及潜在示例:https://anonymous.4open.science/r/COLM2026-73CF/ 模型权重:论文中未提及训练得到的SAE模型权重的公开链接。论文研究的基础模型是Whisper (base),其权重可通过HuggingFace等平台获取。 数据集: 训练数据集:论文明确列出了用于训练SAE的多个公开数据集名称:LJSpeech, LibriSpeech, Voxceleb 1, Mozilla Common Voice English, SLR39, SLR67, SLR61, SLR71-SLR75, Musan。总文件数为646,769。论文未提供这些数据集的具体下载链接。 评估数据集:用于分析的评估集部分来自Mozilla Common Voice v13.0(西班牙语和法语)以及ESC-50(噪声数据)。 Demo:论文中未提及。 复现材料:论文中提供了包含训练配置、分析代码等的匿名仓库链接:https://anonymous.4open.science/r/COLM2026-73CF/。此外,附录A、B、C提供了关于特征空间、潜在特征列表和非语言特征的详细说明。 论文中引用的开源项目: OpenAI Sparse Autoencoder: https://github.com/openai/sparse_autoencoder (论文中明确说明SAE训练框架基于此实现) 🏗️ 方法概述和架构 本文提出的方法旨在应用稀疏自编码器(SAE)作为机械可解释性工具,来探测预训练的Whisper自动语音识别(ASR)模型编码器的内部表征。整个方法流程可分为模型改造与SAE训练和特征分析与引导两个主要阶段。 ...

2026-05-13 · 更新于 2026-05-19 · 3 min · 429 words

语音/音频论文速递 2026-05-13

语音/音频论文速递 2026-05-13 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #声源定位 2篇 ██ #音频编码 2篇 ██ #语音识别 2篇 ██ #多模态检索 1篇 █ #深度伪造检测 1篇 █ #音视频 1篇 █ #基准测试 1篇 █ #多模态推理 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multi 7.5分 前25% #多模态检索 🥈 Adaptive Diagonal Loading using Krylov Subspaces for Ro 7.0分 前25% #声源定位 🥉 Spatial Power Estimation via Riemannian Covariance Matc 7.0分 前25% #声源定位 4. The Deepfakes We Missed: We Built Detectors for a Threa 7.0分 前50% #深度伪造检测 5. OmniRefine: Alignment-Aware Cooperative Compression for 7.0分 前25% #音视频 6. Exploring Token-Space Manipulation in Latent Audio Toke 6.7分 前25% #音频编码 7. MMTB: Evaluating Terminal Agents on Multimedia-File Tas 6.7分 前25% #基准测试 8. UniPath: Adaptive Coordination of Understanding and Gen 6.6分 前25% #多模态推理 9. The SMC Blind Spot: A Failure Mode Analysis of State-of 6.5分 前35% #节拍跟踪 10. Too Good to Be True: A Study on Modern Automatic Speech 6.2分 前50% #语音增强 11. Towards Fine-Grained Multi-Dimensional Speech Understan 6.0分 前25% #语音理解 12. A Semi-Supervised Framework for Speech Confidence Detec 6.0分 前50% #语音自信度检测 13. AffectCodec: Emotion-Preserving Neural Speech Codec for 5.8分 前25% #音频编码 14. STRUM: A Spectral Transcription and Rhythm Understandin 5.5分 前25% #音乐转录 15. Chunkwise Aligners for Streaming Speech Recognition 5.5分 前50% #语音识别 16. Poly-SVC: Polyphony-Aware Singing Voice Conversion with 5.5分 前50% #歌唱语音转换 17. What makes a word hard to learn? Modeling L1 influence 5.5分 前50% #词汇难度预测 18. Mind the Pause: Disfluency-Aware Objective Tuning for M 5.5分 前25% #语音编辑 19. OmniNFT: Modality-wise Omni Diffusion Reinforcement for 5.5分 前25% #音视频生成 20. Mechanistic Interpretability of ASR models using Sparse 5.0分 前60% #语音识别 21. Boosting Omni-Modal Language Models: Staged Post-Traini 5.0分 前50% #多模态模型评估 22 AuDirector: A Self-Reflective Closed-Loop Framework for N/A - - 📋 论文列表 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition ✅ 7.5/10 | 前25% | #多模态检索 | #迁移学习 | #多模态模型 #模型评估 | arxiv ...

2026-05-13 · 更新于 2026-05-19 · 14 min · 2798 words

APEX: Audio Prototype EXplanations for Classification Tasks

📄 APEX: Audio Prototype EXplanations for Classification Tasks #音频分类 #原型学习 #可解释性AI #后验解释 #特征解耦 ✅ 6.2/10 | 前25% | #音频分类 | #原型学习 | #可解释性AI #后验解释 | arxiv 学术质量 6.2/8 | 影响力 0.8/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Piotr Kawa (Wroclaw University of Science and Technology, Department of Artificial Intelligence) 通讯作者:未明确说明,但论文提供了 piotr.kawa@pwr.edu.pl 作为联系邮箱 作者列表:Piotr Kawa^1, Kornel Howil^4,5, Piotr Borycki^2, Miłosz Adamczyk^3, Przemysław Spurek^1, Piotr Syga^4 机构:1 Department of Artificial Intelligence, Wroclaw University of Science and Technology, Poland; 2 Resemble AI, USA; 3 IDEAS Research Institute, Poland; 4 Faculty of Mathematics and Computer Science, Jagiellonian University, Poland; 5 Doctoral School of Exact and Natural Sciences, Jagiellonian University, Poland 💡 毒舌点评 本文直击音频可解释性领域的一个核心痛点:如何在不损害现成高性能“黑箱”模型的前提下,为其赋予符合声学直觉的解释。APEX通过插入可逆线性变换解耦特征空间并严格保持输出不变的设计,思路清晰且数学上严谨,为这一目标提供了一个颇具吸引力的解决方案。其针对音频时频特性提出的四种原型提取方案也体现了领域洞察。然而,框架对骨干网络需含全局池化层和线性分类头的硬性要求,严重限制了其普适性,更像是一个专用工具。此外,所谓“通道纯度”优化是否真正得到了人类可理解的“声学概念”,缺乏直接的人工评估或语义对齐验证,这使得其“解释”的有效性打了一定折扣。 ...

2026-05-12 · 更新于 2026-05-19 · 4 min · 823 words