可解释性AI

Mechanistic Interpretability of ASR models using Sparse Autoencoders

📄 Mechanistic Interpretability of ASR models using Sparse Autoencoders #语音识别 #稀疏自编码器 #可解释性AI #多语言 📝 5.5/10 | 前60% | #语音识别 | #稀疏自编码器 | #可解释性AI #多语言 | arxiv 学术质量 5.0/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Dan Pluth (Vail Systems, Inc.) 通讯作者：未说明作者列表：Dan Pluth (Vail Systems, Inc.)、Zachary Nicholas Houghton (Vail Systems, Inc. & University of Oregon)、Yu Zhou (Vail Systems, Inc.)、Vijay K. Gurbani (Vail Systems, Inc.) 💡 毒舌点评这篇论文完成了一项“从0到1”的迁移工作，证明了稀疏自编码器（SAE）这一在文本大模型上流行的机械可解释性技术，可以应用于语音识别模型Whisper。它展示了Whisper编码器内部确实存在从音素到语义的丰富特征层级，这本身是一个有价值的发现。然而，作为一项方法迁移工作，其实验设计存在显著缺陷：缺乏与更简单、更传统方法（如线性探针）的基线对比，无法证明SAE在此任务上的优越性；仅在单一模型规模（Whisper-base）和单一SAE配置下进行验证，结论的普适性存疑；且关键训练细节的缺失严重影响了工作的可复现性和技术深度。总体而言，这是一篇合格的概念验证论文，但远未达到推动该领域方法论进步的水平。 📌 核心摘要要解决什么问题：文本大模型（LLMs）的内部表征已能用稀疏自编码器（SAE）进行可解释性分析，但同样的技术能否有效应用于以音频为输入的端到端语音识别模型（如Whisper），以揭示其内部丰富的表示信息，目前尚无研究证明。方法核心：在预训练的Whisper编码器最后一层之后插入一个稀疏自编码器（SAE）。该SAE将Whisper-base的512维稠密嵌入映射到一个16000维的稀疏潜在空间，通过TopK激活（K=45）强制稀疏性，并使用均方误差（MSE）损失进行训练，以重建Whisper编码器的原始输出。与已有方法相比新在哪里：首次将SAE方法应用于语音识别模型（ASR）的机械可解释性研究。已有工作集中于文本LLM，本文证明了SAE在语音模态的潜在空间同样能够解耦出单义特征（monosemantic features），并能发现跨越语言、语音、词汇、形态和语义层面的丰富特征层级。主要实验结果如何：实验发现Whisper编码了超出转录所需的丰富信息。具体结果包括：语言特征：发现一个潜在索引（5106）能以74.7%的精确率和91.2%的召回率区分英语与非英语语音。音素特征：发现表征双音素（如/R UW1/，精确率88.7%，召回率64.9%）的潜在索引。词汇特征：发现表征特定单词（如“his”，精确率99.3%，召回率81.4%）的潜在索引。形态特征：发现表征后缀“-ly”（精确率87.2%，召回率17.8%）的潜在索引，低召回率归因于特征分裂。语义特征：数字：一个潜在索引（7710）与数字相关（精确率38.1%，召回率79.2%）。论文指出该特征的时间边界不精确，假阳性多出现在含有数字的句子中。脏话：两个潜在索引（3584， 104）共同覆盖了89.7%的脏话样本（精确率6.6%）。通过特征引导（steering）实验，成功实现了脏话的插入和替换。跨语言引导：用于英语脏话的潜在索引（3584）同样能对西班牙语和法语（SAE训练中未包含）的脏话进行引导，证明其编码了语言无关的语义信息。非语言特征：发现能区分纯噪声与语音的潜在索引（精确率97.7%），以及在特定时间点稳定激活的位置潜在索引。实际意义：本研究建立了SAE作为分析ASR模型内部工作机制的有效工具，揭示了Whisper等模型在训练中自然习得了丰富的语言学层次表征，为理解端到端语音模型的内部表示提供了新途径。主要局限性：论文明确承认了三个局限：1）仅研究了一个SAE配置（特定潜在维度）；2）仅在最小的Whisper-base模型上验证；3）分析主要集中在英语，其他语言数据使用有限。 🔗 开源详情代码：论文中提供了匿名仓库链接，用于存放训练代码、分析代码、分析数据集及潜在示例：https://anonymous.4open.science/r/COLM2026-73CF/ 模型权重：论文中未提及训练得到的SAE模型权重的公开链接。论文研究的基础模型是Whisper (base)，其权重可通过HuggingFace等平台获取。数据集：训练数据集：论文明确列出了用于训练SAE的多个公开数据集名称：LJSpeech, LibriSpeech, Voxceleb 1, Mozilla Common Voice English, SLR39, SLR67, SLR61, SLR71-SLR75, Musan。总文件数为646,769。论文未提供这些数据集的具体下载链接。评估数据集：用于分析的评估集部分来自Mozilla Common Voice v13.0（西班牙语和法语）以及ESC-50（噪声数据）。 Demo：论文中未提及。复现材料：论文中提供了包含训练配置、分析代码等的匿名仓库链接：https://anonymous.4open.science/r/COLM2026-73CF/。此外，附录A、B、C提供了关于特征空间、潜在特征列表和非语言特征的详细说明。论文中引用的开源项目： OpenAI Sparse Autoencoder: https://github.com/openai/sparse_autoencoder （论文中明确说明SAE训练框架基于此实现） 🏗️ 方法概述和架构本文提出的方法旨在应用稀疏自编码器（SAE）作为机械可解释性工具，来探测预训练的Whisper自动语音识别（ASR）模型编码器的内部表征。整个方法流程可分为模型改造与SAE训练和特征分析与引导两个主要阶段。 ...

语音/音乐/音频论文速递 2026-05-13

语音/音乐/音频论文速递 2026-05-13 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #声源定位 2篇 ██ #音频编码 2篇 ██ #语音识别 2篇 ██ #多模态检索 1篇 █ #深度伪造检测 1篇 █ #音视频 1篇 █ #基准测试 1篇 █ #多模态推理 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文评分分档主任务 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multi 7.5分前25% #多模态检索 🥈 Adaptive Diagonal Loading using Krylov Subspaces for Ro 7.0分前25% #声源定位 🥉 Spatial Power Estimation via Riemannian Covariance Matc 7.0分前25% #声源定位 4. The Deepfakes We Missed: We Built Detectors for a Threa 7.0分前50% #深度伪造检测 5. OmniRefine: Alignment-Aware Cooperative Compression for 7.0分前25% #音视频 6. Exploring Token-Space Manipulation in Latent Audio Toke 6.7分前25% #音频编码 7. MMTB: Evaluating Terminal Agents on Multimedia-File Tas 6.7分前25% #基准测试 8. UniPath: Adaptive Coordination of Understanding and Gen 6.6分前25% #多模态推理 9. The SMC Blind Spot: A Failure Mode Analysis of State-of 6.5分前35% #节拍跟踪 10. Too Good to Be True: A Study on Modern Automatic Speech 6.2分前50% #语音增强 11. Towards Fine-Grained Multi-Dimensional Speech Understan 6.0分前25% #语音理解 12. A Semi-Supervised Framework for Speech Confidence Detec 6.0分前50% #语音自信度检测 13. AffectCodec: Emotion-Preserving Neural Speech Codec for 5.8分前25% #音频编码 14. STRUM: A Spectral Transcription and Rhythm Understandin 5.5分前25% #音乐转录 15. Chunkwise Aligners for Streaming Speech Recognition 5.5分前50% #语音识别 16. Poly-SVC: Polyphony-Aware Singing Voice Conversion with 5.5分前50% #歌唱语音转换 17. What makes a word hard to learn? Modeling L1 influence 5.5分前50% #词汇难度预测 18. Mind the Pause: Disfluency-Aware Objective Tuning for M 5.5分前25% #语音编辑 19. OmniNFT: Modality-wise Omni Diffusion Reinforcement for 5.5分前25% #音视频生成 20. Mechanistic Interpretability of ASR models using Sparse 5.0分前60% #语音识别 21. Boosting Omni-Modal Language Models: Staged Post-Traini 5.0分前50% #多模态模型评估 22 AuDirector: A Self-Reflective Closed-Loop Framework for N/A - - 📋 论文列表 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition ✅ 7.5/10 | 前25% | #多模态检索 | #迁移学习 | #多模态模型 #模型评估 | arxiv ...

APEX: Audio Prototype EXplanations for Classification Tasks

📄 APEX: Audio Prototype EXplanations for Classification Tasks #音频分类 #原型学习 #可解释性AI #后验解释 #特征解耦 ✅ 6.2/10 | 前25% | #音频分类 | #原型学习 | #可解释性AI #后验解释 | arxiv 学术质量 6.2/8 | 影响力 0.8/2 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Piotr Kawa (Wroclaw University of Science and Technology, Department of Artificial Intelligence) 通讯作者：未明确说明，但论文提供了 piotr.kawa@pwr.edu.pl 作为联系邮箱作者列表：Piotr Kawa^1, Kornel Howil^4,5, Piotr Borycki^2, Miłosz Adamczyk^3, Przemysław Spurek^1, Piotr Syga^4 机构：1 Department of Artificial Intelligence, Wroclaw University of Science and Technology, Poland; 2 Resemble AI, USA; 3 IDEAS Research Institute, Poland; 4 Faculty of Mathematics and Computer Science, Jagiellonian University, Poland; 5 Doctoral School of Exact and Natural Sciences, Jagiellonian University, Poland 💡 毒舌点评本文直击音频可解释性领域的一个核心痛点：如何在不损害现成高性能“黑箱”模型的前提下，为其赋予符合声学直觉的解释。APEX通过插入可逆线性变换解耦特征空间并严格保持输出不变的设计，思路清晰且数学上严谨，为这一目标提供了一个颇具吸引力的解决方案。其针对音频时频特性提出的四种原型提取方案也体现了领域洞察。然而，框架对骨干网络需含全局池化层和线性分类头的硬性要求，严重限制了其普适性，更像是一个专用工具。此外，所谓“通道纯度”优化是否真正得到了人类可理解的“声学概念”，缺乏直接的人工评估或语义对齐验证，这使得其“解释”的有效性打了一定折扣。 ...