论文速递 | 语音/音频论文速递

语音/音频论文速递 2026-05-14

语音/音频论文速递 2026-05-14 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音对话系统 1篇 █ #模型评估 1篇 █ #多智能体协同 1篇 █ #音频事件检测 1篇 █ #乐谱生成 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜（16 篇，按分数降序）排名论文评分分档主任务 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Vo 8.0分前25% #语音对话系统 🥈 Senses Wide Shut: A Representation-Action Gap in Omnimo 8.0分前50% #模型评估 🥉 EVOCHAMBER: Test-Time Co-evolution of Multi-Agent Syste 8.0分前25% #多智能体协同 4. NAACA: Training-Free NeuroAuditory Attentive Cognitive 7.0分前25% #音频事件检测 5. Text2Score: Generating Sheet Music From Textual Prompts 7.0分前25% #乐谱生成 6. Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-t 7.0分前50% #音频生成 7. Bypassing Direct Reconstruction: Speech Detection from 7.0分前25% #语音活动检测 8. Decoupled Azimuth Elevation AoA Estimation Exploiting K 7.0分前25% #声源定位 9. WARDEN: Endangered Indigenous Language Transcription an 7.0分前25% #语音识别 10. Vividh-ASR: A Complexity-Tiered Benchmark and Optimizat 7.0分前50% #语音识别 11. Scaling few-shot spoken word classification with genera 7.0分前50% #音频分类 12. GeoBuildBench: A Benchmark for Interactive and Executab 7.0分前25% #几何推理 13. Keep What Audio Cannot Say: Context-Preserving Token Pr 7.0分前25% #音视频 14. PresentAgent-2: Towards Generalist Multimodal Presentat 6.5分前25% #生成模型 15. Does language matter for spoken word classification? A 6.0分前50% #音频分类 16. Leveraging Multimodal Self-Consistency Reasoning in Cod 6.0分前50% #动机访谈编码 📋 论文列表 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #语音质量评估 #端到端 | arxiv ...

A Semi-Supervised Framework for Speech Confidence Detection using Whisper

📄 A Semi-Supervised Framework for Speech Confidence Detection using Whisper #语音自信度检测 #半监督学习 #伪标签 #迁移学习 #Whisper #数据增强 #低资源 #语音大模型 ✅ 6.5/10 | 未提及 | #语音自信度检测 | #半监督学习 | #伪标签 #迁移学习 | arxiv 学术质量 6.0/8 | 影响力 0.6/2 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Adam Wynn 通讯作者：未说明作者列表：Adam Wynn（未说明具体学术机构，但论文脚注提及由IEEE Publication Technology Group制作，地址在Piscataway, NJ），Jingyun Wang（未说明） 💡 毒舌点评这篇论文为“感知自信度检测”这一小众且缺乏基准的任务构建了一个完整、实验扎实的半监督框架。其核心思路——结合Whisper的语义能力与可解释声学特征（eGeMAPS + 辅助模型）进行晚期融合，并通过“不确定性感知”伪标签扩充数据——在解决数据稀缺问题上逻辑自洽且有效。然而，其创新性更多体现在系统集成和工程优化，而非方法论的根本突破。文中多个关键超参数（如伪标签阈值τ、融合权重λ、损失权重18.0）的选择依据仅提及“经验消融”或“经验性确定”，缺乏充分的实验展示或理论推导，使得部分设计略显“黑箱”。尽管实验结果支持了其框架的有效性，但单一、未公开的小规模数据集评估限制了结论的泛化说服力。 📌 核心摘要要解决什么问题：自动检测语音中的感知说话人自信度对于自适应计算和情感交互至关重要，但面临标注数据稀缺（任务主观且无公开基准）和现有方法局限（纯声学特征泛化差，纯自监督模型可能忽略细粒度韵律线索）的挑战。方法核心是什么：提出一个五阶段半监督混合框架：(A) 构建并标注小型数据集；(B) 提取Whisper语义嵌入和94维声学特征向量（eGeMAPS + 辅助不流畅/压力模型概率）；(C) 训练辅助的不流畅性和压力检测模型；(D) 用仅基于声学特征向量训练的MLP对无标签数据生成伪标签，并通过高置信度阈值(τ=0.8)过滤；(E) 训练一个双流晚期融合的混合模型，融合Whisper流和特征向量流的输出，并使用源增强损失函数在真值+伪标签数据上训练。与已有方法相比新在哪里：首次为感知自信度检测提出专用半监督框架。核心创新点在于：(1) 架构创新：明确提出并实现了将Whisper深度语义表示与可解释声学特征（含辅助任务线索）进行晚期融合，以显式引入韵律纠正信号；(2) 策略创新：引入“不确定性感知”伪标签策略，强调通过严格的置信度过滤来保证伪标签质量，而非单纯追求数量。 ...

Adaptive Diagonal Loading using Krylov Subspaces for Robust Beamforming

📄 Adaptive Diagonal Loading using Krylov Subspaces for Robust Beamforming #波束成形 #信号处理 #鲁棒性 #麦克风阵列 ✅ 7.5/10 | 前25% | #声源定位 | #波束成形 | #信号处理 #鲁棒性 | arxiv 学术质量 7.0/8 | 影响力 0.8/2 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Manan Mittal 通讯作者：未说明作者列表：Manan Mittal, Ryan M. Corey, John R. Buck, Andrew C. Singer 注：论文原文中未提供作者的具体机构信息，仅提供了arXiv ID和链接。 💡 毒舌点评这篇论文聚焦于一个明确的工程计算瓶颈，即如何在动态环境中为大型麦克风阵列实时计算自适应波束成形器所需的对角加载量。作者巧妙地将经典的数值线性代数工具（Lanczos算法）引入这一特定问题，通过构建小维度的Krylov子空间来近似极端特征值，从而将计算复杂度从O(M³)降至O(kM²)，并声称在性能上与精确分解完全一致。这是一个“好工具用在刀刃上”的典型工作，实用价值清晰。然而，其核心是利用已知算法解决一个已知瓶颈，而非提出新的理论框架；论文对关键参数（k值）的选择缺乏理论指导，且完全未提供代码，这在顶会论文中是明显的短板，极大地限制了其可复现性和即时影响力。 📌 核心摘要要解决什么问题：在动态声学环境中使用大型麦克风阵列时，由于目标/干扰源快速移动导致可用快拍数不足，估计的样本协方差矩阵（SCM）会病态或秩亏。这会导致传统自适应波束成形器的白噪声增益（WNG）崩溃并抵消目标信号。先前提出的自适应对角加载方法虽能通过卡塔霍夫不等式严格保证WNG，但其所需计算SCM极端特征值（λ_max, λ_min）的精确特征值分解（EVD）具有O(M³)的计算复杂度，对于大规模阵列不切实际。方法核心是什么：提出使用Lanczos算法构建一个维度k«M的Krylov子空间，并将高维SCM（M×M）投影到一个小的三对角矩阵（T_k, k×k）上。计算T_k的特征值（Ritz值），并以其作为原SCM极端特征值的高效近似。然后，将这些近似特征值代入基于卡塔霍夫不等式推导的公式，计算出满足预设WNG下限（W_min）所需的最小对角加载量μ，并应用于SCM以计算鲁棒的波束成形权重。与已有方法相比新在哪里：已有的精确EVD方法计算成本为O(M³)；而基于Gershgorin圆盘定理或迹的松弛边界方法计算简单，但会高估所需加载量，浪费波束成形器自由度。本文方法将计算复杂度降至O(kM²)（其中k≈4），同时理论上（由于Ritz值收敛性质）和实验上（与精确EVD对比）实现了与精确EVD完全相同的性能，即在不损失精度的前提下实现了计算效率的飞跃。主要实验结果如何：模拟实验：在15元均匀线阵、动态“出生-死亡”干扰场景下（L=37快拍，L<2.5M），Lanczos方法（k=4）在扫描方向图、均方误差、白噪声增益（始终>8.76dB）、输出信干噪比等指标上，与精确EVD方法几乎完全重合，性能媲美全知（Omniscient）基线。实测实验：在SwellEx-96水下声学数据集（28元阵列）上验证，Lanczos方法与精确EVD方法生成的方位-时间历程图同样清晰，在目标方向（43°）和离轴方向的输出功率、白噪声增益曲线保持一致，论文称“表现相当（marginally better）”。实际意义是什么：该方法显著降低了在实时系统中实现具有严格WNG性能保证的自适应波束成形所需的计算成本，使其更适合在资源受限的嵌入式平台或需要高帧率处理的大型阵列中部署。主要局限性是什么：论文未讨论Lanczos算法在复数Hermitian矩阵上的收敛速度保证及初始向量选择的影响；关键参数k的选取（如k=4）仅为经验选择，缺乏理论分析或系统的消融实验；未提供开源代码，降低了方法的可复现性和验证便利性。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：不适用。数据集：论文中使用了 SwellEx-96 实验的 S59 事件数据集，数据来自 South Horizontal Line Array (HLA-S) 阵列。论文未提供直接下载链接，需通过官方渠道申请访问。 Demo：论文中未提及。复现材料：论文中未提及。论文中引用的开源项目：未提及。 🏗️ 方法概述和架构本文提出的框架是一个在线、逐帧处理的实时鲁棒自适应波束成形流水线。其核心目标是解决在快拍数不足（L < M）时，如何高效且精确地计算对角加载量μ，以保证波束成形器的白噪声增益（WNG）不低于预设下限W_min。整体流程为：1）基于当前帧的有限快拍估计样本协方差矩阵（SCM）R_hat；2）对R_hat进行对角加载得到矩阵Q = R_hat + μI，其中μ待定；3）利用Lanczos算法高效估算Q的极端特征值λ_max和λ_min；4）将λ_max和λ_min代入由卡塔霍夫不等式导出的解析公式，计算出所需的最小加载量μ；5）使用计算出的μ重新加载SCM得到Q_loaded = R_hat + μI；6）基于Q_loaded求解MPDR波束成形权重w。整个流程的关键在于，Lanczos算法替代了耗时的精确特征值分解（EVD），成为连接理论保证（WNG下限）与实时计算的核心桥梁。 ...

AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling

📄 AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling #音频编码 #语音情感识别 #知识蒸馏 #对比学习 #多任务学习 ✅ 7.0/10 | 前25% | #音频编码 | #知识蒸馏 | #语音情感识别 #对比学习 | arxiv 学术质量 5.8/8 | 影响力 1.0/2 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Jiacheng Shi（College of William & Mary）通讯作者：未明确指定（根据邮箱推测为Ye Gao，但论文未明确标注）作者列表：Jiacheng Shi（College of William & Mary）、Hongfei Du（College of William & Mary）、Xinyuan Song（Emory University）、Y. Alicia Hong（George Mason University）、Yanfu Zhang（College of William & Mary）、Ye Gao（College of William & Mary） 💡 毒舌点评亮点：论文明确将“情感保留”从下游评估指标提升为编解码器训练的核心优化目标，这一问题重新定义和建模思路（三阶段框架）具有清晰的学术贡献和实用价值。短板：框架整体是多个成熟技术（交叉注意力、关系蒸馏、对齐损失）的工程化组合，对“情感”这一模糊概念的建模仍高度依赖外部冻结模型，创新深度有限。此外，论文未深入讨论计算效率的权衡。 ...

AuDirector: A Self-Reflective Closed-Loop Framework for Immersive Audio Storytelling

📄 AuDirector: A Self-Reflective Closed-Loop Framework for Immersive Audio Storytelling #音频生成 #多智能体系统 #语音情感识别 #人机交互 ✅ 6.0/10 | 前50% | #音频生成 | #多智能体系统 | #语音情感识别 #人机交互 | arxiv 学术质量未说明/8 | 影响力未说明/2 | 可复现性 0.4/1 | 置信度中 👥 作者与机构第一作者：Yiming Ren (上海人工智能实验室) 通讯作者：未说明作者列表：Yiming Ren (上海人工智能实验室), Xuenan Xu (未说明), Ziyang Zhang (未说明), Wen Wu (未说明), Baoxiang Li (未说明), Chao Zhang (清华大学) 💡 毒舌点评本文提出了一个整合多阶段、多智能体的音频故事生成框架，意图解决声音匹配、质量控制和交互性问题，流程设计清晰。然而，其核心创新严重不足，本质上是现有商业/闭源大模型（Gemini-3-Pro）、音频生成模型（IndexTTS2, TangoFlux）和检索模型的“拼装”。所谓的“自我反思闭环”机制，其关键参数（如阈值τ）黑箱操作，评估模型（如CLAP）本身也存在偏见，使得自纠正效果难以独立验证。论文在学术贡献的深度上乏善可陈，更像一篇系统应用报告而非算法创新论文。 📌 核心摘要本文针对长篇连贯音频故事生成中存在的角色声音不匹配、缺乏质量自纠正、交互性差等问题，提出了AuDirector。这是一个基于多智能体（Director, Casting, Acoustic Production, Critic, Mix, Interaction Agent）的自反射闭环框架。其核心方法分为三阶段：1）身份感知的预制作，通过两步检索（语义过滤+导演决策）为角色匹配声音，并动态生成7维情绪指令；2）协作合成与修正，通过Critic Agent评估生成的语音和音效质量，并在低于阈值时触发迭代修正；3）人类引导的交互优化，允许用户通过自然语言反馈修改生产脚本并针对性地重新生成部分音频。实验在100个播客和广播剧场景上进行，与WavJourney和PodAgent基线相比，AuDirector在语音角色匹配度（VRM: 4.23 vs 3.59）、情感表达（MOS-Emo: 4.17 vs 3.60）和结构连贯性（MOS-Ali: 3.74 vs 3.60）上均取得领先。消融实验证明了闭环修正机制的有效性。论文明确承认的主要局限在于底层生成模型对非语音音轨建模的不足。 ...

Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

📄 Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation #多模态模型 #基准测试 #数据清洗 #后训练 #评测协议 📝 5.5/10 | 前50% | #多模态模型评估 | #后训练 #自蒸馏 | #多模态模型 #基准测试 | arxiv 学术质量 5.0/8 | 影响力 0.7/2 | 可复现性 0.1/1 | 置信度中 👥 作者与机构第一作者：Che Liu (根据作者列表顺序推断) 通讯作者：Fei Tian (tianfei@stepfun.com， StepFun) 作者列表：Che Liu (StepFun, Imperial College London)， Lichao Ma (StepFun, Peking University)， Xiangyu Tony Zhang (StepFun, The University of New South Wales)， Yuxin Zhang (StepFun, Shanghai Jiao Tong University)， Haoyang Zhang (StepFun, Peking University)， Xuerui Yang (StepFun)， Fei Tian (StepFun，通讯作者) 💡 毒舌点评论文直击全模态模型评测的核心痛点——视觉捷径导致的性能虚高，并为此提出了系统化的去偏评测协议(OmniClean)，这为社区提供了急需的、更干净的评估工具，具有明确的实用价值；然而，作为核心方法贡献的OmniBoost方案，本质上是将现有的SFT、RLVR和自蒸馏技术按固定顺序进行组合与调优，缺乏在算法或模型架构层面的根本性创新，且整个实证研究被严格限制在一个特定模型家族(Qwen2.5-Omni-3B)上，极大地削弱了其结论的普适性与指导意义。 ...

Chunkwise Aligners for Streaming Speech Recognition

📄 Chunkwise Aligners for Streaming Speech Recognition #语音识别 #流式处理 #端到端 #对齐器 #分块处理 ✅ 6.3/10 | 前25%-50% | #语音识别 | #端到端 | #流式处理 #对齐器 | arxiv 学术质量 5.5 （综合学术质量：创新性1.5+技术严谨性1.5+实验充分性1.5+清晰度0.8 = 5.3，按范围0-8调整为5.5）/8 | 影响力 0.6 （影响力与重要性：领域推动价值、后续工作潜力、与读者相关性，范围0-2）/2 | 可复现性 0.4 （可复现性：开源完整度、训练细节、超参数充分度，范围0-1）/1 | 置信度高 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Wen Shen Teo、Takafumi Moriya、Masato Mimura（论文中未明确各作者具体贡献） 💡 毒舌点评这篇论文的核心是“给Aligner装个刹车”，通过分块（Chunk）和块结束（EOC）信号，让原本只能看完整句才能干活的Aligner具备了流式能力。想法直白有效，工程实现清晰，确实解决了Aligner无法用于流式ASR的痛点，并在训练/解码效率上展现出对Transducer的优势。然而，其“创新”更多是对现有组件的巧妙重组和适配，而非原理性突破。更关键的是，它用一个“硬依赖”（强制对齐）换取了另一个“软依赖”（对齐质量与延迟调优），其“端到端”的成色值得商榷。论文在实验深度和部分声明的验证上有所欠缺，使其整体贡献停留在“一个不错的工程优化”层面。 📌 核心摘要问题：流式ASR的主流模型Transducer训练计算成本高昂（需动态规划所有可能对齐）。新提出的Aligner模型通过“自转导”机制简化了训练（仅需交叉熵损失），但因其将所有标签对齐到序列开头，丢失了时间信息，无法用于流式识别，且对未见音频长度不鲁棒。方法：提出Chunkwise Aligner。核心是将音频序列分割为固定长度（Lc）的块，并在每个块内执行“块内自转导”，将属于该块的标签对齐到该块最左侧的帧。同时，引入一个由连接器网络预测的可学习块结束（EOC）概率。在解码时，当EOC概率超过阈值（τ）时，当前假设及其解码器状态将被携带到下一个块，从而实现连续流式处理。创新：在Aligner的标签同步、简单交叉熵训练框架下，通过分块处理和EOC信号机制，赋予了模型流式处理能力。解码过程在EOC引导下，计算主要发生在预测标签的步骤（与标签数U相关），而非音频帧的每一步（与帧数T相关），理论上可提升解码效率。结果： LibriSpeech离线：Chunkwise Aligner（WER: clean 2.2%, other 5.0%）达到与Transducer（2.2%, 4.9%）相当的性能，但解码实时率（RTF）从0.30降至0.12，速度提升约2.5倍。 LibriSpeech流式：通过引入最佳320ms的对齐延迟，Chunkwise Aligner（WER: clean 3.2%, other 7.9%）能接近流式Transducer（3.1%, 7.6%）的性能。 CSJ日文：在离线和流式设置下，CER均与Transducer持平，离线RTF（0.16）比Transducer（0.30）快约1.875倍。意义：为流式ASR提供了一种在训练效率（交叉熵损失）和解码速度（标签同步解码）上优于传统Transducer，同时性能相当的方案。局限：模型性能强依赖于训练时使用的强制对齐质量（尤其是使用质量较差的CTC对齐时）。流式性能对人为设定的“对齐延迟”超参数敏感。论文承认未来需探索不依赖高质量外部对齐的训练框架。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文中使用了公开数据集 LibriSpeech 和 Corpus of Spontaneous Japanese (CSJ)，但未提供具体获取链接。 Demo：论文中未提及。复现材料：论文中未提及。文中在实验部分提供了部分训练配置细节（如优化器、学习率、epoch数、编码器结构等），但未提供完整的训练配置文件、检查点或附录。论文中引用的开源项目： Montreal Forced Aligner (MFA)：论文中提及用于生成强制对齐。论文中未提供具体链接。 ESPnet：论文中提及用于构建和评估模型。论文中未提供具体链接。 Conformer：论文中提及作为编码器架构的基础。论文中未提供具体实现链接。 🏗️ 方法概述和架构整体流程概述：Chunkwise Aligner是一个为流式语音识别设计的端到端模型。它基于经典的编码器-预测器-连接器（Encoder-Predictor-Joiner）架构。编码器将输入的语音特征序列转换为高维表示序列，并将其分割成固定长度的块。预测器基于已输出的历史文本标签自回归生成上下文嵌入。核心的“连接器”模块接收当前音频块内某一帧的编码和预测器的输出，同时预测两个值：当前标签的概率分布，以及一个指示“当前块是否应结束”的块结束（EOC）概率。解码过程（Algorithm 1）在每个音频块内进行帧同步的束搜索，一旦某个假设的EOC概率超过阈值τ，该假设将被存入“待推进集”，并携带其状态用于处理下一个音频块，从而实现对连续音频流的逐步处理。 ...

Exploring Token-Space Manipulation in Latent Audio Tokenizers

📄 Exploring Token-Space Manipulation in Latent Audio Tokenizers #音频编码 #自监督学习 #语音转换 #语音增强 #零样本 ✅ 6.5/10 | 前25% | #音频编码 | #自监督学习 | #语音转换 #语音增强 | arxiv 学术质量 6.7/8 | 影响力 0.8/2 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Francesco Paissan (Mila – Québec AI Institute, Université Laval) 通讯作者：Francesco Paissan (francesco.paissan@mila.quebec) 作者列表：Francesco Paissan (Mila – Québec AI Institute, Université Laval), Luca Della Libera (Université Laval, Concordia University), Mirco Ravanelli (Université Laval, Concordia University), Cem Subakan (Mila – Québec AI Institute, Université Laval) 💡 毒舌点评论文的核心思想——在冻结的音频编解码器特征空间内插入一个TiTok风格的全局离散潜在瓶颈——新颖且有趣，并通过精巧的分析实验证明了其结构特性和零样本编辑潜力。然而，其主要短板同样明显：作为“压缩器”，其重建质量在关键的语言内容保真度（dWER）上与SOTA帧级编解码器存在显著差距，这直接限制了其实际应用价值。此外，训练数据规模有限，使得潜在槽的“专业化”结论在更复杂、更多样的场景下的普适性存疑。论文贡献更多在于概念验证和分析方法，而非提供一个全面超越现有技术的解决方案。 ...

jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

📄 jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition #多模态检索 #迁移学习 #多模态模型 #模型评估 ✅ 7.5/10 | 前25% | #多模态检索 | #迁移学习 | #多模态模型 #模型评估 | arxiv 学术质量 7.5/8 | 影响力 1.8/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Florian Hönicke（Jina by Elastic）通讯作者：未说明作者列表：Florian Hönicke、Michael Günther、Andreas Koukounas、Kalim Akram、Scott Martens、Saba Sturua、Han Xiao（均隶属于 Jina by Elastic） 💡 毒舌点评论文提出了一种名为“冻结编码器模型组合”的务实框架，通过仅训练连接层来将多个冻结的预训练编码器（视觉、音频）对接到冻结的文本嵌入主干上。这种方法在保持文本嵌入性能无损（“文本几何保持”）的同时，以极高的参数和计算效率扩展了模型的多模态能力，展现了强大的工程实用价值。然而，其“全能”宣称在视频模态上遭遇滑铁卢——性能显著落后于专精模型及更大的全模态基线，且论文未能提供充分的技术分析来解释这一短板，这与其在其他模态上的优异表现形成鲜明对比，成为一项明显的局限。 📌 核心摘要解决的问题：如何在几乎不修改、不损失现有高性能文本嵌入模型（Jina Embeddings v5 Text）的前提下，高效地将其扩展到支持图像、音频和视频等多模态输入，构建一个统一的跨模态嵌入空间，同时保持纯文本处理路径和输出完全不变。方法核心：提出“冻结编码器模型组合”方法。核心是保持预训练的非文本编码器（Qwen3.5视觉编码器、Qwen2.5-Omni音频编码器）和文本嵌入主干（Jina Embeddings v5 Text）完全冻结，仅训练连接两者的轻量级投影层（fc_vision_2， fc_audio）和模态分隔符（如``等）的嵌入。训练参数仅占总参数的0.35%。新颖之处：与现有需要微调语言模型或进行大规模联合训练的方法（如E5-V, Qwen3-VL-Embedding）不同，该方法首次在VLM风格架构中实现了完全冻结文本嵌入主干，从而确保对文本输入产生与原始文本模型完全一致的嵌入，实现了真正的“文本几何保持”。这是一种高效率、模块化、低风险的多模态扩展范式。主要实验结果：在MIEB（图像）、MMEB-Video（视频）、MAEB（音频）、MMTEB（文本）等基准上，jina-embeddings-v5-omni-small（1.57B参数）的四模态平均分（53.93）略高于LCO-Embedding-Omni-3B（53.83），并远高于参数更多的LanguageBind（36.27）和Omni-Embed-Nemotron-3B（41.21）。其在文档检索（ViDoRe）上得分79.08，以仅0.92B活动参数表现强劲。但视频检索性能（27.82）明显落后于基线（如Qwen3-VL-Embedding-8B的58.73）。实际意义：为现有的文本嵌入系统提供了一种低成本、低风险的工业级多模态升级路径，特别适合需要维护稳定文本向量索引（如RAG、企业搜索）的应用场景。开源的模型套件（Nano/Small，8个任务变体）推动了多模态嵌入生态的发展。主要局限性：视频模态的性能（尤其是通用视频检索）显著落后于基线，论文承认这是未来工作重点；当前方法未探索联合训练多个投影器或更深入的模态融合；非文本编码器的选择探索不足。 🔗 开源详情代码：论文中未提及代码链接。模型权重：https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni-67913f62f6539f77a8f022c5 数据集：论文中提及训练使用了混合数据集（图3），但未提供具体数据集名称、获取链接或开源协议。 Demo：论文中未提及。复现材料：论文描述了详细的训练配置：使用AdamW优化器，学习率2e-4，500步线性预热，全局梯度裁剪，bf16混合精度，4个NVIDIA H100 GPU上全局批大小为256，训练15,000步。对于消融实验，使用了更小的配置（5000步，批大小128）。论文提到��发布8个任务特定变体，但未给出具体的检查点发布链接。论文中引用的开源项目： Sentence-BERT: https://github.com/UKPLab/sentence-transformers E5-Mistral: https://huggingface.co/intfloat/e5-mistral-7b-instruct CLIP: https://github.com/openai/CLIP SigLIP / SigLIP2: https://github.com/google-research/big_vision ImageBind: https://github.com/facebookresearch/ImageBind LLaVA: https://github.com/haotian-liu/LLaVA BLIP-2: https://github.com/salesforce/LAVIS Qwen3.5 / Qwen3.65 视觉编码器: https://github.com/QwenLM/Qwen2.5-VL (论文基于其架构) Qwen2.5-Omni 音频编码器: https://github.com/QwenLM/Qwen2.5-Omni (论文基于其架构) Whisper: https://github.com/openai/whisper Matryoshka Representation Learning: https://github.com/Prithivida/MatryoshkaCL (论文引用了原始论文) Jina CLIP v1/v2: 具体模型权重见Jina AI官方。其他被引用但未明确开源或未提供直接代码链接的项目（如LiT, Nomic Embed Vision, GTE-Qwen2, NV-Embed, EVA-CLIP等），在此不列出详细链接。 🏗️ 方法概述和架构整体流程概述：本系统是一个模块化的多模态嵌入生成框架。对于任意输入（文本、图像、音频、视频），系统首先调用相应的冻结编码器（或直接处理文本token），然后通过可训练的投影层将非文本特征映射到文本嵌入模型的输入空间，最后将所有模态的特征序列化后输入冻结的文本Transformer，通过最后token池化和L2归一化得到统一的嵌入向量。核心原则是冻结所有预训练的编码器和文本模型，仅训练适配层。 ...

Mechanistic Interpretability of ASR models using Sparse Autoencoders

📄 Mechanistic Interpretability of ASR models using Sparse Autoencoders #语音识别 #稀疏自编码器 #可解释性AI #多语言 📝 5.5/10 | 前60% | #语音识别 | #稀疏自编码器 | #可解释性AI #多语言 | arxiv 学术质量 5.0/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Dan Pluth (Vail Systems, Inc.) 通讯作者：未说明作者列表：Dan Pluth (Vail Systems, Inc.)、Zachary Nicholas Houghton (Vail Systems, Inc. & University of Oregon)、Yu Zhou (Vail Systems, Inc.)、Vijay K. Gurbani (Vail Systems, Inc.) 💡 毒舌点评这篇论文完成了一项“从0到1”的迁移工作，证明了稀疏自编码器（SAE）这一在文本大模型上流行的机械可解释性技术，可以应用于语音识别模型Whisper。它展示了Whisper编码器内部确实存在从音素到语义的丰富特征层级，这本身是一个有价值的发现。然而，作为一项方法迁移工作，其实验设计存在显著缺陷：缺乏与更简单、更传统方法（如线性探针）的基线对比，无法证明SAE在此任务上的优越性；仅在单一模型规模（Whisper-base）和单一SAE配置下进行验证，结论的普适性存疑；且关键训练细节的缺失严重影响了工作的可复现性和技术深度。总体而言，这是一篇合格的概念验证论文，但远未达到推动该领域方法论进步的水平。 📌 核心摘要要解决什么问题：文本大模型（LLMs）的内部表征已能用稀疏自编码器（SAE）进行可解释性分析，但同样的技术能否有效应用于以音频为输入的端到端语音识别模型（如Whisper），以揭示其内部丰富的表示信息，目前尚无研究证明。方法核心：在预训练的Whisper编码器最后一层之后插入一个稀疏自编码器（SAE）。该SAE将Whisper-base的512维稠密嵌入映射到一个16000维的稀疏潜在空间，通过TopK激活（K=45）强制稀疏性，并使用均方误差（MSE）损失进行训练，以重建Whisper编码器的原始输出。与已有方法相比新在哪里：首次将SAE方法应用于语音识别模型（ASR）的机械可解释性研究。已有工作集中于文本LLM，本文证明了SAE在语音模态的潜在空间同样能够解耦出单义特征（monosemantic features），并能发现跨越语言、语音、词汇、形态和语义层面的丰富特征层级。主要实验结果如何：实验发现Whisper编码了超出转录所需的丰富信息。具体结果包括：语言特征：发现一个潜在索引（5106）能以74.7%的精确率和91.2%的召回率区分英语与非英语语音。音素特征：发现表征双音素（如/R UW1/，精确率88.7%，召回率64.9%）的潜在索引。词汇特征：发现表征特定单词（如“his”，精确率99.3%，召回率81.4%）的潜在索引。形态特征：发现表征后缀“-ly”（精确率87.2%，召回率17.8%）的潜在索引，低召回率归因于特征分裂。语义特征：数字：一个潜在索引（7710）与数字相关（精确率38.1%，召回率79.2%）。论文指出该特征的时间边界不精确，假阳性多出现在含有数字的句子中。脏话：两个潜在索引（3584， 104）共同覆盖了89.7%的脏话样本（精确率6.6%）。通过特征引导（steering）实验，成功实现了脏话的插入和替换。跨语言引导：用于英语脏话的潜在索引（3584）同样能对西班牙语和法语（SAE训练中未包含）的脏话进行引导，证明其编码了语言无关的语义信息。非语言特征：发现能区分纯噪声与语音的潜在索引（精确率97.7%），以及在特定时间点稳定激活的位置潜在索引。实际意义：本研究建立了SAE作为分析ASR模型内部工作机制的有效工具，揭示了Whisper等模型在训练中自然习得了丰富的语言学层次表征，为理解端到端语音模型的内部表示提供了新途径。主要局限性：论文明确承认了三个局限：1）仅研究了一个SAE配置（特定潜在维度）；2）仅在最小的Whisper-base模型上验证；3）分析主要集中在英语，其他语言数据使用有限。 🔗 开源详情代码：论文中提供了匿名仓库链接，用于存放训练代码、分析代码、分析数据集及潜在示例：https://anonymous.4open.science/r/COLM2026-73CF/ 模型权重：论文中未提及训练得到的SAE模型权重的公开链接。论文研究的基础模型是Whisper (base)，其权重可通过HuggingFace等平台获取。数据集：训练数据集：论文明确列出了用于训练SAE的多个公开数据集名称：LJSpeech, LibriSpeech, Voxceleb 1, Mozilla Common Voice English, SLR39, SLR67, SLR61, SLR71-SLR75, Musan。总文件数为646,769。论文未提供这些数据集的具体下载链接。评估数据集：用于分析的评估集部分来自Mozilla Common Voice v13.0（西班牙语和法语）以及ESC-50（噪声数据）。 Demo：论文中未提及。复现材料：论文中提供了包含训练配置、分析代码等的匿名仓库链接：https://anonymous.4open.science/r/COLM2026-73CF/。此外，附录A、B、C提供了关于特征空间、潜在特征列表和非语言特征的详细说明。论文中引用的开源项目： OpenAI Sparse Autoencoder: https://github.com/openai/sparse_autoencoder （论文中明确说明SAE训练框架基于此实现） 🏗️ 方法概述和架构本文提出的方法旨在应用稀疏自编码器（SAE）作为机械可解释性工具，来探测预训练的Whisper自动语音识别（ASR）模型编码器的内部表征。整个方法流程可分为模型改造与SAE训练和特征分析与引导两个主要阶段。 ...