Decoder-Only Conformer with Modality-Aware Sparse Mixtures of Experts for ASR
📄 Decoder-Only Conformer with Modality-Aware Sparse Mixtures of Experts for ASR #语音识别 #混合专家模型 #多任务学习 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #混合专家模型 | #多任务学习 #多语言 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Jaeyoung Lee (NTT, Inc., Japan), Masato Mimura (NTT, Inc., Japan) 💡 毒舌点评 这篇论文巧妙地将模态感知的稀疏MoE融入解码器端Conformer,用一个统一模型处理语音和文本,在参数更少(113M vs. 139M)的情况下超越了传统AED基线,展现了架构简化与效率提升的潜力。然而,其“统一”处理的前提是已知模态边界(语音/文本位置固定),这限制了模型在更灵活的交错输入场景下的应用;此外,依赖CTC辅助损失和标签平滑才达到竞争力,也暗示了该架构自身在稳定训练上的短板。 📌 核心摘要 本文针对自动语音识别(ASR)任务,提出了一种仅使用解码器端的Conformer架构,旨在无需外部语音编码器或预训练大语言模型(LLM)的前提下,统一处理语音特征和文本标记。其核心创新在于引入了模态感知的稀疏混合专家模型(MoE),为语音和文本设置了不相交的专家池并采用硬路由和top-1选择机制,并与混合因果性Conformer块(语音双向,文本因果)相结合。与现有方法相比,本文是首次在随机初始化的解码器架构中,通过模态感知路由和稀疏MoE,实现了无需显式对齐模块且超越强编码器-解码器(AED)基线的性能。实验表明,在LibriSpeech数据集上,该113M参数模型在test-clean和test-other上的词错误率(WER)分别为2.8%和5.6%,优于139M参数的AED基线(3.2% vs. 6.0%)。在CommonVoice 16.1的五语言多语言任务中,平均WER从12.2%降低至10.6%。该工作的实际意义在于证明了解码器端统一架构在ASR中的可行性,为简化ASR系统流水线提供了新思路。主要局限性包括:目前仅支持离线推理,尚未探索流式处理;模型依赖预设的模态边界,缺乏对模态间灵活交互的探索;未来工作可扩展至流式ASR及跨模态专家共享机制。 模型/设置 骨干网络 活跃参数量 test-clean WER(%) test-other WER(%) AED, 17层编码器 / 6层解码器 Conformer 139M 3.2 6.0 仅解码器 17层 Transformer 64M 3.6 7.8 仅解码器 17层 Conformer 113M 3.4 6.4 + MoE (无模态分组, top-2) Conformer 113M 2.8 6.3 + MoE, 模态感知 (每模态 top-1) Conformer 113M 2.8 5.6 表 1: LibriSpeech WER (%) 对比。 模态感知的解码器端Conformer在参数更少的情况下,取得了最佳性能。 ...