Chunk-Wise Attention Transducers for Fast and Accurate Streaming Speech-to-Text
📄 Chunk-Wise Attention Transducers for Fast and Accurate Streaming Speech-to-Text #语音识别 #语音翻译 #流式处理 #注意力机制 #端到端 ✅ 7.5/10 | 前25% | #语音识别 | #注意力机制 | #语音翻译 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hainan Xu(NVIDIA Corporation) 通讯作者:未说明 作者列表:Hainan Xu(NVIDIA Corporation)、Vladimir Bataev(NVIDIA Corporation)、Travis M. Bartley(NVIDIA Corporation)、Jagadeesh Balam(NVIDIA Corporation) 💡 毒舌点评 亮点:通过在RNN-T的Joiner中引入“分块注意力”机制,巧妙地在保持流式特性的同时,打破了其严格的单调对齐限制,从而在语音翻译任务上获得了高达18%的BLEU提升,这确实是RNN-T架构一个非常实用且有效的改进方向。短板:论文将效率提升归因于T维度的缩减,但未深入分析在分块注意力引入的计算复杂度(O(C^2))与RNN-T全序列对齐复杂度之间的权衡,也缺乏对不同分块大小选择对模型性能影响的系统性超参数搜索分析。 📌 核心摘要 问题:标准的RNN-T模型在流式语音处理中存在两个主要问题:一是严格的单调对齐限制了其在需要灵活对齐任务(如语音翻译)上的性能;二是基于全序列对齐格的训练和推理计算开销大,效率低。 方法:本文提出了分块注意力转导器(CHAT)。该模型将音频输入划分为固定大小的帧块(chunk),并在Joiner网络中使用多头交叉注意力来聚合每个块内的编码器表示,而不是逐帧处理。模型整体仍保持RNN-T的预测流程(发出空白则推进到下一块,否则在当前块内更新)。 创新:这是首次将分块处理与注意力机制深度结合到RNN-T的Joiner架构中。与RNN-T相比,它在块内引入了非单调、灵活的对齐能力;与纯注意力模型相比,它通过分块和保持空白预测机制,天然支持流式处理。 结果:在多个语言和任务上,CHAT相对于RNN-T基线取得了显著提升。在语音识别(ASR)任务上,相对WER降低最高达6.3%;在语音翻译(AST)任务上,相对BLEU提升最高达18.0%。效率方面,训练峰值内存降低46.2%,训练速度最高提升1.36倍,单句推理速度最高提升1.69倍(见表1和表2)。 意义:CHAT为部署更强大、更高效的流式语音模型提供了一条实用路径,尤其证明了其在语音翻译等复杂任务上的巨大潜力,同时严格保持实时约束。 局限:模型性能依赖于分块大小的选择,论文中未提供选择最优分块大小的通用准则或理论指导。此外,论文未深入分析在块内进行注意力计算带来的额外延迟特性。 🏗️ 模型架构 CHAT模型保留了标准RNN-T的编码器(Encoder)和预测器(Predictor),核心创新在于全新的分块注意力连接器(Chunk-wise Attention Joiner)。 整体流程: 输入:音频波形序列。 编码器(Encoder):采用支持流式处理的Fast-Conformer架构。它对音频进行分块处理(例如,块大小=12帧,对应960ms音频),块内帧可以双向注意力,但只能看到有限的前序块。最终输出为每个音频帧的编码表示序列 henc。 分块与接口:编码器将输出序列 henc 按固定大小 C 划分为多个块。连接器每次接收一个块(包含 C+1 帧,其中1帧是为预测空白而添加的全零帧)以及来自预测器的当前文本历史表示 hpred。 分块注意力连接器: 计算Q/K/V:从 hpred 计算查询 qu;从块内所有编码帧 henc_t 计算键 kt 和值 vt。 缩放点积注意力:qu 与块内所有 kt 计算注意力权重 αt,u,权重和归一化。 聚合:使用权重 αt,u 对块内所有值 vt 进行加权求和,得到上下文向量 cn,u。 联合表示:将 cn,u 与 hpred_u 相加后通过ReLU激活,得到联合表示 hjoint。 输出概率:将 hjoint 投影到词表空间并进行Softmax,得到当前块、当前文本历史下的下一个符号概率分布。 预测器(Predictor):根据历史文本序列生成状态 hpred,与RNN-T中的作用相同。 解码(推理):模型以块为单位进行流式推理。在当前块内,模型基于概率分布反复预测非空白符号(更新 hpred),直到预测出空白符号,然后移动到下一个音频块。 关键设计与动机: ...