Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System
📄 Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System #语音识别 #语音翻译 #语音大模型 #交叉注意力 #课程学习 #数据集 ✅ 7.0/10 | 前25% | #语音识别 | #交叉注意力 | #语音翻译 #语音大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yangfan Du(东北大学计算机科学与工程学院,字节跳动) 通讯作者:Tong Xiao†(东北大学计算机科学与工程学院,牛津翻译研究院) 作者列表: Yangfan Du(东北大学计算机科学与工程学院,字节跳动) Jun Zhang(字节跳动) Bin Wang(字节跳动) Jin Qiu(字节跳动) Lu Huang(字节跳动) Yuan Ge(东北大学计算机科学与工程学院) Xiaoqian Liu(东北大学计算机科学与工程学院) Tong Xiao†(东北大学计算机科学与工程学院,牛津翻译研究院) Jingbo Zhu(东北大学计算机科学与工程学院,牛津翻译研究院) 💡 毒舌点评 亮点在于提出了一个物理意义明确、轻量且有效的检索范式(将注意力权重解释为出现概率),实验上确实大幅提升了检索召回率。短板则是“术业有专攻”,检索模型的“高召回”并未完美传递给下游的语音大模型,论文在如何弥合这个“检索-生成”鸿沟上分析和解决方案略显不足,更像是抛出了一个漂亮的阶段性成果。 📌 核心摘要 问题:语音大模型在通用场景表现优异,但在医疗、游戏等专业领域准确生成领域术语或新词时存在困难。现有方法依赖耗时的微调或基于向量数据库的检索,后者存在训练成本高、检索准确率不足的问题。 方法核心:提出Attention2Probability方法。其核心是用一个轻量的交叉注意力检索器替代向量数据库,通过计算语音特征与候选术语之间的交叉注意力权重,并将该权重池化归一化后,直接作为每个术语在当前音频中“存在”的概率。基于此概率检索Top-k术语,与提示词拼接后输入语音大模型,引导其生成正确术语。 创新之处:与已有方法相比,A2P完全舍弃了向量数据库和模态对齐训练,转而利用交叉注意力机制显式优化“检测术语是否在音频中出现”这一目标。同时,引入了课程学习(从单词到短语再到真实术语)策略来缓解数据稀疏问题。 实验结果:在自建数据集上,A2P(使用Qwen2-Audio-Instruction编码器)的检索召回率显著优于VectorDB基线。例如,在Top-10检索中,英文召回率达75.55%,中文达83.31%。在下游任务中,术语干预使ASR的术语准确率提升约5-6%,ST提升12-13%,但术语准确率与召回率仍有差距,表明SLM对术语的利用率存在局限。 实际意义:为解决语音领域术语生成难题提供了一种轻量、准确且无需模态对齐训练的检索新范式,并公开了一个专用的术语干预语音数据集,有助于推动该领域研究。 主要局限性:检索到的术语在SLM(尤其在翻译任务)中未被充分利用,导致最终术语准确率远低于检索召回率;随着检索术语数量增加,SLM性能可能出现波动,反映了其上下文学习能力的不足。论文提出的挑战(如何提升ST术语准确率、如何保持基线性能)尚未完全解决。 🏗️ 模型架构 整体架构如图1所示,是一个典型的“检索增强生成”(RAG)流程,但检索器部分被替换。 ...