Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System
📄 Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System #语音识别 #语音翻译 #语音大模型 #交叉注意力 #课程学习 #数据集 ✅ 7.0/10 | 前25% | #语音识别 | #交叉注意力 | #语音翻译 #语音大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yangfan Du(东北大学计算机科学与工程学院,字节跳动) 通讯作者:Tong Xiao†(东北大学计算机科学与工程学院,牛津翻译研究院) 作者列表: Yangfan Du(东北大学计算机科学与工程学院,字节跳动) Jun Zhang(字节跳动) Bin Wang(字节跳动) Jin Qiu(字节跳动) Lu Huang(字节跳动) Yuan Ge(东北大学计算机科学与工程学院) Xiaoqian Liu(东北大学计算机科学与工程学院) Tong Xiao†(东北大学计算机科学与工程学院,牛津翻译研究院) Jingbo Zhu(东北大学计算机科学与工程学院,牛津翻译研究院) 💡 毒舌点评 亮点在于提出了一个物理意义明确、轻量且有效的检索范式(将注意力权重解释为出现概率),实验上确实大幅提升了检索召回率。短板则是“术业有专攻”,检索模型的“高召回”并未完美传递给下游的语音大模型,论文在如何弥合这个“检索-生成”鸿沟上分析和解决方案略显不足,更像是抛出了一个漂亮的阶段性成果。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开检索器或微调后SLM的权重。 数据集:论文中提供了公开链接:https://huggingface.co/ByteDance/Attention2Probability。声称将数据集公开于此仓库。 Demo:未提及在线演示。 复现材料:论文提供了较为详细的训练设置(学习率、优化器、硬件等)和模型架构参数,但缺少完整的训练脚本、配置文件和预处理代码。课程学习的具体阶段划分和转换条件未说明。 论文中引用的开源项目: 音频编码器/SLM:Qwen2-Audio-Instruction TTS数据生成:MegaTTS 基础数据集:Wikiann, MSRA-NER, Few-nerd, CMeEE, LibriSpeech, Aishell-2, Rare5k 基线向量数据库方法参考:SEAL (使用SONAR编码器) 训练框架:Hugging Face Accelerator 📌 核心摘要 问题:语音大模型在通用场景表现优异,但在医疗、游戏等专业领域准确生成领域术语或新词时存在困难。现有方法依赖耗时的微调或基于向量数据库的检索,后者存在训练成本高、检索准确率不足的问题。 方法核心:提出Attention2Probability方法。其核心是用一个轻量的交叉注意力检索器替代向量数据库,通过计算语音特征与候选术语之间的交叉注意力权重,并将该权重池化归一化后,直接作为每个术语在当前音频中“存在”的概率。基于此概率检索Top-k术语,与提示词拼接后输入语音大模型,引导其生成正确术语。 创新之处:与已有方法相比,A2P完全舍弃了向量数据库和模态对齐训练,转而利用交叉注意力机制显式优化“检测术语是否在音频中出现”这一目标。同时,引入了课程学习(从单词到短语再到真实术语)策略来缓解数据稀疏问题。 实验结果:在自建数据集上,A2P(使用Qwen2-Audio-Instruction编码器)的检索召回率显著优于VectorDB基线。例如,在Top-10检索中,英文召回率达75.55%,中文达83.31%。在下游任务中,术语干预使ASR的术语准确率提升约5-6%,ST提升12-13%,但术语准确率与召回率仍有差距,表明SLM对术语的利用率存在局限。 实际意义:为解决语音领域术语生成难题提供了一种轻量、准确且无需模态对齐训练的检索新范式,并公开了一个专用的术语干预语音数据集,有助于推动该领域研究。 主要局限性:检索到的术语在SLM(尤其在翻译任务)中未被充分利用,导致最终术语准确率远低于检索召回率;随着检索术语数量增加,SLM性能可能出现波动,反映了其上下文学习能力的不足。论文提出的挑战(如何提升ST术语准确率、如何保持基线性能)尚未完全解决。 🏗️ 模型架构 整体架构如图1所示,是一个典型的“检索增强生成”(RAG)流程,但检索器部分被替换。 ...