命名实体识别

📄 SEP-ST: Incorporating Speech Entity Prompt Into Large Language Models for Speech Translation #语音翻译 #大语言模型 #多任务学习 #命名实体识别 #多语言 ✅ 7.5/10 | 前25% | #语音翻译 | #多任务学习 | #大语言模型 #命名实体识别学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Fei OuYang (昆明理工大学，云南人工智能重点实验室) 通讯作者：Zhengtao Yu (昆明理工大学，云南人工智能重点实验室) 作者列表：Fei OuYang (昆明理工大学，云南人工智能重点实验室)、Linqin Wang (昆明理工大学，云南人工智能重点实验室)、Zhengtao Yu (昆明理工大学，云南人工智能重点实验室) 💡 毒舌点评亮点在于直击端到端语音翻译中“命名实体”这个老大难问题，提出了一种无需外部知识库、通过联合训练从语音中直接提取实体特征提示LLM的优雅方案，在CoVoST-2和MuST-C上的实体翻译准确率（TSR）提升非常亮眼。短板是方法高度依赖于预训练的NER模型生成训练标签，且消融实验显示一种核心变体（Transformer-based）效果不佳，这使得其“端到端”的纯粹性打了折扣，更像是一个“半端到端”的增强方案。 🔗 开源详情代码：论文中提供代码仓库链接：https://github.com/Crabbit-F/SEP。模型权重：未提及是否公开预训练或训练好的模型权重。数据集：使用公开数据集CoVoST-2和MuST-C，但未提及是否提供自建的SEP提取数据集。 Demo：未提及。复现材料：提供了基本的训练细节（优化器、学习率、warmup步数、调度策略）和模型架构描述。关键超参数（λ值）、硬件信息、完整的训练配置文件未说明。引用的开源项目：依赖预训练模型：Whisper-large-V3（语音编码器）、Qwen2.5（LLM）、Q-Former（适配器）、roberta-large-ner-english（NER工具）。 📌 核心摘要问题：当前端到端语音翻译模型在翻译命名实体（如人名、地名、机构名）时准确率不足，而依赖级联或外部知识库的方法存在误差传播和泛化性差的问题。方法核心：提出SEP-ST，一个端到端框架。其核心是新增一个“语音实体提示（SEP）提取模块”，直接从语音表征中学习并提取实体相关的嵌入特征。然后将该特征与原始语音特征和文本指令拼接，共同输入大语言模型（LLM）进行翻译，从而引导模型关注并准确翻译实体。创新点：与已有方法相比，该工作是首个提出直接在语音表征层面进行端到端实体特征提取并作为提示整合进LLM的统一框架，摆脱了对外部实体词典或检索模块的依赖。主要实验结果：在CoVoST-2数据集上，平均BLEU从39.1提升至40.6，实体翻译成功率（TSR）从36.4%提升至70.5%。在MuST-C零样本评估中，平均BLEU从16.9提升至20.6。具体对比数据见下表。方法 CoVoST-2 (En2X) Avg BLEU CoVoST-2 (En2X) Avg TSR MuST-C (zero-shot) Avg BLEU MuST-C (zero-shot) Avg TSR LLM-SRT-7B (基线) 39.1 36.4 16.9 43.2 SEP-ST (CTC-based) 40.6 70.5 20.6 55.0 实际意义：提升了语音翻译在真实场景（常包含大量实体）中的可用性和保真度，简化了现有实体翻译增强方案的流程。主要局限性：SEP提取模块的训练依赖于预训练NER模型标注的伪标签；其Transformer变体效果不佳，表明该特征学习方式有待探索；实验仅限于英译德/日/中三种语言方向。 🏗️ 模型架构整体架构（如图2(a)所示）由四个核心组件顺序连接，输入为语音，输出为翻译文本。 ...