Ontology Memory-Augmented ASR Correction for Long Text-Speech Interleaved Conversations
📄 Ontology Memory-Augmented ASR Correction for Long Text-Speech Interleaved Conversations #提示学习 #大语言模型 9.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.6/10 | 前25% | #语音识别 | #提示学习 | #大语言模型 | arxiv 👥 作者与机构 作者:Xinxin Li, Huiyao Chen, Meishan Zhang, Yunxin Li, Zulong Chen, Zhibo Ren, Xiaoqing Dong, Baotian Hu, Min Zhang 机构: 哈尔滨工业大学(深圳)计算与智能研究所 深圳环岛研究院 💡 毒舌点评 这篇论文的出发点不错,将“本体”和“记忆”这两个概念塞进ASR后纠正任务里,试图解决长上下文对话中信息稀疏和噪声干扰的问题。想法算是有点新意,但读下来总觉得哪里差点意思。方法上,所谓的“本体工作记忆”本质上是个动态更新的实体/术语库加检索,没什么理论深度。最让人困惑的是,论文声称提出一个“框架”,但很多关键组件(如本体提取器 E_ϕ、检索器 Retrieve_η)的实现细节完全黑箱,就用个“实现无关”一笔带过,这到底是框架还是个实验性pipeline?实验部分倒是铺得挺开,用了不少模型,但Baseline的选择有点迷惑。那个用Gemma-4-26B做的“Full-History”baseline,直接把所有历史文本塞给模型,这不就等于验证了“塞太长上下文对LLM也没用”这个大家都知道的结论吗?这对验证你本体记忆的有效性有什么帮助?最实在的贡献可能还是那个RAMC-Corr数据集,流程说得很细,是个不错的评测基准。总而言之,想法可取,工程实现有待商榷,论证不够严密,像一篇做了很多实验但没想透彻的早期工作。 ...