MedASR: An Open-Source Model for High-Accuracy Medical Dictation

📄 MedASR: An Open-Source Model for High-Accuracy Medical Dictation #语音识别 #端到端 #医疗转录 #长音频处理 #开源模型 ✅ 7.9/10 | 前30% | #语音识别 | #端到端 | #医疗转录 #长音频处理 | arxiv 学术质量 6.3/8 | 影响力 0.9/1 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Ke Wu (Google Inc) 通讯作者:未说明 作者列表:Ke Wu, Ehsan Variani, Tom Bagby, Shashir Reddy, Rory Pilgrim (Google Inc) 💡 毒舌点评 这篇论文提供了一个扎实且有用的工程化解决方案,旨在解决医疗语音识别(ASR)中数据稀缺、长音频训练与推理不稳定的关键痛点。其核心贡献在于系统化地整合了已知技术(CTC、伪流式推理)以应对特定领域的挑战,并开源了一个具有竞争力的模型。然而,论文的创新本质上是“组合式”与“应用型”的,缺乏在模型架构或训练范式上的根本性突破。最大的软肋在于核心训练数据的私有化,这使得其宣称的“开源基础”打了折扣,外部研究者难以在相同条件下复现或超越其结果,限制了论文的彻底可验证性和社区影响力。 📌 核心摘要 解决的问题:针对医疗语音记录场景,解决通用语音识别模型在处理长音频时易出现“漂移”(内容重复或缺失)、对医疗专业术语识别不准,以及大规模高质量医疗音频数据稀缺的问题。 方法核心:提出一个105M参数的Conformer-CTC模型。在数据层面,采用两阶段训练:先用非归一化的通用音频数据(LibriHeavy)预训练,再用4500+小时私有医疗音频数据进行迭代分割与微调。在推理层面,设计“时间后验融合”伪流式滑动窗口算法,通过加权平均不同窗口的输出后验概率,提升长音频转录稳定性。 与已有方法相比新在哪里: 设计目标明确:与Whisper等追求大而全的通用基础模型不同,MedASR明确追求“小、快、准”,专注于医疗转录这一垂直场景,更适合潜在的本地化部署。 解决长序列训练与推理:通过迭代分割训练法处理长音频数据;通过“时间后验融合”算法在推理时融合多窗口信息,有效抑制了通用模型(如Whisper)在长音频上常见的漂移和幻觉问题。 领域适配:针对医疗文本的格式(大小写、标点、单位)设计了紧凑的分词器(512词表),并使用非归一化数据预训练,保留了临床文本的关键特征。 主要实验结果: 在公开测试集EyeGaze上,MedASR(带6-gram LM)相比Whisper Large-v3实现了58%的相对WER降低(12.5% vs 5.2%)。 在四个私有医疗专科测试集(RAD, FM, IM, GENINT)上,MedASR(带6-gram LM)的WER显著低于Whisper和Gemini 2.5 Pro,绝对值低3-27个百分点。 推理稳定性实验表明,MedASR的WER对滑动窗口步长变化不敏感,验证了其抗漂移能力。 模型 EyeGaze WER RAD WER FM WER IM WER GENINT WER Whisper (Large-v3) 12.5% 25.3% 32.5% 44.5% 33.1% Gemini 2.5 Pro 5.9% 10.0% 14.6% 21.3% 16.4% MedASR (no LM) 6.0% 5.4% 6.7% 9.9% 8.0% MedASR (6-gram LM) 5.2% 4.6% 5.8% 8.7% 6.9% 实际意义:提供了一个开源的高性能医疗语音识别骨干模型,打破了该领域被闭源系统垄断的局面,有助于促进医疗AI社区的透明度和协作研究。其轻量级特性也为边缘部署保护隐私提供了可能性。 ...

2026-05-19 · 更新于 2026-05-19 · 3 min · 431 words