医疗转录 | 语音/音乐/音频论文速递

📄 MedASR: An Open-Source Model for High-Accuracy Medical Dictation #语音识别 #端到端 #医疗转录 #长音频处理 #开源模型 ✅ 7.9/10 | 前30% | #语音识别 | #端到端 | #医疗转录 #长音频处理 | arxiv 学术质量 6.3/8 | 影响力 0.9/1 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Ke Wu (Google Inc) 通讯作者：未说明作者列表：Ke Wu, Ehsan Variani, Tom Bagby, Shashir Reddy, Rory Pilgrim (Google Inc) 💡 毒舌点评这篇论文提供了一个扎实且有用的工程化解决方案，旨在解决医疗语音识别（ASR）中数据稀缺、长音频训练与推理不稳定的关键痛点。其核心贡献在于系统化地整合了已知技术（CTC、伪流式推理）以应对特定领域的挑战，并开源了一个具有竞争力的模型。然而，论文的创新本质上是“组合式”与“应用型”的，缺乏在模型架构或训练范式上的根本性突破。最大的软肋在于核心训练数据的私有化，这使得其宣称的“开源基础”打了折扣，外部研究者难以在相同条件下复现或超越其结果，限制了论文的彻底可验证性和社区影响力。 📌 核心摘要解决的问题：针对医疗语音记录场景，解决通用语音识别模型在处理长音频时易出现“漂移”（内容重复或缺失）、对医疗专业术语识别不准，以及大规模高质量医疗音频数据稀缺的问题。方法核心：提出一个105M参数的Conformer-CTC模型。在数据层面，采用两阶段训练：先用非归一化的通用音频数据（LibriHeavy）预训练，再用4500+小时私有医疗音频数据进行迭代分割与微调。在推理层面，设计“时间后验融合”伪流式滑动窗口算法，通过加权平均不同窗口的输出后验概率，提升长音频转录稳定性。与已有方法相比新在哪里：设计目标明确：与Whisper等追求大而全的通用基础模型不同，MedASR明确追求“小、快、准”，专注于医疗转录这一垂直场景，更适合潜在的本地化部署。解决长序列训练与推理：通过迭代分割训练法处理长音频数据；通过“时间后验融合”算法在推理时融合多窗口信息，有效抑制了通用模型（如Whisper）在长音频上常见的漂移和幻觉问题。领域适配：针对医疗文本的格式（大小写、标点、单位）设计了紧凑的分词器（512词表），并使用非归一化数据预训练，保留了临床文本的关键特征。主要实验结果：在公开测试集EyeGaze上，MedASR（带6-gram LM）相比Whisper Large-v3实现了58%的相对WER降低（12.5% vs 5.2%）。在四个私有医疗专科测试集（RAD, FM, IM, GENINT）上，MedASR（带6-gram LM）的WER显著低于Whisper和Gemini 2.5 Pro，绝对值低3-27个百分点。推理稳定性实验表明，MedASR的WER对滑动窗口步长变化不敏感，验证了其抗漂移能力。模型 EyeGaze WER RAD WER FM WER IM WER GENINT WER Whisper (Large-v3) 12.5% 25.3% 32.5% 44.5% 33.1% Gemini 2.5 Pro 5.9% 10.0% 14.6% 21.3% 16.4% MedASR (no LM) 6.0% 5.4% 6.7% 9.9% 8.0% MedASR (6-gram LM) 5.2% 4.6% 5.8% 8.7% 6.9% 实际意义：提供了一个开源的高性能医疗语音识别骨干模型，打破了该领域被闭源系统垄断的局面，有助于促进医疗AI社区的透明度和协作研究。其轻量级特性也为边缘部署保护隐私提供了可能性。 ...