MedASR: An Open-Source Model for High-Accuracy Medical Dictation

📄 MedASR: An Open-Source Model for High-Accuracy Medical Dictation #语音识别 #端到端 #医疗转录 #长音频处理 #开源模型 ✅ 7.9/10 | 前30% | #语音识别 | #端到端 | #医疗转录 #长音频处理 | arxiv 学术质量 6.3/8 | 影响力 0.9/1 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Ke Wu (Google Inc) 通讯作者:未说明 作者列表:Ke Wu, Ehsan Variani, Tom Bagby, Shashir Reddy, Rory Pilgrim (Google Inc) 💡 毒舌点评 这篇论文提供了一个扎实且有用的工程化解决方案,旨在解决医疗语音识别(ASR)中数据稀缺、长音频训练与推理不稳定的关键痛点。其核心贡献在于系统化地整合了已知技术(CTC、伪流式推理)以应对特定领域的挑战,并开源了一个具有竞争力的模型。然而,论文的创新本质上是“组合式”与“应用型”的,缺乏在模型架构或训练范式上的根本性突破。最大的软肋在于核心训练数据的私有化,这使得其宣称的“开源基础”打了折扣,外部研究者难以在相同条件下复现或超越其结果,限制了论文的彻底可验证性和社区影响力。 📌 核心摘要 解决的问题:针对医疗语音记录场景,解决通用语音识别模型在处理长音频时易出现“漂移”(内容重复或缺失)、对医疗专业术语识别不准,以及大规模高质量医疗音频数据稀缺的问题。 方法核心:提出一个105M参数的Conformer-CTC模型。在数据层面,采用两阶段训练:先用非归一化的通用音频数据(LibriHeavy)预训练,再用4500+小时私有医疗音频数据进行迭代分割与微调。在推理层面,设计“时间后验融合”伪流式滑动窗口算法,通过加权平均不同窗口的输出后验概率,提升长音频转录稳定性。 与已有方法相比新在哪里: 设计目标明确:与Whisper等追求大而全的通用基础模型不同,MedASR明确追求“小、快、准”,专注于医疗转录这一垂直场景,更适合潜在的本地化部署。 解决长序列训练与推理:通过迭代分割训练法处理长音频数据;通过“时间后验融合”算法在推理时融合多窗口信息,有效抑制了通用模型(如Whisper)在长音频上常见的漂移和幻觉问题。 领域适配:针对医疗文本的格式(大小写、标点、单位)设计了紧凑的分词器(512词表),并使用非归一化数据预训练,保留了临床文本的关键特征。 主要实验结果: 在公开测试集EyeGaze上,MedASR(带6-gram LM)相比Whisper Large-v3实现了58%的相对WER降低(12.5% vs 5.2%)。 在四个私有医疗专科测试集(RAD, FM, IM, GENINT)上,MedASR(带6-gram LM)的WER显著低于Whisper和Gemini 2.5 Pro,绝对值低3-27个百分点。 推理稳定性实验表明,MedASR的WER对滑动窗口步长变化不敏感,验证了其抗漂移能力。 模型 EyeGaze WER RAD WER FM WER IM WER GENINT WER Whisper (Large-v3) 12.5% 25.3% 32.5% 44.5% 33.1% Gemini 2.5 Pro 5.9% 10.0% 14.6% 21.3% 16.4% MedASR (no LM) 6.0% 5.4% 6.7% 9.9% 8.0% MedASR (6-gram LM) 5.2% 4.6% 5.8% 8.7% 6.9% 实际意义:提供了一个开源的高性能医疗语音识别骨干模型,打破了该领域被闭源系统垄断的局面,有助于促进医疗AI社区的透明度和协作研究。其轻量级特性也为边缘部署保护隐私提供了可能性。 ...

2026-05-19 · 更新于 2026-05-19 · 3 min · 431 words

Stable Audio 3

📄 Stable Audio 3 #音频生成 #音乐生成 #扩散模型 #高效推理 #长音频处理 #音效生成 #编辑 ✅ 6.8/10 | 前25% | #音频生成 | #扩散模型 | #音乐生成 #高效推理 | arxiv 学术质量 5.3/8 | 影响力 0.7/1 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Zach Evans(来自Stability AI) 通讯作者:未明确标注(论文中未提供邮箱或明确标注通讯作者) 作者列表:Zach Evans, Julian D. Parker, Matthew Rice, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons(所有作者均来自Stability AI) 💡 毒舌点评 亮点:该工作是一项扎实的工程系统集成,成功地将一个极高压缩率的语义-声学自编码器、基于流匹配的扩散Transformer、三阶段训练流水线以及变量长度生成和编辑功能整合到一个框架中。其宣称的极快推理速度(H200上生成6分20秒音频<2秒)和在消费硬件上的可部署性具有显著的实际价值,开源小/中模型权重也体现了对社区的贡献。 短板:论文的核心方法论创新有限,更多是对现有技术的针对性优化和组合(如变量长度注意力、对抗性后训练在音频领域的应用)。关键设计选择(如4096倍压缩比)缺乏消融研究支撑,对“首个”等宣称的严谨性有待商榷。部分实验对比存在潜在不公平性(如与专为短音频设计的模型比较长生成),且消融实验的缺失严重削弱了技术贡献的深度分析。 📌 核心摘要 要解决什么问题:当前基于潜在扩散的音频生成模型通常采用固定长度序列,导致生成短音频时计算资源浪费。同时,如何在保持高保真度和语义一致性的前提下,实现快速、可变长度的生成及灵活的音频编辑(修复、续写)是重要挑战。 方法核心是什么:Stable Audio 3是一个基于流匹配的潜在扩散模型家族(包含small, medium, large三个版本)。其核心架构包含两个部分:1)一个压缩率高达4096倍的语义-声学自编码器(SAME),能将音频编码为紧凑的潜在表示,同时保留声学保真度和语义结构;2)一个增强的扩散Transformer,支持可变长度生成和基于掩码的修复/续写编辑。训练采用三阶段流水线:流匹配预训练、ODE暖机蒸馏和对抗性后训练。 与已有方法相比新在哪里:主要创新点在于:a) 提出了极高压缩率(4096x)的语义-声学自编码器,使得在消费级硬件上生成长音频成为可能;b) 实现了潜在扩散模型中真正意义上的可变长度生成,避免了固定长度模型对短音频的无效计算;c) 设计了结合流匹配、蒸馏和对抗性后训练的三阶段训练流程,实现了极少步数下的高质量生成;d) 将修复和续写功能统一为一个基于掩码的编辑框架。 主要实验结果如何:在SDD音乐基准和BBC音效基准上,Stable Audio 3(medium/large)在FAD和CLAP等指标上取得了与当前最强开源模型可比或更优的结果(例如,在SDD 120s音乐生成上,large模型FAD为0.101,CLAP为0.393)。模型推理速度极快,在H200 GPU上生成6分20秒音频耗时不到2秒。模型(small/medium)支持在消费级GPU甚至MacBook Pro CPU上运行。 实际意义是什么:该工作推动了高质量、高实用性音频生成模型的发展。其开源的small和medium模型降低了使用门槛。极快的推理速度和灵活的生成长度/编辑能力使其非常适合集成到实时创意工具和应用中,尤其是在资源受限的设备上。 主要局限性是什么:论文明确指出,对于超长生成(如380秒),模型的提示遵循度(CLAP分数)会显著下降,因为训练数据中长音频多为特定类型(如环境、古典音乐)。此外,所有设计选择(如特定压缩比、训练阶段的具体组合)缺乏全面的消融实验来验证其必要性和最优性。单步生成(ε→x̂₀)仍然困难,导致实际使用了8步“乒乓”采样。 🔗 开源详情 代码: https://github.com/Stability-AI/stable-audio-tools http://github.com/Stability-AI/stable-audio-3 模型权重:论文中提及发布了 small 和 medium 模型的权重,权重可通过上述代码仓库获取。large模型未开源。 数据集: 训练数据:使用来自 AudioSparx(许可数据)和 Freesound(CC-0, CC-BY, CC-Sampling+ 许可)的数据。Freesound 数据子集归属声明链接:https://info.stability.ai/attributions 评估数据集: Song Describer Dataset (SDD):论文中未提供获取链接。 BBC Sound Effects Dataset:论文中未提供获取链接。 Demo:论文中未提及在线演示链接。 复现材料:训练和实现细节在论文第3节和附录中有描述,具体代码和配置包含在上述代码仓库中。 论文中引用的开源项目: SAME (Semantically-Aligned Music autoEncoder):https://github.com/Stability-AI/stable-audio-tools (基于SAME的实现) T5Gemma (用于文本编码):论文中未提供具体链接(google/t5gemma-b-b-ul2)。 PANNs (用于数据过滤):https://github.com/qiuqiangkong/PANNs CLAP (用于评估和训练):论文中未提供具体链接。 Freesound:https://freesound.org/ AudioSparx:https://www.audiosparx.com/ 🏗️ 方法概述和架构 整体流程概述:Stable Audio 3是一个端到端的文本到音频生成与编辑系统,基于潜在扩散模型。其流程为:输入立体声音频(44.1kHz),通过预训练且冻结的语义-声学自编码器(SAME)编码为紧凑的潜在序列(256维,帧率约10.76Hz);生成时,扩散Transformer在文本嵌入(T5Gemma编码)、时长、扩散时间步t和可选的修复掩码等条件的引导下,从高斯噪声中逐步去噪出目标潜在序列;最后,由SAME的解码器将潜在序列重建为波形。整个生成过程(从噪声到波形)在H200 GPU上仅需少于2秒。 ...

2026-05-19 · 更新于 2026-05-19 · 3 min · 621 words

NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating

📄 NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating #音频事件检测 #音频大模型 #长音频处理 #零样本 ✅ 7.0/10 | 前25% | #音频事件检测 | #音频大模型 | #长音频处理 #零样本 | arxiv 学术质量 7.0/8 | 影响力 0.85/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Zhongju Yuan(根特大学) 通讯作者:未说明 作者列表:Zhongju Yuan(根特大学), Geraint Wiggins(根特大学), Dick Botteldooren(根特大学) 💡 毒舌点评 这篇论文提出了一个名为NAACA的框架,其核心是受神经科学启发的振荡工作记忆(OWM)模块。该设计巧妙地将听觉显著性检测重构为一个无需训练的在线滤波问题,在暴力音频检测任务上取得了显著的性能提升和计算节省。生物启发的理论基础和严格的数学证明是其最大亮点。然而,该框架的性能上限完全受制于上游预训练编码器(PANN)和音频语言模型(AudioQwen)的能力,且其在单一、偏“电影化”的数据集(XD-Violence)上的评估,以及仅以定性方式展示的通用性(USoW),使其更像一个针对特定任务精心设计的“门控插件”,而非一个经过充分验证的普适性架构革新。 📌 核心摘要 这篇论文旨在解决当前音频语言模型(ALM)在处理长音频流时面临的“注意力稀释”问题——即模型的注意力容易被持续存在的背景模式所占据,从而遗漏后期出现的稀有但关键的声音事件。为此,论文提出了一种名为NAACA的无需训练的框架,其核心是一个受神经科学启发的“振荡工作记忆”(OWM)模块。OWM将预训练编码器输出的类别概率转化为频率调制的振荡驱动信号,并在一个二维网格上维持动态的吸引子状态,通过监测系统总能量的波动来自适应地检测声音场景的“显著性变化”。仅当检测到显著变化时,才将对应的原始音频片段送入ALM进行语义推理。与基于统计或表示学习的传统漂移检测方法不同,OWM不依赖长期历史数据缓存。实验表明,在XD-Violence数据集上,NAACA将AudioQwen的平均精度(AP)从53.50%提升至70.60%,同时通过门控机制减少了约40%的ALM调用次数。在USoW数据集上的定性分析展示了OWM检测新事件、抵抗瞬态暂停以及捕捉子类别变化的能力。论文的局限性在于其性能受限于所选编码器和ALM的固有能力,且当前定量评估主要集中在异常检测任务上。 🔗 开源详情 代码:https://github.com/zjyuan1208/NAACA-Oscillatory-Working-Memory 模型权重:论文中未提供专用模型权重链接。文中使用的预训练模型如PANN和AudioQwen为公开模型,但论文未提供其具体的权重下载链接或版本号。 数据集:论文中未提供专用数据集链接。文中使用的数据集XD-Violence和Urban Soundscapes of the World (USoW) 均为已发表的公开数据集。 Demo:论文中未提及 复现材料:论文的附录B提供了完整的载波频率分配与网格映射策略、附录C提供了主检测算法(C.1)和自适应阈值计算算法(C.2)的伪代码、附录J提供了额外的FFT频谱分析图。这些附录内容为复现OWM模块提供了关键的算法细节和参数配置。 论文中引用的开源项目: PANN:论文中未提供链接(知名的预训练音频特征提取模型)。 AudioQwen:论文中未提供链接(作为ALM基线使用的模型)。 HL-Net:论文中未提供链接(作为监督音频基线被引用)。 AVadCLIP:论文中未提供链接(作为监督音频基线被引用)。 S3R:论文中未提供链接(作为监督视频基线被引用)。 VadCLIP:论文中未提供链接(作为监督视频基线被引用)。 Holmes-VAU:论文中未提供链接(作为监督视频基线被引用)。 TRACE:论文中未提供链接(作为零样本视频基线被引用)。 🏗️ 方法概述和架构 NAACA是一个多阶段的、无需训练的在线音频处理流水线,旨在为音频语言模型(ALM)提供显著性门控,以实现高效、准确的长音频理解。其整体流程为:输入音频流 → 分段与编码 → 基于OWM的显著性检测 → 选择性ALM推理 → 输出语义解释。 ...

2026-05-14 · 更新于 2026-05-19 · 2 min · 362 words

Task-Aware Answer Preservation under Audio Compression for Large Audio Language Models

📄 Task-Aware Answer Preservation under Audio Compression for Large Audio Language Models #音频大模型 #长音频处理 #音频压缩 #音频问答 #模型评估 #部署优化 ✅ 6.5/10 | 前25% | #音频问答 | #音频压缩 | #音频大模型 #长音频处理 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Amir Ivry(Technion–Israel Institute of Technology,电气与计算机工程系) 通讯作者:Amir Ivry(aivry@ieee.org) 作者列表:Amir Ivry(Technion–Israel Institute of Technology,电气与计算机工程系) 💡 毒舌点评 这篇论文为“如何在压缩音频时保住回答正确率”这个实际问题,搭建了一套非常严谨的理论评估框架(家庭级超额风险),比简单地看平均准确率高级得多。它还煞费苦心地设计了实验来验证理论预测,比如平均指标如何“隐藏”最差情况。然而,理论很丰满,实践却骨感:论文自己用作案例的“学习型选择器”不仅在V1里训练得“早退”了,而且在V2实验中,那个理论上能省预算的“查询条件压缩”,增益忽正忽负,甚至在特定数据集(MMSU)上还帮了倒忙,让人怀疑这个“任务感知”到底有多少实战价值。最终,它更像是一份严谨的“评估方法论文”而非一个“压缩算法突破”。 📌 核心摘要 要解决什么问题:大型音频语言模型在部署时,常需压缩输入音频以降低内存和延迟。但这可能导致对某些特定类型问题的回答准确性急剧下降,而这种损害会被整体平均准确率所掩盖,存在部署风险。 方法核心是什么:提出一个任务感知的答案保留框架。该框架将压缩器的评估从“整体误差”转向“最坏查询家族的超额误差”。它形式化了家庭级超额风险(Δ_𝒬)和答案保留前沿(b_𝒬⋆),并推导出一个实用的签核协议,该协议考虑了查询家族划分、统计置信区间和解耦审计(§4, 5)。 与已有方法相比新在哪里:据作者称,这是首个将部署时的压缩预算决策与特定查询家族的答案保留明确联系起来的框架。它超越了基于平均性能或感知保真度的传统评估,引入了家庭级风险保证和查询条件压缩的理论优势分析(定理3.4),并提供了可操作的签核流程(算法1)。 主要实验结果如何:在五个音频问答基准和两个Qwen骨干模型上评估。关键发现包括: (a) 家庭级损害隐藏:数据集平均误差(Δ_avg)总是低估了最坏家族的误差(Δ_fam),差距在AudioMCQ-StrongAC上高达6.79个百分点(在关键词划分下,见表1和图1、图3)。 (b) 划分决定结论:查询家族划分的粒度(关键词、原生、语义)显著影响测得的家庭级风险差距和批准的压缩预算(表13)。 (c) 查询条件压缩是情景依赖的:理论上可节省预算(定理3.4),但在实践中仅在AudioMCQ-StrongAC数据集上表现出稳定正增益(表3和表20、21),在MMSU的某些任务(如对话轮次计数、语调感知)上甚至有害(表28、图13,§I.11)。 (d) 查询条件压缩器在使用查询:解耦审计(§5.1)表明,在AudioMCQ-StrongAC上,查询条件选择器的查询使用对下游答案保留前沿有显著影响(表4)。 实际意义是什么:为音频大模型的部署提供了一套更可靠的压缩接口签核流程。它强调了报告家庭级性能、审慎选择查询划分的重要性,并指出了查询条件压缩策略的适用边界和局限性。 主要局限性是什么:(a) 实验依赖特定类型的“硬分块保留”压缩器和启发式查询家族划分(§H.2,§G.6)。(b) 作为案例的学习型选择器在V1中训练不完整(早停,§H.3),其查询条件压缩优势在实践中不稳定(§I.7)。(c) 理论假设查询在编码时可用,且与音频独立,这不适用于离线归档压缩(§Limitations)。(d) 论文未完全解耦信息丢失与下游模型能力不足的影响(仅部分估计了模型类差距,§J.5)。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提供(论文引用了 Qwen2-Audio-7B-Instruct [3] 和 Qwen2.5-Omni-7B [25],但未提供具体下载链接)。 数据集: DCASE 2026 dev: https://dcase-repo.github.io/dcase2026/challenge/task_audio_dependent_question_answering/dev/ AudioMCQ-StrongAC: https://huggingface.co/datasets/voidful/AudioMCQ (论文中引用了 [9],并指出评测集为 “StrongAC” 子集) MMSU: https://huggingface.co/datasets/moonwu/MMSU (论文引用 [24]) MMAR: https://huggingface.co/datasets/juliusfrost/MMAR (论文引用 [15]) BigBench Audio: https://huggingface.co/datasets/juliusfrost/bigbench-audio (论文引用 [20, 21]) Demo:论文中未提及。 复现材料:论文提供了非常详尽的附录,构成了主要的复现材料: 附录 D:扩展的问题设置和操作预算细节。 附录 E:主文所述理论的完整证明和辅助推导。 附录 F:实际估计器、不确定性聚合和坐标轴约定。 附录 G:数据集和查询家族详情。 附录 H:实验协议,包括模型、选择器架构、训练配方、评估协议和推断时压缩器配置。 算法 1:面向实践者的候选压缩器签核协议。 附录 I:包含所有次要图表、表格、消融研究和家族级分析。 附录 J:记录了不完整或可疑结果及注意事项。 论文中引用的开源项目: Qwen2-Audio: https://arxiv.org/abs/2407.10759 (论文引用 [3]) Qwen2.5-Omni: https://arxiv.org/abs/2503.20215 (论文引用 [25]) SoundStream: https://arxiv.org/abs/2107.00637 (论文引用 [28]) EnCodec: https://arxiv.org/abs/2210.13438 (论文引用 [5]) AudioLM: https://arxiv.org/abs/2208.09392 (论文引用 [2]) Gumbel-softmax: https://arxiv.org/abs/1611.01144 (论文引用 [10]) AdamW 优化器: 未提供具体链接,但为标准优化器(论文提及)。 e5-large-v2 嵌入模型:用于语义分区,但未提供具体链接(论文在 J.6 部分提及)。 Bootstrap 重采样方法:论文引用了 [12, 6, 19, 8] 等标准统计文献。 🏗️ 方法概述和架构 该论文提出的是一个评估框架和签核协议,而非一个端到端的压缩模型。其核心是定义一套方法论,用于判断一个给定的音频压缩器在特定部署配置下是否可被接受。 ...

2026-05-08 · 更新于 2026-05-19 · 4 min · 751 words