开源模型 | 语音/音乐/音频论文速递

MedASR: An Open-Source Model for High-Accuracy Medical Dictation

📄 MedASR: An Open-Source Model for High-Accuracy Medical Dictation #语音识别 #端到端 #医疗转录 #长音频处理 #开源模型 ✅ 7.9/10 | 前30% | #语音识别 | #端到端 | #医疗转录 #长音频处理 | arxiv 学术质量 6.3/8 | 影响力 0.9/1 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Ke Wu (Google Inc) 通讯作者：未说明作者列表：Ke Wu, Ehsan Variani, Tom Bagby, Shashir Reddy, Rory Pilgrim (Google Inc) 💡 毒舌点评这篇论文提供了一个扎实且有用的工程化解决方案，旨在解决医疗语音识别（ASR）中数据稀缺、长音频训练与推理不稳定的关键痛点。其核心贡献在于系统化地整合了已知技术（CTC、伪流式推理）以应对特定领域的挑战，并开源了一个具有竞争力的模型。然而，论文的创新本质上是“组合式”与“应用型”的，缺乏在模型架构或训练范式上的根本性突破。最大的软肋在于核心训练数据的私有化，这使得其宣称的“开源基础”打了折扣，外部研究者难以在相同条件下复现或超越其结果，限制了论文的彻底可验证性和社区影响力。 📌 核心摘要解决的问题：针对医疗语音记录场景，解决通用语音识别模型在处理长音频时易出现“漂移”（内容重复或缺失）、对医疗专业术语识别不准，以及大规模高质量医疗音频数据稀缺的问题。方法核心：提出一个105M参数的Conformer-CTC模型。在数据层面，采用两阶段训练：先用非归一化的通用音频数据（LibriHeavy）预训练，再用4500+小时私有医疗音频数据进行迭代分割与微调。在推理层面，设计“时间后验融合”伪流式滑动窗口算法，通过加权平均不同窗口的输出后验概率，提升长音频转录稳定性。与已有方法相比新在哪里：设计目标明确：与Whisper等追求大而全的通用基础模型不同，MedASR明确追求“小、快、准”，专注于医疗转录这一垂直场景，更适合潜在的本地化部署。解决长序列训练与推理：通过迭代分割训练法处理长音频数据；通过“时间后验融合”算法在推理时融合多窗口信息，有效抑制了通用模型（如Whisper）在长音频上常见的漂移和幻觉问题。领域适配：针对医疗文本的格式（大小写、标点、单位）设计了紧凑的分词器（512词表），并使用非归一化数据预训练，保留了临床文本的关键特征。主要实验结果：在公开测试集EyeGaze上，MedASR（带6-gram LM）相比Whisper Large-v3实现了58%的相对WER降低（12.5% vs 5.2%）。在四个私有医疗专科测试集（RAD, FM, IM, GENINT）上，MedASR（带6-gram LM）的WER显著低于Whisper和Gemini 2.5 Pro，绝对值低3-27个百分点。推理稳定性实验表明，MedASR的WER对滑动窗口步长变化不敏感，验证了其抗漂移能力。模型 EyeGaze WER RAD WER FM WER IM WER GENINT WER Whisper (Large-v3) 12.5% 25.3% 32.5% 44.5% 33.1% Gemini 2.5 Pro 5.9% 10.0% 14.6% 21.3% 16.4% MedASR (no LM) 6.0% 5.4% 6.7% 9.9% 8.0% MedASR (6-gram LM) 5.2% 4.6% 5.8% 8.7% 6.9% 实际意义：提供了一个开源的高性能医疗语音识别骨干模型，打破了该领域被闭源系统垄断的局面，有助于促进医疗AI社区的透明度和协作研究。其轻量级特性也为边缘部署保护隐私提供了可能性。 ...

SAME: A Semantically-Aligned Music Autoencoder

📄 SAME: A Semantically-Aligned Music Autoencoder #音频编码 #Transformer #生成模型 #对比学习 #自监督学习 #开源模型 🔥 8.5/10 | 前25% | #音频编码 | #音频大模型 | #Transformer #生成模型 | arxiv 学术质量 6.8/8 | 影响力 0.8/1 | 可复现性 0.9/1 | 置信度高 👥 作者与机构第一作者：Julian D. Parker（Stability AI）通讯作者：未说明作者列表：Julian D. Parker（Stability AI）， Zach Evans（Stability AI）， CJ Carr（Stability AI）， Zachary Zukowski（Stability AI）， Josiah Taylor（Stability AI）， Matthew Rice（Stability AI）， Jordi Pons（Stability AI） 💡 毒舌点评亮点：在实现高达4096倍时域压缩比的同时，通过一系列精心设计的语义对齐损失和改进的架构，在主观听感（MUSHRA）上取得了SOTA，并显著提升了推理速度，展示了在压缩效率与重建质量之间新的平衡点。短板：消融实验在固定的低预算设置下进行（仅50k步），可能无法完全代表全规模训练下各组件的真实贡献；尽管声称适用于“通用音频”，但评估数据集（SDD）高度偏向音乐，对语音、环境声等其他音频类型的泛化能力验证不足。 📌 核心摘要要解决什么问题：传统的神经音频编解码器（NACs）通常在较高的时域压缩比下难以兼顾重建音频质量和下游生成模型的性能。现有方法多采用卷积结构，在推理速度和压缩极限上存在瓶颈。方法核心是什么：提出了SAME，一个基于Transformer的音乐和音频自编码器。核心在于结合了基于查询的Transformer重采样块（TRB）实现高效时域压缩，一个软归一化瓶颈配合多种辅助损失（生成对齐、语义回归、对比对齐）以优化潜空间几何结构，以及改进的多分辨率STFT损失和判别器设计。与已有方法相比新在哪里：a) 使用Transformer通过查询机制而非卷积/池化进行时域重采样，实现了极高的压缩比（4096×）和更快的推理速度；b) 提出了一套新颖的语义正则化框架，包括双轴KL约束的软归一化瓶颈、用于流匹配的生成对齐损失（\(\mathcal{L}_{\text{diff}}\)）、多属性语义回归损失（\(\mathcal{L}_{\text{sem}}\)）和跨模态对比对齐损失（\(\mathcal{L}_{\text{con}}\)），共同塑造了更适合生成的潜空间；c) 改进了频谱重构损失（如对称的光谱对比损失、自适应对数幅度损失、基于相量器的IF/GD损失）和判别器架构（引入了Transformer判别器）。主要实验结果如何：主实验：在Song Describer Dataset上，SAME-L（852M参数）在MUSHRA主观听感测试中得分最高（82.2），超越了所有基线；同时其推理速度（RTF 561）显著快于其他大模型基线。SAME-S（108M参数）在保持可比质量的同时，RTF达到2069，是速度最快的模型。消融实验：在固定50k步的轻量级设置下，添加\(\mathcal{L}_{\text{diff}}\)显著提升了生成质量（FAD-CLAP从1.061降至0.593），而加入\(\mathcal{L}_{\text{sem}}\)和\(\mathcal{L}_{\text{con}}\)进一步将FAD-CLAP降至0.576，并将音乐质量评分（MuQEval）从3.340提升至3.870，证明了这些辅助损失对改善下游生成性能的有效性。主要结果表格（表1）：模型 \(D_t\) \(d\) RTF ↑ SI-SDR ↑ STFT\(_{\text{log1p}}\) ↓ MEL\(_{\text{log1p}}\) ↓ CCPC ↑ MUSHRA ↑ \(\epsilon\)ar-VAE 1024 64 325 12.0 ±3.9 0.080 ±0.053 0.070 ±0.042 97.2 ±2.2 77.6 ±21.0 ACE-Step 1.5 1920 64 284 7.0 ±3.3 0.084 ±0.051 0.069 ±0.034 93.2 ±4.7 76.5 ±20.0 SAO VAE 2048 64 300 6.2 ±3.3 0.092 ±0.055 0.079 ±0.039 92.2 ±5.2 73.3 ±19.5 CoDiCodec† 4096 64 47 -0.3 ±3.1 0.096 ±0.057 0.096 ±0.044 81.7 ±10.6 — SAME-S 4096 256 2069 9.6 ±3.4 0.088 ±0.055 0.071 ±0.035 95.5 ±3.3 66.1 ±20.5 SAME-L 4096 256 561 11.9 ±4.2 0.081 ±0.053 0.057 ±0.031 96.6 ±3.0 82.2 ±16.6 实际意义是什么：为音乐和通用音频生成提供了一个高效（高压缩比、低延迟）且质量上乘的连续潜空间表示。开源的模型权重（SAME-L和SAME-S）可直接用于后续的音乐/音频生成、编辑或理解任务，降低了相关研究的门槛。主要局限性是什么：a) 训练和评估主要基于特定的音乐数据集（Audiosparx, SDD），对非音乐类音频（如语音、环境声）的性能验证不充分；b) 消融实验的训练预算（50k步）较小，可能无法完全揭示各模块在完整训练流程中的真实作用；c) 对比基线中缺少一些最新的、同样采用Transformer架构的NAC模型（如Tango等）。 🔗 开源详情代码：论文中未提及代码仓库链接，但提供了项目主页 https://stability-ai.github.io/SAME，代码信息可能包含其中。模型权重：模型权重通过项目主页发布：https://stability-ai.github.io/SAME。论文中未提及具体的 HuggingFace 或 ModelScope 链接。数据集：训练数据：使用商业数据集 Audiosparx (https://www.audiosparx.com)，论文中未提及公开获取方式。评估数据：使用了 Song Describer Dataset (SDD) [19] 进行评估。 Demo：在线演示链接为：https://stability-ai.github.io/SAME。复现材料：论文中提供了详细的模型配置、训练流程和损失函数描述，但未单独提供配置文件或检查点。具体复现信息需参考论文内容。论文中引用的开源项目： fadtk (用于计算 FAD-CLAP)：https://github.com/sony/sony-audio-eval-tools T5Gemma：论文中提及但未提供具体链接。论文中作为基线对比提到的开源模型（如 epsilon-ar-VAE、Stable Audio Open、CoDiCodec、ACE-Step 1.5）均为已发表工作，论文中未提供其具体开源仓库链接。 🏗️ 方法概述和架构整体流程概述 SAME是一个端到端的音频自编码器，遵循经典的编码器-瓶颈-解码器架构。输入为立体声音频波形，首先经过一个无参数的“分块预变换”进行初步的时域下采样，然后通过编码器中的Transformer重采样块（TRB）进一步压缩时间维度，得到一个潜表示序列。该潜表示经过一个轻度约束的“软归一化瓶颈”后，送入解码器。解码器中的TRB负责上采样，最后通过逆分块操作恢复原始波形。整个过程旨在实现极高的时域压缩比（4096×），同时通过大量辅助损失来保持重建质量和优化潜空间。 ...

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

📄 TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization #音频生成 #流匹配 #偏好优化 #扩散模型 #开源模型 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #偏好优化 #扩散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chia-Yu Hung (Nanyang Technological University, NTU) 通讯作者：Navonil Majumder (NTU)， Soujanya Poria (NTU) 作者列表：Chia-Yu Hung (NTU), Navonil Majumder (NTU), Zhifeng Kong (NVIDIA), Ambuj Mehrish (Ca’ Foscari University of Venice), Amir Ali Bagherzadeh (Lambda Labs), Chuan Li (Lambda Labs), Rafael Valle (NVIDIA), Bryan Catanzaro (NVIDIA), Soujanya Poria (NTU) 💡 毒舌点评这篇论文巧妙地将CLAP作为“裁判”来解决音频生成对齐中缺乏自动评价标准的痛点，提出的CRPO“自弈”优化思路确实让模型性能在迭代中不断提升，效果立竿见影。但依赖CLAP这个“裁判”本身的偏好（可能偏向特定音频风格或描述理解能力）进行优化，是否会让模型学会“讨好裁判”而非真正理解复杂、抽象的文本描述？这是CRPO框架需要面对的更深层问题。 ...