Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation
📄 Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation #语音识别 #语音大模型 #渐进式训练 #数据集 #鲁棒性 #强化学习 ✅ 6.8/10 | 前35% | #语音识别 | #渐进式训练 | #语音大模型 #数据集 | arxiv 学术质量 5.5/8 | 影响力 0.7/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Zhifei Xie (NTU) 通讯作者:Deheng Ye (NTU, NUS, †)、Xiaobin Hu (NUS, †)、Shuicheng Yan (NUS, †)、Chunyan Miao (NTU, †)(论文中标注†的作者即为通讯作者) 作者列表:Zhifei Xie (NTU)、Kaiyu Pang (Shanghai AI Lab)、Haobin Zhang (NUS)、Deheng Ye (NTU, NUS, †)、Xiaobin Hu (NUS, †)、Shuicheng Yan (NUS, †)、Chunyan Miao (NTU, †) 💡 毒舌点评 本文的亮点在于其系统性工程思维:从构建一个覆盖复合声学效应的合成数据集(Voices-in-the-wild-2M)出发,配合一个针对中高WER不同错误模式设计的渐进式训练与策略优化方案(A2S-SFT + DG-WGPO),在多个基准上取得了显著的性能提升。但短板也十分明显:整套方案高度依赖“合成数据能有效校准真实世界”的假设,缺乏对合成与真实分布差距的量化分析;将所有声学场景简化为几种原子效应的线性组合,可能无法完全捕捉真实环境中更复杂、非线性的声学交互;此外,代码未开源,可复现性存疑。 ...