渐进式训练

📄 Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation #语音识别 #语音大模型 #渐进式训练 #数据集 #鲁棒性 #强化学习 ✅ 6.8/10 | 前35% | #语音识别 | #渐进式训练 | #语音大模型 #数据集 | arxiv 学术质量 5.5/8 | 影响力 0.7/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Zhifei Xie (NTU) 通讯作者：Deheng Ye (NTU, NUS, †)、Xiaobin Hu (NUS, †)、Shuicheng Yan (NUS, †)、Chunyan Miao (NTU, †)（论文中标注†的作者即为通讯作者）作者列表：Zhifei Xie (NTU)、Kaiyu Pang (Shanghai AI Lab)、Haobin Zhang (NUS)、Deheng Ye (NTU, NUS, †)、Xiaobin Hu (NUS, †)、Shuicheng Yan (NUS, †)、Chunyan Miao (NTU, †) 💡 毒舌点评本文的亮点在于其系统性工程思维：从构建一个覆盖复合声学效应的合成数据集（Voices-in-the-wild-2M）出发，配合一个针对中高WER不同错误模式设计的渐进式训练与策略优化方案（A2S-SFT + DG-WGPO），在多个基准上取得了显著的性能提升。但短板也十分明显：整套方案高度依赖“合成数据能有效校准真实世界”的假设，缺乏对合成与真实分布差距的量化分析；将所有声学场景简化为几种原子效应的线性组合，可能无法完全捕捉真实环境中更复杂、非线性的声学交互；此外，代码未开源，可复现性存疑。 ...