Dolphin-CN-Dialect: Where Chinese Dialects Matter
📄 Dolphin-CN-Dialect: Where Chinese Dialects Matter #语音识别 #端到端 #多语言 #低资源 #数据增强 📝 5.5/10 | 前50% | #语音识别 | #端到端 | #多语言 #低资源 | arxiv 学术质量 5.5/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Yangyang Meng, Huihang Zhong, Guodong Lin, Guanbo Wang, Hu Du(论文中标注为共同第一作者,*) 通讯作者:Zhiming Shao, Wei-Qiang Zhang(论文中标注为通讯作者,†) 作者列表:Yangyang Meng (Dataocean AI), Huihang Zhong (Dataocean AI), Guodong Lin (Dataocean AI), Guanbo Wang (Dataocean AI), Hu Du (Dataocean AI), Zhiming Shao (Speech and Audio Technology Lab, Dept. EE, Tsinghua University), Yukai Huang (Dataocean AI), Ke Li (Dataocean AI), Wei-Qiang Zhang (Speech and Audio Technology Lab, Dept. EE, Tsinghua University) 💡 毒舌点评 亮点:工程实践导向明确,提出的温度采样策略有效缓解了方言数据长尾问题,且在小参数量模型上取得了有竞争力的结果,对工业部署友好。双路热词偏置框架的评估较为全面,包括了Oracle分析。 短板:核心贡献多为对已有技术的组合与工程调优,缺乏模型架构或训练范式上的根本性创新;关键超参数(如α)的选择和消融实验缺失,影响了方法深度;大量依赖未公开的内部数据集,使得对比实验的公平性和复现性存疑。 ...