Emilia-NV: A Non-Verbal Speech Dataset with Word-Level Annotation for Human-Like Speech Modeling
📄 Emilia-NV: A Non-Verbal Speech Dataset with Word-Level Annotation for Human-Like Speech Modeling #语音识别 #语音合成 #数据集 #零样本 ✅ 7.5/10 | 前25% | #语音识别 | #数据集 | #语音合成 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Huan Liao(The Chinese University of Hong Kong, Shenzhen)(论文注明与Qinke Ni同等贡献) 通讯作者:未明确说明(论文中未明确指出通讯作者) 作者列表:Huan Liao(The Chinese University of Hong Kong, Shenzhen),Qinke Ni(The Chinese University of Hong Kong, Shenzhen),Yuancheng Wang(The Chinese University of Hong Kong, Shenzhen),Yiheng Lu(The Chinese University of Hong Kong, Shenzhen),Haoyue Zhan(Guangzhou Quwan Network Technology),Pengyuan Xie(Guangzhou Quwan Network Technology),Qiang Zhang(Guangzhou Quwan Network Technology),Zhizheng Wu(The Chinese University of Hong Kong, Shenzhen) 💡 毒舌点评 亮点在于系统性地填补了普通话副语言词级标注数据的空白,并提出了一个可扩展的标注流水线,为“类人”语音建模提供了急需的燃料。短板在于TTS部分的创新更多是“应用验证”而非“方法突破”,且文中对模型训练的关键细节(如超参数)披露不足,让想复现的同行感到些许乏力。 ...