Quality Assessment of Noisy and Enhanced Speech with Limited Data: UWB-NTIS System for Voicemos 2024
📄 Quality Assessment of Noisy and Enhanced Speech with Limited Data: UWB-NTIS System for Voicemos 2024 #语音质量评估 #语音增强 #迁移学习 #预训练 #少样本学习 ✅ 7.0/10 | 前25% | #语音质量评估 | #迁移学习 | #语音增强 #预训练 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Marie Kunešová(NTIS Research Centre, Faculty of Applied Sciences, University of West Bohemia in Pilsen, Czechia) 通讯作者:未说明 作者列表:Marie Kunešová(NTIS研究中心,应用科学学院,西波希米亚大学),Aleš Přázák(同上),Jan Lehečka(同上) 💡 毒舌点评 亮点在于其针对极端有限数据(100条标注)场景设计的“两阶段迁移学习+合成数据生成”策略,特别是将BAC预测巧妙地转化为SNR预测,取得了竞赛最佳结果。短板是整体框架属于成熟技术(wav2vec 2.0微调)的工程组合,且对于更困难的SIG预测任务,核心改进依赖于人工定义的“自然/伪造”二元伪标签,其理论依据和泛化能力存疑。 📌 核心摘要 要解决什么问题? 在仅提供100条主观标注语音的极端数据限制下,实现非侵入式的语音质量评估,具体目标是预测ITU-T P.835标准中的三个指标:SIG(语音质量与失真)、BAK(背景噪声侵入性)和OVRL(整体质量)。 方法核心是什么? 采用两阶段迁移学习策略,基于wav2vec 2.0预训练模型。第一阶段:在自动生成的大规模伪标签数据上微调模型,其中BAK模型学习预测SNR,SIG模型学习区分“自然语音”和“伪造/增强语音”。第二阶段:使用挑战赛提供的100条真实标注数据进行微调。 与已有方法相比新在哪里? 新在针对P.835这一特定评估任务的系统设计,尤其是为小数据场景设计的两阶段数据生成与微调流程。创新性地将BAK预测近似为SNR回归,并将SIG预测与语音伪造检测任务联系起来。赛后进一步提出通过使用人工退化数据进行wav2vec 2.0的预训练,显著提升了SIG预测性能。 主要实验结果如何? 在VoiceMOS 2024挑战赛Track 3官方评估中,该系统在BAK预测上取得最佳性能(LCC=0.867),在OVRL预测上位列第二(LCC=0.711)。赛后通过引入人工退化数据改进的模型,将SIG预测的相关性(LCC)从原始提交的0.207大幅提升至0.516。关键结果如下表所示: 模型组合 VMC 2024 评估集 (LCC) CHiME 7-UDASE (不含VMC数据) (LCC) BAK SIG OVRL (A) BAK SIG OVRL (A) 原始提交 (T04) 0.867 0.207 0.711 0.819 0.684 0.595 ClTRUS (BAK) + w2v2-base (SIG) 0.877 0.516 0.728 0.839 0.726 0.714 w2v2-dgrd (BAK) + ClTRUS (SIG) 0.868 0.296 0.695 0.860 0.766 0.746 w2v2-dgrd (BAK) + w2v2-base (SIG) 0.868 0.516 0.750 0.860 0.726 0.734 团队 T06 (冠军/亚军) 0.827 0.297 0.713 - - - Official results of VMC 2024 Track 3. 图2:VMC 2024 Track 3各团队官方结果(语句级LCC)。本系统为T04团队。 ...