SA-SSL-MOS: Self-Supervised Learning MOS Prediction with Spectral Augmentation for Generalized Multi-Rate Speech Assessment
📄 SA-SSL-MOS: Self-Supervised Learning MOS Prediction with Spectral Augmentation for Generalized Multi-Rate Speech Assessment #语音质量评估 #自监督学习 #数据增强 #多语言 #开源工具 ✅ 7.0/10 | 前50% | #语音质量评估 | #自监督学习 | #数据增强 #多语言 学术质量 4.2/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Fengyuan Cao(KTH Royal Institute of Technology, Stockholm, Sweden) 通讯作者:未说明 作者列表:Fengyuan Cao(KTH皇家理工学院),Xinyu Liang(KTH皇家理工学院),Fredrik Cumlin(KTH皇家理工学院),Victor Ungureanu(Google LLC),Chandan K. A. Reddy(Google LLC),Christian Sch¨uldt(Google LLC),Saikat Chatterjee(KTH皇家理工学院) 💡 毒舌点评 亮点:论文巧妙地设计了一个并行架构,将受限于16kHz的SSL特征与可处理48kHz的谱图特征相结合,直面并试图解决多速率语音评估中的高频信息丢失问题,两阶段训练策略在有限数据下提升了泛化能力。短板:所提方法在部分外部数据集(如腾讯中文数据集)上的性能反而低于仅使用SSL的基线模型,这表明其“谱图增强”分支可能引入了与语言或域不匹配的偏差,削弱了论文核心论点的一致性,且未与更前沿的多速率评估方法进行对比。 📌 核心摘要 问题:现有基于自监督学习(SSL)的语音质量评估(SQA)模型主要在16kHz语音上预训练,无法利用高采样率(24-48kHz)语音中的高频信息,导致对多速率语音的评估性能不佳。同时,公开的多速率MOS标注数据集规模较小,模型易过拟合且泛化能力弱。 方法核心:提出SA-SSL-MOS,一个并行的双分支架构。一个分支将音频下采样至16kHz,使用Wav2vec2-XLSR-2B的第9层特征;另一个分支将音频上采样至48kHz,提取对数谱图特征并由CNN处理。两个分支的特征拼接后预测MOS的均值和方差。此外,采用两阶段训练:先在大规模48kHz单速率数据集(NISQA)上预训练,再在少量多速率数据集(AudioMOS)上微调。 创新点:与已有SSL-Layer-MOS相比,新在通过并行谱图分支显式补充高频特征;并引入了针对多速率SQA的预训练-微调训练范式。 主要实验结果: 在AudioMOS测试集上,两阶段训练的SA-SSL-MOS取得了最佳的UTT SRCC(0.750)和UTT LCC(0.848)。 在泛化能力测试(表3)中,两阶段训练大幅提升了模型在多个外部数据集(如NISQA-Talk, TCD-VoIP)上的相关系数。但在Tencent w/o R(中文)数据集上,SA-SSL-MOS的MSE(1.192)高于基线(0.751),LCC(0.877)低于基线(0.917)。 | 模型 | 训练数据 | 测试集 (Tencent w/o R) | MSE ↓ | LCC ↑ | SRCC ↑ | | :--- | :--- | :--- | :--- | :--- | :--- | | baseline | AudioMOS train | Tencent w/o R | 1.002±0.054 | 0.691±0.023 | 0.687±0.024 | | SA-SSL-MOS (Ours) | AudioMOS train | Tencent w/o R | 1.097±0.057 | 0.669±0.035 | 0.666±0.033 | | baseline | NISQA+AudioMOS train | Tencent w/o R | 0.751±0.043 | 0.917±0.009 | 0.901±0.006 | | SA-SSL-MOS (Ours) | NISQA+AudioMOS train | Tencent w/o R | 1.192±0.124 | 0.877±0.024 | 0.891±0.010 | 实际意义:为处理不同采样率的语音质量评估提供了一种可扩展的框架,特别是在标注数据有限时,通过预训练提升泛化能力,对VoIP、高清通话等应用有潜在价值。 主要局限性:1) 谱图增强分支在跨语言(如中文)场景下可能产生负面迁移,导致性能下降。2) 高频信息提升评估准确性的核心论点在部分实验中(如腾讯数据集)未得到支持。3) 未与当前多速率SQA领域的其他SOTA方法进行对比。 🏗️ 模型架构 SA-SSL-MOS采用并行的双分支架构处理输入语音音频 x,并预测其MOS分数 y。 ...