Bridging the Semantic Gap: Cross-Attentive Fusion for Joint Acoustic-Semantic Speech Quality Assessment
📄 Bridging the Semantic Gap: Cross-Attentive Fusion for Joint Acoustic-Semantic Speech Quality Assessment #语音质量评估 #对比学习 #预训练 #交叉注意力 #跨域泛化 🔥 8.5/10 | 前25% | #语音质量评估 | #对比学习 | #预训练 #交叉注意力 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhaoyang Wang(中国科学院声学研究所) 通讯作者:论文中未明确标注。 作者列表:Zhaoyang Wang(中国科学院声学研究所;中国科学院大学), Chengzhong Wang(中国科学院声学研究所;中国科学院大学), Jiale Zhao(中国科学院声学研究所;中国科学院大学), Dingding Yao(中国科学院声学研究所;中国科学院大学), Jing Wang(北京理工大学), Junfeng Li(中国科学院声学研究所;中国科学院大学)。 💡 毒舌点评 亮点:论文概念清晰,直指“语义鸿沟”这一现有SQA模型的痛点,并通过设计合理的双分支架构和两阶段训练策略进行解决,实验对比充分,结论有说服力。 短板:其核心创新——利用预训练的Whisper和DAC模型通过双向交叉注意力融合——在方法层面更像是一个工程化设计,缺乏理论上的新颖性或对融合机制本身的深入探究。同时,对比方法虽然包括了主流基线,但未能涵盖所有最新的顶尖模型。 📌 核心摘要 问题:现有非侵入式语音质量评估(SQA)模型过度依赖语义预训练模型(如Wav2Vec, Whisper),这些模型在训练时追求对声学变异(如噪声、通道效应)的不变性,却忽略了人类感知质量所依赖的精细声学线索,导致“语义鸿沟”,影响模型在多样化场景下的泛化能力。 方法核心:提出JASSQA模型,采用双分支架构。声学分支利用Descript Audio Codec (DAC) 提取离散声学token并通过双路径(直接映射+编码器)生成特征;语义分支利用Whisper提取语言特征。核心融合机制为双向跨注意力,允许两个分支的特征相互查询与增强,随后拼接并通过MLP预测MOS分数。 创新点:与已有简单拼接特征的方法(如MOSA-Net+)相比,JASSQA通过双向跨注意力实现了声学与语义表征的深度交互式融合;提出两阶段训练策略,第一阶段使用对比回归损失预训练声学编码器以构建感知有序的表征空间,第二阶段冻结部分组件进行端到端微调。 主要结果:在NISQA和VoiceMOS Challenge 2023(Track 3)数据集上,JASSQA在SRCC、LCC和MSE三项指标上均优于MOS-SSL, UTMOS, MOSA-Net及MOSA-Net+等基线。例如,在NISQA上,JASSQAlarge的SRCC达到0.904, LCC达到0.907。在跨域泛化测试(腾讯会议数据、BVCC语音转换数据)中,JASSQA同样表现出显著的性能优势。 实际意义:该工作为构建更鲁棒、泛化能力更强的自动化语音质量评估系统提供了一种有效框架,可应用于语音合成、语音增强、在线会议等系统的质量监控与优化。 主要局限性:模型架构是现有组件(Whisper, DAC, 交叉注意力)的组合,缺乏机制层面的根本创新。消融实验显示,仅使用声学分支性能下降明显,表明模型对强大的语义预训练特征仍有较强依赖。 🏗️ 模型架构 JASSQA的整体架构(如图1所示)分为并行特征提取、双向跨注意力融合和分数预测三个核心模块。 ...