Bridging the Semantic Gap: Cross-Attentive Fusion for Joint Acoustic-Semantic Speech Quality Assessment

📄 Bridging the Semantic Gap: Cross-Attentive Fusion for Joint Acoustic-Semantic Speech Quality Assessment #语音质量评估 #对比学习 #预训练 #交叉注意力 #跨域泛化 🔥 8.5/10 | 前25% | #语音质量评估 | #对比学习 | #预训练 #交叉注意力 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhaoyang Wang(中国科学院声学研究所) 通讯作者:论文中未明确标注。 作者列表:Zhaoyang Wang(中国科学院声学研究所;中国科学院大学), Chengzhong Wang(中国科学院声学研究所;中国科学院大学), Jiale Zhao(中国科学院声学研究所;中国科学院大学), Dingding Yao(中国科学院声学研究所;中国科学院大学), Jing Wang(北京理工大学), Junfeng Li(中国科学院声学研究所;中国科学院大学)。 💡 毒舌点评 亮点:论文概念清晰,直指“语义鸿沟”这一现有SQA模型的痛点,并通过设计合理的双分支架构和两阶段训练策略进行解决,实验对比充分,结论有说服力。 短板:其核心创新——利用预训练的Whisper和DAC模型通过双向交叉注意力融合——在方法层面更像是一个工程化设计,缺乏理论上的新颖性或对融合机制本身的深入探究。同时,对比方法虽然包括了主流基线,但未能涵盖所有最新的顶尖模型。 📌 核心摘要 问题:现有非侵入式语音质量评估(SQA)模型过度依赖语义预训练模型(如Wav2Vec, Whisper),这些模型在训练时追求对声学变异(如噪声、通道效应)的不变性,却忽略了人类感知质量所依赖的精细声学线索,导致“语义鸿沟”,影响模型在多样化场景下的泛化能力。 方法核心:提出JASSQA模型,采用双分支架构。声学分支利用Descript Audio Codec (DAC) 提取离散声学token并通过双路径(直接映射+编码器)生成特征;语义分支利用Whisper提取语言特征。核心融合机制为双向跨注意力,允许两个分支的特征相互查询与增强,随后拼接并通过MLP预测MOS分数。 创新点:与已有简单拼接特征的方法(如MOSA-Net+)相比,JASSQA通过双向跨注意力实现了声学与语义表征的深度交互式融合;提出两阶段训练策略,第一阶段使用对比回归损失预训练声学编码器以构建感知有序的表征空间,第二阶段冻结部分组件进行端到端微调。 主要结果:在NISQA和VoiceMOS Challenge 2023(Track 3)数据集上,JASSQA在SRCC、LCC和MSE三项指标上均优于MOS-SSL, UTMOS, MOSA-Net及MOSA-Net+等基线。例如,在NISQA上,JASSQAlarge的SRCC达到0.904, LCC达到0.907。在跨域泛化测试(腾讯会议数据、BVCC语音转换数据)中,JASSQA同样表现出显著的性能优势。 实际意义:该工作为构建更鲁棒、泛化能力更强的自动化语音质量评估系统提供了一种有效框架,可应用于语音合成、语音增强、在线会议等系统的质量监控与优化。 主要局限性:模型架构是现有组件(Whisper, DAC, 交叉注意力)的组合,缺乏机制层面的根本创新。消融实验显示,仅使用声学分支性能下降明显,表明模型对强大的语义预训练特征仍有较强依赖。 🏗️ 模型架构 JASSQA的整体架构(如图1所示)分为并行特征提取、双向跨注意力融合和分数预测三个核心模块。 ...

2026-04-29

From Human Speech to Ocean Signals: Transferring Speech Large Models for Underwater Acoustic Target Recognition

📄 From Human Speech to Ocean Signals: Transferring Speech Large Models for Underwater Acoustic Target Recognition #水下声学目标识别 #迁移学习 #语音大模型 #跨域泛化 #基准测试 ✅ 7.0/10 | 前25% | #水下声学目标识别 | #迁移学习 | #语音大模型 #跨域泛化 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Mengcheng Huang(哈尔滨工程大学计算机科学与技术学院) 通讯作者:Chen Xu*(哈尔滨工程大学计算机科学与技术学院,邮箱:chen.xu@hrbeu.edu.cn) 作者列表:Mengcheng Huang(哈尔滨工程大学计算机科学与技术学院)、Xue Zhou(哈尔滨工程大学计算机科学与技术学院)、Chen Xu*(哈尔滨工程大学计算机科学与技术学院)、Dapeng Man(哈尔滨工程大学计算机科学与技术学院) 💡 毒舌点评 亮点:这篇论文做了一件很聪明的事——把在大规模人类语音上训练好的“耳朵”(SenseVoice)直接拿去听海洋,结果发现这个“耳朵”不仅能听懂人话,还能精准识别不同船只,甚至在陌生海域也能工作得很好(跨域96.67%),证明了SOTA语音模型作为通用声学编码器的巨大潜力。短板:然而,整个框架就是“预训练模型+平均池化+线性层”的简单拼接,缺乏针对水声特性(如多径传播、海洋噪声)的深入适配和机制解释;更关键的是,论文声称进行了消融实验来验证设计选择,却“因篇幅限制”只字未提,这让其最优性能的结论打了折扣,也影响了工作的透明度和严谨性。 📌 核心摘要 这篇论文针对水下声学目标识别(UATR)中数据稀缺和环境复杂的两大挑战,探索能否将大规模语音模型(SLM)的知识迁移过来。方法核心是提出UATR-SLM框架:复用语音特征提取流程,将训练好的语音大模型(具体使用SenseVoiceSmall)作为通用声学编码器,并替换其解码器为轻量级分类头(平均池化+线性层)进行微调。与传统方法从头训练或仅使用有限数据增强不同,该工作的创新在于首次系统性地利用SOTA语音基础模型来“跨界”解决水声问题。在DeepShip和ShipsEar两个基准测试中,UATR-SLM的F1分数分别达到99.32%和99.09%,超越了所有对比的ResNet等基线方法;在变长信号测试中表现出强鲁棒性(1秒音频准确率95.87%);在零样本跨域评估中,从DeepShip迁移到ShipsEar,准确率高达96.67%,而ResNet基线仅53%-70%。这证明了SLM编码的声学表征具有强大的域不变性和可迁移性。其实际意义在于为资源受限的水声应用开辟了新范式,可能大幅降低对大量标注水声数据的依赖。主要局限在于框架设计简单直接,未深入探讨迁移成功的内部机理,且关键实验细节(如消融研究)缺失。 🏗️ 模型架构 UATR-SLM框架整体架构如图1所示,流程清晰,分为三个核心组件: 图1. UATR-SLM框架概览 特征提取器 (Feature Extractor): 功能:将原始水下声学信号转换为SLM能够接受的输入格式。 流程:直接复用语音处理流程。原始信号(重采样至16kHz)被转换为对数梅尔滤波器组特征(log-Mel spectrogram)。然后,连续帧被堆叠,并进行降采样,以匹配预训练SLM的输入维度。这一步确保了与SLM预训练时输入分布的一致性。 编码器 (Encoder): ...

2026-04-29