CCST: Cross-Modal and Consistency-Aware Self-Training for Source-Free Unsupervised Domain Adaptation in Speech Recognition
📄 CCST: Cross-Modal and Consistency-Aware Self-Training for Source-Free Unsupervised Domain Adaptation in Speech Recognition #语音识别 #领域适应 #语音大模型 ✅ 7.5/10 | 前25% | #语音识别 | #领域适应 | #语音大模型 学术质量 6.5/7 | 选题价值 0.8/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Yuan Li(内蒙古大学计算机科学学院) 通讯作者:Feilong Bao(内蒙古大学计算机科学学院) 作者列表:Yuan Li(内蒙古大学计算机科学学院;蒙古语智能信息处理技术国家与地方联合工程研究中心;内蒙古多语言人工智能技术重点实验室)、Yonghe Wang(内蒙古大学计算机科学学院)、ZhenJie Gao(内蒙古大学计算机科学学院)、Feilong Bao(内蒙古大学计算机科学学院) 💡 毒舌点评 CCST的亮点在于它对无源自训练范式进行了系统性的“微操”改进,通过精细设计token级注意力融合和句子级一致性约束,在多个基准上稳健地刷低了WER,实验部分堪称教科书式的全面。然而,其核心创新更像是对已有组件(注意力、置信度、一致性)的巧妙集成与调参,理论层面的突破性有限,且公式(如式5)的工程化痕迹略重,可解释性有待加强。 📌 核心摘要 要解决的问题:传统的无监督域适应(UDA)需要访问源域数据,这在实践中常因隐私或成本问题而不可行。因此,本文研究无源无监督域适应(SFUDA),即在仅有目标域无标签数据的情况下,提升语音识别(ASR)模型(如Whisper)在特定域(如噪声、口音)的性能。其主要挑战在于目标域自生成的伪标签存在噪声,会误导模型适应。 方法核心:提出CCST框架。核心包括两部分:a) Token级伪标签质量评估:创新性地融合了模型的输出置信度(Confidence)、文本自注意力(Text-Text Attention)和声谱图-文本跨模态注意力(Speech-Text Attention),形成最终的token权重,以更可靠地评估每个标签的可靠性。b) 句子级伪标签过滤:提出基于数据扰动(如频率/时间掩码)和模型噪声注入(模拟dropout)的一致性约束。通过多次扰动解码计算编辑距离的一致性得分,过滤掉低一致性的伪标签句子。 与已有方法相比新在哪里:与依赖单一置信度或仅使用模型噪声的方法(如STAR)相比,CCST的新颖之处在于:1) 引入了跨模态(文本-语音)注意力来直接评估标签与语音内容的对齐质量,而不仅依赖文本内部关系;2) 使用更贴近真实语音变化的数据扰动作为一致性约束的主要手段,效果优于单纯模型噪声注入。 主要实验结果:在Whisper-medium模型上,CCST在四个目标域数据集上均取得了最佳性能。相对基线Whisper,WER降低幅度分别为:CHiME-4(噪声语音)13.8%(真实集测试),SLURP(人机交互)25.6%(测试集),CORAAL(口音语音)12.9%(测试集),TEDLIUM-3(演讲)23.2%(测试集)。详细对比如下表所示。 方法 CHiME-4 (real-test) SLURP (test) CORAAL (test) TEDLIUM-3 (test) Whisper (Base) 9.4 16.8 17.8 5.6 Self-train 9.4 15.7 17.2 4.8 Confidence 8.9 15.4 16.8 4.6 Margin 8.6 15.2 16.2 4.5 STAR 8.9 15.2 16.8 4.3 CCST (Ours) 8.1 (-13.8%) 12.5 (-25.6%) 15.5 (-12.9%) 4.3 (-23.2%) 实际意义:该方法使得像Whisper这样的强大预训练语音模型,在无需访问原始训练数据的前提下,能更有效地适配到新的应用场景(如智能家居、特定口音环境、嘈杂场所),提升了模型的实用性和部署灵活性,同时兼顾数据隐私。 主要局限性:1) 方法的有效性高度依赖于预训练模型本身的注意力机制和输出质量,对于弱模型可能不适用;2) 公式(尤其是式5的融合规则)设计较为复杂,其泛化能力和内部机理可进一步探讨;3) 实验仅验证了Whisper-medium模型,对更大规模模型的效果未验证;4) 消融实验(表2)中,“DA-Perturb”与“NO-Perturb”效果差异显著,但论文对此原因的分析稍显不足。 🏗️ 模型架构 CCST并非一个全新的端到端ASR模型,而是一个无源自训练(Source-Free Self-Training)框架,用于对预训练好的大型语音模型(如Whisper)进行微调。其整体流程如下图所示(论文图1): ...