Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization

📄 Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization #语音情感识别, #对比学习, #多模态模型, #低资源, #跨模态 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者/通讯作者:Habibeh Naderi (Dalhousie University, Halifax NS, Canada, email: habibeh.naderi@dal.ca) 其他作者: Behrouz Haji Soleimani (Dalhousie University, Halifax NS, Canada) Stan Matwin (Dalhousie University, Halifax NS, Canada) 💡 毒舌点评 亮点:方法设计很“周全”,像一个精密的瑞士军刀——双对比学习防止模态塌缩,CKA损失保持结构,MI损失平衡信息流,最后用MoE做下游任务,环环相扣,针对性很强。实验部分更是“火力覆盖”,30种骨干组合、25折交叉验证、消融研究穷举所有损失组合,堪称教科书级别的严谨。 槽点:应用场景(心理健康预测)有点“曲高和寡”,数据收集和标注难度大,限制了方法的广泛验证和影响力。另外,核心架构本质上是“冻结大模型+精心设计的损失函数”,创新深度可能不及那些从头构建全新架构的工作。 📌 核心摘要 这篇论文旨在解决音频-文本多模态表示学习中的一个关键挑战:如何在低资源、长序列且模态维度严重不平衡(音频高维、文本低维)的情况下,实现有效的跨模态对齐,同时保留各自的特异性信息。为此,作者提出了HILBERT框架。该方法首先利用冻结的预训练音频(如HuBERT)和文本(如T5)编码器提取片段级特征,然后通过多头自注意力和跨模态注意力机制聚合生成模态特定的文档级表示和一个联合的跨模态嵌入。核心创新在于一个双对比对齐目标,它不直接对比音频和文本,而是分别对齐“音频-联合”和“文本-联合”表示,以缓解维度不平衡带来的主导问题。此外,引入了两个辅助正则项:CKA损失用于保持每个模态与联合嵌入间的结构一致性,互信息(MI)损失用于均衡两种模态对联合表示的信息贡献。下游任务采用混合专家(MoE) 分类器。在FORBOW心理健康数据集上的实验表明,HILBERT在多项文档级情感和心理谱系预测任务上显著优于CLAP等基线方法,特别是在最具挑战性的多类别心理障碍预测任务上取得了领先性能,证明了其在长序列、不平衡多模态学习中的有效性。 🏗️ 模型架构 HILBERT是一个四阶段的层次化框架,专为处理长序列音频-文本对设计。 输入与片段编码:输入为长音频文件(X^a)和对应的长文本转录(X^t)。首先进行分段(基于情感、语义变化等)。然后,分别使用冻结的预训练音频编码器(如HuBERT, Whisper)和文本编码器(如T5, RoBERTa)处理每个片段,得到片段级嵌入序列:(S^a \in \mathbb{R}^{L \times d_a}) 和 (S^t \in \mathbb{R}^{L \times d_t}),其中L是片段数。 文档级表示学习: 模态特定文档嵌入:将片段嵌入投影到同一维度后,分别通过多头自注意力层和注意力池化层,聚合片段信息,生成音频文档表示(D^a)和文本文档表示(D^t)。 多模态联合编码器:这是融合的核心。首先进行跨模态注意力:计算音频到文本的注意力(S^{a \to t})和文本到音频的注意力(S^{t \to a})。然后将这两个交叉注意力输出拼接,送入一个自注意力层和注意力池化层,生成最终的联合文档嵌入(D^{joint})。 双对比学习与对齐: 共享投影器:一个MLP将(D^a, D^t, D^{joint})映射到同一个公共潜在空间,得到(Z^a, Z^t, Z^{joint})。 多模态对比损失:定义正样本对为((Z^a, Z^{joint}))和((Z^t, Z^{joint})),负样本为批次内所有其他配对。损失函数旨在拉近正对,推远负对。 CKA损失:计算(Z^{joint})与(Z^a)、(Z^{joint})与(Z^t)之间的Centered Kernel Alignment相似度,并最大化它(损失为1-CKA),以保持联合表示与各模态表示的结构相似性。 MI损失:使用InfoNCE估计器最大化(Z^{joint})与(Z^a)、(Z^{joint})与(Z^t)之间的互信息下界,并增加一个平衡项((L_{MI}^a - L_{MI}^t)^2),惩罚两个互信息值的差异,确保信息平衡。 下游任务学习(MoE): 将三个表示拼接:(Z = [Z^a; Z^{joint}; Z^t])。 输入到一个稀疏混合专家(MoE)网络。该网络包含多个专家MLP和一个门控网络。门控网络根据输入Z计算每个专家的权重。 加权求和专家输出得到(Z_{MoE}),最后通过一个分类头(MLP)得到最终预测(\hat{y})。 数据流:原始音频/文本 -> 片段嵌入(冻结模型) -> 文档嵌入(自注意力+池化) -> 联合嵌入(跨模态注意力+自注意力+池化) -> 投影到公共空间 -> 计算对比/CKA/MI损失 -> 拼接后输入MoE进行分类。 ...

2026-04-20