LETPAV: Lexicon-Enhanced Text with Progressive Audio-Visual Fusion for Multimodal Sentiment Analysis
📄 LETPAV: Lexicon-Enhanced Text with Progressive Audio-Visual Fusion for Multimodal Sentiment Analysis #多模态模型 #语音情感识别 #跨模态 #对比学习 ✅ 7.5/10 | 前25% | #语音情感识别 | #多模态模型 | #跨模态 #对比学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiaxun Li(浙江大学) 通讯作者:Yuehai Wang(浙江大学) 作者列表:Jiaxun Li(浙江大学)、Yuanpeng Wang(未说明)、Wei Li(未说明)、Jiale Chen(未说明)、Yuehai Wang*(浙江大学) 💡 毒舌点评 这篇论文清晰地瞄准了多模态情感分析中“文本强势、音视频弱势”的经典痛点,提出的渐进式音视频融合策略思路直接且有效,消融实验也扎实地证明了每个模块的贡献。然而,其创新更多是现有模块(如词典增强、交叉注意力、对比学习损失)的巧妙组合与针对性调优,缺乏根本性的架构突破,且在处理更复杂的模态交互或缺失场景时未见讨论。 📌 核心摘要 本文针对多模态情感分析(MSA)中不同模态(文本、音频、视觉)信息密度不平衡导致的融合难题,提出了一种名为LETPAV的轻量化框架。其核心方法是:1) 设计了一个词典增强与上下文门控的文本编码器(LECT),通过引入外部情感词典的极性先验和同义词扩展,并结合上下文门控机制,来增强文本特征的情感敏感度,使其作为语义锚点;2) 提出了渐进式音视频融合策略(PAVF),通过多层跨模态注意力逐步对齐并融合音频和视觉特征,形成一个紧凑的联合表征,再与增强文本进行通道注意力融合。训练时还引入了方向一致性损失和跨模态对齐损失以稳定模型。在CMU-MOSI和CMU-MOSEI两个主流基准数据集上的实验表明,LETPAV在多个指标上(如CMU-MOSI上MAE降至0.692,Corr提升至0.840)取得了优于或可比于当前最先进方法(SOTA)的成绩。该工作的实际意义在于为多模态融合中的信息不平衡问题提供了一种简单有效的解决方案,潜在可用于情感计算、人机交互等领域。其主要局限性可能在于未探索模型在更复杂场景(如模态缺失、长序列)下的鲁棒性,且词典的引入可能带来外部知识偏差。 🏗️ 模型架构 LETPAV模型的整体框架如图1所示,其处理流程和主要组件如下: 输入与特征提取: 输入为三元组 U = (Ut, Ua, Uv),分别代表文本、音频和视觉的原始输入。 视觉和音频:分别使用FACET和COVAREP工具包提取帧级特征 Xv 和 Xa,然后输入单向LSTM编码器,捕获时序依赖关系,得到序列表示 Hv 和 Ha。 文本:使用预训练BERT模型对原始文本 Ut 进行编码,得到上下文化的词级表示 Ht。 词典增强文本编码(LECT)模块: ...