Bimodal Fusion Framework for Dynamic Facial Expression Recognition In-The-Wild
📄 Bimodal Fusion Framework for Dynamic Facial Expression Recognition In-The-Wild #语音情感识别 #多模态模型 #跨模态 #音视频 #预训练 ✅ 7.0/10 | 前25% | #语音情感识别 | #多模态模型 | #跨模态 #音视频 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Bohui Yang(东南大学计算机科学与工程学院) 通讯作者:Chunfeng Yang(东南大学计算机科学与工程学院), Wentao Xiang(南京医科大学生物医学工程与信息学院) 作者列表:Bohui Yang(东南大学计算机科学与工程学院), Luo Lilin(未说明具体单位,仅在作者列表中), Xiaojia Wang(未说明具体单位,仅在作者列表中), Chunfeng Yang(东南大学计算机科学与工程学院), Wentao Xiang(南京医科大学生物医学工程与信息学院) 💡 毒舌点评 这篇论文的框架设计精巧,将视觉Transformer的参数高效微调(PEFT)思想成功移植到音频-视觉双模态动态表情识别任务中,三个模块(MSA、BFA、CMTM)分工明确,消融实验设计得当,有力支撑了其有效性。然而,其核心创新——在预训练模型中插入适配器(Adapter)进行轻量微调——并非全新概念,论文在探索更深层或更具解释性的跨模态交互机制上着墨不多,主要贡献是工程上的有效整合与验证。 📌 核心摘要 该论文针对野外动态表情识别(DFER)中单模态方法难以捕捉跨模态关联的问题,提出了一个名为BFF-DFER的双模态融合框架。该框架的核心思想是利用预训练的音视频Transformer模型作为骨干网络,冻结其大部分参数,仅通过训练三个轻量级模块来实现高效适配:1) 模态特定适配(MSA)用于增强单模态特征;2) 双模态融合适配器(BFA)用于融合跨模态特征;3) 跨模态时序建模(CMTM)用于建模时间动态。与先前单模态微调或直接融合的方法相比,本工作强调在保持预训练模型完整性的前提下,设计专门的模块来显式建模模态内与时序/跨模态关系。在DFEW和MAFW两个大规模野外基准数据集上,BFF-DFER取得了具有竞争力的性能(DFEW: 67.52% UAR, 78.28% WAR; MAFW: 44.46% UAR, 58.41% WAR),超越了多数现有方法。消融实验证实了各模块的贡献,可视化显示其学习的特征具有更好的类内紧凑性和类间可分性。该工作展示了在资源受限条件下,通过参数高效方法整合多模态预训练知识的有效路径。其主要局限性可能在于框架的复杂性(多个适配器模块)以及未探讨更极端的数据或计算受限场景。 ...