VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation
📄 VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation #对话情感识别 #多模态模型 #视觉语言模型 #提示工程 #可靠性建模 ✅ 7.4/10 | 前25% | #对话情感识别 | #多模态模型 | #视觉语言模型 #提示工程 | arxiv 学术质量 6.2/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Linan ZHU(浙江工业大学) 通讯作者:未明确说明(论文中未标注)。 作者列表:Linan ZHU(浙江工业大学),Zihao Zhai(浙江工业大学),Xiao Han(浙江工业大学),Yuqian Fu(苏黎世联邦理工学院),Xiangfan Chen(浙江工业大学),Xiangjie Kong(浙江工业大学),Guojiang Shen(浙江工业大学) 💡 毒舌点评 这篇论文巧妙地将大型视觉语言模型(VLM)作为免训练的特征提取器,用于对话情感识别中的视觉线索定位,其“说话人中心”视角和“可靠性引导补全”的设计理念值得肯定。然而,其理论保证(定理1)的推导略显牵强,协方差项的解释依赖于未被严格验证的假设(如视觉置信度与损失负相关),而实验中MELD数据集上与SDT的加权F1差距微乎其微(0.52%),削弱了其“显著优于SOTA”的声明说服力。 📌 核心摘要 本文针对会话情感识别(ERC)任务中,现有视觉语言模型(VLM)无法自动聚焦活跃说话人的情感视觉线索,以及视觉信号本身存在模糊性和不可靠性的问题,提出了一个两阶段框架VISAFF。核心方法是:第一阶段(SCAG),通过精心设计的提示(包括任务提示、说话人参考图像和情感语义引导)在不微调冻结VLM的情况下,引导其提取以说话人为中心的视觉情感特征;第二阶段(RGAC),根据视觉特征的可靠性,动态地从文本和声学模态中检索互补信息,以修正不可靠的视觉特征。与已有方法相比,新在利用冻结VLM的免训练能力和设计可靠性引导的自适应多模态补全机制。主要实验结果:在MELD和IEMOCAP数据集上,VISAFF在不微调VLM的前提下,加权F1分数分别达到67.12%和77.30%,优于所有未微调大模型的基线方法,其中在IEMOCAP上相比最佳基线DialogueLLM提升13.52个百分点(绝对值)。其实际意义在于为ERC提供了一种高效(无需训练VLM)且鲁棒(多模态补全)的视觉建模思路。主要局限性包括:理论分析的严密性有待加强,以及对免训练提示工程的性能上限缺乏探讨。 图2展示了VISAFF的两阶段架构。第一阶段,说话人中心情感定位(SCAG)模块接收视频帧、说话人参考图像和组合提示,通过冻结的VLM提取视觉特征。第二阶段,可靠性引导情感补全(RGAC)模块以视觉特征为查询,通过交叉注意力从文本和声学特征中检索参考信息,并计算视觉可靠性分数,对视觉特征进行残差补全,最后融合多模态特征进行分类。 🔗 开源详情 代码:https://anonymous.4open.science/r/speaker-2365/ 模型权重:论文中未提及具体权重获取链接。论文提到使用了 Qwen3-VL-Embedding 作为骨干视觉语言模型 (VLM),但未提供其预训练权重的下载地址。 数据集:论文中未提及具体下载链接,但明确使用了两个公开基准数据集: MELD (Multimodal EmotionLines Dataset) IEMOCAP (Interactive Emotional Dyadic Motion Capture Database) 实验遵循了这两个数据集的官方训练、验证和测试集划分。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及具体的训练配置文件、环境依赖文件或模型检查点。论文详述了框架结构、训练目标(公式 9)和算法流程(Algorithm 1),并提及所有实验在单块 NVIDIA RTX 4090 GPU 上进行。 论文中引用的开源项目:论文在相关工作部分提到了多种方法,但未明确给出这些方法具体实现的代码仓库链接。文中提及的开源相关预训练模型或工具(如 RoBERTa-large、emotion2vec-large、Qwen3-VL、InternVL)也未提供官方链接。 🏗️ 方法概述和架构 本文提出VISAFF,一个两阶段的说话人中心视觉情感特征学习框架,用于对话情感识别(ERC)。给定一个对话,每个话语包含视频片段、文本转录和音频片段,目标是预测情感标签。如图2所示,VISAFF由两个顺序阶段组成:说话人中心情感锚定(SCAG)和可靠性引导情感补全(RGAC)。 ...