FIDIC:Fine-Grained Conversational Emotion Recognition via Individual Differences in Inertia and Contagion
📄 FIDIC:Fine-Grained Conversational Emotion Recognition via Individual Differences in Inertia and Contagion #语音情感识别 #对话建模 #心理学启发 #记忆网络 ✅ 7.5/10 | 前25% | #语音情感识别 | #对话建模 | #心理学启发 #记忆网络 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Jianing Liu(东华大学信息与智能科学学院) 通讯作者:Zhaohui Zhang(东华大学信息与智能科学学院) 作者列表:Jianing Liu(东华大学信息与智能科学学院)、Zhaohui Zhang(东华大学信息与智能科学学院)、Kejian Yu(东华大学信息与智能科学学院) 💡 毒舌点评 亮点:论文动机扎实,受心理学理论启发,将“情感惯性”与“情感传染”这两个核心机制在模型架构上进行了显式的解耦与建模,这比单纯堆叠上下文模块的“黑盒”思路更具解释性和理论深度。短板���所有实验仅在单一的IEMOCAP数据集上进行,缺乏对更大规模、更多语种或跨场景数据集的验证,其“泛化能力”和“普遍性”要打个问号;此外,模型涉及多个门控和记忆模块,其计算开销和实际部署的可行性未做任何讨论。 📌 核心摘要 本文针对对话情感识别(ERC)任务中现有方法忽略个体差异、模型可解释性差的问题,提出了一种基于情感惯性(个体情绪状态的自我延续性)和情感传染(跨说话人的情绪影响)的细粒度建模框架FIDIC。该方法的核心是通过对话时间交互单元(CTIU) 显式分离并建模这两个心理机制,并利用历史状态记忆空间(HSMS) 和情感记忆巩固模块(EMCM) 来维护和更新说话人特有的情绪特征表示。与将上下文信息隐式融合在单一表示中的已有方法不同,FIDIC将不同影响来源进行结构化分解,实现了更细粒度、可解释的建模。在IEMOCAP数据集上的实验表明,FIDIC在微调后的Micro-F1指标达到64.58%,显著优于最佳基线(53.0%),消融研究验证了每个关键组件的有效性。该工作为对话情感识别提供了更符合理论直觉的建模范式,但其在多样化工况下的有效性有待进一步验证。 🏗️ 模型架构 FIDIC模型是一个由六个功能模块协作构成的序列处理框架,旨在对对话中的语音情感进行细粒度、个性化的识别。其整体架构(对应论文图2,但无可用图片URL)的数据流如下: 输入与编码:原始语音首先通过预训练的Wav2Vec模型编码为上下文感知的声学嵌入,再经过两层Transformer增强长程依赖,并使用SpecAugment增强鲁棒性,得到当前话语特征Xcur。 历史状态记忆空间 (HSMS):为每个说话人维护一个独立的记忆库,包含三个部分:历史记录(最近n=20条话语的滑动窗口Hself)、特质向量(可更新的说话人特定情绪模式Xold)、时间轮次索引(提供时间上下文)。 对话时间交互单元 (CTIU):核心建模单元。它接收当前特征Xcur、说话人自身历史Hself和其他说话人历史Hother,分别计算: 情感惯性 (EI):通过Transformer编码器聚合自身历史Hself,得到自回归连续性表征cinertia。 情感传染 (EC):通过多头注意力机制计算当前话语Xcur与对方历史Hother之间的依赖关系,得到跨说话人影响表征ccontagion。 整合模块:将cinertia和ccontagion通过前馈网络结合,形成当前轮次的说话人特异性情绪表征Xtemp。 情感记忆巩固模块 (EMCM):用于融合短期动态与长期特征。它利用HSMS中的时间信息t(包含归一化轮次索引和是否与同一对话者交互的标志)生成一个时间感知的门控值ωtemp。该门控动态地将CTIU输出的Xtemp与HSMS中的历史特质向量Xold融合,得到更新后的说话人特质向量Xtrait。 情感整合模块 (AIM):将四个来源的特征——当前话语特征Xcur、自身历史Hself、对方历史Hother和更新后的说话人特质Xtrait——进行拼接,并通过一个可学习的门控机制为每个来源分配自适应权重,最后融合成最终表征Xout。 分类器:对Xout进行前馈变换和归一化,最后通过softmax输出情感类别概率。 设计动机:该架构的核心思想是结构化解耦。传统RNN/LSTM或图模型将自我延续和外部影响混在一个隐状态或图节点中。FIDIC则设计专门的路径(EI路径和EC路径)来分别处理它们,并引入说话人专属的长期记忆库(HSMS/EMCM),使得模型能够区分并学习不同个体在情绪惯性和易感性上的差异。 ...