对话建模 | 语音/音乐/音频论文速递

📄 FIDIC:Fine-Grained Conversational Emotion Recognition via Individual Differences in Inertia and Contagion #语音情感识别 #对话建模 #心理学启发 #记忆网络 ✅ 7.5/10 | 前25% | #语音情感识别 | #对话建模 | #心理学启发 #记忆网络学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Jianing Liu（东华大学信息与智能科学学院）通讯作者：Zhaohui Zhang（东华大学信息与智能科学学院）作者列表：Jianing Liu（东华大学信息与智能科学学院）、Zhaohui Zhang（东华大学信息与智能科学学院）、Kejian Yu（东华大学信息与智能科学学院） 💡 毒舌点评亮点：论文动机扎实，受心理学理论启发，将“情感惯性”与“情感传染”这两个核心机制在模型架构上进行了显式的解耦与建模，这比单纯堆叠上下文模块的“黑盒”思路更具解释性和理论深度。短板��所有实验仅在单一的IEMOCAP数据集上进行，缺乏对更大规模、更多语种或跨场景数据集的验证，其“泛化能力”和“普遍性”要打个问号；此外，模型涉及多个门控和记忆模块，其计算开销和实际部署的可行性未做任何讨论。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的IEMOCAP数据集，但未说明数据获取方式。 Demo：未提及。复现材料：提供了部分训练细节（如优化器、学习率、warmup、epoch数、数据预处理），但缺少模型尺寸、隐藏层维度、具体实现框架等信息，不足以完全复现。论文中引用的开源项目：引用了预训练模型Wav2Vec。 📌 核心摘要本文针对对话情感识别（ERC）任务中现有方法忽略个体差异、模型可解释性差的问题，提出了一种基于情感惯性（个体情绪状态的自我延续性）和情感传染（跨说话人的情绪影响）的细粒度建模框架FIDIC。该方法的核心是通过对话时间交互单元（CTIU）显式分离并建模这两个心理机制，并利用历史状态记忆空间（HSMS）和情感记忆巩固模块（EMCM）来维护和更新说话人特有的情绪特征表示。与将上下文信息隐式融合在单一表示中的已有方法不同，FIDIC将不同影响来源进行结构化分解，实现了更细粒度、可解释的建模。在IEMOCAP数据集上的实验表明，FIDIC在微调后的Micro-F1指标达到64.58%，显著优于最佳基线（53.0%），消融研究验证了每个关键组件的有效性。该工作为对话情感识别提供了更符合理论直觉的建模范式，但其在多样化工况下的有效性有待进一步验证。 🏗️ 模型架构 FIDIC模型是一个由六个功能模块协作构成的序列处理框架，旨在对对话中的语音情感进行细粒度、个性化的识别。其整体架构（对应论文图2，但无可用图片URL）的数据流如下：输入与编码：原始语音首先通过预训练的Wav2Vec模型编码为上下文感知的声学嵌入，再经过两层Transformer增强长程依赖，并使用SpecAugment增强鲁棒性，得到当前话语特征Xcur。历史状态记忆空间 (HSMS)：为每个说话人维护一个独立的记忆库，包含三个部分：历史记录（最近n=20条话语的滑动窗口Hself）、特质向量（可更新的说话人特定情绪模式Xold）、时间轮次索引（提供时间上下文）。对话时间交互单元 (CTIU)：核心建模单元。它接收当前特征Xcur、说话人自身历史Hself和其他说话人历史Hother，分别计算：情感惯性 (EI)：通过Transformer编码器聚合自身历史Hself，得到自回归连续性表征cinertia。情感传染 (EC)：通过多头注意力机制计算当前话语Xcur与对方历史Hother之间的依赖关系，得到跨说话人影响表征ccontagion。整合模块：将cinertia和ccontagion通过前馈网络结合，形成当前轮次的说话人特异性情绪表征Xtemp。情感记忆巩固模块 (EMCM)：用于融合短期动态与长期特征。它利用HSMS中的时间信息t（包含归一化轮次索引和是否与同一对话者交互的标志）生成一个时间感知的门控值ωtemp。该门控动态地将CTIU输出的Xtemp与HSMS中的历史特质向量Xold融合，得到更新后的说话人特质向量Xtrait。情感整合模块 (AIM)：将四个来源的特征——当前话语特征Xcur、自身历史Hself、对方历史Hother和更新后的说话人特质Xtrait——进行拼接，并通过一个可学习的门控机制为每个来源分配自适应权重，最后融合成最终表征Xout。分类器：对Xout进行前馈变换和归一化，最后通过softmax输出情感类别概率。设计动机：该架构的核心思想是结构化解耦。传统RNN/LSTM或图模型将自我延续和外部影响混在一个隐状态或图节点中。FIDIC则设计专门的路径（EI路径和EC路径）来分别处理它们，并引入说话人专属的长期记忆库（HSMS/EMCM），使得模型能够区分并学习不同个体在情绪惯性和易感性上的差异。 ...