Modeling Both Intra- And Inter-Utterance Variability for Conversational Emotion Recognition
📄 Modeling Both Intra- And Inter-Utterance Variability for Conversational Emotion Recognition #语音情感识别 #图神经网络 #大语言模型 #多模态模型 #零样本 ✅ 6.5/10 | 前25% | #语音情感识别 | #图神经网络 | #大语言模型 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yumeng Fu(哈尔滨工业大学计算机科学与技术学院) 通讯作者:Bingquan Liu(哈尔滨工业大学计算机科学与技术学院) 作者列表:Yumeng Fu¹, Shouduo Shang¹, Junjie Wu², Meishan Zhang³, Bingquan Liu¹* ¹ 哈尔滨工业大学计算机科学与技术学院,哈尔滨,中国 ² 苏州大学计算机科学与技术学院,苏州,中国 ³ 哈尔滨工业大学计算机科学与技术学院,深圳,中国 💡 毒舌点评 亮点在于其将语音的“动态”信息(内部变异性和结构关系)显式编码为图,并设计适配器注入LLM,这比简单地将音频特征拼接或文本化要更精巧。短板是语音特征提取严重依赖另一个闭源或大型商用大模型(Qwen2-Audio),而非端到端学习,这在实用性和可复现性上打了折扣,且论文对提取的语音特征本身的准确性和鲁棒性缺乏验证。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:未提及公开训练好的MM-VLN模型权重。 数据集:使用了公开的IEMOCAP和MELD数据集,论文未说明如何获取或处理,但数据集本身是公开的。 Demo:未提供在线演示。 复现材料:提供了主要的实验设置(数据集、基础模型、LoRA、部分超参数),但关键细节如损失函数、图GAT的隐藏层维度、适配器的具体结构参数、完整的训练配置等缺失,完整复现存在困难。 论文中引用的开源项目:主要引用了LoRA、RoBERTa、BLIP-2等作为方法组件或灵感来源。核心依赖的预训练模型包括Llama3-8B、Qwen2.5-7B、Qwen2-Audio-7B-Instruct、RoBERTa和DSM话语解析模型,但这些均为第三方模型,并非本文开源。 📌 核心摘要 问题:现有基于LLM的对话情绪识别(ERC)方法主要关注文本,忽略了语音中丰富的声学特征(如音调、语速)以及对话本身的结构信息。 方法:提出多模态变异性学习网络(MM-VLN)。首先,利用一个大语言模型(Qwen2-Audio-7B-Instruct)提取每句话的内部语音变异性(音调、语速等)。其次,使用话语解析模型获取对话的句间依赖结构。然后,将语音变异性信息作为节点、对话结构作为边构建图,使用图注意力网络(GAT)进行编码。最后,通过一个跨注意力适配器将GAT的输出投影为“图令牌”,与文本嵌入拼接后输入LLM(Llama3-8B/Qwen2.5-7B)进行情绪预测。 创新点:首次将对话的语音结构信息(内部变异性和句间关系)通过图神经网络显式建模,并通过适配器无缝对接到LLM的表示空间,作为辅助任务增强情绪理解。 实验结果:在IEMOCAP和MELD两个数据集上,MM-VLN(使用Llama3-8B)分别达到了72.05%和70.58%的加权F1分数,相比强基线(使用SpeechCueLLM提取的语音描述进行微调)提升了1.84%和3.15%。消融实验表明,去除内部或句间语音变异性都会导致性能下降,证明两者互补。在零样本场景下,加入语音变异性信息也能提升多个LLM的性能。 实际意义:为多模态大语言模型如何有效整合非文本模态的结构化信息提供了新思路,有望提升人机交互中的情感理解能力。 主要局限性:语音特征提取依赖外部大模型,引入额外计算开销和潜在误差;图结构依赖预训练的话语解析模型,其准确性会影响最终效果;论文未公开代码,且损失函数等细节缺失。 🏗️ 模型架构 ...