超图网络 | 语音/音频论文速递

📄 ADH-VA: Adaptive Directed-Hypergraph Convolution with VA Contrastive Learning for Multimodal Conversational Emotion Recognition #语音情感识别 #多模态模型 #超图网络 #对比学习 ✅ 7.5/10 | 前10% | #语音情感识别 | #超图网络 | #多模态模型 #对比学习学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Ziqi Shu1,†, Rongzhou Zhou1,† (†表示共同第一作者) 通讯作者：Qingfeng Wu1,⋆ (⋆表示通讯作者) 作者列表：Ziqi Shu（厦门大学电影学院）、Rongzhou Zhou（厦门大学电影学院）、Xiaodong Wang（厦门大学电影学院）、Qingfeng Wu（厦门大学电影学院）、Lu Cao（厦门大学） 💡 毒舌点评本文巧妙地将有向超图的结构优势（建模高阶交互）与因果信息流约束（防止信息泄露）相结合，并在效价-唤醒度连续维度空间进行对比学习以精炼特征，整体框架设计颇具巧思。然而，其核心VA对比学习依赖外部预训练模型（如RoBERTa, EmoFAN, Wav2Vec2）提供监督信号，这不仅可能引入领域偏差，也意味着模型的性能部分受制于这些外部工具的精度。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用公开数据集IEMOCAP和MELD，但论文未说明具体的获取或预处理脚本。 Demo：未提供在线演示。复现材料：论文提供了方法的详细数学描述和架构图，但未提供训练细节（如超参数配置文件、随机种子）、模型检查点或附录补充材料。论文中引用的开源项目：引用了多个作为基线和组件的开源工作，如RoBERTa-base， EmoFAN， Wav2Vec2-Large-Robust等，但未说明是否使用了这些项目的官方实现。总结：论文中未提及任何开源计划。 📌 核心摘要要解决的问题：多模态对话情感识别面临跨模态异质性、情感线索不一致以及强上下文/说话人依赖性等挑战。现有图或Transformer方法在建模高阶交互、保持时间因果性和避免冗余/过平滑方面存在不足。方法核心：提出ADH-VA框架，包含两大核心组件：(1) 基于效价-唤醒度（VA）的对比学习目标，用于在嵌入空间对齐和精炼单模态特征；(2) 自适应有向超图卷积（ADHConv），用于建模对话内的高阶模态内/间依赖关系，并通过有向边强制信息按时间因果流动。与已有方法相比新在哪里：a) 首次将有向超图引入该任务，结合了超图的高阶建模能力和有向图的因果约束；b) ADHConv具有自适应加权机制，能动态调整超边和节点权重以抑制冗余和过平滑；c) 将VA连续维度空间作为对比学习的监督信号，为无监督对比学习提供了有意义的情感先验。主要实验结果：在两个基准数据集IEMOCAP和MELD上，ADH-VA均取得了最优性能。例如，在IEMOCAP上达到74.71%准确率和74.85%加权F1，超越此前最佳方法SDT；在MELD上达到69.33%准确率和67.91%加权F1，超越此前最佳方法HAUCL。消融实验表明，有向性、自适应加权和VA对比学习模块均对性能有显著贡献。实际意义：该工作为多模态对话情感识别提供了新的强基线模型，其方法思想（有向高阶图建模、情感空间对比学习）可推广至其他需要建模序列依赖和多源信息融合的任务。主要局限性：超图构建在长对话和多人对话中计算开销可能较大；对外部VA估计器的依赖可能导致领域迁移时的偏差；在嘈杂条件下视觉线索的利用仍不充分。 🏗️ 模型架构 ADH-VA的整体架构如图1所示，主要包含四个阶段：数据预处理、VA驱动的对比学习、自适应有向超图卷积和分类器。 ...