PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention

📄 PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention #多模态讽刺检测 #对比学习 #图神经网络 #多模态模型 #语音情感识别 🔥 8.0/10 | 前25% | #多模态讽刺检测 | #对比学习 | #图神经网络 #多模态模型 | arxiv 学术质量 6.2/7 | 选题价值 1.0/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Maoheng Li(澳门科技大学计算机科学与工程学院) 通讯作者:Ling Zhou(澳门科技大学计算机科学与工程学院),Xiaohua Huang(南京工程学院欧路学院) 作者列表: Maoheng Li(澳门科技大学计算机科学与工程学院) Ling Zhou(澳门科技大学计算机科学与工程学院) Xiaohua Huang(南京工程学院欧路学院) Rubing Huang(澳门科技大学计算机科学与工程学院,澳门科技大学珠海研究院) Wenming Zheng(东南大学儿童发展与学习科学教育部重点实验室,东南大学生物科学与医学工程学院) Guoying Zhao(芬兰奥卢大学机器视觉与信号分析中心) 💡 毒舌点评 这篇论文在针对讽刺检测任务的“矛盾建模”思路上做出了精巧的设计,极性调制注意力机制堪称“对症下药”,比简单拼接或计算相似性的方法高明不少。然而,其性能严重依赖于提供的连续情感值(Valence)标签进行冷启动,这在现实场景中往往是稀缺甚至不存在的监督信号,极大地限制了该模型的通用性和可迁移性。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及了以下数据集,但未提供具体下载链接。 MUStARD [3] MUStARD++ [22] MUStARD++ Balanced [37] Demo:论文中未提及 复现材料:论文提供了详细的实现细节,包括模型架构、超参数设置(如编码维度 d_enc=512,极性空间维度 d_p=16,图卷积层数 L_mac=2,上下文窗口 J=3 等)以及优化策略(两阶段优化、损失权重 λ_val=1.0, λ_cls=0.2, λ_con=0.8 等),这些信息构成了复现材料。但未提供预训练检查点或完整配置文件的直接链接。 论文中引用的开源项目: BERT:论文中使用了BERT-large模型。主要开源仓库:https://github.com/huggingface/transformers Wav2Vec 2.0:论文中使用了Wav2Vec 2.0-base模型。主要开源仓库:https://github.com/facebookresearch/wav2vec2 和 https://github.com/huggingface/transformers YOLOv8:论文中用于视觉目标检测。主要开源仓库:https://github.com/ultralytics/ultralytics CLIP:论文中使用了CLIP ViT-B/32模型。主要开源仓库:https://github.com/openai/CLIP 和 https://github.com/huggingface/transformers GPT-4o:作为基线模型被比较,但论文未提供其使用代码链接。 Llama 3-8B:作为基线模型被比较。主要开源仓库:https://github.com/meta-llama/llama Qwen 2-7B:作为基线模型被比较。主要开源仓库:https://github.com/QwenLM/Qwen2 论文中提到的其他基线模型(如ESAM [33])的代码,论文作者在文中提到“我们显式复现了最近的ESAM [33]模型”,但未提供具体链接。 补充信息 以下是对已有分析结果的补充,这些信息在原始全文中有明确陈述,但未在深度分析中得到体现。 ...

2026-05-05 · 更新于 2026-05-19 · 3 min · 464 words