多模态讽刺检测

📄 PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention #多模态讽刺检测 #对比学习 #图神经网络 #多模态模型 #语音情感识别 🔥 8.0/10 | 前25% | #多模态讽刺检测 | #对比学习 | #图神经网络 #多模态模型 | arxiv 学术质量 6.2/7 | 选题价值 1.0/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Maoheng Li（澳门科技大学计算机科学与工程学院）通讯作者：Ling Zhou（澳门科技大学计算机科学与工程学院），Xiaohua Huang（南京工程学院欧路学院）作者列表： Maoheng Li（澳门科技大学计算机科学与工程学院） Ling Zhou（澳门科技大学计算机科学与工程学院） Xiaohua Huang（南京工程学院欧路学院） Rubing Huang（澳门科技大学计算机科学与工程学院，澳门科技大学珠海研究院） Wenming Zheng（东南大学儿童发展与学习科学教育部重点实验室，东南大学生物科学与医学工程学院） Guoying Zhao（芬兰奥卢大学机器视觉与信号分析中心） 💡 毒舌点评这篇论文在针对讽刺检测任务的“矛盾建模”思路上做出了精巧的设计，极性调制注意力机制堪称“对症下药”，比简单拼接或计算相似性的方法高明不少。然而，其性能严重依赖于提供的连续情感值（Valence）标签进行冷启动，这在现实场景中往往是稀缺甚至不存在的监督信号，极大地限制了该模型的通用性和可迁移性。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中提及了以下数据集，但未提供具体下载链接。 MUStARD [3] MUStARD++ [22] MUStARD++ Balanced [37] Demo：论文中未提及复现材料：论文提供了详细的实现细节，包括模型架构、超参数设置（如编码维度 d_enc=512，极性空间维度 d_p=16，图卷积层数 L_mac=2，上下文窗口 J=3 等）以及优化策略（两阶段优化、损失权重 λ_val=1.0， λ_cls=0.2， λ_con=0.8 等），这些信息构成了复现材料。但未提供预训练检查点或完整配置文件的直接链接。论文中引用的开源项目： BERT：论文中使用了BERT-large模型。主要开源仓库：https://github.com/huggingface/transformers Wav2Vec 2.0：论文中使用了Wav2Vec 2.0-base模型。主要开源仓库：https://github.com/facebookresearch/wav2vec2 和 https://github.com/huggingface/transformers YOLOv8：论文中用于视觉目标检测。主要开源仓库：https://github.com/ultralytics/ultralytics CLIP：论文中使用了CLIP ViT-B/32模型。主要开源仓库：https://github.com/openai/CLIP 和 https://github.com/huggingface/transformers GPT-4o：作为基线模型被比较，但论文未提供其使用代码链接。 Llama 3-8B：作为基线模型被比较。主要开源仓库：https://github.com/meta-llama/llama Qwen 2-7B：作为基线模型被比较。主要开源仓库：https://github.com/QwenLM/Qwen2 论文中提到的其他基线模型（如ESAM [33]）的代码，论文作者在文中提到“我们显式复现了最近的ESAM [33]模型”，但未提供具体链接。补充信息以下是对已有分析结果的补充，这些信息在原始全文中有明确陈述，但未在深度分析中得到体现。 ...