MCF: Text LLMS for Multimodal Emotional Causality
📄 MCF: Text LLMS for Multimodal Emotional Causality #情感分析 #多模态模型 #大语言模型 #数据集 🔥 8.0/10 | 前25% | #情感分析 | #多模态模型 | #大语言模型 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学) 通讯作者:Yichen Li(华中科技大学);Chong Li(西安交通大学-利物浦大学);Jionglong Su(西安交通大学-利物浦大学) 作者列表: Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学) Yuxuan Zhang(西安交通大学-利物浦大学) Rui Chen(西安交通大学-利物浦大学) Man Lei(西安交通大学-利物浦大学) Yibo Yuan(西安交通大学-利物浦大学) Xiwei Liu(穆罕默德·本·扎耶德人工智能大学) Runyi Lin(西安交通大学-利物浦大学) Tianrui Li(西安交通大学-利物浦大学) Mingze Jiang(西安交通大学-利物浦大学) Anyi Liu(西安交通大学-利物浦大学) Yichen Li(华中科技大学) Chong Li(西安交通大学-利物浦大学) Jionglong Su(西安交通大学-利物浦大学) 💡 毒舌点评 亮点在于其核心思想颇具巧思:与其让笨重的多模态模型学会复杂推理,不如让擅长推理的文本LLM通过一个精巧的“翻译框架”(MCF)来“看懂”和“听懂”视频音频,最终效果甚至超越了原生多模态巨头。短板则在于该框架极度依赖其专门发布的GENESIS数据集和特定组件(如DFER-CLIP, SenseVoice),在完全不同的文化背景、视频风格或对话场景下是否依然有效,是个巨大的问号,论文并未提供跨域泛化的证据。 ...