Rationale-Guided Learning for Multimodal Emotion Recognition
📄 Rationale-Guided Learning for Multimodal Emotion Recognition #语音情感识别 #多模态模型 #对比学习 ✅ 7.0/10 | 前25% | #语音情感识别 | #对比学习 | #多模态模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Sujung Oh(Pixel Lab, Sungkyunkwan University, South Korea) 通讯作者:Jung Uk Kim*(Visual AI Lab, Kyung Hee University, South Korea) 作者列表:Sujung Oh(Pixel Lab, Sungkyunkwan University, South Korea),Jung Uk Kim(Visual AI Lab, Kyung Hee University, South Korea),Sangmin Lee(Pixel Lab, Korea University, South Korea) 💡 毒舌点评 亮点: 论文的核心设计思路巧妙,借鉴“双过程理论”将情感推理分解为“直觉、情境、整合”三个方面,并通过离线生成的推理依据库,在训练时引导模型内部表示向“类人推理”模式对齐,最终模型在推理时无需依赖庞大的多模态大模型(MLLM),兼顾了性能与效率。 短板: 这种“借鸡生蛋”的方式(依赖GPT-4o生成监督信号)略显取巧,模型的真正推理能力仍受限于离线生成的文本质量,且论文未能深入探讨或验证该框架在MLLM生成的推理依据存在偏差或错误时的鲁棒性。 ...