NeuroSIFT: A Biologically-Inspired Framework with Explicit Signal-Noise Separation for Robust Multimodal Emotion Recognition

📄 NeuroSIFT: A Biologically-Inspired Framework with Explicit Signal-Noise Separation for Robust Multimodal Emotion Recognition #多模态情感识别 #神经形态计算 #多任务学习 #鲁棒性 #跨模态 🔥 8.0/10 | 前25% | #多模态情感识别 | #神经形态计算 | #多任务学习 #鲁棒性 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Gang Xie(杭州电子科技大学计算机学院) 通讯作者:Wanzeng Kong(杭州电子科技大学计算机学院) 作者列表:Gang Xie(杭州电子科技大学计算机学院)、Jiajia Tang(杭州电子科技大学计算机学院)、Tianyang Qin(杭州电子科技大学计算机学院)、Yiwen Shen(杭州电子科技大学计算机学院)、Wanzeng Kong(杭州电子科技大学计算机学院) 💡 毒舌点评 这篇论文最亮眼的地方是它“仿生”不玩虚的,直接模仿海马体神经回路的选择性抑制机制来做信号分离,并在两个主流数据集上取得了显著的性能提升(如CH-SIMSv2上F1值提升5.44%),证明了思路的有效性。但短板也很明显:一是生物启发到计算模型的映射稍显简单化(如将复杂的神经元交互简化为两个门控信号),理论解释有待深化;二是全文未开源任何代码或模型,对于一篇强调“框架”和“复现”的论文来说,这严重削弱了其影响力。 📌 核心摘要 问题:现有多模态情感识别(MER)方法因无法显式分离真实世界中的复杂噪声(感知、结构、语义噪声)而性能下降,多依赖隐式的噪声适应策略。 方法核心:提出NeuroSIFT框架,受海马体-前额叶回路中SST+、PV+和VIP+中间神经元的选择性抑制机制启发。框架包含三个核心组件:语义模拟噪声生成器(生成与输入语义对齐的噪声参考)、神经回路选择性抑制模块(利用噪声参考显式分解输入为情感信号和结构化噪声)、双流对抗训练框架(分别处理并利用分解后的信号与噪声流)。 创新点:与已有方法相比,核心创新在于实现了显式的信号-噪声分离,而非隐式适应。具体创新包括:1) 基于批次负采样的语义噪声生成;2) 模仿生物神经抑制与去抑制的分离模块;3) 利用噪声流增强对抗鲁棒性的双流训练。 主要实验结果:在CH-SIMSv2和MUStARD数据集上全面超越现有SOTA方法。具体如下表所示: 数据集 方法 主要指标 CH-SIMSv2 NeuroSIFT (Ours) Acc-2: 89.13, F1-2: 89.14, Corr: 0.835 最佳基线 (Coupled Mamba) Acc-2: 83.40, F1-2: 83.50, Corr: 0.758 提升 +5.33% (Acc), +5.44% (F1) MUStARD NeuroSIFT (Ours) Acc: 77.68, F1: 77.51 最佳基线 (CAF-I) Acc: 75.50, F1: 75.20 提升 +1.95% (Acc), +2.12% (F1) 实际意义:为构建对真实世界噪声更鲁棒的多模态情感识别系统提供了一种新的生物启发设计范式,其“分离-再利用”的思路可能对其他多模态感知任务有借鉴意义。 主要局限性:1) 生物机制到算法的映射是高度简化的,可能未能完全捕捉真实神经回路的复杂性;2) 论文承认双流设计引入了计算开销;3) 未开源代码与模型,限制了可复现性。 🏗️ 模型架构 NeuroSIFT的整体架构如图1所示,其处理流程是:输入多模态数据(文本、音频、视频) -> 语义模拟噪声生成 -> 神经回路选择性抑制进行显式分解 -> 双流并行处理与对抗训练 -> 输出情感分类。 ...

2026-04-29