APKD: Aligned And Paced Knowledge Distillation Towards Lightweight Heterogeneous Multimodal Emotion Recognition

📄 APKD: Aligned And Paced Knowledge Distillation Towards Lightweight Heterogeneous Multimodal Emotion Recognition #知识蒸馏 #情感识别 #多模态模型 #语音情感识别 #轻量化 ✅ 7.5/10 | 前25% | #情感识别 | #知识蒸馏 | #多模态模型 #语音情感识别 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yujian Sun(山东理工大学计算机科学学院) 通讯作者:Shanliang Yang(山东理工大学计算机科学学院,yangshanliang@sdut.edu.cn) 作者列表:Yujian Sun(山东理工大学计算机科学学院),Bingtian Qiao(福州大学莫纳什大学联合国际学院),Yiwen Wang(福州大学莫纳什大学联合国际学院),Shanliang Yang(山东理工大学计算机科学学院) 💡 毒舌点评 APKD框架的亮点在于其问题洞察力——指出异构蒸馏中“特征对齐”与“知识粒度调整”是深度耦合的,并用协同模块优雅地解决了这一矛盾。但短板也很明显:实验仅验证了预设的“大Transformer教师-CNN/MobileViT学生”这一种异构模式,对于其他类型的异构架构(如不同规模的Transformer)是否同样有效缺乏探索,结论的普适性有待加强。 📌 核心摘要 问题:在基于知识蒸馏的轻量级多模态情感识别中,教师与学生模型在架构和规模上的异质性导致两大耦合挑战:特征空间不匹配、不同模态教师的知识粒度差异大。 方法核心:提出APKD框架,包含两个协同工作的模块:结构特征对齐(SFA)模块和自适应知识节奏(AKP)模块。SFA通过标准化将异构特征映射到共享空间;AKP为每个模态引入可学习的节奏系数,动态调整教师知识分布的软硬程度。 创新点:首次明确将异构MER中的特征对齐与知识粒度调整作为耦合问题进行联合优化。AKP模块利用梯度反转层自适应学习每个模态的节奏系数,实现了“按需分配”知识。 主要实验结果:在CMU-MOSEI和IEMOCAP数据集上取得SOTA。一个仅2.73M参数的超轻量学生模型,准确率分别达到49.51%和73.96%,超越或持平于参数量大得多的现有方法。消融实验证实SFA和AKP模块均不可或缺。 实际意义:为将高性能的多模态情感识别模型部署到计算资源有限的边缘设备提供了有效的解决方案,推动了该技术在实际人机交互场景中的应用。 局限性:异质性定义主要基于“大模型教师与小CNN/MobileViT学生”这一范式。对其他异质性组合的普适性未验证。节奏系数τₘ的调整范围(1.0-20.0)是经验值,其理论选择依据未深入探讨。 🏗️ 模型架构 APKD框架的整体架构如图1所示。它遵循“大教师-小学生”的范式,旨在实现高效知识迁移。 输入与特征提取:多模态输入(音频、视频、文本)分别由异构的教师模型(SSAST、ViT-B/16、RoBERTa)和学生模型(LightSERNet、MobileViT v3、TextCNN)处理,提取各模态的特征向量(分类层前)。 结构特征对齐模块(SFA):对教师特征Fᵀᵐ和学生特征Fˢᵐ进行标准化处理,公式为:N(F) = (F - μ) / (σ + ε)。这一步将不同模态、不同模型的特征映射到均值为0、方差为1的共享标准空间,为后续知识比较奠定了基础。 自适应知识节奏模块(AKP):这是核心创新。它为每个模态m引入一个可学习的节奏系数τₘ。该系数通过一个基于梯度反转层(GRL)的调制过程生成:τₘ = τₘᵢₙ + (τₘₐₓ - τₘᵢₙ) * σ(GRL(θₘ, λ))。τₘ的值在[τₘᵢₙ, τₘₐₓ](设为[1.0, 20.0])范围内自适应调整。较高的τₘ会“软化”(平滑)教师知识分布(如文本模态),较低的τₘ会“硬化”(锐化)知识分布(如视听模态)。 蒸馏损失计算:对齐后的特征经softmax(·/τₘ)处理后,计算KL散度,并乘以τₘ²进行缩放,得到各模态的蒸馏损失Lₐₚₖᴰ,ᵐ。最终,总蒸馏损失为各模态损失之和。 优化与输出:总训练损失Lₜₒₜₐₗ = γLᶜˡˢ + αLₐₚₖᴰ,其中Lᶜˡˢ是学生分类损失。学生模型和AKP模块的参数在此损失下联合更新。最后由学生分类头输出情感预测。 💡 核心创新点 耦合问题识别:明确指出在异构多模态蒸馏中,特征空间对齐与知识粒度调整是相互依赖、不可分割的耦合问题。这是对现有方法将两者独立处理这一局限性的重要洞察。 协同框架设计:提出了APKD框架,其中SFA模块为AKP模块提供可比的特征基础,而AKP模块在此基础上对每个模态的知识进行个性化调整,两者协同工作,形成一个完整的蒸馏闭环。 自适应节奏调节机制:AKP模块通过引入受GRL调制的可学习系数τₘ,实现了对教师知识分布软硬程度的动态、模态自适应调整。这不同于固定的温度缩放,能根据训练过程和不同模态教师的特性(如文本教师分布过锐、视听教师分布相对平滑)自动优化知识粒度。 轻量高效模型验证:实验证明了一个仅2.73M参数的超轻量学生模型,通过APKD能有效从大型异构教师网络学习,并在标准基准上达到SOTA性能,验证了框架的实用性和高效性。 🔬 细节详述 训练数据: 数据集:CMU-MOSEI(23,453片段,65小时,6类情绪)和IEMOCAP(12小时,9,800样本,6类情绪)。 预处理:论文未详细说明具体预处理步骤。 数据增强:论文中未提及。 损失函数: 蒸馏损失:如上文公式(3)所示,为带节奏系数缩放的KL散度。权重α = 0.9。 分类损失:交叉熵损失Lᶜˡˢ。权重γ = 0.1。 训练策略: 优化器:AdamW。 学习率:IEMOCAP为5e-4,MOSEI为1e-5。 调度策略:余弦退火,衰减率为1e-2。 批大小:16。 训练轮数:50 epochs。 GRL超参数λ:遵循原工作自适应调度。 关键超参数: 节奏系数范围:τₘᵢₙ = 1.0, τₘₐₓ = 20.0。 数值稳定项ε = 1e-7。 学生模型总参数量:2.73M。 训练硬件:2块NVIDIA RTX 4090 GPU (2*24GB), 120GB RAM。 推理细节:论文未提及。 正则化/稳定训练技巧:使用了GRL防止系数调整过快;特征标准化增强稳定性。 📊 实验结果 表1:与SOTA方法在IEMOCAP和CMU-MOSEI数据集上的性能比较 ...

2026-04-29

DSSR: Decoupling Salient and Subtle Representations Under Missing Modalities for Multimodal Emotion Recognition

📄 DSSR: Decoupling Salient and Subtle Representations Under Missing Modalities for Multimodal Emotion Recognition #多模态模型 #情感识别 #对比学习 #鲁棒性 ✅ 7.5/10 | 前25% | #情感识别 | #对比学习 | #多模态模型 #鲁棒性 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Huan Zhao(湖南大学计算机科学与电子工程学院) 通讯作者:Yingxue Gao*(湖南大学计算机科学与电子工程学院) 作者列表:Huan Zhao(湖南大学计算机科学与电子工程学院)、Zhijie Yu(未说明)、Yong Wei(未说明)、Bo Li(未说明)、Yingxue Gao(湖南大学计算机科学与电子工程学院) 💡 毒舌点评 这篇论文最大的亮点在于其问题洞察和框架设计——将模糊的“模态缺失鲁棒性”问题,转化为对“显著”与“细微”情感表征的显式解耦与利用,MHDW机制对此提供了巧妙的工程实现。短板在于,其生成模块(GM)采用简单的1D卷积聚合可用模态信息来“补全”缺失模态,这一假设(缺失模态信息可由其他模态线性合成)可能过于理想,在更极端或语义不一致的缺失场景下其有效性值得怀疑,论文对此缺乏深入分析。 📌 核心摘要 问题:多模态情感识别(MER)在实际部署中常面临模态缺失问题(如传感器故障),导致关键情感信号(尤其是微妙线索)丢失或模糊。现有注意力方法易受主导但无关信号干扰,难以捕获细微但有辨别力的线索。 方法核心:提出DSSR(解耦显著与细微表征)两阶段框架。第一阶段,通过动态对比学习在完整模态数据上训练通用编码器,提取跨模态不变的“显著”情感表征。第二阶段,针对缺失模态场景,先利用轻量生成模块补全缺失模态特征;然后,将显著表征作为自适应提示,通过多头动态加权(MHDW)机制,在多个子空间中评估并选择性地增强各模态的“细微”情感表征。 创新点:相较于现有直接融合或恢复缺失模态的方法,DSSR首次将情感表征显式分解为“显著”和“细微”两部分,并设计了针对性的学习机制(动态对比学习提取显著表征,MHDW增强细微表征)来分别处理,框架设计新颖。 主要实验结果:在CMU-MOSI、CMU-MOSEI和IEMOCAP三个基准数据集的多种模态缺失场景(如仅声学、仅文本、缺两模态等)下,DSSR整体性能达到了SOTA。例如,在CMU-MOSI上,平均准确率/F1为75.86%/75.05%,优于次优方法P-RMF(76.71%/未提供)。消融实验证实,去除MHDW模块导致性能下降最大(如CMU-MOSI平均准确率下降2.82%)。 实际意义:该方法提高了MER系统在传感器故障、数据传输不完整等现实挑战下的可靠性,增强了其在人机交互、情感计算等应用中的实用性。 主要局限性:生成模块(GM)的补全能力依赖于其他模态的“线性聚合”假设,其对于复杂或语义冲突的缺失情况可能效果有限,论文未对此进行深入探讨和验证。 🏗️ 模型架构 DSSR是一个两阶段框架,其整体架构如图1所示。 DSSR整体架构图] (注:由于无法直接访问外部图片链接,此处根据论文描述和图1标识进行说明。图1展示了完整的两阶段流程。) 第一阶段:显著情感表征提取 输入:对于一段包含L个话语的对话,分别提取声学(a)、文本(t)、视觉(v)模态的特征 (X_m),投影到共享的d维空间得到 (H_m)。 组件:通用编码器 (E_g)(一个通用的序列编码器)。 流程:(H_m) 输入 (E_g),输出各模态的显著情感表征 (Z_m = E_g(H_m))。 关键机制:动态对比学习。该机制在训练时,首先保留预测置信度最高的前50%样本作为可靠子集,然后用指数移动平均(EMA)更新每个情感类别的原型向量 (c_j^m)。最终,通过一个动态对比损失(公式4)对齐样本表征与对应类别原型,同时拉远不同类别样本。损失函数中引入了置信度感知缩放因子 (\beta)(公式5),对距离原型近的样本强对齐,对距离远的样本弱调整。 目标:使 (E_g) 学习到跨模态、鲁棒的显著情感信号(如笑声-快乐、语调低沉-悲伤),即使在模态缺失场景下也能稳定提取。 第二阶段:细微情感表征强化 ...

2026-04-29

ICASSP 2026 - 情感识别 论文列表

ICASSP 2026 - 情感识别 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 APKD: Aligned And Paced Knowledge Distillation Towards Light 7.5分 前25% 🥈 DSSR: Decoupling Salient and Subtle Representations Under Mi 7.5分 前25% 📋 论文详情 🥇 APKD: Aligned And Paced Knowledge Distillation Towards Lightweight Heterogeneous Multimodal Emotion Recognition ✅ 7.5/10 | 前25% | #情感识别 | #知识蒸馏 | #多模态模型 #语音情感识别 👥 作者与机构 第一作者:Yujian Sun(山东理工大学计算机科学学院) 通讯作者:Shanliang Yang(山东理工大学计算机科学学院,yangshanliang@sdut.edu.cn) 作者列表:Yujian Sun(山东理工大学计算机科学学院),Bingtian Qiao(福州大学莫纳什大学联合国际学院),Yiwen Wang(福州大学莫纳什大学联合国际学院),Shanliang Yang(山东理工大学计算机科学学院) 💡 毒舌点评 ...

2026-04-29

Selective Hub Fusion with Modality-Heterogeneous Experts for Multimodal Emotion Recognition

📄 Selective Hub Fusion with Modality-Heterogeneous Experts for Multimodal Emotion Recognition #多模态模型 #混合专家 #跨模态 #情感识别 ✅ 6.5/10 | 前25% | #多模态模型 | #混合专家 | #跨模态 #情感识别 学术质量 8.0/7 | 选题价值 6.0/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Huan Zhao(湖南大学计算机科学与电子工程学院) 通讯作者:Kehan Wang(湖南大学计算机科学与电子工程学院,邮箱:wangkh@hnu.edu.cn) 作者列表:Huan Zhao(湖南大学计算机科学与电子工程学院),Ling Xiong(湖南大学计算机科学与电子工程学院),Kehan Wang(湖南大学计算机科学与电子工程学院) 💡 毒舌点评 这篇论文的“选择性Hub融合”机制确实巧妙地解决了直接跨模态注意力带来的计算冗余和噪声放大问题,像一个精准的路由器;但其“模态异质专家”的设计相对直观,主要差异在于使用1D卷积处理音频、2D卷积处理视觉,对于是否真正深刻捕捉了模态特异性情感模式的论证稍显薄弱,更像是一种工程上的有效组合而非理论洞察。 📌 核心摘要 要解决什么问题:现有方法在进行多模态情感识别时,直接融合音频和视觉模态会引入大量冗余和噪声(如环境噪音、背景运动),同时传统方法忽略了不同模态对情感识别的差异性贡献,导致单模态情感特征提取不足。 方法核心是什么:提出SH-MHMoE模型,包含两个核心模块:a) 选择性Hub中介融合(SHMF):引入少量(L=8)容量受限的Hub token作为中间枢纽,所有跨模态信息交换都必须经过这些Hub,通过路径约束过滤冗余信息。b) 多模态异构混合专家(MHMoE):为文本、音频、视觉分别设计结构不同的专家网络(MLP、1D卷积、2D卷积),并通过稀疏门控网络激活少量专家,以增强每个模态独特的情感表达能力。 与已有方法相比新在哪里:a) 相比直接跨模态注意力、特征拼接等融合方式,SHMF通过Hub token实现了更高效、低冗余的信息交换。b) 相比使用同质专家(如所有模态都用FFN)的MoE方法,MHMoE针对不同模态信号特点设计了异构专家,更符合归纳偏置。 主要实验结果如何:在CMU-MOSI数据集上,SH-MHMoE在ACC-2(88.2%)、F1(88.1%)上超越所有对比方法,MAE(0.691)最低;在CMU-MOSEI数据集上,Corr(0.798)、ACC-2(87.6%)、F1(87.5%)、ACC-7(56.1%)均为最佳,MAE(0.516)次佳。 关键实验对比表(CMU-MOSI): 模型 MAE ↓ Corr ACC-2% F1% MMA 0.693 0.803 86.4 86.4 Ours 0.691 0.797 88.2 88.1 关键实验对比表(CMU-MOSEI): 模型 MAE ↓ Corr ACC-2% F1% — — — — — AcFormer 0.531 0.786 86.5 85.8 Ours 0.516 0.798 87.6 87.5 消融实验(CMU-MOSEI):移除SHMF或MHMoE模块都会导致性能明显下降,验证了模块有效性。替换SHMF为其他融合方式或MHMoE为同构专家,性能均不如原设计。 实际意义是什么:为多模态情感识别提供了一个更鲁棒、高效的融合框架,能够抑制噪声并挖掘各模态特有情感信息,对提升人机交互、心理健康分析等应用的性能有直接帮助。 主要局限性是什么:论文未讨论模态缺失情况下的鲁棒性;Hub token的具体选择和更新机制还有优化空间;异构专家的设计更多是基于模态信号特性的直观工程选择,缺乏更深入的理论分析。 🏗️ 模型架构 整体架构(参考图1a):输入为文本(Xt)、音频(Xa)、视频(Xv)特征,首先通过一个选择性Hub中介融合(SHMF)模块进行跨模态信息交互,生成增强后的各模态特征(̂Xt, ̂Xa, ̂Xv)。然后,这些特征分别输入多模态异构混合专家(MHMoE)模块进行进一步的情感特异性增强。最后,将增强后的各模态特征与Hub token连接,送入分类器得到最终预测。 ...

2026-04-29