Ordering Matters: Rank-Aware Selective Fusion for Blended Emotion Recognition

📄 Ordering Matters: Rank-Aware Selective Fusion for Blended Emotion Recognition #多模态情感识别 #多编码器融合 #注意力机制 #领域适应 #竞赛系统 📝 5.0/10 | 后50% | #多模态情感识别 | #多编码器融合 | #注意力机制 #领域适应 | arxiv 学术质量 4.3/7 | 影响力 0.5/2 | 可复现性 0.2/2 | 置信度 中 👥 作者与机构 第一作者:Junghyun Lee (梨花女子大学 人工智能与软件系) 通讯作者:Junhyug Noh (梨花女子大学 人工智能与软件系) 作者列表:Junghyun Lee, Hyunseo Kim, Hanna Jang, Junhyug Noh (均来自梨花女子大学 人工智能与软件系) 💡 毒舌点评 这篇论文提供了一个在特定竞赛(BlEmoRE)中取得第二名的完整系统方案,展示了如何将大量异构预训练编码器通过一个统一的框架进行整合。其核心是将多编码器融合问题重新定义为动态排序与选择问题,这一视角具有一定的启发性。然而,论文的贡献高度局限于竞赛场景,其“创新”更多是现有技术(注意力门控、top-n选择、双头预测、领域对抗)的有效组合与超参数调优,缺乏对选择机制本身的深入理论分析或更广泛的实验验证。论文更像一份高质量的竞赛技术报告,而非一篇推动领域认知的学术研究。 📌 核心摘要 本文针对混合情绪识别(即多种情绪以不同强度共存)任务,提出了一种排序感知的多编码器选择性融合框架。该方法的核心是动态估计每个样本中不同编码器的重要性,仅融合最重要的top-n个编码器特征,以更好地捕获互补信息。与已有方法相比,其新意在于:1) 将多编码器融合问题明确表述为排序选择问题;2) 设计了针对情绪存在(presence)和显著性(salience)的双头预测与概率级对齐机制;3) 引入无伪标签的特征级领域对抗适应(UDA)。在BlEmoRE挑战赛数据上,该方法超越了强基线模型,最终系统排名第二,证明了排序感知选择的有效性。主要局限是实验仅在一个特定竞赛数据集上验证,且方法本质是工程组合而非理论突破。 主要实验结果(来自论文Table I): 方法 编码器设置 UDA Top-n 验证集 ACC_pres 验证集 ACC_sal 测试集 ACC_pres 测试集 ACC_sal 测试集 ACC_avg Baseline ImageBind – – 0.290±0.028 0.130±0.008 0.261 0.087 0.174 Baseline ImageBind + WavLM – – 0.345±0.035 0.170±0.055 0.327 0.114 0.221 Baseline HiCMAE – – 0.298±0.025 0.180±0.036 0.268 0.180 0.224 Baseline Trivial (single emotion) – – 0.077±0.005 0.000±0.000 0.074 0.000 0.037 Baseline Trivial (blend) – – 0.056±0.005 0.035±0.003 0.056 0.033 0.044 Ours HiCMAE + 22 video + 13 audio encoders ✗ ✗ 0.402±0.021 0.221±0.035 0.428 0.168 0.298 Ours HiCMAE + 22 video + 13 audio encoders ✓ ✗ 0.442±0.021 0.221±0.035 0.450 0.165 0.307 Ours HiCMAE + 22 video + 13 audio encoders ✓ ✓ 0.434±0.021 0.212±0.049 0.423 0.201 0.312 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文主要使用 BlEmoRE 挑战赛数据集,但未提供直接下载地址或开源协议信息。 Demo:论文中未提及。 复现材料:论文在附录B和C中提供了部分复现细节,包括:特征提取流水线描述、36个编码器池列表(Table III)、主要超参数设置(表IV)、不同 top-n 选择下的交叉验证性能(表V)、编码器选择频率及重要性分析图(图4-6)。但未提供具体的训练脚本、代码或模型检查点。 论文中引用的开源项目:论文在相关工作及附录B中提及了大量作为特征提取骨干的开源模型,包括:CLAP, CLIP, DINOv2, DINOv3, EVA系列, SigLIP2系列, VideoMAE v2, Video Swin Transformer, InternVL3.5系列, OpenFace 2.0/3.0, WavLM Large, emotion2vec系列, wav2vec2系列, HuBERT Large, Whisper v3, ImageBind, HiCMAE, Gradient Reversal Layer。但未在文中提供具体链接。 🏗️ 方法概述和架构 图1展示了所提出的排名感知多编码器选择性融合框架的整体流程。该框架接收来自一个包含36个预提取编码器(22个视频、13个音频、1个多模态)的异构特征池,旨在动态选择并融合最相关的编码器特征以预测混合情绪。整个系统可以分解为五个核心组件,数据按顺序流动: ...

2026-05-21 · 更新于 2026-06-12 · 4 min · 644 words