分层Transformer

📄 Speech Emotion Recognition based on Hierarchical Transformer with Shifted Windows #语音情感识别 #分层Transformer #预训练 #对比学习 #音频分类 🔥 8.0/10 | 前25% | #语音情感识别 | #分层Transformer | #预训练 #对比学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：张文浩 (Wenhao Zhang)（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院））通讯作者：张鹏 (Peng Zhang)*（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院））作者列表：张文浩（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院）），张鹏（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院）），赵伟（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院）），王富强（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院）），李烨（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院）），吴晓明（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院）） 💡 毒舌点评这篇论文将图像领域的Swin Transformer思路迁移到语音情感识别，构建了一个从帧级到语句级的清晰分层建模框架，思路系统且有效。然而，其核心组件（如滑动窗口注意力）创新性相对有限，更像是对成熟技术的精巧组合与适配；此外，在MELD等数据集上对少数类（如“恐惧”和“厌恶”）的识别瓶颈并未得到根本解决，说明模型对数据不平衡的鲁棒性仍有提升空间。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/AY549/HTSW-for-SER。模型权重：论文中未提及是否公开模型权重。数据集：使用了公开数据集（IEMOCAP, MELD, CASIA），但论文未涉及数据集的公开或分发工作。 Demo：论文中未提及提供在线演示。复现材料：论文详细给出了模型的层数、窗口大小、学习率、优化器、训练轮数等关键训练细节和超参数，复现信息较为充分。论文中引用的开源项目：主要依赖预训练模型WavLM（论文中引用了相关文献[13]）。 📌 核心摘要要解决的问题：传统基于全局自注意力机制的Transformer在语音情感识别中弱化了局部情感特征的表示能力，而语音信号丰富的时序动态对分层建模提出了挑战。方法核心：提出一种基于移位窗口的分层Transformer模型（HTSW）。该模型首先使用预训练WavLM提取特征，然后通过三个阶段的移位窗口Transformer和块合并操作，实现从帧级到语句级的多尺度特征学习；最后在顶层使用全局注意力机制整合全局上下文信息，完成情感分类。与已有方法相比新在哪里：相较于传统Transformer，该方法引入了层次化、多尺度的局部窗口注意力机制，能更有效地捕捉语音中不同时间粒度（音素、词、短语）的情感特征。其设计的滑动重叠窗口和块合并下采样策略，在保持计算效率的同时，促进了特征层级间的交互与融合。主要实验结果： IEMOCAP (5-fold)：WAR 73.3%, UAR 74.6%，优于表1中所有对比方法（如DST: 71.8%/73.6%）。 MELD：WF1 48.2%，与最佳对比方法（ENT: 73.9% UAR）相当或略低，论文指出类别不平衡是主要挑战。 CASIA (leave-one-speaker-out)：WAR和UAR均为66.7%，显著优于表2中所有对比方法（如SpeechSwin-TF: 54.3%）。消融实验 (Table 3)：在IEMOCAP和MELD上，所提HTSW方法（WAR 73.3%/WF1 48.2%）显著优于固定窗口Transformer（69.4%/44.2%）和稀疏窗口注意力（70.1%/45.7%）。实际意义：该工作为语音情感识别提供了一种高效且性能优越的建模框架，特别是在处理长语音序列时，其分层结构能有效降低计算复杂度，对实际应用（如客服情感分析、人机交互）具有参考价值。主要局限性：模型在极端类别不平衡的数据集（如MELD）上，对少数类情感的识别能力仍然有限。所采用的窗口大小为固定值，缺乏自适应调整机制以更灵活地匹配不同情感动态。 🏗️ 模型架构模型的整体输入是原始语音，输出是情感类别概率。 ...