📄 Mixture-of-Experts Based Soft-Label Learning for Multi-Label Speech Emotion Recognition

#语音情感识别 #预训练 #模型评估

✅ 7.5/10 | 前25% | #语音情感识别 | #预训练 | #模型评估

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高

👥 作者与机构

第一作者：Yandi Zheng（天津师范大学计算机与信息工程学院）
通讯作者：Ziping Zhao（天津师范大学计算机与信息工程学院）
作者列表：Yandi Zheng（天津师范大学计算机与信息工程学院），Xinzhou Xu（南京邮电大学物联网学院，格拉茨理工大学信号处理与语音通信实验室）†，Ziping Zhao（天津师范大学计算机与信息工程学院），Björn Schuller（慕尼黑工业大学健康信息学系，伦敦帝国理工学院GLAM小组）

💡 毒舌点评

论文针对多标签语音情感识别这一具体痛点，提出了一个结合预训练模型与Mixture-of-Experts (MoE)架构的软标签学习方案，设计思路清晰，消融实验对各组件作用进行了验证。然而，论文的核心创新——将MoE应用于建模情感相关性——相对直接，且在缺乏代码和详细复现说明的情况下，其宣称的“SOTA”性能说服力会打折扣。

🔗 开源详情

代码：论文中未提及代码链接。数据处理脚本链接为 https://github.com/Moscar0601/process_audio。
模型权重：未提及是否公开训练好的模型权重。
数据集：所使用的MSP-IMPROV和IEMOCAP均为公开数据集，但论文未说明获取方式或是否对原始数据进行了额外处理。
Demo：未提供在线演示。
复现材料：提供了部分关键超参数和设置（如随机种子、批大小、优化器、关键维度），但缺少训练总时长、学习率调度、完整的实验代码、检查点等关键复现信息。
论文中引用的开源项目：主要依赖预训练的“wav2vec2-L-robust-12”模型，其来源在论文中已注明。

📌 核心摘要

这篇论文旨在解决多标签语音情感识别（SER）中现有方法（如多数投票法）会丢失情感共现相关性信息的问题。作者提出了一种基于Mixture-of-Experts（MoE）的软标签学习方法，该方法首先使用预训练的wav2vec 2.0和一个注意力池化层提取话语级语音表示，然后通过一个包含多个专家网络的MoE模块，并由一个门控机制动态分配各专家的权重，最终通过sigmoid函数和二元交叉熵（BCE）损失预测每个情感类别的存在概率。与现有使用硬标签或简单软标签的方法相比，本工作的创新在于利用MoE架构自适应地从多种情感类别组合中学习判别性信息。实验在MSP-IMPROV和IEMOCAP两个基准数据集上进行，结果显示，所提方法在宏观F1（maF1）、微观F1（miF1）和加权F1（weF1）指标上均优于现有的AR（全包容规则）和TSC（温度缩放校准）等方法。例如，在MSP-IMPROV数据集上，所提方法的maF1为0.481，优于次优的AR(CBCE)的0.461；在IEMOCAP数据集上，其maF1为0.421，优于次优的TSC(BCE)的0.401。该工作的实际意义在于为情感表达中普遍存在的歧义和主观性提供了更灵活的建模方式。主要局限性包括：未提供代码和模型权重以供复现；实验仅限于两个标准数据集，对方法在更复杂或真实场景下的泛化能力验证不足；模型性能可能对预训练骨干网络和专家数量等超参数较为敏感。

🏗️ 模型架构

论文提出的模型架构（如图1所示）主要包含两个模块：表示提取模块和混合专家（MoE）模块。架构概览

表示提取模块：输入为音频信号，首先使用预训练的“wav2vec2-L-robust-12”模型的前12层Transformer（冻结CNN层，可调Transformer层）提取帧级特征序列 X = [x₁, x₂, …, xₜ] ∈ ℝ^{D×T}。随后，一个注意力池化（AP）层将变长的帧级表示聚合为固定长度的话语级表示向量 r ∈ ℝ^{D×1}。其注意力权重计算公式为 αₜ = exp(w^T tanh(Wxₜ)) / Σₜ exp(w^T tanh(Wxₜ))，其中 W 和 w 是可学习参数。聚合后得到 r = Σₜ αₜxₜ。最后，通过一个包含线性层、批归一化、ReLU和dropout的多层感知机（MLP1）将 r 映射为最终表示 m = MLP₁(r) ∈ ℝ^{D×1}。
门控机制：表示 m 被输入到一个门控网络中，通过线性变换和softmax函数生成N维权重向量 β = softmax(W_g^T m + b_g) ∈ ℝ^{N×1}，其中 N 是专家数量。该向量 β 决定了每个专家网络的输出在最终预测中的贡献比例。
混合专家（MoE）模块：该模块包含 N 个独立的专家网络，每个专家 i 包含一个由 L 个“线性层-批归一化-ReLU-dropout”块组成的MLP2^(i)(·)，以及一个输出K维向量的全连接层（K为情感类别总数）。每个专家 i 处理输入 m 后生成一个情感向量 eᵢ ∈ ℝ^{K×1}。所有专家的输出组成矩阵 E = [e₁, e₂, …, e_N] ∈ ℝ^{K×N}。
最终预测与损失：模型的最终预测为 ŷ = sigmoid(Eβ) ∈ ℝ^{K×1}，这是一个K维向量，其每个元素表示对应情感类别存在的概率。训练使用二元交叉熵（BCE）损失函数，将多标签SER视为K个独立的二分类任务。软标签 y 是根据所有标注者的标注计算得出的各类别比例（公式5），并在训练前以阈值1/K二值化为多热向量以减少噪声。

💡 核心创新点

针对多标签SER的软标签学习框架：现有大多数SER工作通过多数规则（MR）或最高票规则（PR）将多标注者结果简化为单一硬标签，丢失了情感共现信息。本方法直接学习从多个标注中得出的软标签分布，更充分地利用了标注数据。
引入Mixture-of-Experts (MoE) 建模情感相关性：之前基于软标签的方法（如AR， TSC）虽处理软标签，但未显式建模不同情感类别间的复杂关系。本方法引入MoE架构，每个专家可以专注于学习特定情感组合的判别性特征，门控机制则根据输入语音自适应地加权组合各专家的判断，从而更好地捕捉情感间的相关性。
将注意力池化与MoE结合用于语音表示：相比简单的均值池化，注意力池化能学习对识别任务更关键的帧级特征进行加权聚合。论文通过消融实验证明，结合注意力池化和MoE能带来比单独使用任一组件或使用均值池化更好的性能。

🔬 细节详述

训练数据：
- 数据集1：MSP-IMPROV。包含8438个话语，由12名演员录制。每个话语至少有5名标注者，标注了10种情感类别（从5种主要情感和6种次要情感中移除“other”后得到）。采用6折会话无关交叉验证。
- 数据集2：IEMOCAP。包含10039个话语。每个话语至少有3名标注者，标注了9种情感类别（从10种中移除“other”后得到）。采用5折会话无关交叉验证。
- 预处理：音频重采样至16kHz。所有话语被分割为7秒的样本（末尾零填充），以统一输入维度（T=349， D=1024）。
- 数据增强：论文中未提及使用任何数据增强技术。
损失函数：使用标准的二元交叉熵（BCE）损失（公式6），针对每个情感类别独立计算，然后求和。在计算损失前，根据软标签生成的多热向量使用了阈值1/K进行二值化。
训练策略：
- 优化器：Adam。
- 学习率：从{1e-5, 5e-5, 1e-4, 5e-4, 1e-3, 5e-3}中选择最佳值。
- 批大小：32。
- 训练轮数：论文未明确给出总训练轮数，但提到在交叉验证中记录10个epoch内的最佳maF1作为最终结果。
- 调度策略：论文中未提及学习率调度策略。
关键超参数：
- 骨干网络：“wav2vec2-L-robust-12”，仅使用前12层Transformer。
- 注意力池化隐藏维度（Da）：256（默认），消融实验中测试了128， 256， 512。
- 专家数量（N）：在MSP-IMPROV和IEMOCAP数据集上分别设置为10和9（等于各自情感类别总数K）。消融实验测试了K-3和K+3的情况。
- 专家网络MLP层数（L）：2（默认），消融实验测试了1和3的情况。
- Dropout率：0.3（用于专家网络MLP）。
- 随机种子：固定为28。
训练硬件：NVIDIA RTX A6000 GPU。论文中未提及训练时长。
推理细节：推理时，输入语音经过模型直接输出一个K维概率向量 ŷ。论文未提及使用任何特殊的解码策略（如温度、beam search）。
正则化或稳定训练技巧：在专家网络和MLP1中使用了dropout层（率0.3）。使用了批归一化（Batch Normalization）。

📊 实验结果

论文在MSP-IMPROV和IEMOCAP两个数据集上，与多种先进的基线方法进行了对比。主要评估指标为宏观F1（maF1）、微观F1（miF1）和加权F1（weF1）。

表1：所提方法与现有方法在两个数据集上的主要性能对比

方法	MSP-IMPROV maF1	MSP-IMPROV miF1	MSP-IMPROV weF1	IEMOCAP maF1	IEMOCAP miF1	IEMOCAP weF1
AR (w/ CE)	0.456	0.613	0.616	0.381	0.569	0.568
AR (w/ KLD)	0.457	0.618	0.621	0.382	0.572	0.570
AR (w/ CBCE)	0.461	0.620	0.620	0.381	0.569	0.566
TSC (w/ BCE)	0.454	0.587	0.614	0.401	0.545	0.573
TSC (w/ CBL)	0.455	0.584	0.617	0.398	0.559	0.574
Proposed	0.481	0.622	0.634	0.421	0.590	0.593

从表1可以看出，所提方法在两个数据集的所有三个F1指标上均取得了最佳性能。例如，在更具挑战性的IEMOCAP数据集上，所提方法的maF1（0.421）相比次优的TSC(BCE)（0.401）提升了2个百分点，miF1（0.590）相比次优的AR(KLD)（0.572）提升了1.8个百分点。

消融实验：

池化层与MoE模块的影响（表2）：

池化方式	是否使用MoE	MSP-IMPROV maF1	MSP-IMPROV miF1	IEMOCAP maF1	IEMOCAP miF1
Mean	×	0.454	0.587	0.401	0.545
AP (Da=256)	×	0.457	0.593	0.406	0.555
Mean	√	0.478	0.604	0.409	0.554
AP (Da=128)	√	0.473	0.620	0.421	0.583
AP (Da=256)	√	0.481	0.622	0.421	0.590
AP (Da=512)	√	0.480	0.619	0.416	0.584
实验表明，加入MoE模块能显著提升性能；在相同池化方式下，AP相比Mean池化效果更好；AP的隐藏维度Da=256是较优选择。

专家数量N的影响（表3）：在两个数据集上，增加专家数量（从K-3到K+3）通常能带来微小的性能提升，但收益递减。
专家网络层数L的影响（表4）：专家MLP的深度（L）对性能有影响，最佳值可能因数据集而异（MSP-IMPROV上L=3略优，IEMOCAP上L=1或2略优）。

图表分析： Top-k UAR性能对比图2 展示了所提方法与最强基线在不同k值下的“Top-k UAR”（取最佳召回率的k个类别的平均召回率）。图中显示，所提方法在不同的k值下（从k=1到k=9）均保持稳定且优于基线的性能，这表明该方法在不同数量的情感类别上都能取得较好的识别效果，性能更稳定。

⚖️ 评分理由

学术质量：6.0/7 - 论文有明确的创新点（将MoE引入多标签软标签SER），方法设计合理，技术细节清晰。实验设计完整，包含了与多个SOTA方法的对比以及对关键组件（池化、MoE、超参数）的充分消融研究，结果具有统计说服力。不足之处在于核心思想（MoE用于特征组合）并非独创，且缺乏对模型内部机制（如各专家学到了什么）的深入可视化分析。
选题价值：1.5/2 - 多标签语音情感识别是SER领域一个实际且重要的问题，旨在解决情感歧义性。本文的选题针对了现有方法的痛点（信息丢失），具有明确的实用价值和一定的前沿性。分数未给满分是因为该任务本身在SER中仍属较垂直的研究方向。
开源与复现加成：0.0/1 - 论文未提供代码仓库链接。虽然文中提到了预训练模型来源（HuggingFace）和数据处理脚本的GitHub链接（https://github.com/Moscar0601/process_audio），但未提及模型权重是否公开，也未提供完整的训练配置、检查点或附录来确保结果可复现。关键信息如确切的训练轮数、学习率调度策略、每个数据集训练耗时等均未说明，这严重影响了复现的便利性。

← 返回 ICASSP 2026 论文分析

📄 Mixture-of-Experts Based Soft-Label Learning for Multi-Label Speech Emotion Recognition#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文