📄 Whisper-QF: Leveraging Dual Cross-Attention Q-Former for Speech Emotion Recognition With Multi-Task Learning

#语音情感识别 #多任务学习 #语音大模型 #Q-Former

7.5/10 | 前25% | #语音情感识别 | #多任务学习 | #语音大模型 #Q-Former

学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Ziyang Zhuang(平安科技,Ping An Technology)
  • 通讯作者:未说明
  • 作者列表:Ziyang Zhuang(平安科技)、Tao Wei(平安科技)、Yan Shi(平安科技)、Shaojun Wang(平安科技)、Jing Xiao(平安科技)

💡 毒舌点评

本文亮点在于设计了双交叉注意力Q-Former,巧妙且高效地桥接了Whisper编码器的声学特征与解码器的语义状态,在IEMOCAP上刷新了SOTA,证明了这种“适配器”设计的威力。但短板在于,它本质上是对Whisper现有架构的增强与适配,并未探索情感识别本身更深层的建模范式变革,且研究高度依赖单一数据集,结论的泛化性有待更多场景验证。

📌 核心摘要

  1. 问题:如何有效利用大规模预训练语音基础模型(如Whisper)的编码器-解码器架构,来提升语音情感识别(SER)的性能,同时克服���有方法在融合声学与语义信息上的局限。
  2. 方法:提出Whisper-QF框架,其核心是一个双交叉注意力Q-Former(DualCA-QF)模块。该模块包含两个交叉注意力层:第一层将可学习的查询向量与Whisper编码器的声学特征对齐;第二层将同一查询向量与Whisper解码器的语义状态对齐。同时,通过不确定性加权进行多任务学习,联合优化SER、性别分类(GR)和自动语音识别(ASR)任务。
  3. 创新:与先前方法(如序列化多任务学习的Whisper-ER)相比,DualCA-QF允许声学和语义信息在Q-Former内部并行、双向流动,而非序列依赖。查询嵌入从Whisper预训练词嵌入中初始化,使任务与基础模型的语义空间对齐。多任务学习策略提供了更丰富的监督信号。
  4. 结果:在IEMOCAP数据集上,基于Whisper-large-v3的Whisper-QF达到81.5%加权准确率(WA)和81.8%未加权准确率(UA),显著超越Whisper-ER等基线。同时,ASR词错误率(WER)从Whisper-ER的17.8%降至11.1%。消融实验表明,移除解码器感知交叉注意力使中性情绪的误分类减少23%。主要结果对比如下:
模型参数量SER WASER UAGR AccASR WER
Whisper-ER large-v31.54B78.7%79.4%99.4%17.8%
Whisper-QF large-v31.57B81.5%81.8%99.6%11.1%
  1. 意义:验证了通过轻量级、架构感知的适配模块(如Q-Former),可以高效地挖掘大规模语音基础模型在情感理解等复杂任务上的潜力,为预训练模型在语音领域的迁移学习提供了新思路。
  2. 局限:研究仅在IEMOCAP(英语、情感类别有限)一个数据集上进行验证,模型的跨语言、跨数据集泛化能力未被评估。此外,框架的效能高度依赖于Whisper本身的能力和质量。

🏗️ 模型架构

Whisper-QF的整体架构如图1所示,主要由三个部分组成:原始的Whisper模型、双交叉注意力Q-Former(DualCA-QF)以及不确定性加权的多任务学习框架。

图1: Whisper-QF模型架构

  1. Whisper基础模型:采用预训练的Whisper编码器-解码器。编码器将原始语音波形通过卷积层和GeLU激活转换为高级声学特征向量序列 x(h)。解码器利用语言标记、任务标记和时间戳标记(见表1),结合编码器输出,通过自回归方式生成语义状态序列 y(h),其中包含了丰富的语义信息。

  2. 双交叉注意力Q-Former (DualCA-QF):这是本文的核心模块,设计为一个轻量级的Transformer层,负责融合声学与语义信息。

    • 查询嵌入初始化:定义两个可学习查询向量:情绪查询 q_emo ∈ R^{1×d} 和性别查询 q_gen ∈ R^{1×d}。为了与Whisper的语义空间对齐,它们从Whisper预训练的词嵌入矩阵中初始化,分别对应情绪标签和性别标签的平均词嵌入。
    • 声学-语义感知注意力:
      • 两个查询向量拼接后首先经过一个多头自注意力(MHSA) 模块,让情绪和性别查询之间相互交互。
      • 随后进入第一个编码器感知的多头交叉注意力(MHCA) 模块,让查询向量 q(h) 关注Whisper编码器的声学特征 x(h),以捕获声学线索。
      • 接着进入第二个解码器感知的多头交叉注意力(MHCA) 模块,让同一查询向量 q(h) 关注Whisper解码器的语义状态 y(h),以捕获语言语义线索。
      • 经过残差连接、层归一化和前馈网络后,输出最终的情绪和性别查询隐藏向量。该模块的参数初始化自Whisper解码器的第一层。
  3. 多任务学习与解码:

    • 情绪/性别分类:将DualCA-QF输出的情绪/性别查询向量分别通过各自的投影层(W_emo, b_emo; W_gen, b_gen)和Softmax函数,得到概率分布,用于计算交叉熵损失 L_SER 和 L_GR。
    • 语音识别(ASR):直接利用Whisper解码器原有的输出,通过其内置的投影层(W_ASR, b_ASR)预测下一个token,计算交叉熵损失 L_ASR。
    • 不确定性加权总损失:使用可学习的不确定性参数 σ_1, σ_2, σ_3 对三个任务的损失进行加权,总损失 L_total 由公式(14)定义。这能自适应地平衡不同任务的贡献,防止单一任务主导训练。

数据流:语音输入 → Whisper编码器 → 声学特征 x(h);文本输入(或teacher forcing) → Whisper解码器 → 语义状态 y(h)。x(h)和y(h)同时作为DualCA-QF两个交叉注意力层的键值对输入。查询向量通过DualCA-QF融合两者信息,最终用于情绪、性别分类,而Whisper解码器本身继续用于ASR任务。

💡 核心创新点

  1. 双交叉注意力Q-Former (DualCA-QF):这是最核心的架构创新。之前的方法要么只利用Whisper编码器(声学),要么通过序列化方式利用解码器(语义),无法实现深度融合。DualCA-QF通过两个并行的交叉注意力层,让同一组查询向量同时、显式地“倾听”编码器的声学细节和解码器的语义摘要,实现了更紧密的跨模态信息融合。
  2. 基于预训练词嵌入的查询初始化:将情绪和性别查询向量初始化为Whisper词表中对应标签的平均词嵌入。这一设计将下游任务的查询向量直接锚定到基础模型已有的语义空间中,使得查询从一开始就与相关概念(如“快乐”)在表示上接近,加速收敛并提升性能。消融实验(E4-E6)证明随机初始化会导致性能显著下降。
  3. 统一的多任务学习框架:将情绪识别、性别识别和语音识别三个任务统一在一个框架中联合训练。这不仅为情绪识别提供了补充性的监督信号(如性别信息可能关联特定的情绪表达模式),而且通过共享Whisper的编码器和解码器,实现了知识共享。与Whisper-ER的序列化多任务相比,本方法避免了任务间的顺序依赖,减少了误差累积。
  4. 参数高效的适配器设计:DualCA-QF模块为Whisper增加了仅约1.9%的参数(Whisper-QF large-v3为1.57B vs Whisper large-v3的~1.55B),却带来了显著的性能提升,体现了在大型基础模型上进行轻量级任务适配的高效性。

🔬 细节详述

  • 训练数据:使用IEMOCAP数据集。数据经过分类过滤,仅保留标注为“中性”(1708条)、“快乐”(1636条)、“悲伤”(1084条)和“愤怒”(1103条)的语音,总计5531个样本。采用说话人开放五折交叉验证,每折使用一对不同的说话人作为测试集,其余用于训练,确保评估的泛化性。
  • 损失函数:
    1. SER损失 (L_SER):标准交叉熵损失,用于4类情绪分类(公式9)。
    2. GR损失 (L_GR):标准交叉熵损失,用于2类性别分类(公式11)。
    3. ASR损失 (L_ASR):标准交叉熵损失,用于预测词汇表中的token(公式13)。
    4. 总损失 (L_total):采用不确定性加权损失(公式14)。σ_i是可学习参数,其梯度更新公式(15)能自适应调整任务权重。
  • 训练策略:使用AdamW优化器。Whisper-QF base:批大小32/设备,最大学习率5e-5,FP16精度,在8张NVIDIA V100 GPU上训练。Whisper-QF large-v3:批大小64/设备,最大学习率1e-5,BF16精度,在8张NVIDIA A800 GPU上训练。最大训练轮数为60,早停耐心为20。使用语言标记<|en|>和任务标记<|transcribe|>。最终性能由验证集上SER准确率最高的前5个检查点模型集成得到。
  • 关键超参数:模型架构超参数继承自Whisper。base版本为6层编码器/解码器,large-v3版本为32层。DualCA-QF为单层,其隐藏维度与对应Whisper解码器一致(base为512,large-v3为1280)。
  • 训练硬件:如上所述,base版用V100,large-v3版用A800。论文未提供总训练时长。
  • 推理细节:使用束搜索(beam-search)解码,束宽(beam size)为4。
  • 正则化/稳定技巧:主要依赖不确定性加权损失来平衡多任务训练,并采用早停防止过拟合。论文未明确提及Dropout等其他正则化方法。

📊 实验结果

  • 主要对比实验:在IEMOCAP数据集上与基线模型Whisper-ER以及其他先前方法进行了对比,结果见表3和表4。Whisper-QF large-v3在SER任务上达到了最优性能。

表3:与Whisper-ER的对比

模型参数SER WASER UAGR AccASR WER
Whisper-ER base72M74.1%74.8%--
Whisper-QF base77M76.9%77.4%97.5%20.1%
Whisper-ER large-v31.54B78.7%79.4%99.4%17.8%
Whisper-QF large-v31.57B81.5%81.8%99.6%11.1%

表4:与先前方法在IEMOCAP上的WA对比

方法交叉验证WA
[Wu et al.,2019]10-fold72.7%
[Sajjad et al.,2020]5-fold72.3%
[Lu et al.,2020]10-fold72.6%
[Kyung et al.,2024]5-fold76.1%
[Wang et al.,2020]5-fold73.3%
[Sun et al.,2023]5-fold78.4%
[Wang et al.,2024]5-fold77.9%
[Cai et al.,2021]10-fold78.2%
[Fukuda et al.,2025]5-fold78.7%
[Fang et al.,2025]5-fold81.1%
Whisper-QF large-v35-fold81.5%
  • 关键消融实验:在Whisper-QF base模型上进行,结果见表5。关键发现包括:
    • 移除解码器感知交叉注意力(Decoder-CA)(E2 vs E1):SER WA从76.9%降至73.1%,证明语义信息至关重要。
    • 移除独立的Q-Former,改用共享参数(E3 vs E1):SER WA大幅降至70.3%,证明专用模块的必要性。
    • 对Q-Former参数或查询进行随机初始化(E4-E6 vs E1):性能均有显著下降,证明基于预训练嵌入初始化的有效性。
    • 移除ASR任务(E7 vs E1)或GR任务(E8 vs E1):SER性能均下降,证明多任务学习的益处。
    • 移除不确定性加权(E10 vs E1):性能下降,证明自适应任务权重的重要性。
  • 可视化分析:图2展示了有无Decoder-CA模块的混淆矩阵。加入Decoder-CA后,“中性(Neutral)”情绪的误分类数量减少了23%(从241个降至214个,相对于总中性样本数),直观证明了语义信息在区分“中性”这种不易捕捉的情绪时的关键作用。

图2: 有无Decoder-CA模块的混淆矩阵对比 图2说明:左图(a)为不含Decoder-CA的模型结果,右图(b)为包含Decoder-CA的模型结果。横轴为真实标签,纵轴为预测标签。可以看到,(b)图中对角线上的数值(正确分类)普遍更高,特别是“Neutral”类别从1134提升至1266,而“Neutral”被误判为“Happy”的数量从241降至214,误判为“Angry”的数量从126降至108。

⚖️ 评分理由

  • 学术质量:7.0/7:论文提出了一个设计精巧、逻辑自洽的技术方案(DualCA-QF),并通过严谨的消融实验在公开基准上验证了其优越性,达到了SOTA水平。技术实现细节清晰,证据链完整。扣分点在于,其创新更多地在于巧妙的工程整合与适配,而非提出全新的算法范式。
  • 选题价值:1.5/2:将大型语音基础模型应用于情感识别是一个重要且活跃的方向。论文的解决方案为如何高效适配此类模型提供了有价值的参考,具有明确的应用前景。但情感识别本身是语音领域的一个细分任务,且论文聚焦于单一数据集的性能提升。
  • 开源与复现加成:0.5/1:论文提供了详尽的超参数、数据处理流程和评估协议,为复现奠定了良好基础。然而,没有提供实现代码、模型权重或训练脚本的公开访问方式,这限制了工作的可复现性和影响力扩散。

🔗 开源详情

  • 代码:论文中未提及代码链接。文中仅提到使用Hugging Face Transformers库进行开发。
  • 模型权重:未提及是否公开训练好的模型权重。
  • 数据集:使用公开的IEMOCAP数据集,但论文未提及自己是否提供数据集的特定预处理版本。
  • Demo:未提及。
  • 复现材料:论文提供了详细的训练超参数(表2)、硬件环境、数据划分方式、评估指标和消融实验设置,复现细节相对充分。
  • 论文中引用的开源项目:明确引用了Hugging Face Transformers库([29])和Whisper预训练模型([4]及其链接)。
  • 总体:论文中未提及开源计划。

← 返回 ICASSP 2026 论文分析