B-GRPO: Unsupervised Speech Emotion Recognition Based on Batched-Group Relative Policy Optimization
📄 B-GRPO: Unsupervised Speech Emotion Recognition Based on Batched-Group Relative Policy Optimization #语音情感识别 #强化学习 #自监督学习 #多语言 ✅ 6.5/10 | 前50% | #语音情感识别 | #强化学习 | #自监督学习 #多语言 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yingying Gao(中国移动研究院;北京大学多媒体信息处理国家重点实验室) 通讯作者:未说明 作者列表:Yingying Gao(中国移动研究院;北京大学多媒体信息处理国家重点实验室)、Shilei Zhang(中国移动研究院;北京大学多媒体信息处理国家重点实验室)、Runyan Yang(中国移动研究院;北京大学多媒体信息处理国家重点实验室)、Zihao Cui(中国移动研究院;北京大学多媒体信息处理国家重点实验室)、Junlan Feng(中国移动研究院;北京大学多媒体信息处理国家重点实验室) 💡 毒舌点评 这篇论文巧妙地将强化学习中的“组相对优势”思想从生成任务迁移到了分类任务的样本选择上,为无监督语音情感识别提供了一个新颖且有一定效果的框架。然而,其核心的“自奖励”函数高度依赖模型自身的置信度,缺乏外部验证,容易陷入“自信地犯错”的循环;此外,论文声称“无监督”,但实际需要一半的标注数据进行预训练,这削弱了其在“零标注”场景下的说服力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开数据集(IEMOCAP, CASIA, CAFE, MELD, M3ED),但论文未说明具体获取方式或预处理脚本。 Demo:未提供。 复现材料:部分复现细节已给出(模型结构、学习率、批量大小、训练轮数),但关键奖励函数参数、优化器、数据划分细节、训练硬件等信息缺失。 论文中引用的开源项目:引用了Emobox[17]工具包(用于实验实现)和多个预训练模型:SenseVoice[18]、Emotion2vec[10]、Whisper[19]。 开源计划:论文中未提及开源计划。 📌 核心摘要 本文针对无监督语音情感识别中数据稀疏和标注偏差问题,提出了一种基于批量组相对策略优化(B-GRPO)的强化学习方法。方法核心是将训练过程视为长期决策,将是否使用一个样本作为动作,将一个批次内的样本作为一组,通过计算组内相对优势来优化策略。与标准GRPO不同,B-GRPO无需为同一个输入生成多个候选输出。论文提出了自奖励函数(基于模型预测的最大似然概率)和教师奖励函数(引入外部模型验证)来评估样本质量,以替代依赖真实标签的可验证奖励。实验在五个多语言数据集上表明,B-GRPO相比无RL的基线方法平均提升了19.8%的宏F1分数,相比DINO等自监督方法也平均提升了10.3%。研究发现,自奖励函数在整体表现上优于教师奖励函数。该方法的实际意义在于提供了一种利用大量未标注数据提升情感识别性能的有效途径。主要局限性在于奖励函数的设计较为启发式,且模型的初始训练仍需依赖部分标注数据。 🏗️ 模型架构 B-GRPO是一个用于训练语音情感识别(SER)分类器的强化学习框架。其整体架构可概括为: ...