📄 SELF-EMO: Emotional Self-Evolution from Recognition to Consistent Expression #语音情感识别 #强化学习 #多任务学习 #大语言模型 #语音对话系统
🔥 评分:8.0/10 | arxiv
👥 作者与机构 第一作者:Shaowei Zhang (商汤科技 SenseTime) 通讯作者:Faqiang Qian, Mengya Gao, Yichao Wu (商汤科技 SenseTime,邮箱:{qianfaqiang, gaomengya, wuyichao}@senseauto.com) 其他作者: Yan Chen (商汤科技 SenseTime,清华大学) Ziliang Wang (商汤科技 SenseTime) Kang An (商汤科技 SenseTime,上海交通大学) Yong Dai (X-Humanoid) 💡 毒舌点评 亮点在于巧妙地将心理学中的“情绪理解驱动情绪表达”理论,包装成了一个AI自我进化的“飞轮”游戏,让模型自己跟自己玩就能变强,理论上很优雅。槽点是整个框架严重依赖另一个LLM(Seed-1.8, DeepSeek-V3.2)来提取人格和生成初始数据,这相当于请了个“家教”来启动“自学循环”,其最终效果的天花板可能受限于这位“家教”的水平,且可能引入隐性偏差。
📌 核心摘要 本文旨在解决对话系统中情感识别(ERC)与情感表达能力受限于高质量标注数据稀缺且静态的问题。核心贡献是提出了一个心理学动机的自我进化框架 SELF-EMO。关键方法是构建一个角色扮演的自博弈范式,使模型同时充当“情绪识别者”和“对话响应者”,并通过一个“生成-筛选-重用”的数据飞轮机制,利用平滑的基于IOU的奖励函数筛选高质量样本,实现无外部监督的持续自我改进。为此,作者还设计了多情感强化学习算法 SELF-GRPO,通过核心情绪集聚合和组级一致性建模来稳定训练。主要发现是在IEMOCAP、MELD和EmoryNLP三个基准数据集上,该方法在统一的训练设定下取得了SOTA性能,显著提升了模型的泛化能力。实际意义在于为构建数据高效、可自我进化的情感智能体提供了新范式。局限性在于框架的启动依赖外部LLM生成数据,且自我进化过程的长期稳定性和可能产生的偏差需要进一步研究。
🏗️ 模型架构 SELF-EMO 是一个基于大语言模型(LLM)的统一框架,其核心是一个能够执行三个顺序任务的单一策略模型 πθ。整体流程如下:
输入:对话上下文 C 和从原始数据中提取或指定的角色人格信息 PI。 第一步:他人情绪识别 (To):模型基于 C 和 PI,预测对话中最后发言者的情绪 eo = πθ(eo | C, PI)。 第二步:自我情绪生成 (Ts):模型基于 C、PI 和上一步预测的 eo,生成自身的情绪状态 es = πθ(es | C, PI, eo)。 第三步:自我情绪表达 (Tr):模型基于 C、PI、eo 和 es,生成最终的对话响应 r = πθ(r | C, PI, eo, es)。 这三个步骤在训练时通过精心设计的提示词(见附录A)引导模型在一次前向传播中以结构化字典形式输出所有内容。在自博弈阶段,模型生成的轨迹 (eo, es, r) 会被评估,并筛选出高质量样本加入训练缓冲区,用于下一轮的监督微调(SFT)和强化学习(RL)更新,形成闭环。架构上没有引入新的复杂模块,而是通过对LLM进行多任务提示和强化学习优化来实现功能。 💡 核心创新点 心理学驱动的自我进化框架:提出“更好地预测他人情绪,就能更好地生成自身情绪一致的回应”这一假设,并将ERC、情绪理解和情绪表达三个心理关联任务统一到一个可自我进化的自博弈范式中。这超越了传统仅关注识别的ERC方法。 数据飞轮与自博弈机制:设计了一个无需外部监督的闭环数据生成与利用流程。模型通过自博弈生成多样化的对话轨迹,利用基于平滑IOU的奖励函数进行质量筛选,将优质样本反馈用于训练,从而实现数据的自我生产和模型的持续进化。 SELF-GRPO强化学习算法:针对情绪识别这种多标签、离散输出的信用分配难题,扩展了GRPO算法。它引入了一个次要奖励信号,通过聚合同组采样中的情绪分布共识来鼓励一致性,与主要奖励(IOU奖励)线性结合,提高了在多样化情绪输出下强化学习训练的稳定性。 多任务协同熵减少理论:从信息论角度论证了在有监督的ERC任务(To)上进行优化,可以隐式地减少与之相关的两个无监督辅助任务(Ts和Tr)的输出熵,为使用无监督辅助任务来提升主任务性能提供了理论依据。 🔬 细节详述 训练数据: 种子数据集:IEMOCAP(5163/647/1623条),MELD(9989/1109/2610条),EmoryNLP(7551/954/984条)。 人格信息提取:使用Seed-1.8和DeepSeek-V3.2两个LLM,通过提示词P_extract从原始对话中为每个说话者提取人格描述(PI)。 冷启动SFT数据生成:使用上述人格信息,通过提示词P_gen引导LLM πθ生成包含(eo, es, r)的结构化合成样本R_syn,用于初始SFT。 损失函数与训练策略: 冷启动阶段:在原始数据集𝒟0上进行标准的监督微调(SFT)。 强化学习阶段: 奖励函数ℛ(·):主要奖励是加权IOU(公式10),对预测情绪集和真实标签集进行归一化后计算交并比,给予部分正确预测以奖励。 SELF-GRPO损失(公式14):标准的PPO风格损失,优势函数A_i由归一化的主要奖励和次要奖励(基于组内情绪共识,公式12)加权组合,权重λ随训练步数线性增加。 训练循环:交替进行SELF-GRPO策略更新和基于奖励的数据筛选(将每个prompt的最佳rollout加入缓冲区ℬ),然后在更新后的ℬ上重新进行SFT以训练基础模型。 关键超参数: RL设置:每个prompt采样8个rollouts (n=8),最大提示长度4096,最大响应长度8192。 优化器:学习率1e-6,使用Adam优化器,PPO裁剪ϵ未明确给出。 硬件:8块NVIDIA H100 GPU。 数据增强/正则化:未明确使用传统数据增强。框架本身通过自博弈生成新数据。正则化主要依赖于RL中的KL散度约束(KL损失系数0.001)和熵系数(0)。 📊 实验结果 主实验结果(表1): 在统一多数据集训练设定下,SELF-EMO (Qwen3-8B) 在IEMOCAP、MELD、EmoryNLP上的准确率分别为 66.11%、71.92%、47.87%,平均准确率 61.97%。 相比次优的PRC-Emo (Qwen3-8B) 平均准确率(37.99%),提升显著。 相比基座模型Qwen3-8B(平均53.43%),平均准确率提升 +8.54%;相比Qwen3-4B(平均52.96%),提升 +6.33%。 消融实验(表2): w/ COLD:使用专家模型生成的冷启动数据进行SFT后,性能反而下降(平均57.15%, -2.14%),表明SELF-EMO不依赖外部专家数据。 w/o SELF-GRPO:使用标准GRPO替代SELF-GRPO,性能下降(平均56.15%, -3.14%),证明了SELF-GRPO中一致性奖励的有效性。 w/o SELF-EMO:仅用原始数据进行GRPO训练,性能大幅下降(平均54.11%, -5.18%),凸显了自博弈生成数据的核心作用。 自监督任务分析(图3): 通过LLM-as-a-judge评估,训练后期模型在“自我情绪生成”和“自我情绪表达”任务上的表现显著优于早期模型,验证了多任务熵减少理论。 人格特质影响分析(表3): SELF-EMO-8B在所有五类人格特质上获得的IOU奖励(平均58.48%)远高于Seed-1.8(13.77%)和DeepSeek-V3.2(10.04%),表明优化后模型的情绪预测更准确。 ⚖️ 评分理由 创新性:8/10 - 将心理学理论、自博弈和强化学习创新性地结合,用于解决情感对话中的数据稀缺和任务关联问题,框架设计具有启发性。 实验充分性:8/10 - 在多个数据集上进行了全面的对比实验、消融实验和深入的定性/定量分析,数据详实,结论可信。 实用价值:7/10 - 直接针对提升对话AI情感智能这一实际需求,方法有望降低对标注数据的依赖,但训练复杂度和对基座模型的依赖可能影响其广泛应用。 灌水程度:2/10 - 论文结构清晰,内容紧凑,理论推导、方法描述和实验分析详实,未见明显冗余或夸大表述。 🔗 开源详情 代码:论文中明确声明“Code and data will be released at GitHub”,并提供了链接占位符(https://github.com/…),但截至论文发布时(2026年4月20日)链接未生效。因此,代码计划开源但尚未发布。 模型权重:未提及是否公开训练后的模型权重。 数据集:论文中使用的三个基准数据集(IEMOCAP, MELD, EmoryNLP)是公开的。自博弈生成的合成数据集预计会随代码一同发布。 预训练权重:基于Qwen3-4B和Qwen3-8B这两个公开的预训练模型。 在线 Demo:未提及。 引用的开源项目:论文中提到了VeRL训练框架,并在实验中使用了它。 🖼️ 图片与表格 图片保留建议:
...