📄 Sympatheia: Emotionally Adaptive Voice Assistant with Continuous Affect Conditioning #参数高效微调 #语音合成 #语音识别
9.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5
🔥 9.6/10 | 前25% | #语音合成 | #参数高效微调 | #语音识别 | arxiv
👥 作者与机构 Sukru Samet Dindar, Riki Shimizu, Xilin Jiang, Nima Mesgarani。单位:Columbia University。未在论文中注明具体会议或期刊,仅为arXiv预印本。
💡 毒舌点评 论文提出的框架在理念上清晰且有实际意义,试图解决语音助手缺乏情感适应性的痛点。其模块化接口的设计思路值得肯定,为整合多模态情感信号提供了灵活方案。然而,论文的“主要贡献”中,声称构建了“首个”用于情感条件语音对话的合成数据集,这一说法可能需要更严谨的文献调研来支撑,因为近期类似工作(如BLSP-Emo的配套数据构建)已在该方向上有所探索。此外,所有实验均基于合成数据构建、合成数据训练、合成语音评估的闭环,虽然论文提供了真实语音的评估,但核心结论的普适性仍需在更复杂、更真实的交互场景中得到验证。方法部分对连续VA控制信号的“连续性”优势有所强调,但消融实验仅展示了对锚点加噪的鲁棒性,未能充分展示在连续空间内插值或外推时的生成行为变化,对于“连续”这一核心主张的验证略显不足。
📌 核心摘要 本文提出了Sympatheia,一个情感自适应语音对话框架,旨在解决日常对话中情感线索微弱或模糊的挑战。该框架结合了从用户语音中隐式推断情感,以及通过连续效价-唤醒度(VA)控制信号进行显式情感调节的能力。VA信号可来自外部多模态感知模块(如面部表情、生物信号、文本描述)或用户界面。为训练模型,作者构建并开源了Sympatheia-18k数据集,包含约18,000个情感条件合成语音对话对,分为情感子集(约12k样本)和中性子集(500个中性查询各对应12种情感响应)。模型基于GLM-4-Voice-9B,通过LoRA进行微调。实验表明,Sympatheia在情感适配度、情感MOS及韵律控制等方面优于多个强语音对话基线。论文还证明了其模块化接口能有效集成多种外部情感感知模块的输出,提升在用户语音情感模糊时的响应对齐度。
🔗 开源详情 代码:https://github.com/susameddin/sympatheia (Apache 2.0) 模型权重:https://huggingface.co/susameddin/Sympatheia (Apache 2.0,与GLM-4-Voice基础模型许可绑定) 数据集:Sympatheia-18k, https://huggingface.co/datasets/susameddin/Sympatheia-18k (CC BY 4.0) Demo:https://susameddin.github.io/sympatheia/ 复现材料:论文提供了极其详细的复现信息,包括: 训练配置:LoRA参数(rank 32, \(\alpha\)=32, dropout 0.1),优化器(AdamW, \(\beta_1\)=0.9, \(\beta_2\)=0.999),学习率(\(10^{-4}\)),批大小(16),训练轮次(5 epochs),检查点选择(基于验证损失和人工检查,步数2800)。 数据集创建细节:提供了用于生成查询和响应的完整提示模板(表5,表6,表7),以及情感风格控制策略。 VA锚点坐标:表4列出了12个情感锚点的具体VA坐标。 评估协议:提供了LLM评判官的提示模板(表8,表9)和人类评估的详细方案。 计算资源:描述了训练和评估所用的GPU类型及时间估计。 论文中引用的开源项目: 基础模型:GLM-4-Voice-9B, Qwen3-32B-Instruct, Qwen3-TTS, Qwen3-Omni, Qwen2.5-Omni, Kimi-Audio 评估基线与数据集:VoiceBench CommonEval, AffectNet+, SEED-VII, YAAD, ISEAR 工具模型:HSEmotion, Emotion English DistilRoBERTa-base, all-MiniLM-L6-v2, UTMOS, BERTScore, ROUGE-L, LoRA (PEFT), DeepSpeed ZeRO 许可证与使用条款:论文明确列出了所有外部资产(表20)的许可证或访问条款,并声明仅用于研究目的。 🏗️ 方法概述和架构 Sympatheia框架是一个端到端的语音到语音对话系统,其核心目标是生成语义合适且情感对齐的语音响应。系统由两大部分组成:(1) Sympatheia核心语音对话模型;(2) 可插拔的上游情感感知模块。二者通过一个简洁的连续效价-唤醒度(VA)接口解耦。
...