语音情感识别

ECSA: Dual-Branch Emotion Compensation for Emotion-Consistent Speaker Anonymization

📄 ECSA: Dual-Branch Emotion Compensation for Emotion-Consistent Speaker Anonymization #语音匿名化 #语音情感识别 #自监督学习 #生成模型 #语音合成 🔥 8.5/10 | 前25% | #语音匿名化 | #生成模型 | #语音情感识别 #自监督学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chenghan Lin（天津大学人工智能学院，认知计算与应用天津市重点实验室）通讯作者：Longbiao Wang（天津大学人工智能学院，认知计算与应用天津市重点实验室；苏州智研信息技术有限公司），Kong Aik Lee（香港理工大学）作者列表：Chenghan Lin（天津大学）、Junjie Li（香港理工大学）、Tingting Wang（南京邮电大学通信与信息工程学院）、Meng Ge（天津大学）、Longbiao Wang（天津大学，苏州智研信息技术有限公司）、Kong Aik Lee（香港理工大学）、Jianwu Dang（中国科学院深圳先进技术研究院） 💡 毒舌点评这篇论文的亮点在于其系统性地解构并攻克了“匿名化必然损伤情感”这一核心矛盾，提出的双分支补偿模块设计思路清晰，从数据集先验（静态）和实例残差（动态）两个层面进行修复，实验结果也确实显著优于同类工作。短板则在于其验证范围较为局限，虽然在IEMOCAP上表现优异，但整个系统在非英语环境下的鲁棒性以及面对更复杂情感（如混合情绪）的处理能力，论文未提供任何数据支撑，使得这个“通用解决方案”的宣称打上了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文中使用的VoxCeleb-2, MSP-IMPROV, ESD, LibriSpeech, IEMOCAP均为公开数据集。未提及是否公开了处理后的实验数据或中间产物。 Demo：未提及。复现材料：论文在“实现细节”部分提供了优化器、学习率、损失函数权重等关键超参数，为复现提供了重要信息。未提供训练日志、检查点或附录。论文中引用的开源项目：emotion2vec+, ECAPA-TDNN, HuBERT, OHNN, HiFi-GAN。论文中未提及开源计划。 📌 核心摘要要解决的问题：现有的说话人匿名化技术（如基于OHNN的方案）在有效隐藏说话人身份的同时，会严重破坏语音中的情感信息，限制了其在医疗、人机交互等情感敏感场景中的应用。方法核心：提出一个名为ECSA的情感保留说话人匿名化框架。其核心是双分支情感补偿（D-PEC）模块：一个静态补偿器利用数据集层面的情感原型和软标签进行全局先验补偿；一个动态补偿器通过非线性网络挖掘并增强匿名化嵌入中的残差情感线索。此外，在HiFi-GAN声码器训练中引入了情感一致性损失，确保合成语音与补偿后的嵌入在情感空间对齐。与已有方法相比新在哪里：摒弃了先前方法中易泄露说话人信息的外接情感编码器。首次提出并行处理数据集全局先验（静态分支）和单条语音残差信号（动态分支）的补偿机制。创新性地将情感一致性约束直接集成到声码器训练中，引导生成器利用情感信息。主要实验结果：在VPC 2024基准测试上，ECSA在情感保留（UAR）上取得了最佳性能（测试集64.21%），显著超越了所有基线（如P3的57.93%）和顶级参赛系统（如T10的60.87%），同时保持了具有竞争力的匿名化强度（EER 39.69%）和内容可懂度（WER 2.52%）。消融实验证明，移除动态分支、静态分支或情感一致性损失均会导致UAR显著下降，尤其是对悲伤类情感的识别率。实际意义：该研究为隐私保护技术在实际情感计算应用中的落地提供了可行的解决方案，有望推动语音匿名化技术从“仅保护隐私”向“隐私与效用兼得”的方向发展。主要局限性：实验评估集中于英语数据集（VPC 2024， IEMOCAP），其在其他语言或方言上的有效性未经验证。模型训练依赖多个预训练组件（emotion2vec+, ECAPA-TDNN, HuBERT），其复杂性增加了部署难度。 🏗️ 模型架构 ECSA框架由说话人匿名化前端和情感补偿后端组成，其推理流程如下（参照论文图1）： ...

Emo-TTA: Improving Test-Time Adaptation of Audio-Language Models for Speech Emotion Recognition

📄 Emo-TTA: Improving Test-Time Adaptation of Audio-Language Models for Speech Emotion Recognition #语音情感识别 #音频大模型 #领域适应 #零样本 ✅ 7.0/10 | 前25% | #语音情感识别 | #领域适应 | #音频大模型 #零样本学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiacheng Shi（College of William & Mary）通讯作者：未说明作者列表：Jiacheng Shi（College of William & Mary）、Hongfei Du（College of William & Mary）、Y. Alicia Hong（George Mason University）、Ye Gao（College of William & Mary） 💡 毒舌点评亮点在于其“测试时适配”思路非常务实，无需访问源数据或更新模型权重，仅靠维护一个轻量的统计量就能持续改善模型在陌生口音或录音环境下的表现，这在工业部署中极具吸引力。短板是其底层假设（特征服从高斯分布且共享协方差）可能过于简化，对于情感这种高度复杂且非线性的概念，长期来看，这种静态分布模型可能无法捕捉更细微的适应需求。 ...

EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion Control in LLM-based TTS

📄 EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion Control in LLM-based TTS #语音合成 #强化学习 #语音情感识别 #大语言模型 🔥 8.5/10 | 前25% | #语音合成 | #强化学习 | #语音情感识别 #大语言模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Haoxun Li（杭州高等研究院、中国科学院大学）通讯作者：Taihao Li（杭州高等研究院、中国科学院大学）作者列表：Haoxun Li（杭州高等研究院、中国科学院大学）、Yu Liu（未说明具体机构）、Yuqing Sun（未说明具体机构）、Hanlei Shi（未说明具体机构）、Leyuan Qu（未说明具体机构）、Taihao Li（杭州高等研究院、中国科学院大学） 💡 毒舌点评亮点：本文创新性地将强化学习（GRPO）引入LLM-TTS，为解决其“离散Token难以表达连续情感”的痛点提供了优雅的框架，并首次实现了同时控制VAD全局强度和局部词强调，实验数据全面且显著优于基线。短板：论文声称是“本地PDF”，但缺乏对代码和模型权重公开的明确承诺，严重阻碍了社区的复现与跟进；另外，对“惊讶”等少数情感的强调控制效果较弱，表明模型的泛化能力仍有提升空间。 🔗 开源详情代码：论文中未提及代码链接。仅提供了一个Demo页面（https://wd-233.github.io/EMORL-TTS_DEMO/）。模型权重：未提及是否公开模型权重。数据集：使用的ESD和Expresso是公开数据集，但GRPO阶段构建的1000句带强调标注的文本语料未公开。 Demo：提供了在线合成演示页面。复现材料：论文详细描述了两阶段训练流程、损失函数、奖励设计公式和主要超参数，这为复现提供了较好的理论指导。但缺乏训练脚本、具体配置文件和模型检查点。论文中引用的开源项目/工具：依赖的基座模型 Spark-TTS，情感识别模型 Emotion2vec，强制对齐工具 NeMo Forced Aligner，以及VAD预测器均为开源或已有工作。 📌 核心摘要问题：基于大语言模型的语音合成系统虽能实现高质量零样本合成，但由于其依赖离散语音Token，难以实现对情感的细粒度控制（如连续强度、重点词强调）。方法核心：提出EMORL-TTS框架，通过监督微调（SFT）与强化学习（GRPO）相结合的方式，统一建模全局情感强度（在VAD空间）与局部语音强调（通过音高和能量特征）。强化学习阶段使用三个任务特定奖励：情感分类准确性、全局VAD强度匹配度和局部强调清晰度。创新点：a) 首次将VAD空间的全局情感强度控制引入LLM-TTS；b) 设计了基于韵律特征的局部强调控制机制；c) 构建了融合全局与局部控制的统一框架。实验结果：实验表明，EMORL-TTS在情感准确性（目标与感知准确率均达0.88以上）、强度区分度（平均识别率0.71）和强调清晰度（平均准确率0.75）上均显著优于CosyVoice2、Emosphere++等强基线，同时MOS（4.94）和NISQA（4.11）分数与之相当，证明控制能力提升未牺牲合成质量。具体关键数据如下表所示：表1：情感准确性客观评估（Emotion2vec准确率） ...

Emotion-Aligned Generation in Diffusion Text to Speech Models Via Preference-Guided Optimization

📄 Emotion-Aligned Generation in Diffusion Text to Speech Models Via Preference-Guided Optimization #语音合成 #扩散模型 #强化学习 #语音情感识别 🔥 8.0/10 | 前25% | #语音合成 | #扩散模型 #强化学习 | #扩散模型 #强化学习学术质量 6.2/7 | 选题价值 1.6/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Jiacheng Shi（College of William & Mary）通讯作者：未明确说明（论文未明确指定通讯作者，但根据邮箱{jshi12, hdu02, ygao18}@wm.edu 推断，作者可能来自同一实验室）作者列表：Jiacheng Shi（College of William & Mary）、Hongfei Du（College of William & Mary）、Yangfan He（University of Minnesota - Twin Cities）、Y. Alicia Hong（George Mason University）、Ye Gao（College of William & Mary） 💡 毒舌点评本文最亮眼的地方在于其核心洞察：在扩散模型中，直接将终点偏好传播到中间步骤是“有缺陷的假设”，并为此设计了优雅的“逐步对齐”框架（EASPO），这确实为情感等需要时序精细控制的任务提供了新的思路。然而，其提出的EASPM评分模型重度依赖CLEP在特定情感数据集上的微调，其泛化能力，尤其是在不同说话人、语言和更复杂情感维度上的表现，是最大的潜在短板，且实验仅在英语数据集上验证。 ...

Emotional Dimension Control in Language Model-Based Text-To-Speech: Spanning a Broad Spectrum of Human Emotions

📄 Emotional Dimension Control in Language Model-Based Text-To-Speech: Spanning a Broad Spectrum of Human Emotions #语音合成 #流匹配 #预训练 #零样本 #语音情感识别 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #预训练 #零样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度中 👥 作者与机构第一作者：Kun Zhou（阿里巴巴集团通义实验室，新加坡）通讯作者：未说明作者列表：Kun Zhou（阿里巴巴集团通义实验室，新加坡）、You Zhang（美国罗切斯特大学）、Dianwen Ng（阿里巴巴集团通义实验室，新加坡）、Shengkui Zhao（阿里巴巴集团通义实验室，新加坡）、Hao Wang（阿里巴巴集团通义实验室，新加坡）、Bin Ma（阿里巴巴集团通义实验室，新加坡） 💡 毒舌点评亮点在于将经典心理学理论（PAD模型）与前沿的语言模型TTS框架深度结合，实现了从离散情感标签到连续情感空间控制的优雅跳转，为情感语音合成提供了更富表现力的控制范式。短板是实验部分更像一场“理论验证秀”（如图2展示合成语音的声学特征与理论吻合），但在与当前最强系统（如使用大规模情感数据或更强解码方法的模型）的“硬碰硬”对比和系统性消融实验上显得保守和不足，使得其宣称的优势说服力打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用了公开的ESD和LibriTTS数据集。情感维度预测器的训练数据（ESD子集）是公开的，TTS训练数据（LibriTTS）也是公开的。 Demo：提供了在线演示页面：https://demos46.github.io/emotion_pad/ 复现材料：提供了模型架构描述、关键超参数（如ED预测器的训练设置、TTS模型各组件维度）、数据集规模等信息。但未提供完整的训练脚本、配置文件或预训练检查点。论文中引用的开源项目：引用了CosyVoice、HiFi-GAN、3D-Speaker（用于说话人嵌入）、WavLM、UMAP等开源模型和工具。 📌 核心摘要要解决什么问题：当前的情感语音合成（TTS）系统受限于数据集中的少量离散情感标签（如喜怒哀乐），无法覆盖人类丰富（理论上有约34000种）且微妙的情感光谱，导致生成语音的情感表达有限、不自然。方法核心是什么：本文提出一个基于语言模型的TTS框架，核心是引入情感维度（ED）预测器和连续情感维度控制。ED预测器利用心理学期理论（PAD模型：愉悦度-唤醒度-支配度），将语音数据集中的离散情感标签映射为连续的3维向量。在TTS训练和推理时，将ED向量作为额外条件输入语言模型，从而引导语音合成。与已有方法相比新在哪里：相比传统基于离散标签的监督学习或基于参考语音的风格迁移方法，本文方法无需在TTS训练阶段使用显式情感标签，仅通过连续的ED向量即可在推理时灵活控制生成语音的情感风格，且能探索训练数据中未出现过的情感组合。主要实验结果如何：在零样本情感克隆任务上，本文方法的语音自然度MOS（4.54）优于基线CosyVoice（4.36）。在情感可懂度（E-MOS）主观评估中，本方法在所有测试情感上得分均高于CosyVoice基线。XAB测试表明，系统能较好地区分PAD维度相近的情感对（如愤怒vs焦虑，正确匹配率约84%）。客观上，合成语音的音高和频谱通量统计特征与理论预期相符（如图2所示）。实际意义是什么：该框架使得TTS系统能够更精细、灵活地合成多样化的情感语音，无需依赖大规模标注数据，有望提升对话系统、有声读物、虚拟助手等应用的情感交互自然度和用户体验。主要局限性是什么：1) 情感维度预测器依赖于已有的离散情感标签数据集进行训练，其质量可能受限于原始标签的噪声和偏差；2) 实验评估中，与最先进的情感TTS系统（如CosyVoice的情感扩展版本EmoCtrl-TTS）的直接对比缺失，且缺乏关键模块的消融研究；3) 当前工作主要在英语单语种上进行验证，多语言适应性未探讨。 🏗️ 模型架构本论文的框架包含两个主要阶段：情感维度（ED）预测器训练和TTS模型训练/推理。 ...

EmoTri-RL: Emotion- and Cause-Aware Reinforcement Learning for Multi-Modal Empathetic Dialogue

📄 EmoTri-RL: Emotion- and Cause-Aware Reinforcement Learning for Multi-Modal Empathetic Dialogue #语音情感识别 #强化学习 #多模态模型 #生成模型 #多任务学习 ✅ 7.0/10 | 前25% | #语音情感识别 | #强化学习 | #多模态模型 #生成模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Zhongtian Hu（Northwestern Polytechnical University）通讯作者：Changhong Jiang（Northwestern Polytechnical University, Email: chjiang@nwpu.edu.cn）作者列表：Zhongtian Hu（Northwestern Polytechnical University）、Changhong Jiang*（Northwestern Polytechnical University）、Mingting Yu（未说明）、Wei Zhang（未说明）、Jiashi Lin（未说明） 💡 毒舌点评本文的亮点在于系统性地将共情对话生成分解为三个明确任务（生成、情感识别、情感原因识别）并通过多模态融合与强化学习统一解决，这种“解耦再融合”的框架设计清晰且具有启发性。然而，论文的短板也相当明显：开源信息完全缺失，且消融实验虽多，但未提供人工评估的消融结果，使得“每个组件都必要”的结论在用户最终关心的“共情质量”上证据稍显单薄。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的模型权重。数据集：论文使用了IEMOCAP和MELD公共数据集，并提及按照REC-CON协议扩展了情感原因标注，但未提供扩展后的数据集或获取方式。 Demo：未提及在线演示。复现材料：给出了PPO阶段的学习率、裁剪范围等部分超参数，但缺少监督预热阶段的完整配置、优化器、batch size、训练硬件与总时长、最终模型检查点等信息。论文中引用的开源项目：引用了并可能使用了以下预训练模型：BART (文本编码/解码)， Wave2Vec 2.0 (语音编码)， ViT (视觉编码)， OpenFace (用于提取视觉特征)， BERT (用于计算奖励中的语义保真度)。 📌 核心摘要要解决什么问题：现有的共情对话生成系统主要依赖文本，忽略了语音、视觉等模态的情感线索（问题一）；忽视了情感产生的原因，导致生成回复缺乏可解释性（问题二）；以及普遍采用最大似然估计训练，其优化目标与共情所需的主观、微妙质量不匹配（问题三）。方法核心是什么：本文提出了EmoTri-RL框架，一个“三模态三任务”的强化学习模型。它首先利用预训练模型提取文本、语音、视觉特征并进行融合，然后在一个统一的解码器中联合执行响应生成、情感识别和情感原因识别三个任务，最后采用带有包含语义保真度、情感对齐和原因一致性三项奖励信号的近端策略优化进行训练。与已有方法相比新在哪里：与大多数仅使用文本或简单融合多模态信息的方法相比，其新意在于：a) 引入情感原因识别任务作为显式监督，为生成的共情回复提供可解释的因果依据；b) 设计了多信号强化学习奖励，直接优化共情相关的多个维度，而非仅模仿参考文本。主要实验结果如何：在IEMOCAP和MELD数据集上，EmoTri-RL在几乎所有自动评估指标上均优于强基线。在IEMOCAP数据集上，与最强基线（IAMM）相比，困惑度（PPL）从38.40降至29.90（提升约22.1%）， Dist-2从5.09飙升至11.50（提升125.7%），情感识别准确率从69.72%提升至72.80%，BERTScore从81.69提升至85.10。人工评估和LLM评估（GPT-4o）显示，在共情、连贯性、流畅性方面，本模型对CASE和IAMM的胜率均超过65%。消融实验表明，移除强化学习或多模态输入会导致性能显著下降。实际意义是什么：该工作为构建更可信、更具可解释性的情感支持对话系统（如心理健康咨询、教育辅导）提供了一个有效的技术框架，其核心思路（融合原因识别与多模态强化学习）可推广至其他需要高度情境理解和情感智能的交互场景。主要局限性是什么：论文的局限性包括：a) 实验仅在英文数据集（IEMOCAP， MELD）上进行，其在多语言环境下的泛化能力未知；b) 所提框架依赖大量标注数据（情感标签和原因跨度标注），数据获取成本高；c) 论文未提供代码或模型，复现门槛较高。 🏗️ 模型架构图1 阐述了本工作的核心动机：仅用文本模态（Text-only Modality）可能误判情感（如将悲伤误解为感激）；即使加入多模态线索（MultiModal），若不进行情感原因推理，生成的回复仍可能肤浅。本文的EmoTri-RL旨在通过多模态融合与原因感知来生成高质量、可解释的共情回复。 ...

Encoding Emotion Through Self-Supervised Eye Movement Reconstruction

📄 Encoding Emotion Through Self-Supervised Eye Movement Reconstruction #语音情感识别 #自监督学习 #眼动分析 #情感计算 ✅ 7.5/10 | 前25% | #语音情感识别 | #自监督学习 | #眼动分析 #情感计算学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Marcus Ma（南加州大学）通讯作者：未说明作者列表：Marcus Ma（南加州大学），Jordan Prescott（南加州大学），Emily Zhou（南加州大学），Tiantian Feng（南加州大学），Kleanthis Avramidis（南加州大学），Gabor Mihaly Toth（卢森堡大学），Shrikanth Narayanan（南加州大学） 💡 毒舌点评这篇论文巧妙地将NLP领域的自监督预训练思路移植到眼动序列分析上，成功证明了即使是低分辨率视频中“不完美”的眼动数据也蕴含着丰富的情感信息，这种“化腐朽为神奇”的特征挖掘能力是其最大亮点。然而，其情感“真值”标签严重依赖于另一个语音情感识别模型的输出，相当于用一个“黑盒”去标注数据来训练另一个模型，这种“以模型训模型”的范式在引入系统性偏差方面存在潜在风险，让最终结论的纯粹性打了个问号。 🔗 开源详情代码：论文提供了代码仓库链接：github.com/mamarcus64/GLASS。模型权重：论文中未提及公开发布预训练或微调后的模型权重。数据集：核心数据集（USC Shoah Foundation视觉历史档案）为私有数据集，论文中描述了数据获取和处理的途径，但未提供公开下载或获取方式。 Demo：论文中未提及提供在线演示。复现材料：论文详细描述了模型架构（Transformer编码器-解码器）、训练策略（计划采样、Huber损失、AdamW优化器、余弦退火学习率）以及关键超参数（默认输入/输出5秒、模型尺寸分类），并提供了训练的总计算量（~200 petaFLOPs）和时长（~6小时 on A40），复现材料较为充分。论文中引用的开源项目：OpenFace 2.0（用于眼动提取），Whisper和WavLM（用于生成VAD标签），RoPE（旋转位置编码）。 📌 核心摘要要解决什么问题：传统眼动情感识别依赖于昂贵、受限于实验室环境的高精度眼动仪。本文旨在探索能否从自然场景下、低成本的低分辨率视频（30 FPS，320p）中提取眼动信息，并有效预测情感。方法核心是什么：提出了一种名为GLASS的自监督学习框架。首先，利用海量无标签眼动序列数据，通过编码器-解码器Transformer模型，以自回归方式预训练“预测未来眼动”的任务。然后，冻结或微调预训练好的编码器，接上不同的时间建模头（MLP、TCN、GRU、Transformer），在有标签的小规模数据上进行下游情感预测任务的微调。与已有方法相比新在哪里：a) 范式创新：首次将针对语言的自监督预训练思想应用于原始眼动序列的特征学习。b) 数据利用创新：有效利用了大量易于获取但质量较低的视频数据进行预训练，摆脱了对高质量标注眼动数据的依赖。c) 模型设计：通过修改预训练任务的目标（预测未来2秒、5秒、10秒眼动），发现预测时间越长，编码的情感信号越强。主要实验结果如何：在两个下游任务上，GLASS均优于统计特征和CNN基线。实验一（VAD回归）：在5秒输入下，GLASS（预测10秒）取得最优的皮尔逊相关系数r=0.294±0.03。实验二（行为分类：哭、笑、叹气）：在5秒输入下，GLASS（预测5秒）取得最优的宏F1分数0.361±0.02。消融实验表明，预训练时的眼动预测性能与下游情感任务性能呈正相关。实际意义是什么：证明了低质量、自然状态下的视频眼动数据可作为可靠的情感预测源，为情感计算走向大规模、低成本、非侵入式的真实世界应用提供了新的技术路径。主要局限性是什么：a) 标签噪声：实验一的情感VAD标签并非人工标注，而是由基于语音的ASR+情感模型生成，其准确性直接影响模型训练上限。b) 场景特定性：研究数据集为大屠杀幸存者访谈，情感强烈且单一，模型在更普遍、平淡的日常情感场景中的泛化能力未知。c) 数据私有：使用的核心数据集非公开，限制了完全复现与直接比较。 🏗️ 模型架构论文的核心模型GLASS采用经典的两阶段“预训练-微调”范式，其整体架构如图2所示。 ...

Evaluating Emotion Recognition in Spoken Language Models on Emotionally Incongruent Speech

📄 Evaluating Emotion Recognition in Spoken Language Models on Emotionally Incongruent Speech #语音情感识别 #模型评估 #基准测试 #数据集 #语音大模型 ✅ 7.5/10 | 前50% | #语音情感识别 | #模型评估 | #基准测试 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：未说明（论文作者列表未按贡献排序）通讯作者：未说明（论文未标注通讯作者）作者列表：Pedro Corrêa, João Lima, Victor Moreno, Lucas Ueda, Paula Costa（均来自：Universidade Estadual de Campinas (UNICAMP), School of Electrical and Computer Engineering, Campinas, Brazil；部分作者同时隶属于 Artificial Intelligence Lab, Recod.ai） 💡 毒舌点评亮点：论文设计了一个非常巧妙的“图灵测试”变体——让模型在文本说“我很高兴”但声音听起来很悲伤时判断情绪，从而无情地揭穿了多数语音大模型“听不懂弦外之音”、主要靠文本“脑补”的尴尬现实，实验设计极具巧思。短板：研究止步于“诊断”和“揭露问题”，对于如何构建一个真正能融合语义与声学模态、处理不一致信息的模型，并未给出任何建设性的技术路径或改进方向。 ...

Expressive Voice Conversion with Controllable Emotional Intensity

📄 Expressive Voice Conversion with Controllable Emotional Intensity #语音转换 #数据增强 #注意力机制 #语音情感识别 #自监督学习 ✅ 7.5/10 | 前25% | #语音转换 | #数据增强 | #注意力机制 #语音情感识别学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Nannan Teng（丝绸之路多语种认知计算联合国际研究实验室，新疆大学计算机科学与技术学院）通讯作者：Ying Hu（丝绸之路多语种认知计算联合国际研究实验室，新疆大学计算机科学与技术学院）作者列表：Nannan Teng（丝绸之路多语种认知计算联合国际研究实验室，新疆大学计算机科学与技术学院）、Ying Hu（丝绸之路多语种认知计算联合国际研究实验室，新疆大学计算机科学与技术学院）、Zhijian Ou（清华大学电机工程与应用电子技术系）、Sheng Li（东京科学大学工程学院） 💡 毒舌点评这篇论文最亮眼的地方在于它清晰的“问题-方案”对应逻辑：用“特定属性增强”制造更鲁棒的特征，用“联合注意力”优雅地融合并控制说话人与情感风格，最后用“扰动归一化”来提升合成的表现力，模块设计环环相扣且动机明确。短板则在于情感控制的粒度仍显粗糙，一个标量α控制所有情绪类别的强度，缺乏对不同情绪（如“喜悦”与“愤怒”）可能具有不同强度响应曲线的建模，这在一定程度上限制了其实用性和精细度。 🔗 开源详情代码：提供了代码仓库链接：https://tengnn.github.io/ExpressiveVC/。模型权重：论文中未提及是否公开预训练模型权重。数据集：使用ESD英文数据集和RAVDESS数据集进行测试，这两个均为公开数据集，但论文未提供具体的获取或预处理脚本。 Demo：提供了在线演示链接：https://tengnn.github.io/ExpressiveVC/。复现材料：论文提供了方法的基本描述和公式，但缺乏具体的训练细节（如优化器、学习率、批大小、训练时长）和模型配置信息。引用的开源项目：论文未明确列出所有依赖项，但可以推断其使用了Wav2vec 2.0（用于特征提取）、以及可能的HiFi-GAN（作为声码器）等开源模型。 📌 核心摘要解决的问题：现有的表现力语音转换（VC）方法要么专注于说话人身份和情感风格的迁移，要么专注于情感强度的可控调节，未能很好地将两者结合。本文旨在提出一个能同时实现高质量说话人转换、情感迁移，并允许用户精细控制目标情感强度的VC模型。方法核心：提出了CEI-VC模型，包含三个关键组件：a) 特定属性增强（SAA）：通过共振峰偏移和音高单调化等数据扰动策略，增强模型对说话人和情感特征的鲁棒性。b) 情感解耦与强度控制（EDIC）模块：利用解耦损失和基于联合注意力的风格融合机制，将说话人与情感特征分离，并引入可调参数α在推理时控制情感强度。c) 扰动自适应实例归一化（PbAdaIN）：在归一化层中对风格特征施加扰动，提升合成语音的自然度和表现力。与已有方法相比新在哪里：主要新意在于系统性地结合了数据增强、特征解耦与可控生成三个环节。具体创新包括：1）提出了针对性的SAA策略来同时扰动说话人和情感属性；2）设计了UDIA模块，通过联合注意力机制和可调参数实现情感强度的连续控制；3）提出了PbAdaIN，通过在特征归一化时引入可控噪声来增强表达力。主要实验结果：在ESD英语数据集上的实验表明，CEI-VC在多项指标上优于5个对比模型。在Unseen-to-Unseen场景下，其自然度MOS（nMOS）为4.02，情感相似度MOS（eMOS）为3.30，情感嵌入余弦相似度（EECS）为0.6663，均为最佳或次佳。消融实验证明SAA、PbAdaIN和UDIA模块均对性能有显著贡献。通过调节参数α（0.2， 0.5， 0.9），转换语音的平均音高和情感分类准确率随强度增加而变化，验证了情感强度控制的有效性。实际意义：该模型可应用于需要情感表现力和身份控制的语音合成场景，如个性化有声读物生成、影视配音、以及更自然的人机交互对话系统。主要局限性：论文未讨论模型在极短语音或噪声环境下的鲁棒性；情感强度控制机制（标量α）可能对所有情绪类型过于简化；未公开模型权重和详细训练配置，限制了完全复现。 🏗️ 模型架构本文提出的CEI-VC模型整体架构如图1所示。其核心是基于变分自编码器（VAE）和归一化流（Normalizing Flow）的框架，旨在学习并转换语音的说话人、情感和内容特征。 ...

FIDIC:Fine-Grained Conversational Emotion Recognition via Individual Differences in Inertia and Contagion

📄 FIDIC:Fine-Grained Conversational Emotion Recognition via Individual Differences in Inertia and Contagion #语音情感识别 #对话建模 #心理学启发 #记忆网络 ✅ 7.5/10 | 前25% | #语音情感识别 | #对话建模 | #心理学启发 #记忆网络学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Jianing Liu（东华大学信息与智能科学学院）通讯作者：Zhaohui Zhang（东华大学信息与智能科学学院）作者列表：Jianing Liu（东华大学信息与智能科学学院）、Zhaohui Zhang（东华大学信息与智能科学学院）、Kejian Yu（东华大学信息与智能科学学院） 💡 毒舌点评亮点：论文动机扎实，受心理学理论启发，将“情感惯性”与“情感传染”这两个核心机制在模型架构上进行了显式的解耦与建模，这比单纯堆叠上下文模块的“黑盒”思路更具解释性和理论深度。短板��所有实验仅在单一的IEMOCAP数据集上进行，缺乏对更大规模、更多语种或跨场景数据集的验证，其“泛化能力”和“普遍性”要打个问号；此外，模型涉及多个门控和记忆模块，其计算开销和实际部署的可行性未做任何讨论。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的IEMOCAP数据集，但未说明数据获取方式。 Demo：未提及。复现材料：提供了部分训练细节（如优化器、学习率、warmup、epoch数、数据预处理），但缺少模型尺寸、隐藏层维度、具体实现框架等信息，不足以完全复现。论文中引用的开源项目：引用了预训练模型Wav2Vec。 📌 核心摘要本文针对对话情感识别（ERC）任务中现有方法忽略个体差异、模型可解释性差的问题，提出了一种基于情感惯性（个体情绪状态的自我延续性）和情感传染（跨说话人的情绪影响）的细粒度建模框架FIDIC。该方法的核心是通过对话时间交互单元（CTIU）显式分离并建模这两个心理机制，并利用历史状态记忆空间（HSMS）和情感记忆巩固模块（EMCM）来维护和更新说话人特有的情绪特征表示。与将上下文信息隐式融合在单一表示中的已有方法不同，FIDIC将不同影响来源进行结构化分解，实现了更细粒度、可解释的建模。在IEMOCAP数据集上的实验表明，FIDIC在微调后的Micro-F1指标达到64.58%，显著优于最佳基线（53.0%），消融研究验证了每个关键组件的有效性。该工作为对话情感识别提供了更符合理论直觉的建模范式，但其在多样化工况下的有效性有待进一步验证。 🏗️ 模型架构 FIDIC模型是一个由六个功能模块协作构成的序列处理框架，旨在对对话中的语音情感进行细粒度、个性化的识别。其整体架构（对应论文图2，但无可用图片URL）的数据流如下：输入与编码：原始语音首先通过预训练的Wav2Vec模型编码为上下文感知的声学嵌入，再经过两层Transformer增强长程依赖，并使用SpecAugment增强鲁棒性，得到当前话语特征Xcur。历史状态记忆空间 (HSMS)：为每个说话人维护一个独立的记忆库，包含三个部分：历史记录（最近n=20条话语的滑动窗口Hself）、特质向量（可更新的说话人特定情绪模式Xold）、时间轮次索引（提供时间上下文）。对话时间交互单元 (CTIU)：核心建模单元。它接收当前特征Xcur、说话人自身历史Hself和其他说话人历史Hother，分别计算：情感惯性 (EI)：通过Transformer编码器聚合自身历史Hself，得到自回归连续性表征cinertia。情感传染 (EC)：通过多头注意力机制计算当前话语Xcur与对方历史Hother之间的依赖关系，得到跨说话人影响表征ccontagion。整合模块：将cinertia和ccontagion通过前馈网络结合，形成当前轮次的说话人特异性情绪表征Xtemp。情感记忆巩固模块 (EMCM)：用于融合短期动态与长期特征。它利用HSMS中的时间信息t（包含归一化轮次索引和是否与同一对话者交互的标志）生成一个时间感知的门控值ωtemp。该门控动态地将CTIU输出的Xtemp与HSMS中的历史特质向量Xold融合，得到更新后的说话人特质向量Xtrait。情感整合模块 (AIM)：将四个来源的特征——当前话语特征Xcur、自身历史Hself、对方历史Hother和更新后的说话人特质Xtrait——进行拼接，并通过一个可学习的门控机制为每个来源分配自适应权重，最后融合成最终表征Xout。分类器：对Xout进行前馈变换和归一化，最后通过softmax输出情感类别概率。设计动机：该架构的核心思想是结构化解耦。传统RNN/LSTM或图模型将自我延续和外部影响混在一个隐状态或图节点中。FIDIC则设计专门的路径（EI路径和EC路径）来分别处理它们，并引入说话人专属的长期记忆库（HSMS/EMCM），使得模型能够区分并学习不同个体在情绪惯性和易感性上的差异。 ...