语音情感识别

Gen-SER: When the Generative Model Meets Speech Emotion Recognition

📄 Gen-SER: When the Generative Model Meets Speech Emotion Recognition #语音情感识别 #流匹配 #预训练 #生成模型 ✅ 6.5/10 | 前50% | #语音情感识别 | #流匹配 | #预训练 #生成模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Taihui Wang（腾讯多模态模型部门、腾讯AI Lab）通讯作者：未说明作者列表：Taihui Wang（腾讯多模态模型部门、腾讯AI Lab），Jinzheng Zhao（腾讯多模态模型部门、腾讯AI Lab），Rilin Chen（腾讯多模态模型部门、腾讯AI Lab），Tong Lei（腾讯AI Lab），Wenwu Wang（萨里大学视觉、语音和信号处理中心），Dong Yu（腾讯AI Lab） 💡 毒舌点评亮点在于创造性地将分类任务转化为生成模型的分布传输问题，并设计了“正弦分类编码”来规避传统自编码器的缺陷。然而，论文的实验说服力严重不足，不仅未与文中明确提出的最强基线（SenseVoice-L）进行公平、深入的对比分析，而且只在有限的任务上验证了有效性，缺少对核心设计选择的必要消融实验，让人对结论的普适性打上问号。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了多个公开英文情感语音数据集（如MELD, RAVDESS等）和一个内部数据集。公开数据集可自行获取，内部数据集未公开。 Demo：未提及。复现材料：论文提供了主要的超参数（学习率、batch size、训练步数、模型结构尺寸），但缺失关键生成模型的调度参数（k, σ）、优化器类型、硬件信息等，不足以完成复现。引用的开源项目：依赖HuBERT（chinese-hubert-large模型）。 📌 核心摘要问题：本文旨在为语音情感识别提供一种区别于传统分类器和大语言模型的新范式。方法核心：将SER重新定义为一个“分布传输”问题。具体为：使用预训练HuBERT提取语音特征（初始分布），用提出的“正弦分类编码”将离散情感标签映射为连续的目标嵌入向量（终端分布），然后训练一个基于“目标匹配”的生成模型，学习将初始分布传输到终端分布。创新点：与已有方法相比，1) 首次将生成模型用于SER的分布传输而非密度估计或条件生成；2) 提出无需训练的“正弦分类编码”方法，将标签映射为正交连续向量；3) 采用具有logistic均值和桥方差调度的目标匹配模型，提升生成效率与稳定性。主要实验结果：在MELD测试集上，本方法（Ours）达到56.5%的准确率，优于多数基于分类和LLM的基线（如Qwen-audio 55.7%），但低于SenseVoice-L（63.1%）。在性别分类任务（Air-Bench）上，本方法（90.5%）超越了所有对比基线。图表显示生成向量随时间步从语音特征平滑变化到目标向量。实际意义：为语音理解任务（如SER）提供了一种基于生成模型的新思路，其方法可能扩展到其他分类任务。主要局限性：1) 实验对比不充分，未深入分析与最强基线的差距原因；2) 验证任务和数据集有限；3) 缺少对正弦编码、生成调度等核心组件的消融研究；4) 论文未开源代码和模型，复现困难。 🏗️ 模型架构模型架构（Gen-SER）包含特征提取、目标生成和生成传输三个核心部分，整体流程如下图所示：图1展示了不同时间步（t）下，从初始语音特征向量x1（(a)）逐步演变为目标类别向量x0（(f)）的平均过程，验证了分布传输的有效性。 ...

Graph-based Modality Alignment for Robustness in Conversational Emotion Recognition

📄 Graph-based Modality Alignment for Robustness in Conversational Emotion Recognition #多模态模型 #语音情感识别 #对比学习 #鲁棒性 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #对比学习 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Dae Hyeon Kim（光云大学电子通信工程系）通讯作者：Young-Seok Choi*（光云大学电子通信工程系）作者列表：Dae Hyeon Kim（光云大学电子通信工程系）， Young-Seok Choi（光云大学电子通信工程系） 💡 毒舌点评亮点：该论文最大的贡献在于将对话上下文、说话者关系和多模态信息统一建模在一个异构图中，并通过一种无增强的跨模态图对比学习，显式地将不同模态的嵌入对齐到共享的情感空间，这在理论上优雅地解决了传统堆叠模型的信息瓶颈和模态崩溃问题。短板：论文的实验部分虽然全面，但其鲁棒性验证主要局限于单一模态缺失的极端情况，对于现实场景中更常见的模态质量退化（如音频噪声、视频模糊）或部分缺失的鲁棒性探讨不足。此外，代码未开源，这对于一篇依赖复杂图结构和对齐目标的工作而言，无疑是可复现性上的一个显著扣分项。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开预训练模型或检查点。数据集：使用的IEMOCAP和MELD是公开的标准学术数据集。 Demo：未提及在线演示。复现材料：论文中提供了非常详细的超参数设置、优化器配置、训练硬件和轮数等关键信息。论文中引用的开源项目：openSMILE [13]（音频特征提取）、Sentence-BERT [14]（文本特征提取）、DenseNet [15]（视觉特征提取）、AdamW优化器 [23]。 📌 核心摘要解决的问题：多模态会话情感识别（MERC）中，传统堆叠式模型容易产生信息瓶颈和冲突的归纳偏见，且缺乏显式的模态对齐，导致模型在推理时遇到某些模态缺失（即“缺失模态问题”）时鲁棒性差。方法核心：提出了一个名为EmotionHeart的统一框架。其核心是一个异构图Transformer，它将对话（作为节点集合）和其中的关系（说话者内、说话者间、模态间）构建为一个单一的图进行联合建模。同时，引入了一种无增强的跨模态图对比学习（GCL）训练目标，强制对齐不同模态（音频、文本、视觉）的嵌入表示。创新之处：1）与以往“序列+图”的堆叠架构不同，采用统一的异构图结构同时编码所有信息源，避免了信息瓶颈。2）提出了跨模态图对比学习，直接对齐单个模态的特征，而非早期融合后的特征，从而更好地解决模态崩溃和缺失模态问题。主要实验结果：在IEMOCAP和MELD两个基准数据集上达到了新的SOTA。具体而言，在IEMOCAP上加权F1（w.F1）达到73.1%，在MELD上达到69.0%，均显著优于之前的最佳模型（p<0.001）。消融实验证明了异构性和跨模态GCL组件的有效性。关键实验数据如下：方法年份架构 IEMOCAP (w.F1 %) MELD (w.F1 %) BIG-FUSION 2025 混合 72.9 67.2 EmotionHeart – 统一 73.1 69.0 表2（消融实验）显示，从标准Transformer（68.99%）到完整模型（73.13%），每一步添加核心组件都带来了性能提升和稳定性改善（标准差从4.73降至1.09）。 ...

ICASSP 2026 - 语音情感识别论文列表

ICASSP 2026 - 语音情感识别共 49 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Context-Aware Dynamic Graph Learning for Multimodal Emotion 8.8分前10% 🥈 Prompt-Guided Mixture-of-Experts for Robust Multimodal Senti 8.5分前25% 🥉 Clue2Emo: A Brain-Inspired Framework for Open-Vocabulary Mul 8.5分前25% 4. Attention-Weighted Centered Kernel Alignment for Knowledge D 8.0分前25% 5. Staged Diffusion with Hybrid Mixture-of-Experts (MOE) for Mu 8.0分前25% 6. DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplet 8.0分前25% 7. Graph-based Modality Alignment for Robustness in Conversatio 8.0分前25% 8. Multimodal Self-Attention Network with Temporal Alignment fo 8.0分前25% 9. It Is Personal: The Importance of Personalization for Recogn 8.0分前25% 10. AMBER2: Dual Ambiguity-Aware Emotion Recognition Applied to 8.0分前25% 11. MI-Fuse: Label Fusion for Unsupervised Domain Adaptation wit 8.0分前25% 12. Speech Emotion Recognition based on Hierarchical Transformer 8.0分前25% 13. Affect-Jigsaw: Integrating Core and Peripheral Emotions for 8.0分前25% 14. When Audio Matters: A Lightweight, Hierarchical Fusion Model 8.0分前25% 15. Behind the Scenes: Mechanistic Interpretability of Lora-Adap 7.5分前25% 16. Encoding Emotion Through Self-Supervised Eye Movement Recons 7.5分前25% 17. Inter-Dialog Contrastive Learning for Multimodal Emotion Rec 7.5分前25% 18. ADH-VA: Adaptive Directed-Hypergraph Convolution with VA Con 7.5分前10% 19. SURE: Synergistic Uncertainty-Aware Reasoning for Multimodal 7.5分前25% 20. Tpeformer: Temporal Patch Embedding Transformer 7.5分前25% 21. LETPAV: Lexicon-Enhanced Text with Progressive Audio-Visual 7.5分前25% 22. Multimodal Variational Graph Network for Multimodal Sentimen 7.5分前25% 23. Diffemotalk: Audio-Driven Facial Animation with Fine-Grained 7.5分前25% 24. MECap-R1: Emotion-Aware Policy with Reinforcement Learning f 7.5分前25% 25. FIDIC:Fine-Grained Conversational Emotion Recognition via In 7.5分前25% 26. Whisper-QF: Leveraging Dual Cross-Attention Q-Former for Spe 7.5分前25% 27. Temporal Graph Modeling for Speech Emotion Recognition Using 7.5分前25% 28. Mixture-of-Experts Based Soft-Label Learning for Multi-Label 7.5分前25% 29. Multi-Channel Speech Enhancement for Cocktail Party Speech E 7.5分前25% 30. Evaluating Emotion Recognition in Spoken Language Models on 7.5分前50% 31. InconVAD: A Two-Stage Dual-Tower Framework for Multimodal Em 7.5分前25% 32. MSF-SER: Enriching Acoustic Modeling with Multi-Granularity 7.5分前25% 33. Rationale-Guided Learning for Multimodal Emotion Recognition 7.0分前25% 34. Bimodal Fusion Framework for Dynamic Facial Expression Recog 7.0分前25% 35. Stress Prediction from Temporal Emotion Trajectories in Clin 7.0分前25% 36. Emo-TTA: Improving Test-Time Adaptation of Audio-Language Mo 7.0分前25% 37. Test Time Adaptation for Speech Emotion Recognition 7.0分前25% 38. Plug-and-Play Emotion Graphs for Compositional Prompting in 7.0分前25% 39. Reasoning Driven Captions to Assist Noise Robust Speech Emot 7.0分前25% 40. EmoTri-RL: Emotion- and Cause-Aware Reinforcement Learning f 7.0分前25% 41. Modeling Both Intra- And Inter-Utterance Variability for Con 6.5分前25% 42. DDSR-Net: Robust Multimodal Sentiment Analysis via Dynamic M 6.5分前50% 43. Scaling Ambiguity: Augmenting Human Annotation in Speech Emo 6.5分前50% 44. Recovering Performance in Speech Emotion Recognition from Di 6.5分前50% 45. B-GRPO: Unsupervised Speech Emotion Recognition Based on Bat 6.5分前50% 46. Leveraging Large Speech Language Models as Evaluators for Ex 6.5分前50% 47. Gen-SER: When the Generative Model Meets Speech Emotion Reco 6.5分前50% 48. SmoothCLAP: Soft-Target Enhanced Contrastive Language-Audio 6.5分前50% 49. Acoustic and Facial Markers of Perceived Conversational Succ 6.0分前50% 📋 论文详情 🥇 Context-Aware Dynamic Graph Learning for Multimodal Emotion Recognition with Missing Modalities 🔥 8.8/10 | 前10% | #语音情感识别 | #多模态模型 | #大语言模型 #多任务学习 ...

InconVAD: A Two-Stage Dual-Tower Framework for Multimodal Emotion Inconsistency Detection

📄 InconVAD: A Two-Stage Dual-Tower Framework for Multimodal Emotion Inconsistency Detection #语音情感识别 #多模态模型 #不确定性估计 ✅ 7.5/10 | 前25% | #语音情感识别 | #多模态模型 | #不确定性估计学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Zongyi Li（南洋理工大学，跨学科研究生项目）通讯作者：未说明作者列表：Zongyi Li（南洋理工大学，跨学科研究生项目），Junchuan Zhao（新加坡国立大学，计算学院），Francis Bu Sung Lee（南洋理工大学，计算与数据科学学院），Andrew Zi Han Yee（南洋理工大学，Wee Kim Wee传播与信息学院） 💡 毒舌点评亮点在于其“显式不一致性检测+选择性融合”的第二阶段设计非常精巧，直指当前多模态融合“无脑拼接”的痛点，并在实验上证明了其有效性。短板则是为了构建不一致样本，依赖了EmoV-DB数据集的人工语音-文本配对，这种合成数据构造的不一致性能否完全代表真实世界（如自然对话中的复杂讽刺、掩饰）中的不一致性，需要打一个问号。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：使用了公开数据集IEMOCAP、EmoBank、EmoV-DB和MUStARD，但未提供其构造的不一致性数据对的获取方式。 Demo：未提及在线演示。复现材料：论文给出了较详细的训练细节（如优化器、学习率、批大小、早停策略）、网络结构参数和损失函数设计，为复现提供了理论基础。论文中引用的开源项目：主要依赖的预训练模型包括Wav2Vec2-base、RoBERTa-base。使用的工具/库包括Torchaudio（用于韵律特征提取）。 📌 核心摘要问题：多模态情感分析中，语音与文本信号常包含不一致的情感线索（如讽刺），现有方法依赖不完整的情感表示（如离散标签）且默认模态一致进行无条件融合，导致性能下降。方法核心：提出InconVAD，一个两阶段双塔框架。第一阶段（Phase A）训练两个独立的、具备不确定性感知的单模态塔（语音塔、文本塔），在共享的三维情感空间（VAD：效价-唤醒-支配）中预测情感值。第二阶段（Phase B）首先用一个分类器显式检测输入语音-文本对的情感不一致性，然后仅对被判定为“一致”的配对，通过一个门控Transformer融合模块整合两塔输出，进行最终的VAD预测。新意：区别于以往工作，InconVAD显式地将“不一致性检测”作为中间任务，并利用不确定性估计在融合前进行质量评估，最后采用选择性融合策略，避免了不一致信息在融合时造成的表示混淆。实验结果：在情感不一致性检测任务上，InconVAD分类器在IEMOCAP+EmoV-DB构建的测试集上达到92.3%的准确率和92.2%的F1分数，显著超越了SVM (85.7% Acc)和ATEI (83.4% Acc)等基线。在多模态情感建模任务上，其融合塔在IEMOCAP数据集上的平均CCC达到0.657，优于现有方法MFCNN14 (0.642)和W2v2-b+BERT-b+L (0.618)。消融实验证明了各组件（如韵律注入、Conformer块、门控融合）的有效性。实际意义：该工作为构建更可靠、可解释的情感计算系统提供了新思路，尤其适用于需要精确理解用户真实情感意图的场景，如心理健康监测、智能客服、人机交互。局限性：主要依赖于特定数据集（IEMOCAP， EmoBank， EmoV-DB）构建和评估，其在更广泛语种、文化背景下的泛化能力未验证。模型的计算开销和实时性未被分析，可能限制在资源受限设备上的部署。不一致样本的构造方式（基于数据集配对）可能无法完全覆盖现实世界中的复杂情况。 🏗️ 模型架构 InconVAD是一个两阶段框架，整体架构如图1所示。 ...

Input-Adaptive Differentiable Filterbanks via Hypernetworks for Robust Speech Processing

📄 Input-Adaptive Differentiable Filterbanks via Hypernetworks for Robust Speech Processing #语音识别 #音频分类 #语音情感识别 #自监督学习 #时频分析 #鲁棒性 ✅ 7.5/10 | 前25% | #语音识别 | #自监督学习 | #音频分类 #语音情感识别学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Zikun Quan（University College London）通讯作者：Gaoyuan Du（Amazon）、Weilin Zhou（Nanjing Tech University）作者列表：Zikun Quan（University College London）、Weilin Zhou（Nanjing Tech University）、Gaoyuan Du（Amazon） 💡 毒舌点评亮点：这篇论文的核心想法非常直观且有吸引力——让前端滤波器像人耳一样，根据听到的内容（比如是安静的语音还是嘈杂的街道）实时“拧动旋钮”调整自身参数，这比让上层网络费力适应固定前端要优雅得多。短板：虽然作者声称“实时”，但论文提供的延迟数据（48.5ms总延迟）和复杂的控制器架构暗示，在极低延迟的流式应用（如助听器）中，其计算开销和预测滞后可能成为瓶颈，且实验部分缺乏与更多前沿自适应方法（如神经音频编解码器或扩散模型中的适应性模块）的直接对比。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开数据集（CHiME-4, LibriSpeech, IEMOCAP, FSD50K），但论文本身未提供新数据集。 Demo：未提及。复现材料：提供了核心算法描述和损失函数公式，但缺少关键超参数（如滤波器组细节、控制器窗口大小）、训练设置（学习率、优化器、batch size）和硬件信息，不足以完全复现。论文中引用的开源项目：未明确说明。 📌 核心摘要问题：传统和现有的可学习音频前端（如MFCC, SincNet, LEAF）都使用静态滤波器组，无法适应真实世界中动态变化的声学环境（如突发噪声），导致下游任务性能下降。方法核心：提出HyperFB，一个受超网络控制的自适应可微分滤波器组框架。它包含两个核心模块：一个轻量级的因果超网络控制器（H）实时分析输入音频上下文，生成一组控制点；这些控制点通过可微分插值，生成平滑的滤波器参数轨迹（中心频率、带宽），用于配置时变滤波器组操作符（F）对原始波形进行滤波。创新点：首次将超网络用作“控制器”，直接在物理信号处理层（而非特征层或网络层）实时生成并调整滤波器的物理参数，实现了实例级（instance-wise）的自适应。并提出了基于“噪声到干净语音重建”的任务无关自监督预训练策略，以及高效的适配器微调范式。主要实验结果：在CHiME-4（鲁棒语音识别）任务上，HyperFB的平均词错误率（WER）为20.3%，显著优于最强基线HuBERT（22.2%）和静态版本的Oracle（24.1%）。在数据效率上，在LibriSpeech-100h上优势明显。在跨任务泛化上，在情感识别（IEMOCAP， WAA 71.8%）和音频分类（FSD50K， mAP 0.482）上也表现优异。实际意义：为构建真正鲁棒的音频处理系统提供了一条新路径，即让前端本身智能化、可调节，能有效应对非平稳噪声，适用于语音识别、情感分析、声学场景分类等多种任务，尤其在低资源场景下优势显著。局限性：主要局限性在于引入的额外计算开销（相比静态前端），以及因果设计带来的固定延迟（48.5ms），可能限制其在某些超低延迟实时应用中的部署。此外，其自适应能力高度依赖控制器对声学场景的准确分析，对于极端未见过的噪声类型可能失效。 💡 核心创新点物理层的实例级自适应滤波器：这是最核心的创新。以往的自适应方法（如注意力、动态卷积）作用于网络中间层特征，而HyperFB直接改变前端滤波器组的物理参数。这相当于让前端能够“物理上”重新配置自身的频谱分析方式，以匹配当前输入信号的特性。证据：图2和图3的可视化清晰展示了模型如何针对不同噪声（高频嘶声、低频隆隆声）重塑滤波器形状以抑制噪声、突出语音共振峰。因果超网络控制器架构：设计了一个轻量、多尺度的因果网络来“理解”声学场景并生成滤波器参数轨迹。其注意力机制能根据输入动态调整对不同时间尺度的关注（图5），信息瓶颈则促进了鲁棒表示的形成。这是实现上述物理层自适应的“大脑”。两阶段任务无关预训练与高效微调范式：提出了“噪声到干净语音重建”的自监督预训练任务（公式1），迫使控制器学习通用的声学场景分析能力，而非过拟合于特定下游任务。微调时，冻结大部分参数，仅在控制器的信息瓶颈处插入极轻量的适配器（更新<1%参数），实现了高效、鲁棒的跨任务迁移。 🔬 细节详述训练数据：预训练：使用LibriSpeech的无标签部分。方法：将干净音频 xc 与随机噪声 n 混合生成 xnoisy。微调/评估：鲁棒语音识别：CHiME-4（真实嘈杂环境，包含Bus, Cafe, Ped., Street四种场景）。数据效率：LibriSpeech-100h/360h。情感识别：IEMOCAP。音频分类：FSD50K。损失函数：预训练损失 (Lpretrain)：E[ || D(F(xnoisy, H(xnoisy))) - Sc ||^2_2 ]。其中 D 是一个轻量辅助CNN解码器，目标是从自适应特征中重建干净语音的幅度谱 Sc。下游微调损失 (Ltotal)：Ltask + λLreg。Ltask 是任务损失（如交叉熵）；Lreg 是结构正则化项，鼓励生成的滤波器轨迹在频域保持平滑分布，防止重叠或聚集。训练策略：两阶段。阶段一：自监督预训练。优化 Lpretrain，训练控制器H、操作符F和解码器D。阶段二：下游微调。丢弃解码器D，冻结H和F的大部分参数。仅训练新插入的任务适配器（一个单层线性层）和下游任务模型。优化 Ltotal。关键超参数：控制器H：多尺度窗口长度（如80ms, 400ms, 1600ms）。操作符F：滤波器数量 K，控制点数量 Nc。微调适配器：嵌入维度（瓶颈维度）。以上具体数值论文未说明。训练硬件：论文未说明。推理细节：采用分段时不变处理。每个音频帧（如25ms）使用该帧中心时刻查询到的瞬时滤波器参数进行独立滤波。这近似实现了参数连续变化的时变系统。正则化/稳定训练技巧：使用了信息瓶颈原理强制学习压缩表示；在下游损失中加入了轨迹平滑正则项 Lreg。 📊 实验结果表1. CHiME-4 Real Eval集上的词错误率(WER %↓) ...

Inter-Dialog Contrastive Learning for Multimodal Emotion Recognition in Conversations

📄 Inter-Dialog Contrastive Learning for Multimodal Emotion Recognition in Conversations #语音情感识别 #对比学习 #多模态模型 #跨模态 ✅ 7.5/10 | 前25% | #语音情感识别 | #对比学习 | #多模态模型 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Dong-Hyuk Lee (Department of Electronics and Communications Engineering, Kwangwoon University) 通讯作者：Young-Seok Choi (Department of Electronics and Communications Engineering, Kwangwoon University, yschoi@kw.ac.kr) 作者列表：Dong-Hyuk Lee (Department of Electronics and Communications Engineering, Kwangwoon University)、Dae Hyeon Kim (Department of Electronics and Communications Engineering, Kwangwoon University)、Young-Seok Choi (Department of Electronics and Communications Engineering, Kwangwoon University) 💡 毒舌点评亮点在于提出了“跨对话上下文”（Inter-dialog context）这一新颖维度，并设计了IDCL对比学习框架来有效利用它，为传统上仅关注对话内部的上下文建模提供了补充。短板在于方法创新的深度略显不足，核心是对比学习在模态间和对话间的应用组合，且论文缺少代码和模型细节，使得复现存在不确定性。 ...

It Is Personal: The Importance of Personalization for Recognizing Self-Reported Emotion

📄 It Is Personal: The Importance of Personalization for Recognizing Self-Reported Emotion #语音情感识别 #迁移学习 #多任务学习 #零样本 🔥 8.0/10 | 前25% | #语音情感识别 | #迁移学习 | #多任务学习 #零样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：James Tavernor (University of Michigan) 通讯作者：未说明（论文中未明确标注通讯作者）作者列表：James Tavernor (University of Michigan), Emily Mower Provost (University of Michigan) 💡 毒舌点评本文系统性地论证了在语音情感识别任务中，“个性化”对于预测主观性更强的“自报告情感”至关重要，实验设计严谨，消融完整，为解决情感感知的主观性问题提供了一个清晰的技术路线。然而，其核心模型架构（WavLM+BERT+线性层）并无新意，创新主要体现在方法论的组合与验证上；且为每个用户寻找“最相似注释者”再微调的范式，在面对大规模新用户时可能存在计算与适配成本问题。 🔗 开源详情代码：提供代码仓库链接：https://github.com/chailab-umich/ModelingIndividualSelfReports。模型权重：论文中未提及是否公开预训练或微调后的模型权重。数据集：使用了公开数据集MSP-Podcast、IEMOCAP和MuSE，但论文中未说明具体获取方式（通常需要按各数据集官方协议申请）。 Demo：论文中未提及提供在线演示。复现材料：提供了代码仓库，可能包含部分实验脚本。但论文正文中未给出详细的超参数配置（如学习率、batch size、优化器）、训练硬件信息以及预训练模型的具体checkpoint。论文中引用的开源项目：明确使用了预训练的WavLM和BERT模型作为特征提取器。论文中未提及开源计划（除了代码仓库链接）。 📌 核心摘要要解决什么问题：如何利用在第三方标注数据上训练的语音情感识别（SER）模型，来准确预测说话人自身的“自报告情感”。这面临感知不匹配（第三方与自报告标签差异）和领域不匹配（不同数据集差异）两大挑战。方法核心是什么：提出一种个��化框架：首先在大规模第三方标注数据集（MSP-Podcast）上预训练一个“多任务个体注释者（IA）”模型（为每个第三方注释者分配一个预测头）。对于目标自报告数据集（IEMOCAP, MuSE），为每个自报告者从1998个预训练预测头中选择一个“最相似”的（IA-Similar），作为个性化起点。然后，使用该自报告者自己的少量标签对选中的预测头进行微调（FT-IA-Similar）。与已有方法相比新在哪里：新在系统性地将“大规模第三方个体注释者建模”与“小规模自报告数据个性化微调”相结合，用于解决自报告情感识别问题。它明确区分并同时处理了感知不匹配（通过相似性选择）和领域不匹配（通过微调）。主要实验结果如何：基线（零样本）性能较差，尤其在MuSE数据集上，激活维度的CCC（一致性相关系数）接近0。仅进行领域适应（微调共识模型）对性能提升有限，有时甚至损害效度（如IEMOCAP效度）。核心的“相似注释者选择”（IA-Similar）能显著提升性能，尤其在激活维度。结合“相似选择”与“自报告数据微调”（FT-IA-Similar）取得最佳效果。在MuSE数据集上，激活维度的CCCflat从基线的-0.01提升至0.62，提升了高达0.63。效果在“激活”维度上比“效度”维度更强。关键结果表格：模型/方法维度 IEMOCAP CCCflat MuSE CCCflat MuSE Monologue CCCflat Consensus (RQ1, 基线) Act 0.58 -0.01 0.01 Val 0.53 0.15 0.17 FT-Consensus (RQ2) Act 0.60 -0.00 0.01 Val 0.44 0.22 0.25 IA-Similar (RQ3) Act 0.64 0.47 0.48 Val 0.48 0.31 0.39 FT-IA-Similar (RQ4) Act 0.64 0.62 0.64 Val 0.42 0.38 0.43 5. 实际意义是什么：表明要准确识别个人的真实情绪状态，必须考虑个体感知的独特性。该框架为利用丰富的第三方标注数据来构建针对个体的、更精准的情绪识别模型提供了可行路径，对心理健康监测、人机交互等应用有直接价值。 6. 主要局限性是什么：1）预训练和适配过程计算成本较高，尤其是为每个用户维护和选择预测头。2）对于效度维度，个性化有时会带来负面效果，表明其与激活维度的特性不同，需要进一步研究。3）实验基于特定的几个数据集，结论的普适性有待验证。 🏗️ 模型架构整体流程：输入音频文本 -> 特征提取 -> 多模态融合 -> 个性化预测 -> 微调。主要组件与数据流：特征提取：使用预训练的冻结的WavLM提取音频嵌入，使用冻结的BERT提取文本（转录）的CLS嵌入。特征融合与映射：将音频和文本嵌入进行dropout后拼接，通过一个256维的线性层+ReLU激活，得到一个多模态嵌入。维度专用分支：多模态嵌入分别通过两个独立的、256维的线性层+ReLU激活，生成“激活”和“效度”的专属嵌入。预测层：共识模型：每个维度专属嵌入接一个线性层，输出单个预测值。 IA模型：每个维度专属嵌入接N个线性层（N为注释者数量，预训练时为1998），每个线性层对应一个注释者的预测头。对于给定样本，其预测是该样本所有相关注释者对应预测头输出的平均值。关键设计选择：架构采用双塔（音频+文本）融合，但并非本文创新。核心创新在于预测层的设计：IA模型通过为每个第三方注释者学习一个独立的线性预测头，将传统的“预测共识标签”任务转化为“预测每个注释者标签”的多任务学习问题，从而建模了感知的多样性。这为后续为自报告者寻找相似预测头奠定了基础。 💡 核心创新点将个体注释者建模应用于自报告情感识别：之前工作主要在第三方标注任务上建模个体注释者。本文首次将其应用于预测更难、数据更稀缺的自报告情感，验证了其有效性。提出“相似性选择+微调”的轻量级个性化范式：针对自报告数据稀少的特点，提出了两步走策略：首先通过少量目标数据（训练折）从大规模预训练模型中选择一个最相似的注释者预测头（IA-Similar），这是一个轻量级的“适配”步骤；然后进行少量微调。这种方法比从头训练或直接微调整个大模型更高效、更稳定。系统性对比与消融设计：论文设计了清晰的四个研究问题（RQ1-RQ4），分别对应零样本、领域适应、感知适应、两者结合，并通过严谨的实验和统计检验，量化了每种策略的贡献和组合后的增益，提供了令人信服的证据链。 🔬 细节详述训练数据：预训练：MSP-Podcast数据集（发布版1.11），训练集含84,030条语音，1,998个独立第三方注释者。测试/适配：IEMOCAP（10,039条语音，6位说话人提供自报告标签，平均每人约402条）和MuSE（2,648条语音，28位说话人，每人5-10段独白，约94条语音，平均每人约9.75次自报告）。损失函数：共识模型：损失函数为 L = 2 - CCC_act - CCC_val，其中CCC是Lin’s一致性相关系数。 IA模型：损失函数为 L = 2 - CCCflat_act - CCCflat_val。CCCflat是在整个数据集的所有个体标签和预测上计算的CCC，而非对每个注释者单独计算后平均。训练策略：预训练使用5个随机种子，采用早停策略（基于验证集损失，耐心10个epoch），选择验证损失最低的模型。领域微调（RQ2, RQ4）和自报告数据微调（RQ4）均只进行 1个epoch，这可能是为了缓解目标数据稀少带来的过拟合风险。在选择相似预测头时，使用训练折的数据计算每个预训练头与目标自报告者标签的CCC，选择CCC最高的头。如果自报告者只有1条标签，则选择预测值与真实值距离最小的头。关键超参数：模型隐藏层维度为256，融合前使用dropout p=0.2。论文未明确说明学习率、优化器、batch size等。训练硬件：论文中未提及。评估指标： CCCflat：在整个测试集（所有说话人/所有自报告者）上计算所有标签和预测的CCC，评估整体性能。 CCCind (仅用于IEMOCAP)：为每位自报告者单独计算CCC，然后取平均。评估个性化效果。 RMSEind (用于MuSE)：为每位自报告者单独计算均方根误差，然后取平均。因为MuSE每位自报告者标签太少，无法可靠计算CCC。数据处理：标签通过min-max缩放至[-1, 1]范围。交叉验证设计确保说话人独立且单次记录独立（如MuSE的整个独白、IEMOCAP的特定对话场景在同一折），防止数据泄露。 📊 实验结果主要基线与对比如下表所示（数据来源于论文Table 1 & 2）： ...

Korean aegyo speech shows systematic F1 increase to signal childlike qualities

📄 Korean aegyo speech shows systematic F1 increase to signal childlike qualities #语音情感识别 #时频分析 #多语言 #韩语 ✅ 6.0/10 | 前50% | #语音情感识别 | #时频分析 | #多语言 #韩语 | arxiv 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Ji-eun Kim (未说明机构) 通讯作者：Volker Dellwo (未说明机构) 作者列表：Ji-eun Kim (未说明)、Volker Dellwo (未说明) 💡 毒舌点评本文首次系统量化了韩语aegyo（撒娇）语音风格的声学实现模式，填补了特定文化语音风格研究的空白，实验数据扎实，结论清晰。然而，研究仅限于12名首尔说话人的特定脚本，样本量偏小且任务场景单一（朗读），其结论能否泛化至自然对话或其他语用情境，以及aegyo语音在跨文化沟通中的潜在误解，均未得到探讨。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及是否公开及获取方式。 Demo：未提及。复现材料：论文中未提及具体的训练细节、配置或附录说明。仅描述了实验设计（12说话人、脚本朗读、共振峰分析）。论文中引用的开源项目：论文中未提及依赖的开源工具或模型。 📌 核心摘要要解决什么问题：该论文旨在从声学角度分析和解释韩语aegyo（一种用于浪漫互动的儿童化说话风格）的语音特征，探究成人如何通过调整语音来模拟儿童化特质。方法核心是什么：通过对12名首尔韩语说话人在aegyo和非aegyo（正常）两种风格下朗读相同脚本的语音进行声学分析，重点测量了所有元音的第一共振峰（F1）和第二共振峰（F2）频率，从而量化元音空间的修饰模式。与已有方法相比新在哪里：以往研究多从社会语言学或感知层面探讨aegyo，本研究则提供了首个系统的、基于共振峰频率的定量声学证据，具体揭示了aegyo语音中元音空间变化的核心特征是全局性的F1升高，而非整体平移或简单的元音空间压缩。主要实验结果如何：研究发现，与正常语音相比，aegyo语音在所有测试元音上均表现出显著的F1值升高（平均增幅未提供具体数值，但统计显著）。F2的变化则显示出选择性前移，即前元音的F2值有所增加。这导致整体元音空间在垂直方向（F1轴）上显著扩展和下移，而水平方向（F2轴）变化不一。主要证据是统计检验结果，论文未提供详细数值表格。 F1变化：所有元音F1显著增加（p值未提供，但描述为显著）。 F2变化：前元音F2选择性前移（增加），后元音变化未强调。元音空间：整体呈现F1主导的“降低和扩展”模式。实际意义是什么：该研究为理解特定文化语境下的语音风格化策略提供了声学基础，其发现（通过提高F1模拟较短声道）可为跨语言的情感语音合成、语音转换以及非言语社交信号识别（如机器人、虚拟角色的儿童化表达）提供设计参考。主要局限性是什么：样本量较小（12人），且实验材料为朗读脚本，可能无法完全反映自然对话中的aegyo使用；研究仅分析了静态的元音特征，未探讨韵律（如语速、音高、节奏）在aegyo中的作用；也未探讨这种声学模式带来的感知效果（如听者是否真的觉得说话者更可爱、更幼稚）。 🏗️ 模型架构本文为实验性研究，不涉及生成或判别模型的架构设计。其分析框架为：提取说话人分别在两种风格下朗读相同文本的语音 -> 进行元音标注 -> 测量目标元音的F1和F2频率 -> 对F1/F2值进行统计比较（如使用线性混合效应模型），以量化风格间的系统性差异。 ...

LETPAV: Lexicon-Enhanced Text with Progressive Audio-Visual Fusion for Multimodal Sentiment Analysis

📄 LETPAV: Lexicon-Enhanced Text with Progressive Audio-Visual Fusion for Multimodal Sentiment Analysis #多模态模型 #语音情感识别 #跨模态 #对比学习 ✅ 7.5/10 | 前25% | #语音情感识别 | #多模态模型 | #跨模态 #对比学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiaxun Li（浙江大学）通讯作者：Yuehai Wang（浙江大学）作者列表：Jiaxun Li（浙江大学）、Yuanpeng Wang（未说明）、Wei Li（未说明）、Jiale Chen（未说明）、Yuehai Wang*（浙江大学） 💡 毒舌点评这篇论文清晰地瞄准了多模态情感分析中“文本强势、音视频弱势”的经典痛点，提出的渐进式音视频融合策略思路直接且有效，消融实验也扎实地证明了每个模块的贡献。然而，其创新更多是现有模块（如词典增强、交叉注意力、对比学习损失）的巧妙组合与针对性调优，缺乏根本性的架构突破，且在处理更复杂的模态交互或缺失场景时未见讨论。 🔗 开源详情代码：论文中提及“使用作者发布的官方代码在相同条件下复现”，表明代码已开源，但未在提供的文本中给出具体链接。模型权重：未提及是否公开预训练模型权重。数据集：使用CMU-MOSI和CMU-MOSEI公开数据集，未提及需额外获取。 Demo：未提供在线演示。复现材料：论文提供了详细的实验设置，包括优化器类型、各模块学习率、批大小、权重衰减、Dropout率、训练硬件（4x RTX 4090 D GPU），以及评估指标。但未说明总训练步数、调度策略等细节。论文中引用的开源项目：使用了SenticNet词典、BERT预训练模型、FACET和COVAREP特征提取工具包。 📌 核心摘要本文针对多模态情感分析（MSA）中不同模态（文本、音频、视觉）信息密度不平衡导致的融合难题，提出了一种名为LETPAV的轻量化框架。其核心方法是：1) 设计了一个词典增强与上下文门控的文本编码器（LECT），通过引入外部情感词典的极性先验和同义词扩展，并结合上下文门控机制，来增强文本特征的情感敏感度，使其作为语义锚点；2) 提出了渐进式音视频融合策略（PAVF），通过多层跨模态注意力逐步对齐并融合音频和视觉特征，形成一个紧凑的联合表征，再与增强文本进行通道注意力融合。训练时还引入了方向一致性损失和跨模态对齐损失以稳定模型。在CMU-MOSI和CMU-MOSEI两个主流基准数据集上的实验表明，LETPAV在多个指标上（如CMU-MOSI上MAE降至0.692，Corr提升至0.840）取得了优于或可比于当前最先进方法（SOTA）的成绩。该工作的实际意义在于为多模态融合中的信息不平衡问题提供了一种简单有效的解决方案，潜在可用于情感计算、人机交互等领域。其主要局限性可能在于未探索模型在更复杂场景（如模态缺失、长序列）下的鲁棒性，且词典的引入可能带来外部知识偏差。 🏗️ 模型架构 LETPAV模型的整体框架如图1所示，其处理流程和主要组件如下： ...

Leveraging Large Speech Language Models as Evaluators for Expressive Speech

📄 Leveraging Large Speech Language Models as Evaluators for Expressive Speech #语音情感识别 #语音大模型 #模型评估 #预训练 #数据集 ✅ 6.5/10 | 前50% | #语音情感识别 | #语音大模型 | #模型评估 #预训练学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度中 👥 作者与机构第一作者：未说明（论文署名为 Bismarck Bamfo Odoom, Philipp Koehn，未明确区分第一作者）通讯作者：未说明作者列表：Bismarck Bamfo Odoom（Johns Hopkins University, Center for Language and Speech Processing）、Philipp Koehn（Johns Hopkins University, Center for Language and Speech Processing） 💡 毒舌点评这篇论文巧妙地将表达性语音评估任务转化为一个“听懂并描述”问题，让SLM兼职当“考官”，思路值得肯定。但遗憾的是，“考官”的评分体系（微调后的分类性能）虽然在数字上有所提升，却更像是完成了一份填空题答卷，而非输出了能指导TTS优化的深度分析报告，其“评估器”的真正价值尚未被充分挖掘和验证。 ...