语音情感识别

Reading between the Lines: Leveraging Large Language Models for Global Dementia and Depression Assessment from Clinical Interviews

📄 Reading between the Lines: Leveraging Large Language Models for Global Dementia and Depression Assessment from Clinical Interviews #语音情感识别 6.8/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.7/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.8/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构作者：Franziska Braun, Alea Rüggeberg, Thomas Ranzenberger, Hartmut Lehfeld, Thomas Hillemacher, Tobias Bocklet, Korbinian Riedhammer。机构：1TH Nürnberg, 2FAU Erlangen, 3PMU Klinikum Nürnberg, Germany。 ...

Data-Driven Decoding of Russell's Circumplex Model of Affect

📄 Data-Driven Decoding of Russell's Circumplex Model of Affect #语音情感识别 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构 Amdjed Belaref1 2, Samir Sadok3, Zineb Noumir1, and Renaud Seguier2 1 Alten, France, 2 CentraleSupélec IETR UMR CNRS 6164, France 3 Inria at Univ. Grenoble Alpes, CNRS, LJK, France ...

Explainable and Trustworthy Speech Emotion Recognition Using Confidence Score and Reinforcement Learning Rectified Speech Emotion Descriptors

📄 Explainable and Trustworthy Speech Emotion Recognition Using Confidence Score and Reinforcement Learning Rectified Speech Emotion Descriptors #语音情感识别 #强化学习 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前50% | #语音情感识别 | #强化学习 | arxiv 👥 作者与机构 1 The Chinese University of Hong Kong, Hong Kong SAR, China 2 Institute of Software, Chinese Academy of Sciences, China 3 National Research Council Canada, Canada 4 Tsinghua University, China 作者：Youjun Chen, Xurong Li, Mengzhe Geng, Zengrui Jin, Jiajun Deng, Guinan Li, Shujie Hu, Huimeng Wang, Haoning Xu, Chengxi Deng, Bowen Zhang, Xunying Liu ...

Predicting Cognitive Load from Speech and Interaction Dynamics in Dyadic Conversations

📄 Predicting Cognitive Load from Speech and Interaction Dynamics in Dyadic Conversations #语音情感识别 6.7/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.7/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构 Tahiya Chowdhury，Department of Computer Science, Colby College, Waterville, Maine, USA。 💡 毒舌点评论文试图在“自然对话”和“认知负荷”这个有点棘手的交叉点上做点事，动机值得肯定，特别是在远程协作普及的当下。但坦白说，整体感觉像是用一套相对标准、甚至略显保守的方法（eGeMAPS + GRU + RF）去验证一个假设。交互特征的引入算是个亮点，但“基于VAD的说话时间/轮次”这种特征集实在算不上新颖。更关键的是，53对对话、475个样本，这点数据量喂给GRU这种序列模型，能学到的“时序动态”恐怕有限，文中甚至承认了带注意力的GRU效果没提升，这直接削弱了“动态”这个卖点。结论说“交互特征提供了更强的预测力”，但看绝对数值（CCC最高0.51），离实际可用还差得远，更像是说“在这些特定特征上找到了一点统计相关性”。作者自己也提到了一个致命问题：这些交互模式可能只是任务结构的反映（比如，时间紧的任务自然会导致更多打断），而非纯粹的认知负荷。论文对此有探讨，但显然没有解决，这让整个工作的解释力打了个折扣。总的来说，是一篇中规中矩的探索性工作，证明了“有点信号”，但离“可靠预测”和“深入理解”还有明显距离。 📌 核心摘要本文探讨了在自然双人协作对话中，利用语音和交互动态预测主观认知负荷（NASA-TLX量表得分）的可能性。研究使用AVCAffe数据集（53对参与者，9项任务），提取了静态声学特征（eGeMAPS）、时序动态声学特征（一阶差分）和基于语音活动的交互特征（如说话时间比例、轮次转换率）。作者将问题建模为回归任务，使用双头GRU编码器处理成对的参与者语音特征序列，并与随机森林基线进行对比。实验采用留一法交叉验证以确保泛化能力。结果表明，仅使用声学特征即可对时间需求（CCC≈0.42）和智力需求（CCC≈0.22）进行高于偶然水平的预测。加入交互特征后，预测性能显著提升，尤其是时间需求（CCC提升至0.51）。特征重要性分析显示，时间需求与轮次转换、重叠等交互动态相关，而智力需求与说话时间分配不平衡相关。然而，模型（GRU与随机森林）之间的性能差异在统计上不显著。研究结论认为，语音和交互动态包含了可泛化的认知负荷信号，但预测性能受数据集规模、标签粒度及交互特征与任务模式混淆等因素限制。 🔗 开源详情代码：论文中未提及提供代码链接或仓库。模型权重：论文中未提及提供模型权重。数据集：论文中引用了AVCAffe数据集，具体获取链接需参考该数据集论文（sarkar2023avcaffe）。本文未提供直接链接。 Demo：论文中未提及。复现材料：论文中未提供。论文详细描述了模型结构、训练参数和评估流程，理论上可辅助复现。论文中引用的开源项目： OpenSMILE：https://github.com/audeering/opensmile （用于提取eGeMAPS声学特征）。 Silero VAD：https://github.com/snakers4/silero-vad （用于语音活动检测）。 🏗️ 方法概述和架构本文提出的方法主要包含三个核心阶段：特征提取、模型构建与评估。 ...

MA-DLE: Speech-based Automatic Depression Level Estimation via Memory Augmentation

📄 MA-DLE: Speech-based Automatic Depression Level Estimation via Memory Augmentation #语音情感识别 7.5/10 ✅ 7.5/10 | 前25% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构 Xuzhi Wang1, Xinran Wu1, Ziping Zhao1, Jianhua Tao2, Björn W. Schuller3,4, 1 Tianjin Normal University 2Tsinghua University 3Technical University of Munich 4Imperial College London 💡 毒舌点评一个标准的“缝合怪”工作：把外部记忆机制这个略显陈旧的概念，缝合到语音抑郁症检测这个具体任务上。动机（GRU遗忘早期特征）看似合理，但提供的视觉证据（图1）说服力有限，因为低相似度可能源于特征空间不匹配而非“遗忘”。核心的“相似性检索”本质上是构建了一个静态的、与查询相关的键值对检索库，其有效性（Top-K=5）在小数据集上容易过拟合，且检索的稳定性（如对噪声的鲁棒性）未被讨论。动态特征分支（帧差分+1D卷积）设计粗糙，声称捕捉“情绪波动”，但抑郁症的长期情绪低落模式是否能用相邻帧的差分来建模，值得怀疑。HAF模块用了四个Transformer块，对于这个数据规模的任务来说过于笨重，有堆砌模块之嫌。最令人不安的是，论文声称在E-DAIC上“超越大多数多模态方法”，但仔细对比表格，其RMSE（5.72）仅略优于部分多模态方法（如A+V的5.10, 5.35），在回归任务上这点差距可能不具统计显著性，且MAE（4.68）实际差于一些多模态方法。这种选择性比较有美化结果之嫌。总而言之，这是一篇工程上做了不少尝试，但科学洞察力薄弱、部分结论有过强之嫌的工作。 📌 核心摘要论文针对语音抑郁症水平估计中GRU等RNN模型易遗忘早期长程信息的问题，提出了一个记忆增强框架（MA-DLE）。该框架在ConvGRU提取时序特征的基础上，构建外部记忆库，通过两种策略进行增强：一是检索与GRU输出高相似度的帧特征作为语义补充；二是通过帧差分和轻量编码器建模动态特征以捕捉情绪变化。最终，利用层次注意力融合（HAF）模块整合GRU特征、相似性检索特征和动态特征。在DAIC-WOZ和E-DAIC两个基准数据集上，该方法在语音单模态方法中取得了最优的MAE和RMSE性能。消融实验验证了记忆库、相似性检索、动态特征、HAF模块及Smooth L1损失函数的有效性。然而，该方法在记忆检索的鲁棒性、动态特征建模深度、模型复杂度以及多模态场景下的潜力等方面存在局限。 🔗 开源详情代码：论文中未提供代码仓库链接。模型权重：论文中未提供模型权重下载链接。数据集：论文中使用了 DAIC-WOZ 和 E-DAIC 数据集。论文指出这两个数据集被广泛使用，但未提供具体的下载链接或官方仓库地址。 Demo：论文中未提及在线演示链接。复现材料：论文提供了详细的实验设置（V-C, V-D节），包括优化器、学习率、批次大小、网络架构细节（如8层GRU，隐藏层维度256）和超参数（如记忆模块的K=5，Smooth L1 Loss的β=1.0）。但未提供预训练模型、训练脚本或完整的代码仓库供复现。论文中引用的开源项目： PyTorch：论文提到其实现基于 PyTorch（V-C节）。官方链接：https://pytorch.org/ NetVLAD：论文提到使用 NetVLAD 作为音频编码器提取特征（IV-A, IV-B节）。官方论文及代码参考：https://arxiv.org/abs/1511.07232 🏗️ 方法概述和架构论文提出MA-DLE框架，旨在通过外部记忆增强来弥补GRU在建模语音长序列时对早期信息捕捉不足的缺陷。整体架构如图2所示，包含特征提取、双分支处理（ConvGRU分支与记忆库分支）和HAF融合三个主要部分。 ...

ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning

📄 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning #自监督学习 #低资源 #语音识别 #语音情感识别 #说话人验证 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.7/10 | 前25% | #语音识别 | #自监督学习 | #低资源 #语音情感识别 | arxiv 👥 作者与机构作者：Khanh Le, Kiet Anh Ha, Bao Duy Le, Dung Thai, Linh Khoa Tran, D Doan 机构：VinUniversity, Vietnam; UNEY, Switzerland ...

Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition

📄 Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition #语音情感识别 #提示学习 #多模态模型 #参数高效微调 #迁移学习 7.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前50% | #语音情感识别 | #提示学习 | #多模态模型 #参数高效微调 | arxiv 👥 作者与机构 Iosif Tsangko (1, 2), Andreas Triantafyllopoulos (1, 2), Björn W. Schuller (1, 2, 3, 4) （注：机构详情未在论文正文中明确列出，脚注显示了项目资助信息） ...

Geometric Second-Order Feature Correlation Learning for Self-Supervised Speech Emotion Recognition

📄 Geometric Second-Order Feature Correlation Learning for Self-Supervised Speech Emotion Recognition #语音情感识别 #自监督学习 7.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.9/10 | 前50% | #语音情感识别 | #自监督学习 | arxiv 👥 作者与机构 Li Qian Song, Shuanglin (可能)，来自1. 湘江实验室 (Xiangjiang Laboratory)，长沙，中国；2. 埃克塞特大学 (University of Exeter)，埃克塞特，英国。联系邮箱为：slay575@163.com, ruxiaoqian@gmail.com, s.song@exeter.ac.uk。 💡 毒舌点评这篇论文试图用微分几何的华丽外衣，给一个相对直白的统计操作（在子空间上计算协方差矩阵并取对数）正名。动机（一阶聚合丢失相关性）是合理的，但论述中将“协方差矩阵在欧氏空间操作”上升到“几何失真”、“伪熵”的高度，显得过于理论化，有点把简单问题复杂化的嫌疑。实验上，虽然在两个标准数据集上超越了基础池化基线，但对比的基线集显得陈旧且单一（没有与近期任何二阶聚合方法如Bilinear Pooling，或其他几何方法如Log-Det Pooling对比），使得“有效性”的宣称大打折扣。最遗憾的是，作为一篇强调计算效率（避免维度爆炸）的论文，居然完全不提供SOC层与基线的计算开销对比，这在注重实用的顶会审稿人眼里是很大的减分项。作者声称SOC是“drop-in module”，却不展示其插入后的整体效率变化，说服力不足。 📌 核心摘要本文针对自监督语音识别（SSL）表征在聚合为整段描述符时丢失特征间高阶相关性的问题，提出了第二阶相关（SOC）层。SOC层首先通过一个可学习的线性层将高维SSL特征投影到一个紧凑的低维子空间，在此子空间中计算特征的协方差矩阵，将其建模为对称正定（SPD）流形上的描述符。随后，通过Log-Euclidean映射（LEM）将协方差矩阵映射到欧几里得切空间，并进行半向量化以供下游分类器使用。在ESD和RAVDESS两个数据集上的实验表明，SOC在多个冻结SSL主干网络上均优于全局平均池化（GAP）、全局标准差池化（ASP）和帧感知池化（FA）等一阶基线方法。 ...

ProSarc: Prosody-Aware Sarcasm Recognition Framework via Temporal Prosodic Incongruity

📄 ProSarc: Prosody-Aware Sarcasm Recognition Framework via Temporal Prosodic Incongruity #语音情感识别 #自监督学习 7.5/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前25% | #语音情感识别 | #自监督学习 | arxiv 👥 作者与机构 Prathamjyot Singh^1, Ashima Sood^2, Sahil Sharma^3, Jasmeet Singh^1 1 Department of Computer Science and Engineering, Thapar Institute of Engineering and Technology, Patiala, India 2 School of Computing, Engineering and Intelligent Systems, Ulster University, Londonderry, United Kingdom 3 School of Computing, Ulster University, Belfast, United Kingdom ...

Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals

📄 Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals #多模态模型 #语音情感识别 7.2/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #语音情感识别 | #多模态模型 | arxiv 👥 作者与机构论文作者为 Jiyuan Liu, Liangwei Nathan Zheng, Wei Emma Zhang, Xinpei Wang, Weitong Chen。主要机构为 Adelaide University（澳大利亚）和 Shandong University（中国）。 💡 毒舌点评这篇工作想在融合前做点事情，动机听起来不错，就是觉得特征里有好有坏，得先挑挑拣拣。VGMR设计得挺精巧，像个精致的瑞士军刀，模块套模块。实验也铺得挺开，五个数据集、两种骨干，消融分析一套一套的，看起来很努力。但问题在于，“价值”这东西到底是个啥，你说它来自交叉模态的一致与冲突，但具体怎么影响最终门控，还是个黑盒。那个用模态移除算出的监督信号\(L_{value}\)，感觉像是用一个粗糙的全局指标去指导一个精巧的局部操作，有点拧巴。作者自己也说了计算开销不小，推理延迟翻了几倍，实际落地得掂量掂量。最后，虽然号称通用，但大部分实验还是在情感分析上打转，对真正考验多模态能力的、模态质量参差不齐的现实场景（比如一边说话一边被风吹麦克风）缺乏验证。总的来说，是一篇扎实但创新有限的工作，离“ask what to keep”这个启发性问题的深刻答案还有距离。 ...