Reading between the Lines: Leveraging Large Language Models for Global Dementia and Depression Assessment from Clinical Interviews

📄 Reading between the Lines: Leveraging Large Language Models for Global Dementia and Depression Assessment from Clinical Interviews #语音情感识别 6.8/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.7/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.8/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构 作者:Franziska Braun, Alea Rüggeberg, Thomas Ranzenberger, Hartmut Lehfeld, Thomas Hillemacher, Tobias Bocklet, Korbinian Riedhammer。 机构:1TH Nürnberg, 2FAU Erlangen, 3PMU Klinikum Nürnberg, Germany。 ...

2026-06-17 · 更新于 2026-07-03 · 5 min · 922 words

Data-Driven Decoding of Russell's Circumplex Model of Affect

📄 Data-Driven Decoding of Russell's Circumplex Model of Affect #语音情感识别 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构 Amdjed Belaref1 2, Samir Sadok3, Zineb Noumir1, and Renaud Seguier2 1 Alten, France, 2 CentraleSupélec IETR UMR CNRS 6164, France 3 Inria at Univ. Grenoble Alpes, CNRS, LJK, France ...

2026-06-16 · 更新于 2026-07-03 · 2 min · 233 words

Explainable and Trustworthy Speech Emotion Recognition Using Confidence Score and Reinforcement Learning Rectified Speech Emotion Descriptors

📄 Explainable and Trustworthy Speech Emotion Recognition Using Confidence Score and Reinforcement Learning Rectified Speech Emotion Descriptors #语音情感识别 #强化学习 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前50% | #语音情感识别 | #强化学习 | arxiv 👥 作者与机构 1 The Chinese University of Hong Kong, Hong Kong SAR, China 2 Institute of Software, Chinese Academy of Sciences, China 3 National Research Council Canada, Canada 4 Tsinghua University, China 作者:Youjun Chen, Xurong Li, Mengzhe Geng, Zengrui Jin, Jiajun Deng, Guinan Li, Shujie Hu, Huimeng Wang, Haoning Xu, Chengxi Deng, Bowen Zhang, Xunying Liu ...

2026-06-15 · 更新于 2026-07-03 · 2 min · 405 words

Predicting Cognitive Load from Speech and Interaction Dynamics in Dyadic Conversations

📄 Predicting Cognitive Load from Speech and Interaction Dynamics in Dyadic Conversations #语音情感识别 6.7/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.7/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构 Tahiya Chowdhury,Department of Computer Science, Colby College, Waterville, Maine, USA。 💡 毒舌点评 论文试图在“自然对话”和“认知负荷”这个有点棘手的交叉点上做点事,动机值得肯定,特别是在远程协作普及的当下。但坦白说,整体感觉像是用一套相对标准、甚至略显保守的方法(eGeMAPS + GRU + RF)去验证一个假设。交互特征的引入算是个亮点,但“基于VAD的说话时间/轮次”这种特征集实在算不上新颖。更关键的是,53对对话、475个样本,这点数据量喂给GRU这种序列模型,能学到的“时序动态”恐怕有限,文中甚至承认了带注意力的GRU效果没提升,这直接削弱了“动态”这个卖点。结论说“交互特征提供了更强的预测力”,但看绝对数值(CCC最高0.51),离实际可用还差得远,更像是说“在这些特定特征上找到了一点统计相关性”。作者自己也提到了一个致命问题:这些交互模式可能只是任务结构的反映(比如,时间紧的任务自然会导致更多打断),而非纯粹的认知负荷。论文对此有探讨,但显然没有解决,这让整个工作的解释力打了个折扣。总的来说,是一篇中规中矩的探索性工作,证明了“有点信号”,但离“可靠预测”和“深入理解”还有明显距离。 📌 核心摘要 本文探讨了在自然双人协作对话中,利用语音和交互动态预测主观认知负荷(NASA-TLX量表得分)的可能性。研究使用AVCAffe数据集(53对参与者,9项任务),提取了静态声学特征(eGeMAPS)、时序动态声学特征(一阶差分)和基于语音活动的交互特征(如说话时间比例、轮次转换率)。作者将问题建模为回归任务,使用双头GRU编码器处理成对的参与者语音特征序列,并与随机森林基线进行对比。实验采用留一法交叉验证以确保泛化能力。结果表明,仅使用声学特征即可对时间需求(CCC≈0.42)和智力需求(CCC≈0.22)进行高于偶然水平的预测。加入交互特征后,预测性能显著提升,尤其是时间需求(CCC提升至0.51)。特征重要性分析显示,时间需求与轮次转换、重叠等交互动态相关,而智力需求与说话时间分配不平衡相关。然而,模型(GRU与随机森林)之间的性能差异在统计上不显著。研究结论认为,语音和交互动态包含了可泛化的认知负荷信号,但预测性能受数据集规模、标签粒度及交互特征与任务模式混淆等因素限制。 🔗 开源详情 代码:论文中未提及提供代码链接或仓库。 模型权重:论文中未提及提供模型权重。 数据集:论文中引用了AVCAffe数据集,具体获取链接需参考该数据集论文(sarkar2023avcaffe)。本文未提供直接链接。 Demo:论文中未提及。 复现材料:论文中未提供。论文详细描述了模型结构、训练参数和评估流程,理论上可辅助复现。 论文中引用的开源项目: OpenSMILE:https://github.com/audeering/opensmile (用于提取eGeMAPS声学特征)。 Silero VAD:https://github.com/snakers4/silero-vad (用于语音活动检测)。 🏗️ 方法概述和架构 本文提出的方法主要包含三个核心阶段:特征提取、模型构建与评估。 ...

2026-06-12 · 更新于 2026-07-03 · 2 min · 306 words

MA-DLE: Speech-based Automatic Depression Level Estimation via Memory Augmentation

📄 MA-DLE: Speech-based Automatic Depression Level Estimation via Memory Augmentation #语音情感识别 7.5/10 ✅ 7.5/10 | 前25% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构 Xuzhi Wang1, Xinran Wu1, Ziping Zhao1, Jianhua Tao2, Björn W. Schuller3,4, 1 Tianjin Normal University 2Tsinghua University 3Technical University of Munich 4Imperial College London 💡 毒舌点评 一个标准的“缝合怪”工作:把外部记忆机制这个略显陈旧的概念,缝合到语音抑郁症检测这个具体任务上。动机(GRU遗忘早期特征)看似合理,但提供的视觉证据(图1)说服力有限,因为低相似度可能源于特征空间不匹配而非“遗忘”。核心的“相似性检索”本质上是构建了一个静态的、与查询相关的键值对检索库,其有效性(Top-K=5)在小数据集上容易过拟合,且检索的稳定性(如对噪声的鲁棒性)未被讨论。动态特征分支(帧差分+1D卷积)设计粗糙,声称捕捉“情绪波动”,但抑郁症的长期情绪低落模式是否能用相邻帧的差分来建模,值得怀疑。HAF模块用了四个Transformer块,对于这个数据规模的任务来说过于笨重,有堆砌模块之嫌。最令人不安的是,论文声称在E-DAIC上“超越大多数多模态方法”,但仔细对比表格,其RMSE(5.72)仅略优于部分多模态方法(如A+V的5.10, 5.35),在回归任务上这点差距可能不具统计显著性,且MAE(4.68)实际差于一些多模态方法。这种选择性比较有美化结果之嫌。总而言之,这是一篇工程上做了不少尝试,但科学洞察力薄弱、部分结论有过强之嫌的工作。 📌 核心摘要 论文针对语音抑郁症水平估计中GRU等RNN模型易遗忘早期长程信息的问题,提出了一个记忆增强框架(MA-DLE)。该框架在ConvGRU提取时序特征的基础上,构建外部记忆库,通过两种策略进行增强:一是检索与GRU输出高相似度的帧特征作为语义补充;二是通过帧差分和轻量编码器建模动态特征以捕捉情绪变化。最终,利用层次注意力融合(HAF)模块整合GRU特征、相似性检索特征和动态特征。在DAIC-WOZ和E-DAIC两个基准数据集上,该方法在语音单模态方法中取得了最优的MAE和RMSE性能。消融实验验证了记忆库、相似性检索、动态特征、HAF模块及Smooth L1损失函数的有效性。然而,该方法在记忆检索的鲁棒性、动态特征建模深度、模型复杂度以及多模态场景下的潜力等方面存在局限。 🔗 开源详情 代码:论文中未提供代码仓库链接。 模型权重:论文中未提供模型权重下载链接。 数据集:论文中使用了 DAIC-WOZ 和 E-DAIC 数据集。论文指出这两个数据集被广泛使用,但未提供具体的下载链接或官方仓库地址。 Demo:论文中未提及在线演示链接。 复现材料:论文提供了详细的实验设置(V-C, V-D节),包括优化器、学习率、批次大小、网络架构细节(如8层GRU,隐藏层维度256)和超参数(如记忆模块的K=5,Smooth L1 Loss的β=1.0)。但未提供预训练模型、训练脚本或完整的代码仓库供复现。 论文中引用的开源项目: PyTorch:论文提到其实现基于 PyTorch(V-C节)。官方链接:https://pytorch.org/ NetVLAD:论文提到使用 NetVLAD 作为音频编码器提取特征(IV-A, IV-B节)。官方论文及代码参考:https://arxiv.org/abs/1511.07232 🏗️ 方法概述和架构 论文提出MA-DLE框架,旨在通过外部记忆增强来弥补GRU在建模语音长序列时对早期信息捕捉不足的缺陷。整体架构如图2所示,包含特征提取、双分支处理(ConvGRU分支与记忆库分支)和HAF融合三个主要部分。 ...

2026-06-11 · 更新于 2026-07-03 · 2 min · 290 words

ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning

📄 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning #自监督学习 #低资源 #语音识别 #语音情感识别 #说话人验证 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.7/10 | 前25% | #语音识别 | #自监督学习 | #低资源 #语音情感识别 | arxiv 👥 作者与机构 作者:Khanh Le, Kiet Anh Ha, Bao Duy Le, Dung Thai, Linh Khoa Tran, D Doan 机构:VinUniversity, Vietnam; UNEY, Switzerland ...

2026-06-10 · 更新于 2026-07-03 · 2 min · 414 words

Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition

📄 Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition #语音情感识别 #提示学习 #多模态模型 #参数高效微调 #迁移学习 7.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前50% | #语音情感识别 | #提示学习 | #多模态模型 #参数高效微调 | arxiv 👥 作者与机构 Iosif Tsangko (1, 2), Andreas Triantafyllopoulos (1, 2), Björn W. Schuller (1, 2, 3, 4) (注:机构详情未在论文正文中明确列出,脚注显示了项目资助信息) ...

2026-06-08 · 更新于 2026-07-03 · 2 min · 359 words

Geometric Second-Order Feature Correlation Learning for Self-Supervised Speech Emotion Recognition

📄 Geometric Second-Order Feature Correlation Learning for Self-Supervised Speech Emotion Recognition #语音情感识别 #自监督学习 7.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.9/10 | 前50% | #语音情感识别 | #自监督学习 | arxiv 👥 作者与机构 Li Qian Song, Shuanglin (可能),来自1. 湘江实验室 (Xiangjiang Laboratory),长沙,中国;2. 埃克塞特大学 (University of Exeter),埃克塞特,英国。联系邮箱为:slay575@163.com, ruxiaoqian@gmail.com, s.song@exeter.ac.uk。 💡 毒舌点评 这篇论文试图用微分几何的华丽外衣,给一个相对直白的统计操作(在子空间上计算协方差矩阵并取对数)正名。动机(一阶聚合丢失相关性)是合理的,但论述中将“协方差矩阵在欧氏空间操作”上升到“几何失真”、“伪熵”的高度,显得过于理论化,有点把简单问题复杂化的嫌疑。实验上,虽然在两个标准数据集上超越了基础池化基线,但对比的基线集显得陈旧且单一(没有与近期任何二阶聚合方法如Bilinear Pooling, 或其他几何方法如Log-Det Pooling对比),使得“有效性”的宣称大打折扣。最遗憾的是,作为一篇强调计算效率(避免维度爆炸)的论文,居然完全不提供SOC层与基线的计算开销对比,这在注重实用的顶会审稿人眼里是很大的减分项。作者声称SOC是“drop-in module”,却不展示其插入后的整体效率变化,说服力不足。 📌 核心摘要 本文针对自监督语音识别(SSL)表征在聚合为整段描述符时丢失特征间高阶相关性的问题,提出了第二阶相关(SOC)层。SOC层首先通过一个可学习的线性层将高维SSL特征投影到一个紧凑的低维子空间,在此子空间中计算特征的协方差矩阵,将其建模为对称正定(SPD)流形上的描述符。随后,通过Log-Euclidean映射(LEM)将协方差矩阵映射到欧几里得切空间,并进行半向量化以供下游分类器使用。在ESD和RAVDESS两个数据集上的实验表明,SOC在多个冻结SSL主干网络上均优于全局平均池化(GAP)、全局标准差池化(ASP)和帧感知池化(FA)等一阶基线方法。 ...

2026-06-08 · 更新于 2026-07-03 · 2 min · 404 words

ProSarc: Prosody-Aware Sarcasm Recognition Framework via Temporal Prosodic Incongruity

📄 ProSarc: Prosody-Aware Sarcasm Recognition Framework via Temporal Prosodic Incongruity #语音情感识别 #自监督学习 7.5/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前25% | #语音情感识别 | #自监督学习 | arxiv 👥 作者与机构 Prathamjyot Singh^1, Ashima Sood^2, Sahil Sharma^3, Jasmeet Singh^1 1 Department of Computer Science and Engineering, Thapar Institute of Engineering and Technology, Patiala, India 2 School of Computing, Engineering and Intelligent Systems, Ulster University, Londonderry, United Kingdom 3 School of Computing, Ulster University, Belfast, United Kingdom ...

2026-06-05 · 更新于 2026-07-03 · 3 min · 579 words

Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals

📄 Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals #多模态模型 #语音情感识别 7.2/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #语音情感识别 | #多模态模型 | arxiv 👥 作者与机构 论文作者为 Jiyuan Liu, Liangwei Nathan Zheng, Wei Emma Zhang, Xinpei Wang, Weitong Chen。主要机构为 Adelaide University(澳大利亚)和 Shandong University(中国)。 💡 毒舌点评 这篇工作想在融合前做点事情,动机听起来不错,就是觉得特征里有好有坏,得先挑挑拣拣。VGMR设计得挺精巧,像个精致的瑞士军刀,模块套模块。实验也铺得挺开,五个数据集、两种骨干,消融分析一套一套的,看起来很努力。但问题在于,“价值”这东西到底是个啥,你说它来自交叉模态的一致与冲突,但具体怎么影响最终门控,还是个黑盒。那个用模态移除算出的监督信号\(L_{value}\),感觉像是用一个粗糙的全局指标去指导一个精巧的局部操作,有点拧巴。作者自己也说了计算开销不小,推理延迟翻了几倍,实际落地得掂量掂量。最后,虽然号称通用,但大部分实验还是在情感分析上打转,对真正考验多模态能力的、模态质量参差不齐的现实场景(比如一边说话一边被风吹麦克风)缺乏验证。总的来说,是一篇扎实但创新有限的工作,离“ask what to keep”这个启发性问题的深刻答案还有距离。 ...

2026-06-03 · 更新于 2026-07-03 · 2 min · 296 words