A Bimodal Approach for Detecting Fatigue Using Speech and Personal Assessments in College Students

📄 A Bimodal Approach for Detecting Fatigue Using Speech and Personal Assessments in College Students #语音生物标志物 #特征提取 #多模态模型 #低资源 #健康监测 ✅ 6.5/10 | #语音生物标志物 #特征提取 👥 作者与机构 第一作者:Kapotaksha Das(密歇根大学计算机与信息科学系) 通讯作者:未说明 作者列表:Kapotaksha Das(密歇根大学计算机与信息科学系)、Mihai Burzo(密歇根大学机械工程系)、John Elson(福特汽车公司)、Clay Maranville(福特汽车公司)、Mohamed Abouelenien(密歇根大学计算机与信息科学系) 💡 毒舌点评 这篇论文最大的亮点是提出了一个“聪明”的低成本、非侵入式疲劳检测框架——只需一次性的问卷就能“校准”后续语音分析,这个想法在个性化健康监测上很有巧思。然而,其短板也同样明显:用仅12个大学生的数据就下了结论,且分类器用的是传统的XGBoost而非更复杂的模型,这让“增强性能”的说服力打了折扣,更像是一个概念验证(Proof-of-Concept)。 📌 核心摘要 问题:传统疲劳检测方法(如视觉、生理信号)存在不便、不客观或不实时的问题,亟需一种便捷、可扩展的检测手段。 方法核心:提出一种双模态框架,融合自发语音的声学特征与一次性问卷调查的个人评估数据(包括晨/夜型、睡眠质量等),以检测大学生的自我报告疲劳状态。 创新点:首次系统性地探索将静态、个性化的问卷数据作为先验知识,与实时的语音特征早期融合,以增强模型对个体疲劳状态的判别能力。相比仅使用语音或仅使用问卷,这提供了新的结合路径。 主要实验结果:在12名大学生的自建数据集上,使用16秒语音片段。仅用语音特征(eGeMAPS)时F1分为59.63%;融合所有问卷特征后,最佳F1分提升至64.62%。实验结果表格如下: 特征使用 ComParE 2016 (16s) eGeMAPSv02 (16s) 仅语音 60.10% 59.63% 语音 + OLQ 59.99% 63.24% 语音 + PSQI 58.26% 63.66% 语音 + MCQ 64.07% 64.05% 语音 + 所有问卷 61.70% 64.62% 通过t-SNE可视化(图1 vs 图2),融合问卷数据后,疲劳与非疲劳状态的数据点分离度有所改善。 ...

2026-04-29