MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction

📄 MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction #轻度认知障碍检测 #最优传输 #双向交叉注意力 #多模态融合 #跨模态 ✅ 6.5/10 | 前50% | #轻度认知障碍检测 | #多模态融合 | #最优传输 #双向交叉注意力 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yuqin Lin(福州大学计算机与数据科学学院) 通讯作者:Jianwu Dang(中国科学院深圳先进技术研究院) 作者列表:Yuqin Lin(福州大学计算机与数据科学学院)、Jinsong Zhang(福州大学计算机与数据科学学院)、Xiao Wei(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Kai Li(中国科学院深圳先进技术研究院)、Bin Wen(天津大学智能与计算学院认知计算与应用天津市重点实验室)、Mingyang Gu(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Jianwu Dang(中国科学院深圳先进技术研究院) 💡 毒舌点评 这篇论文的亮点在于其方法设计的“物理意义”——用OT来捕捉语音和文本在分布层面的全局对齐,而非仅停留在浅层特征拼接,这在方法论上是一个清晰且合理的改进。然而,其短板同样明显:整个研究都建立在TAUKADIAL这一个较小的、特定挑战赛的数据集上,这极大地限制了其结论的泛化说服力,让人怀疑该模型是否在真实世界、更多样化的人群和语音条件下依然有效。 📌 核心摘要 这篇论文针对轻度认知障碍(MCI)的早期、非侵入性筛查需求,提出了一种名为MCI-OTFusion的多模态融合框架。该框架的核心是利用最优传输(OT)算法对语音嵌入和文本嵌入的全局分布进行对齐,以克服传统交叉注意力(CA)方法仅关注局部对应关系的局限性;随后使用双向交叉注意力(BiCA)机制进一步捕获对齐后特征间的局部和长程依赖关系。与简单的特征拼接或标准CA基线相比,该方法在MCI分类(UAR达到70.00%,相对基线提升显著)和MMSE分数预测(R²达到0.40,绝对提升0.05)上均取得了更优的性能。此外,论文引入了跨任务聚合策略,模拟临床评估中综合多个语言任务的做法,提升了预测的稳定性。该工作证明了结合全局分布对齐与局部交互建模的多模态语音-文本分析在早期认知筛查中的潜力。其主要局限性在于实验仅在一个规模有限的数据集上进行,缺乏跨数据集、跨语言的验证,且未提供开源代码。 关键实验结果: 表1:TAUKADIAL测试集上单模态与多模态方法性能对比 方法 分类 (%) ↑ 回归 UAR F1 特异性 敏感性 RMSE ↓ MAE ↓ R² ↑ Spearman ↑ 单模态 仅音频 (Biomarkers) 49.37 48.85 49.37 49.37 2.79 2.15 0.09 0.16 仅音频 (Whisper) 54.64 54.55 54.63 54.63 2.61 1.90 0.21 0.31 仅文本 (BERT) 54.30 53.71 54.30 54.30 2.50 1.85 0.27 0.40 仅文本 (RoBERTa) 49.87 49.87 49.87 49.87 2.68 2.00 0.16 0.29 多模态 基线 56.77 56.16 56.77 56.77 2.66 1.90 0.18 0.31 CA融合 65.00 64.19 64.41 64.41 2.48 1.90 0.28 0.40 Gated CA (CogniAlign) 59.40 59.08 59.40 59.40 2.39 1.95 0.33 0.41 Gated CA (Flamingo) 61.53 60.50 61.53 61.53 2.36 1.88 0.35 0.63 MCI-OTFusion (本文) 70.00 69.31 69.42 69.42 2.26 1.73 0.40 0.47 去掉OT 67.50 66.98 67.04 67.04 2.39 1.90 0.34 0.49 去掉BiCA 67.50 66.98 67.04 67.04 2.27 1.60 0.40 0.56 表2:基于MMSE预测的MCI分类策略性能对比 ...

2026-04-29