ICASSP 2026 - 轻度认知障碍检测

1 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇MCI-OTFusion: A Multimodal Model for MCI Detection and Cogni6.5分前50%

📋 论文详情

🥇 MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction

6.5/10 | 前50% | #轻度认知障碍检测 | #多模态融合 | #最优传输 #双向交叉注意力

👥 作者与机构

  • 第一作者:Yuqin Lin(福州大学计算机与数据科学学院)
  • 通讯作者:Jianwu Dang(中国科学院深圳先进技术研究院)
  • 作者列表:Yuqin Lin(福州大学计算机与数据科学学院)、Jinsong Zhang(福州大学计算机与数据科学学院)、Xiao Wei(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Kai Li(中国科学院深圳先进技术研究院)、Bin Wen(天津大学智能与计算学院认知计算与应用天津市重点实验室)、Mingyang Gu(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Jianwu Dang(中国科学院深圳先进技术研究院)

💡 毒舌点评

这篇论文的亮点在于其方法设计的“物理意义”——用OT来捕捉语音和文本在分布层面的全局对齐,而非仅停留在浅层特征拼接,这在方法论上是一个清晰且合理的改进。然而,其短板同样明显:整个研究都建立在TAUKADIAL这一个较小的、特定挑战赛的数据集上,这极大地限制了其结论的泛化说服力,让人怀疑该模型是否在真实世界、更多样化的人群和语音条件下依然有效。

📌 核心摘要

这篇论文针对轻度认知障碍(MCI)的早期、非侵入性筛查需求,提出了一种名为MCI-OTFusion的多模态融合框架。该框架的核心是利用最优传输(OT)算法对语音嵌入和文本嵌入的全局分布进行对齐,以克服传统交叉注意力(CA)方法仅关注局部对应关系的局限性;随后使用双向交叉注意力(BiCA)机制进一步捕获对齐后特征间的局部和长程依赖关系。与简单的特征拼接或标准CA基线相比,该方法在MCI分类(UAR达到70.00%,相对基线提升显著)和MMSE分数预测(R²达到0.40,绝对提升0.05)上均取得了更优的性能。此外,论文引入了跨任务聚合策略,模拟临床评估中综合多个语言任务的做法,提升了预测的稳定性。该工作证明了结合全局分布对齐与局部交互建模的多模态语音-文本分析在早期认知筛查中的潜力。其主要局限性在于实验仅在一个规模有限的数据集上进行,缺乏跨数据集、跨语言的验证,且未提供开源代码。

关键实验结果:

表1:TAUKADIAL测试集上单模态与多模态方法性能对比

方法分类 (%) ↑回归
UARF1特异性敏感性RMSE ↓MAE ↓R² ↑Spearman ↑
单模态
仅音频 (Biomarkers)49.3748.8549.3749.372.792.150.090.16
仅音频 (Whisper)54.6454.5554.6354.632.611.900.210.31
仅文本 (BERT)54.3053.7154.3054.302.501.850.270.40
仅文本 (RoBERTa)49.8749.8749.8749.872.682.000.160.29
多模态
基线56.7756.1656.7756.772.661.900.180.31
CA融合65.0064.1964.4164.412.481.900.280.40
Gated CA (CogniAlign)59.4059.0859.4059.402.391.950.330.41
Gated CA (Flamingo)61.5360.5061.5361.532.361.880.350.63
MCI-OTFusion (本文)70.0069.3169.4269.422.261.730.400.47
去掉OT67.5066.9867.0467.042.391.900.340.49
去掉BiCA67.5066.9867.0467.042.271.600.400.56

表2:基于MMSE预测的MCI分类策略性能对比

方法UAR (%) ↑F1 (%) ↑
直接训练的分类模型70.069.31
将MMSE预测直接转换为标签79.7681.19
仅微调分类层50.2538.66
微调融合层+分类层58.6556.04

MCI-OTFusion框架图 图1 展示了MCI-OTFusion的整体框架。语音信号经Whisper编码器提取特征,文本转录经BERT模型提取特征。两者通过一个线性层投影到统一维度。核心模块分为两步:1) OT-based Alignment:基于余弦距离构建代价矩阵,通过Sinkhorn算法求解最优传输计划P*,用于对齐文本特征到语音特征空间。2) BiCA Fusion:在对齐后的特征上计算双向交叉注意力,同时更新语音和文本表示。最后,经过平均池化和通道拼接,送入MCI分类器或MMSE预测器。框架还展示了针对多个语言任务的跨任务聚合策略。

鲁棒性实验结果 图2 比较了MCI-OTFusion和CA-Fusion在模态信息部分缺失时的鲁棒性。在随机遮挡部分语音或文本特征后:(a) MCI分类任务上,MCI-OTFusion的性能(UAR)波动明显小于CA-Fusion,表明其更鲁棒。(b) MMSE预测任务上,MCI-OTFusion在多数遮挡比例下也更稳定,但对文本遮挡相对敏感。该图证明了MCI-OTFusion在信息不完整情况下的可靠性优于传统CA融合。