ICASSP 2026 - 轻度认知障碍检测

共 1 篇论文

← 返回 ICASSP 2026 总览

排名	论文	评分	分档
🥇	MCI-OTFusion: A Multimodal Model for MCI Detection and Cogni	6.5分	前50%

📋 论文详情

🥇 MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction

✅ 6.5/10 | 前50% | #轻度认知障碍检测 | #多模态融合 | #最优传输 #双向交叉注意力

👥 作者与机构

第一作者：Yuqin Lin（福州大学计算机与数据科学学院）
通讯作者：Jianwu Dang（中国科学院深圳先进技术研究院）
作者列表：Yuqin Lin（福州大学计算机与数据科学学院）、Jinsong Zhang（福州大学计算机与数据科学学院）、Xiao Wei（中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室）、Kai Li（中国科学院深圳先进技术研究院）、Bin Wen（天津大学智能与计算学院认知计算与应用天津市重点实验室）、Mingyang Gu（中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室）、Jianwu Dang（中国科学院深圳先进技术研究院）

💡 毒舌点评

这篇论文的亮点在于其方法设计的“物理意义”——用OT来捕捉语音和文本在分布层面的全局对齐，而非仅停留在浅层特征拼接，这在方法论上是一个清晰且合理的改进。然而，其短板同样明显：整个研究都建立在TAUKADIAL这一个较小的、特定挑战赛的数据集上，这极大地限制了其结论的泛化说服力，让人怀疑该模型是否在真实世界、更多样化的人群和语音条件下依然有效。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及公开权重。
数据集：实验使用了公开的TAUKADIAL数据集，论文中给出了获取引用。
Demo：未提供在线演示。
复现材料：论文给出了部分训练细节（如优化器、学习率、早停参数、折数），但缺少关键信息如批大小、OT的Sinkhorn迭代次数与熵系数、BiCA的MLP结构、完整的超参数列表、硬件环境和训练时长。
论文中引用的开源项目：引用了开源项目Whisper和BERT作为特征提取器。
论文中未提及开源计划。

📌 核心摘要

这篇论文针对轻度认知障碍(MCI)的早期、非侵入性筛查需求，提出了一种名为MCI-OTFusion的多模态融合框架。该框架的核心是利用最优传输(OT)算法对语音嵌入和文本嵌入的全局分布进行对齐，以克服传统交叉注意力(CA)方法仅关注局部对应关系的局限性；随后使用双向交叉注意力(BiCA)机制进一步捕获对齐后特征间的局部和长程依赖关系。与简单的特征拼接或标准CA基线相比，该方法在MCI分类（UAR达到70.00%，相对基线提升显著）和MMSE分数预测（R²达到0.40，绝对提升0.05）上均取得了更优的性能。此外，论文引入了跨任务聚合策略，模拟临床评估中综合多个语言任务的做法，提升了预测的稳定性。该工作证明了结合全局分布对齐与局部交互建模的多模态语音-文本分析在早期认知筛查中的潜力。其主要局限性在于实验仅在一个规模有限的数据集上进行，缺乏跨数据集、跨语言的验证，且未提供开源代码。

关键实验结果：

表1：TAUKADIAL测试集上单模态与多模态方法性能对比

方法	分类 (%) ↑				回归
	UAR	F1	特异性	敏感性	RMSE ↓	MAE ↓	R² ↑	Spearman ↑
单模态
仅音频 (Biomarkers)	49.37	48.85	49.37	49.37	2.79	2.15	0.09	0.16
仅音频 (Whisper)	54.64	54.55	54.63	54.63	2.61	1.90	0.21	0.31
仅文本 (BERT)	54.30	53.71	54.30	54.30	2.50	1.85	0.27	0.40
仅文本 (RoBERTa)	49.87	49.87	49.87	49.87	2.68	2.00	0.16	0.29
多模态
基线	56.77	56.16	56.77	56.77	2.66	1.90	0.18	0.31
CA融合	65.00	64.19	64.41	64.41	2.48	1.90	0.28	0.40
Gated CA (CogniAlign)	59.40	59.08	59.40	59.40	2.39	1.95	0.33	0.41
Gated CA (Flamingo)	61.53	60.50	61.53	61.53	2.36	1.88	0.35	0.63
MCI-OTFusion (本文)	70.00	69.31	69.42	69.42	2.26	1.73	0.40	0.47
去掉OT	67.50	66.98	67.04	67.04	2.39	1.90	0.34	0.49
去掉BiCA	67.50	66.98	67.04	67.04	2.27	1.60	0.40	0.56

表2：基于MMSE预测的MCI分类策略性能对比

方法	UAR (%) ↑	F1 (%) ↑
直接训练的分类模型	70.0	69.31
将MMSE预测直接转换为标签	79.76	81.19
仅微调分类层	50.25	38.66
微调融合层+分类层	58.65	56.04

MCI-OTFusion框架图图1 展示了MCI-OTFusion的整体框架。语音信号经Whisper编码器提取特征，文本转录经BERT模型提取特征。两者通过一个线性层投影到统一维度。核心模块分为两步：1) OT-based Alignment：基于余弦距离构建代价矩阵，通过Sinkhorn算法求解最优传输计划P*，用于对齐文本特征到语音特征空间。2) BiCA Fusion：在对齐后的特征上计算双向交叉注意力，同时更新语音和文本表示。最后，经过平均池化和通道拼接，送入MCI分类器或MMSE预测器。框架还展示了针对多个语言任务的跨任务聚合策略。

鲁棒性实验结果图2 比较了MCI-OTFusion和CA-Fusion在模态信息部分缺失时的鲁棒性。在随机遮挡部分语音或文本特征后：(a) MCI分类任务上，MCI-OTFusion的性能（UAR）波动明显小于CA-Fusion，表明其更鲁棒。(b) MMSE预测任务上，MCI-OTFusion在多数遮挡比例下也更稳定，但对文本遮挡相对敏感。该图证明了MCI-OTFusion在信息不完整情况下的可靠性优于传统CA融合。

ICASSP 2026 - 轻度认知障碍检测#

📋 论文详情#

🥇 MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction#

📎 相关论文

ICASSP 2026 - 轻度认知障碍检测

📋 论文详情

🥇 MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction