ICASSP 2026 - 轻度认知障碍检测
共 1 篇论文
| 排名 | 论文 | 评分 | 分档 |
|---|---|---|---|
| 🥇 | MCI-OTFusion: A Multimodal Model for MCI Detection and Cogni | 6.5分 | 前50% |
📋 论文详情
🥇 MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction
✅ 6.5/10 | 前50% | #轻度认知障碍检测 | #多模态融合 | #最优传输 #双向交叉注意力
👥 作者与机构
- 第一作者:Yuqin Lin(福州大学计算机与数据科学学院)
- 通讯作者:Jianwu Dang(中国科学院深圳先进技术研究院)
- 作者列表:Yuqin Lin(福州大学计算机与数据科学学院)、Jinsong Zhang(福州大学计算机与数据科学学院)、Xiao Wei(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Kai Li(中国科学院深圳先进技术研究院)、Bin Wen(天津大学智能与计算学院认知计算与应用天津市重点实验室)、Mingyang Gu(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Jianwu Dang(中国科学院深圳先进技术研究院)
💡 毒舌点评
这篇论文的亮点在于其方法设计的“物理意义”——用OT来捕捉语音和文本在分布层面的全局对齐,而非仅停留在浅层特征拼接,这在方法论上是一个清晰且合理的改进。然而,其短板同样明显:整个研究都建立在TAUKADIAL这一个较小的、特定挑战赛的数据集上,这极大地限制了其结论的泛化说服力,让人怀疑该模型是否在真实世界、更多样化的人群和语音条件下依然有效。
📌 核心摘要
这篇论文针对轻度认知障碍(MCI)的早期、非侵入性筛查需求,提出了一种名为MCI-OTFusion的多模态融合框架。该框架的核心是利用最优传输(OT)算法对语音嵌入和文本嵌入的全局分布进行对齐,以克服传统交叉注意力(CA)方法仅关注局部对应关系的局限性;随后使用双向交叉注意力(BiCA)机制进一步捕获对齐后特征间的局部和长程依赖关系。与简单的特征拼接或标准CA基线相比,该方法在MCI分类(UAR达到70.00%,相对基线提升显著)和MMSE分数预测(R²达到0.40,绝对提升0.05)上均取得了更优的性能。此外,论文引入了跨任务聚合策略,模拟临床评估中综合多个语言任务的做法,提升了预测的稳定性。该工作证明了结合全局分布对齐与局部交互建模的多模态语音-文本分析在早期认知筛查中的潜力。其主要局限性在于实验仅在一个规模有限的数据集上进行,缺乏跨数据集、跨语言的验证,且未提供开源代码。
关键实验结果:
表1:TAUKADIAL测试集上单模态与多模态方法性能对比
| 方法 | 分类 (%) ↑ | 回归 | ||||||
|---|---|---|---|---|---|---|---|---|
| UAR | F1 | 特异性 | 敏感性 | RMSE ↓ | MAE ↓ | R² ↑ | Spearman ↑ | |
| 单模态 | ||||||||
| 仅音频 (Biomarkers) | 49.37 | 48.85 | 49.37 | 49.37 | 2.79 | 2.15 | 0.09 | 0.16 |
| 仅音频 (Whisper) | 54.64 | 54.55 | 54.63 | 54.63 | 2.61 | 1.90 | 0.21 | 0.31 |
| 仅文本 (BERT) | 54.30 | 53.71 | 54.30 | 54.30 | 2.50 | 1.85 | 0.27 | 0.40 |
| 仅文本 (RoBERTa) | 49.87 | 49.87 | 49.87 | 49.87 | 2.68 | 2.00 | 0.16 | 0.29 |
| 多模态 | ||||||||
| 基线 | 56.77 | 56.16 | 56.77 | 56.77 | 2.66 | 1.90 | 0.18 | 0.31 |
| CA融合 | 65.00 | 64.19 | 64.41 | 64.41 | 2.48 | 1.90 | 0.28 | 0.40 |
| Gated CA (CogniAlign) | 59.40 | 59.08 | 59.40 | 59.40 | 2.39 | 1.95 | 0.33 | 0.41 |
| Gated CA (Flamingo) | 61.53 | 60.50 | 61.53 | 61.53 | 2.36 | 1.88 | 0.35 | 0.63 |
| MCI-OTFusion (本文) | 70.00 | 69.31 | 69.42 | 69.42 | 2.26 | 1.73 | 0.40 | 0.47 |
| 去掉OT | 67.50 | 66.98 | 67.04 | 67.04 | 2.39 | 1.90 | 0.34 | 0.49 |
| 去掉BiCA | 67.50 | 66.98 | 67.04 | 67.04 | 2.27 | 1.60 | 0.40 | 0.56 |
表2:基于MMSE预测的MCI分类策略性能对比
| 方法 | UAR (%) ↑ | F1 (%) ↑ |
|---|---|---|
| 直接训练的分类模型 | 70.0 | 69.31 |
| 将MMSE预测直接转换为标签 | 79.76 | 81.19 |
| 仅微调分类层 | 50.25 | 38.66 |
| 微调融合层+分类层 | 58.65 | 56.04 |
图1 展示了MCI-OTFusion的整体框架。语音信号经Whisper编码器提取特征,文本转录经BERT模型提取特征。两者通过一个线性层投影到统一维度。核心模块分为两步:1) OT-based Alignment:基于余弦距离构建代价矩阵,通过Sinkhorn算法求解最优传输计划P*,用于对齐文本特征到语音特征空间。2) BiCA Fusion:在对齐后的特征上计算双向交叉注意力,同时更新语音和文本表示。最后,经过平均池化和通道拼接,送入MCI分类器或MMSE预测器。框架还展示了针对多个语言任务的跨任务聚合策略。
图2 比较了MCI-OTFusion和CA-Fusion在模态信息部分缺失时的鲁棒性。在随机遮挡部分语音或文本特征后:(a) MCI分类任务上,MCI-OTFusion的性能(UAR)波动明显小于CA-Fusion,表明其更鲁棒。(b) MMSE预测任务上,MCI-OTFusion在多数遮挡比例下也更稳定,但对文本遮挡相对敏感。该图证明了MCI-OTFusion在信息不完整情况下的可靠性优于传统CA融合。