Zero-Shot Imagined Speech Decoding via Imagined-to-Listened MEG Mapping
📄 Zero-Shot Imagined Speech Decoding via Imagined-to-Listened MEG Mapping #脑机接口 #对比学习 #零样本 #多通道 ✅ 6.5/10 | #脑机接口 #对比学习 | arxiv 👥 作者与机构 第一作者:Maryam Maghsoudi (University of Maryland, College Park, MD 20740) 通讯作者:Maryam Maghsoudi (maryam00@umd.edu) 作者列表:Maryam Maghsoudi (University of Maryland), Shihab Shamma (University of Maryland) 💡 毒舌点评 论文巧妙地绕开了想象语音数据标注困难的核心瓶颈,将问题转化为在“倾听空间”进行解码,思路清晰且具有启发性。然而,实验局限于76个词和4个预设刺激,离“解码自由想象”尚有距离,且MEG设备的高门槛让其应用前景在短期内略显黯淡。 📌 核心摘要 本文提出了一种无需想象语音标签的零样本解码方法。核心问题是如何在想象语音数据稀缺且标注困难的情况下,实现高性能的非侵入式脑语音解码。方法核心是构建一个三阶段的解码流水线:首先,训练一个映射模型将想象时的脑磁图信号映射为对应的倾听脑磁图信号;然后,独立训练一个对比学习解码器,将倾听脑磁图信号与词嵌入对齐;最后,在推理时,将新受试者的想象信号通过冻结的映射模型和解码器,直接获得解码词。与已有方法相比,新意在于实现了完全不依赖想象数据标签的“零样本”跨受试者解码。主要实验结果表明:1)所提六种映射模型均显著优于随机基线(见图2A);2)最终解码性能(在76词词表上)显著高于随机水平,且不同受试者和映射架构下可解码的词汇具有高度一致性(见图4)。该研究为脑机接口(BCI)提供了一种有前景的、可扩展的路径。主要局限性在于实验数据规模较小(17名受试者)、词汇表有限(76词)以及使用的刺激类型单一(诗歌和旋律),限制了结论的泛化性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中未提及。 Demo:论文中未提及。 复现材料:论文中未提及。 论文中引用的开源项目: MNE-Python:用于MEG数据预处理。链接:https://mne.tools/ WhisperX:用于音频强制对齐以获取单词时间戳。链接:https://github.com/m-bain/whisperX BERT:用作语义词嵌入模型之一。链接:https://huggingface.co/models?search=bert Whisper:用作声学词嵌入模型之一。链接:https://huggingface.co/models?search=whisper Wav2Vec2:用作音素词嵌入模型之一。链接:https://huggingface.co/models?search=wav2vec2 🏗️ 方法概述和架构 图1:论文提出的三阶段解码流水线。(A)展示了实验范式,即对同一刺激(旋律/诗歌)进行“倾听”和“想象”条件的MEG数据采集。(B)展示了核心解码流水线:第一阶段训练想象-倾听映射模型;第二阶段训练对比学习倾听解码器;第三阶段将新受试者的想象MEG通过冻结的映射器和解码器,实现零样本解码。 本文提出了一种三阶段的解码流水线,旨在实现从想象脑磁图信号中零样本解码单词。其整体流程可以描述为:输入一段想象状态下的MEG信号,首先通过一个映射模型将其转换为“预测的倾听MEG”;然后,将这个预测的信号输入一个预先训练好的解码器,最终输出一个与目标词在嵌入空间中最匹配的词向量。 第一阶段:想象到倾听映射 (Imagined-to-Listened Mapping) ...