A Robust Multi-Scale Framework with Test-Time Adaptation for sEEG-Based Speech Decoding

📄 A Robust Multi-Scale Framework with Test-Time Adaptation for sEEG-Based Speech Decoding #语音解码 #领域适应 #脑机接口 #多尺度特征学习 ✅ 7.5/10 | 前25% | #语音解码 | #领域适应 | #脑机接口 #多尺度特征学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 中 👥 作者与机构 第一作者:Yang-yang Li(南京理工大学计算机科学与工程学院;香港中文大学(深圳)数据科学学院、人工智能学院) 通讯作者:Siqi Cai(哈尔滨工业大学(深圳)智能科学与工程学院、人工智能学院) 作者列表:Yang-yang Li(南京理工大学计算机科学与工程学院;香港中文大学(深圳)数据科学学院、人工智能学院)、Suli Wang(达姆施塔特工业大学计算机科学系;香港中文大学(深圳)数据科学学院、人工智能学院)、Siqi Cai(哈尔滨工业大学(深圳)智能科学与工程学院、人工智能学院)、Haizhou Li(香港中文大学(深圳)数据科学学院、人工智能学院) 💡 毒舌点评 这篇论文的亮点在于直面sEEG信号解码的核心痛点——非平稳性导致的域偏移,并提出了一个逻辑清晰、组件有效的“先强化表示,再在线适应”的两阶段解决方案,在公开数据集上确实取得了显著的性能提升。其短板在于实验仅在一个数据集(DU-IN)上验证,且模型大小(5.964M)在BCI植入式应用场景下可能偏大,论文对模型轻量化和实时推理的考量不足,临床转化的可行性论证略显单薄。 📌 核心摘要 要解决什么问题:sEEG信号固有的非平稳性导致训练和测试数据之间存在分布偏移(域偏移),严重影响了解码模型的鲁棒性和在临床BCI中的可靠性。 方法核心是什么:提出一个两阶段框架MDM-Tent。第一阶段,设计多尺度分解混合(MDM)模块,通过递归池化和自上而下融合,捕获语音产生过程中多时间尺度的层级动态,学习更稳定的表示。第二阶段,采用基于熵最小化的无源在线测试时适应(TTA)方法,在推理时仅利用无标签的测试数据调整归一化层参数,以适应分布变化。 与已有方法相比新在哪里:相比DU-IN等SOTA基线,本方法的新颖之处在于:a) 显式建模神经活动的多时间尺度结构;b) 集成了在线测试时适应机制,使模型在部署时能持续自我调整,而基线模型缺乏这种内在的抗偏移能力。 主要实验结果如何:在DU-IN数据集的12个受试者上,所提框架MDM-Tent取得了最佳的平均解码精度。相比基线DU-IN,在全部受试者上的平均准确率有显著提升,尤其在困难案例(如受试者03和10)上分别实现了6.64%和10.87%的绝对增益。消融实验证实了自蒸馏、MDM和Tent三个组件的有效性和协同作用。 关键实验结果对比表(来自Table 1,部分数据): 方法 模型大小 subj-01 subj-02 subj-03 … subj-12 整体趋势 DU-IN [11] 4.380M 71.04±2.28 71.78±2.74 27.99±4.05 … 49.63±4.51 基线性能 MDM-Tent (Ours) 5.964M 76.24±2.62 76.03±1.52 34.63±3.81 … 61.57±4.04 在所有受试者上均优于基线 实际意义是什么:为构建更可靠、能适应动态真实环境的脑机接口系统提供了一种有效的技术路径,尤其在改善对低质量信号或显著偏移场景的解码性能方面具有临床应用潜力。 主要局限性是什么:a) 实验仅在DU-IN这一个公开数据集上进行验证,泛化性需更多数据证实;b) 模型参数量(约6M)对于植入式BCI可能偏大,论文未讨论轻量化或实时推理方案;c) TTA方法仅调整归一化层,对于严重或复杂的分布偏移适应能力可能有限。 🏗️ 模型架构 图1 展示了MDM-Tent的整体架构流程。其核心组件和数据流如下: ...

2026-04-29

Graph-Biased EEG Transformers for Silent Speech Decoding

📄 Graph-Biased EEG Transformers for Silent Speech Decoding #语音生物标志物 #预训练 #图神经网络 #脑机接口 #小样本学习 ✅ 6.5/10 | 前25% | #语音生物标志物 | #预训练 | #图神经网络 #脑机接口 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Saravanakumar Duraisamy(University of Luxembourg) 通讯作者:Luis A. Leiva(University of Luxembourg) 作者列表:Saravanakumar Duraisamy(University of Luxembourg), Eug´enie J. M. Delaunay(University of Luxembourg), Luis A. Leiva(University of Luxembourg) 💡 毒舌点评 亮点:论文精准地指出了当前EEG Transformer在静默语音解码任务上“水土不服”的关键原因——缺乏对EEG电极物理布局和频段特异性的先验建模,并提出了一个即插即用的图偏置模块(Graphormer++)来优雅地解决这个问题,思路清晰且有神经科学依据。短板:受试者内解码准确率仅从20%的瞎猜水平提升至约29%,绝对值仍较低;更致命的是,该方法完全无法解决跨受试者泛化的难题(仍为20%),且论文未开源代码,极大限制了其作为可复现基准的价值。 📌 核心摘要 要解决什么问题:预训练的EEG Transformer(如EEGPT, LaBraM)在应用于静默语音解码任务时,即使经过微调,性能也接近随机猜测(~20%)。根本原因是模型分词方式无法保持电极身份和跨电极关系,导致表示不匹配。 方法核心是什么:提出Graphormer++,一个可插入任何预训练EEG Transformer编码器的模块。它首先将编码器的patch token按电极进行池化对齐,然后构建一个偏置张量,包含基于电极空间邻近度和四个频段(θ, α, β, γ)的相位锁定值(PLV)的先验知识。该偏置被用于调整Graphormer层中注意力头的得分,引导模型关注具有生理合理性的电极交互。 与已有方法相比新在哪里:不同于直接微调或简单添加分类头,该方法显式地将EEG的拓扑结构(空间)和功能连接(频段同步性)作为归纳偏置注入Transformer的注意力机制,实现了对预训练模型的结构化适配。 主要实验结果如何:在两个公开的静默语音数据集上,Graphormer++在受试者内设置下,将基于EEGPT骨干的平均分类准确率从微调后的约22%提升至约29.4%。在受试者间设置下,所有方法性能均停留在随机水平(~20%)。注意力图分析显示,该方法使模型更关注与语音相关的额叶、中央和颞区。关键实验结果表格如下: 表2. Graphormer++在不同骨干和设置下的准确率(%) ...

2026-04-29

ICASSP 2026 - 脑机接口 论文列表

ICASSP 2026 - 脑机接口 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SAASDNet: An EEG-Based Streaming Auditory Attention Switch D 8.0分 前25% 📋 论文详情 🥇 SAASDNet: An EEG-Based Streaming Auditory Attention Switch Decoding Network for Self-Initiated Attention Switching in Mixed Speech 🔥 8.0/10 | 前25% | #脑机接口 | #端到端 | #流式处理 #数据集 👥 作者与机构 第一作者:Yuting Ding(南方科技大学电子与电气工程系) 通讯作者:Fei Chen(南方科技大学电子与电气工程系) 作者列表:Yuting Ding(南方科技大学电子与电气工程系),Siyu Yu(南方科技大学电子与电气工程系),Ximin Chen(南方科技大学电子与电气工程系),Xuefei Wang(南方科技大学电子与电气工程系),Yueting Ban(南方科技大学电子与电气工程系),Fei Chen(南方科技大学电子与电气工程系) 💡 毒舌点评 ...

2026-04-29

Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamba for sEEG-driven Speech Synthesis

📄 Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamba for sEEG-driven Speech Synthesis #语音合成 #信号处理 #状态空间模型 #脑机接口 #低资源 🔥 8.0/10 | 前25% | #语音合成 | #信号处理 #状态空间模型 | #信号处理 #状态空间模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Jiayue Xie†, Ruicong Wang† (†共同第一作者,单位:香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室) 通讯作者:Siqi Cai⋆ (⋆通讯作者,单位:哈尔滨工业大学(深圳)智能科学与工程学院、深圳湾实验室) 作者列表:Jiayue Xie (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室), Ruicong Wang (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室), Xueyi Zhang (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室), Siqi Cai (哈尔滨工业大学(深圳)智能科学与工程学院、深圳湾实验室), Haizhou Li (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室; 深圳湾实验室) 💡 毒舌点评 论文的亮点在于其模块设计(AFM与TPM)逻辑清晰,针对sEEG信号特性的动机阐述充分,消融实验和多任务(发声/默念/想象)评估也显得扎实可靠。然而,将实验仅局限于2名被试的sEEG数据,虽然这是领域早期常见情况,但论文并未充分讨论其结论在更广泛人群和非癫痫患者中的潜在泛化性限制,这使得“有效性”的声明略显单薄。 ...

2026-04-29

SAASDNet: An EEG-Based Streaming Auditory Attention Switch Decoding Network for Self-Initiated Attention Switching in Mixed Speech

📄 SAASDNet: An EEG-Based Streaming Auditory Attention Switch Decoding Network for Self-Initiated Attention Switching in Mixed Speech #脑机接口 #端到端 #流式处理 #数据集 #预训练 🔥 8.0/10 | 前25% | #脑机接口 | #端到端 | #流式处理 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Yuting Ding(南方科技大学电子与电气工程系) 通讯作者:Fei Chen(南方科技大学电子与电气工程系) 作者列表:Yuting Ding(南方科技大学电子与电气工程系),Siyu Yu(南方科技大学电子与电气工程系),Ximin Chen(南方科技大学电子与电气工程系),Xuefei Wang(南方科技大学电子与电气工程系),Yueting Ban(南方科技大学电子与电气工程系),Fei Chen(南方科技大学电子与电气工程系) 💡 毒舌点评 亮点:论文抓住了一个非常实际且尚未被充分建模的痛点——在无提示线索、无空间分离的混合语音中进行自发起的注意力切换解码,其构建的MS-AASD数据集和提出的流式解码框架(SAASDNet)为这个更具生态效度的场景提供了首个系统性基准。短板:SAASDNet的架构(多尺度卷积+Transformer+门控循环)在脑电信号建模中已属常见组合,其核心创新点“稳定性感知门控”依赖的“置信度”和“波动性”指标设计相对启发式,缺乏更深入的理论或神经机制支撑,模型整体的“新颖性”相较于其“工程整合性”稍弱。 📌 核心摘要 问题:现有的EEG听觉注意力切换解码(AASD)范式大多依赖外部提示线索(如蜂鸣声)和空间化音频,无法捕捉自然状态下由听者自发发起的注意力切换,且可能引入非听觉伪迹。 方法核心:提出一个新的混合语音AASD数据集(MS-AASD)和一个端到端的流式解码网络SAASDNet。SAASDNet包含三个核心组件:多频带多分辨率聚合EEG编码器(MMAEnc)、简单的语音编码器,以及流式稳定性感知门控(StreamSAG)单元。 创新点:1)新范式与新数据集:首次构建支持自发起切换、无空间线索的混合语音EEG数据集MS-AASD。2)针对性架构设计:MMAEnc通过多尺度时域卷积和自适应频带聚合来应对EEG的非平稳性;StreamSAG单元利用说话人分类的置信度和短期波动性作为稳定性分数,自适应地加权历史信息,避免显式的切换点检测。 主要实验结果:在MS-AASD数据集上,使用wav2vec 2.0特征和1秒决策窗口时,SAASDNet的流式解码准确率达到83.6%,非流式准确率为79.9%。相比多种先进基线(DARNet, ListenNet等)和其自身的非流式版本(AASDNet)均有显著提升。消融实验证明了StreamSAG单元(特别是其中的置信度和波动性成分)、多分辨率卷积(GMR)和自适应频带聚合(MBA)的贡献。关键对比数据如下: 模型 决策窗口长度 0.5 s 1 s 2 s Mel W2V Mel W2V Mel W2V DARNet 70.3 74.1 71.5 76.8 72.0 77.9 ListenNet 71.4 74.0 71.8 76.4 72.7 76.9 ResCNN 71.8 76.2 72.1 77.2 73.7 78.0 TransCNN 72.3 77.5 73.8 78.4 74.4 79.7 AASDNet (ours) 72.9 78.4 74.3 79.9 76.7 81.1 SAASDNet (ours) 75.8 81.5 78.2 83.6 80.1 84.5 实际意义:这项工作为开发更自然、更鲁棒的下一代神经调控助听器提供了关键的数据基础和算法参考,展示了在复杂真实场景中利用EEG解码动态注意力的可行性。 主要局限性:数据集规模较小(13名被试),且均为母语中文,模型的泛化能力有待验证。模型虽然有效,但其组件的神经科学可解释性可以进一步深化。 🏗️ 模型架构 SAASDNet是一个为流式EEG听觉注意力切换解码设计的端到端网络,整体架构如图1所示。其核心流程如下: ...

2026-04-29