ICASSP 2026 - 脑机接口

1 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇SAASDNet: An EEG-Based Streaming Auditory Attention Switch D8.0分前25%

📋 论文详情

🥇 SAASDNet: An EEG-Based Streaming Auditory Attention Switch Decoding Network for Self-Initiated Attention Switching in Mixed Speech

🔥 8.0/10 | 前25% | #脑机接口 | #端到端 | #流式处理 #数据集

👥 作者与机构

  • 第一作者:Yuting Ding(南方科技大学电子与电气工程系)
  • 通讯作者:Fei Chen(南方科技大学电子与电气工程系)
  • 作者列表:Yuting Ding(南方科技大学电子与电气工程系),Siyu Yu(南方科技大学电子与电气工程系),Ximin Chen(南方科技大学电子与电气工程系),Xuefei Wang(南方科技大学电子与电气工程系),Yueting Ban(南方科技大学电子与电气工程系),Fei Chen(南方科技大学电子与电气工程系)

💡 毒舌点评

亮点:论文抓住了一个非常实际且尚未被充分建模的痛点——在无提示线索、无空间分离的混合语音中进行自发起的注意力切换解码,其构建的MS-AASD数据集和提出的流式解码框架(SAASDNet)为这个更具生态效度的场景提供了首个系统性基准。短板:SAASDNet的架构(多尺度卷积+Transformer+门控循环)在脑电信号建模中已属常见组合,其核心创新点“稳定性感知门控”依赖的“置信度”和“波动性”指标设计相对启发式,缺乏更深入的理论或神经机制支撑,模型整体的“新颖性”相较于其“工程整合性”稍弱。

📌 核心摘要

  1. 问题:现有的EEG听觉注意力切换解码(AASD)范式大多依赖外部提示线索(如蜂鸣声)和空间化音频,无法捕捉自然状态下由听者自发发起的注意力切换,且可能引入非听觉伪迹。
  2. 方法核心:提出一个新的混合语音AASD数据集(MS-AASD)和一个端到端的流式解码网络SAASDNet。SAASDNet包含三个核心组件:多频带多分辨率聚合EEG编码器(MMAEnc)、简单的语音编码器,以及流式稳定性感知门控(StreamSAG)单元。
  3. 创新点:1)新范式与新数据集:首次构建支持自发起切换、无空间线索的混合语音EEG数据集MS-AASD。2)针对性架构设计:MMAEnc通过多尺度时域卷积和自适应频带聚合来应对EEG的非平稳性;StreamSAG单元利用说话人分类的置信度和短期波动性作为稳定性分数,自适应地加权历史信息,避免显式的切换点检测。
  4. 主要实验结果:在MS-AASD数据集上,使用wav2vec 2.0特征和1秒决策窗口时,SAASDNet的流式解码准确率达到83.6%,非流式准确率为79.9%。相比多种先进基线(DARNet, ListenNet等)和其自身的非流式版本(AASDNet)均有显著提升。消融实验证明了StreamSAG单元(特别是其中的置信度和波动性成分)、多分辨率卷积(GMR)和自适应频带聚合(MBA)的贡献。关键对比数据如下:
模型决策窗口长度
0.5 s1 s2 s
MelW2VMelW2VMelW2V
DARNet70.374.171.576.872.077.9
ListenNet71.474.071.876.472.776.9
ResCNN71.876.272.177.273.778.0
TransCNN72.377.573.878.474.479.7
AASDNet (ours)72.978.474.379.976.781.1
SAASDNet (ours)75.881.578.283.680.184.5
  1. 实际意义:这项工作为开发更自然、更鲁棒的下一代神经调控助听器提供了关键的数据基础和算法参考,展示了在复杂真实场景中利用EEG解码动态注意力的可行性。
  2. 主要局限性:数据集规模较小(13名被试),且均为母语中文,模型的泛化能力有待验证。模型虽然有效,但其组件的神经科学可解释性可以进一步深化。