ICASSP 2026 - 听觉注意力解码
共 2 篇论文
| 排名 | 论文 | 评分 | 分档 |
|---|---|---|---|
| 🥇 | Multi-Scale Physiologically-Motivated Alignment for Auditory | 7.5分 | 前25% |
| 🥈 | FD-ARL: Feature Disentanglement with Adversarial-Reconstruct | 7.5分 | 前10% |
📋 论文详情
🥇 Multi-Scale Physiologically-Motivated Alignment for Auditory Attention Decoding
✅ 7.5/10 | 前25% | #听觉注意力解码 | #对比学习 | #生物声学 #自监督学习
👥 作者与机构
- 第一作者:Yuxuan Ma(华东师范大学计算机科学与技术学院, 丹麦技术大学)
- 通讯作者:Jun Xue(武汉大学网络空间安全学院); Jinqiu Sang(华东师范大学计算机科学与技术学院)
- 作者列表:
- Yuxuan Ma†(华东师范大学计算机科学与技术学院, 丹麦技术大学)
- Xiaoke Yang†(安徽大学计算机科学与技术学院)
- Tongxi Chen(丹麦技术大学)
- Jun Xue*(武汉大学网络空间安全学院)
- Jinqiu Sang*(华东师范大学计算机科学与技术学院) (注:†表示共同第一作者,*表示通讯作者)
💡 毒舌点评
这篇论文的最大亮点在于其清晰的问题定义和巧妙的解决方案——它没有追求复杂的模型架构,而是精准地抓住了“EEG响应相对于声音刺激存在生理延迟”这个关键点,并设计了一个仅在训练时生效、推理零开销的多尺度对齐模块。然而,其短板也同样明显:这个模块本质上是一个训练技巧,它依赖于现有的对比学习框架,并且其优越性仅在单一数据集(SparrKULee)的单一任务上得到验证,在更广泛的跨被试、跨范式场景下的鲁棒性有待考察。
📌 核心摘要
要解决什么问题:现有的听觉注意力解码(AAD)匹配-不匹配范式方法普遍假设神经响应与声学流在时间上严格对齐,但事实上,由于神经处理延迟,EEG信号会滞后于听觉刺激。现有方法要么使用固定的手动延迟,要么只能隐式容忍这种错位,这在短时决策窗口下尤其影响性能。
方法核心是什么:本文提出一个多尺度生理动机时间对齐模块。该模块利用大脑分层处理语音的神经科学证据(音素、音节、词汇、语义等不同时间尺度),使用带带宽约束的Soft-DTW在四个时间尺度上计算EEG和语音特征之间的可微对齐损失,并通过学习自适应的权重融合这些损失,作为对比学习目标的辅助损失。该模块仅在训练时使用。
与已有方法相比新在哪里:
- 首次引入生理学动机:将音素(40ms)、音节(250ms)等明确的生理时间常数编码到对齐损失中,而非依赖固定偏移或隐式学习。
- 可微的多尺度对齐:结合Soft-DTW和Sakoe-Chiba带宽约束,提供了一种可端到端优化的、多层次时间对齐目标。
- 自适应融合与零推理开销:通过可学习权重自动平衡不同尺度的贡献,避免人工调参;且模块仅在训练时参与计算。
主要实验结果如何:在SparrKULee数据集上,本方法达到了SOTA性能。表1(3秒窗口) 显示总准确率为87.61%,优于此前最佳的HERMES(87.19%);表2(1秒窗口) 显示总准确率为73.52%,比HERMES(69.67%)高出3.85个百分点,优势更显著。消融实验证明,去除多尺度设计后,准确率下降0.4个百分点(至87.21%)。
表1:SparrKULee数据集性能对比(3秒决策窗口)
方法 测试集1 (%) 测试集2 (%) 总计 (%) HERMES(2025) 87.79 86.01 87.19 Rank1 82.71 80.98 82.13 IFE-CF(2024) 80.82 80.48 80.71 … … … … 本方法 88.05 86.73 87.61 本方法(去除多尺度) 87.67 86.31 87.21 表2:SparrKULee数据集性能对比(1秒决策窗口)
方法 测试集1 (%) 测试集2 (%) 总计 (%) HERMES(2025) 70.97 67.06 69.67 本方法 74.26 72.03 73.52 实际意义是什么:该方法通过更精确地建模神经处理延迟,显著提升了短时决策窗口下的解码准确率,使得基于EEG的听觉注意力解码系统在实时性要求更高的应用场景(如助听器实时调节)中更具实用性。
主要局限性是什么:
- 方法强依赖于对比学习框架,其与其它训练目标的兼容性未知。
- 在单一数据集(SparrKULee) 上验证,数据集的规模(85人)和任务单一性限制了结论的普适性。
- 对齐模块的超参数(如γs, βs)虽有生理学依据,但最终值仍为经验值,其敏感性和调优过程未深入探讨。
🥈 FD-ARL: Feature Disentanglement with Adversarial-Reconstruction Learning for Cross-Subject Auditory Attention Decoding
✅ 7.5/10 | 前10% | #听觉注意力解码 | #领域适应 | #Transformer #脑电信号
👥 作者与机构
- 第一作者:Yuan Liao(香港中文大学(深圳)人工智能学院,数据科学学院,深圳研究院)
- 通讯作者:Siqi Cai(哈尔滨工业大学(深圳)智能科学与工程学院)
- 作者列表:Yuan Liao(香港中文大学(深圳)人工智能学院,数据科学学院,深圳研究院)、Haoqi Hu(香港中文大学(深圳)人工智能学院,数据科学学院,深圳研究院)、Siqi Cai(哈尔滨工业大学(深圳)智能科学与工程学院)、Haizhou Li(香港中文大学(深圳)人工智能学院,数据科学学院,深圳研究院)
💡 毒舌点评
亮点:论文精准地抓住了跨被试脑电解码的核心痛点——“个体差异”与“任务相关性”的纠缠,并提出了一个逻辑自洽的“解耦”框架(特征拆分+对抗抹除身份+重建保留信息),实验上也取得了扎实的性能提升。短板:重建损失的具体作用机制(是防止信息丢失还是隐式正则化)讨论不足,且仅验证了跨被试泛化,未涉及跨范式(如噪声环境、听觉刺激参数变化)的泛化,限制了其结论的普遍性。
📌 核心摘要
- 问题:基于脑电图(EEG)的听觉注意力解码(AAD)模型在跨被试场景下泛化性能差,主要原因是个体间脑电信号差异大,且现有方法难以提取与任务相关且与个体无关的鲁棒特征。
- 方法核心:提出FD-ARL框架。首先用并行时空Transformer编码器提取EEG特征。然后,将特征解耦为任务相关码(ztask)和特定于被试的码(zsubj)。最后,通过对抗训练(利用梯度反转层)迫使ztask对被试身份不变,同时通过重建损失确保解耦过程保留关键信息。
- 创新点:这是首次将双分支Transformer与对抗-重建解耦方案相结合用于EEG-AAD。与传统领域对抗网络(DANN)不同,它不是将整个特征强制对齐,而是显式地分离出应保持不变的任务特征和应被忽略的个体特征。
- 主要实验结果:在KUL和DTU两个公开数据集上,采用严格的留一被试交叉验证(LOSO-CV)。FD-ARL在所有条件下均达到了最佳性能。例如,在KUL数据集2秒窗口下,准确率达74.6%,比此前最优的DARNet(71.9%)高出2.7个百分点。消融实验证明了每个模块(对抗、重建、时空分支)的贡献。
- 实际意义:该工作为解决BCI和神经辅助设备中的跨用户泛化问题提供了有效方案,推动了听觉注意力解码技术向实用化迈进。
- 主要局限性:研究仅聚焦于跨被试泛化,未探讨模型在更复杂声学环境(如高噪声、不同空间布局)下的鲁棒性;重建损失的具体作用机制可以进一步剖析;实验仅限于特定数据集的二分类(左/右)任务,结论的普适性有待更广泛验证。