ICASSP 2026 - 听觉注意力解码

共 2 篇论文

← 返回 ICASSP 2026 总览

排名	论文	评分	分档
🥇	Multi-Scale Physiologically-Motivated Alignment for Auditory	7.5分	前25%
🥈	FD-ARL: Feature Disentanglement with Adversarial-Reconstruct	7.5分	前10%

📋 论文详情

🥇 Multi-Scale Physiologically-Motivated Alignment for Auditory Attention Decoding

✅ 7.5/10 | 前25% | #听觉注意力解码 | #对比学习 | #生物声学 #自监督学习

👥 作者与机构

第一作者：Yuxuan Ma（华东师范大学计算机科学与技术学院，丹麦技术大学）
通讯作者：Jun Xue（武汉大学网络空间安全学院）； Jinqiu Sang（华东师范大学计算机科学与技术学院）
作者列表：
- Yuxuan Ma†（华东师范大学计算机科学与技术学院，丹麦技术大学）
- Xiaoke Yang†（安徽大学计算机科学与技术学院）
- Tongxi Chen（丹麦技术大学）
- Jun Xue*（武汉大学网络空间安全学院）
- Jinqiu Sang*（华东师范大学计算机科学与技术学院）（注：†表示共同第一作者，*表示通讯作者）

💡 毒舌点评

这篇论文的最大亮点在于其清晰的问题定义和巧妙的解决方案——它没有追求复杂的模型架构，而是精准地抓住了“EEG响应相对于声音刺激存在生理延迟”这个关键点，并设计了一个仅在训练时生效、推理零开销的多尺度对齐模块。然而，其短板也同样明显：这个模块本质上是一个训练技巧，它依赖于现有的对比学习框架，并且其优越性仅在单一数据集（SparrKULee）的单一任务上得到验证，在更广泛的跨被试、跨范式场景下的鲁棒性有待考察。

🔗 开源详情

代码：论文中未提及代码链接或开源计划。
模型权重：未提及。
数据集：使用的是公开的SparrKULee数据集，但论文中未提供获取链接。
Demo：未提及。
复现材料：论文详细描述了模型架构、训练策略、关键超参数（如学习率、批量大小、损失权重α的取值）以及Soft-DTW的具体实现细节（带宽约束、平滑系数），为复现提供了良好的文本基础。
论文中引用的开源项目：论文提及的基线方法和编码器可能依赖的开源项目有：wav2vec 2.0、GPT-2、InfoNCE损失。但未列出具体的依赖库或工具包链接。

📌 核心摘要

要解决什么问题：现有的听觉注意力解码（AAD）匹配-不匹配范式方法普遍假设神经响应与声学流在时间上严格对齐，但事实上，由于神经处理延迟，EEG信号会滞后于听觉刺激。现有方法要么使用固定的手动延迟，要么只能隐式容忍这种错位，这在短时决策窗口下尤其影响性能。
方法核心是什么：本文提出一个多尺度生理动机时间对齐模块。该模块利用大脑分层处理语音的神经科学证据（音素、音节、词汇、语义等不同时间尺度），使用带带宽约束的Soft-DTW在四个时间尺度上计算EEG和语音特征之间的可微对齐损失，并通过学习自适应的权重融合这些损失，作为对比学习目标的辅助损失。该模块仅在训练时使用。
与已有方法相比新在哪里：
- 首次引入生理学动机：将音素（40ms）、音节（250ms）等明确的生理时间常数编码到对齐损失中，而非依赖固定偏移或隐式学习。
- 可微的多尺度对齐：结合Soft-DTW和Sakoe-Chiba带宽约束，提供了一种可端到端优化的、多层次时间对齐目标。
- 自适应融合与零推理开销：通过可学习权重自动平衡不同尺度的贡献，避免人工调参；且模块仅在训练时参与计算。
主要实验结果如何：在SparrKULee数据集上，本方法达到了SOTA性能。表1（3秒窗口）显示总准确率为87.61%，优于此前最佳的HERMES（87.19%）；表2（1秒窗口）显示总准确率为73.52%，比HERMES（69.67%）高出3.85个百分点，优势更显著。消融实验证明，去除多尺度设计后，准确率下降0.4个百分点（至87.21%）。
表1：SparrKULee数据集性能对比（3秒决策窗口）
方法测试集1 (%) 测试集2 (%) 总计 (%)
HERMES(2025) 87.79 86.01 87.19
Rank1 82.71 80.98 82.13
IFE-CF(2024) 80.82 80.48 80.71
… … … …
本方法 88.05 86.73 87.61
本方法（去除多尺度） 87.67 86.31 87.21
表2：SparrKULee数据集性能对比（1秒决策窗口）
方法测试集1 (%) 测试集2 (%) 总计 (%)
HERMES(2025) 70.97 67.06 69.67
本方法 74.26 72.03 73.52
实际意义是什么：该方法通过更精确地建模神经处理延迟，显著提升了短时决策窗口下的解码准确率，使得基于EEG的听觉注意力解码系统在实时性要求更高的应用场景（如助听器实时调节）中更具实用性。
主要局限性是什么：
- 方法强依赖于对比学习框架，其与其它训练目标的兼容性未知。
- 在单一数据集（SparrKULee）上验证，数据集的规模（85人）和任务单一性限制了结论的普适性。
- 对齐模块的超参数（如γs， βs）虽有生理学依据，但最终值仍为经验值，其敏感性和调优过程未深入探讨。

方法	测试集1 (%)	测试集2 (%)	总计 (%)
HERMES(2025)	87.79	86.01	87.19
Rank1	82.71	80.98	82.13
IFE-CF(2024)	80.82	80.48	80.71
…	…	…	…
本方法	88.05	86.73	87.61
本方法（去除多尺度）	87.67	86.31	87.21

方法	测试集1 (%)	测试集2 (%)	总计 (%)
HERMES(2025)	70.97	67.06	69.67
本方法	74.26	72.03	73.52

🥈 FD-ARL: Feature Disentanglement with Adversarial-Reconstruction Learning for Cross-Subject Auditory Attention Decoding

✅ 7.5/10 | 前10% | #听觉注意力解码 | #领域适应 | #Transformer #脑电信号

👥 作者与机构

第一作者：Yuan Liao（香港中文大学（深圳）人工智能学院，数据科学学院，深圳研究院）
通讯作者：Siqi Cai（哈尔滨工业大学（深圳）智能科学与工程学院）
作者列表：Yuan Liao（香港中文大学（深圳）人工智能学院，数据科学学院，深圳研究院）、Haoqi Hu（香港中文大学（深圳）人工智能学院，数据科学学院，深圳研究院）、Siqi Cai（哈尔滨工业大学（深圳）智能科学与工程学院）、Haizhou Li（香港中文大学（深圳）人工智能学院，数据科学学院，深圳研究院）

💡 毒舌点评

亮点：论文精准地抓住了跨被试脑电解码的核心痛点——“个体差异”与“任务相关性”的纠缠，并提出了一个逻辑自洽的“解耦”框架（特征拆分+对抗抹除身份+重建保留信息），实验上也取得了扎实的性能提升。短板：重建损失的具体作用机制（是防止信息丢失还是隐式正则化）讨论不足，且仅验证了跨被试泛化，未涉及跨范式（如噪声环境、听觉刺激参数变化）的泛化，限制了其结论的普遍性。

🔗 开源详情

代码：论文中提供了一个GitHub仓库链接 https://github.com/LiaoEuan/FD-ARL，但注明“将公开访问”，表明代码在论文发表时尚未正式开源。
模型权重：未提及。
数据集：评估使用的是公开数据集（KUL， DTU），论文中未提供获取方式的具体链接，但注明了来源参考文献。
Demo：未提及。
复现材料：论文中提供了非常详细的模型架构、超参数设置（学习率、批量大小、优化器、网络维度等）和训练策略，这些信息对复现至关重要。
论文中引用的开源项目：论文中未明确列出依赖的开源工具或模型，主要基于自行实现的架构。

📌 核心摘要

问题：基于脑电图（EEG）的听觉注意力解码（AAD）模型在跨被试场景下泛化性能差，主要原因是个体间脑电信号差异大，且现有方法难以提取与任务相关且与个体无关的鲁棒特征。
方法核心：提出FD-ARL框架。首先用并行时空Transformer编码器提取EEG特征。然后，将特征解耦为任务相关码（ztask）和特定于被试的码（zsubj）。最后，通过对抗训练（利用梯度反转层）迫使ztask对被试身份不变，同时通过重建损失确保解耦过程保留关键信息。
创新点：这是首次将双分支Transformer与对抗-重建解耦方案相结合用于EEG-AAD。与传统领域对抗网络（DANN）不同，它不是将整个特征强制对齐，而是显式地分离出应保持不变的任务特征和应被忽略的个体特征。
主要实验结果：在KUL和DTU两个公开数据集上，采用严格的留一被试交叉验证（LOSO-CV）。FD-ARL在所有条件下均达到了最佳性能。例如，在KUL数据集2秒窗口下，准确率达74.6%，比此前最优的DARNet（71.9%）高出2.7个百分点。消融实验证明了每个模块（对抗、重建、时空分支）的贡献。
实际意义：该工作为解决BCI和神经辅助设备中的跨用户泛化问题提供了有效方案，推动了听觉注意力解码技术向实用化迈进。
主要局限性：研究仅聚焦于跨被试泛化，未探讨模型在更复杂声学环境（如高噪声、不同空间布局）下的鲁棒性；重建损失的具体作用机制可以进一步剖析；实验仅限于特定数据集的二分类（左/右）任务，结论的普适性有待更广泛验证。

ICASSP 2026 - 听觉注意力解码#

📋 论文详情#

🥇 Multi-Scale Physiologically-Motivated Alignment for Auditory Attention Decoding#

🥈 FD-ARL: Feature Disentanglement with Adversarial-Reconstruction Learning for Cross-Subject Auditory Attention Decoding#

📎 相关论文

ICASSP 2026 - 听觉注意力解码

📋 论文详情

🥇 Multi-Scale Physiologically-Motivated Alignment for Auditory Attention Decoding

🥈 FD-ARL: Feature Disentanglement with Adversarial-Reconstruction Learning for Cross-Subject Auditory Attention Decoding