语音解码 | 语音/音乐/音频论文速递

📄 A Robust Multi-Scale Framework with Test-Time Adaptation for sEEG-Based Speech Decoding #语音解码 #领域适应 #脑机接口 #多尺度特征学习 ✅ 7.5/10 | 前25% | #语音解码 | #领域适应 | #脑机接口 #多尺度特征学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度中 👥 作者与机构第一作者：Yang-yang Li（南京理工大学计算机科学与工程学院；香港中文大学（深圳）数据科学学院、人工智能学院）通讯作者：Siqi Cai（哈尔滨工业大学（深圳）智能科学与工程学院、人工智能学院）作者列表：Yang-yang Li（南京理工大学计算机科学与工程学院；香港中文大学（深圳）数据科学学院、人工智能学院）、Suli Wang（达姆施塔特工业大学计算机科学系；香港中文大学（深圳）数据科学学院、人工智能学院）、Siqi Cai（哈尔滨工业大学（深圳）智能科学与工程学院、人工智能学院）、Haizhou Li（香港中文大学（深圳）数据科学学院、人工智能学院） 💡 毒舌点评这篇论文的亮点在于直面sEEG信号解码的核心痛点——非平稳性导致的域偏移，并提出了一个逻辑清晰、组件有效的“先强化表示，再在线适应”的两阶段解决方案，在公开数据集上确实取得了显著的性能提升。其短板在于实验仅在一个数据集（DU-IN）上验证，且模型大小（5.964M）在BCI植入式应用场景下可能偏大，论文对模型轻量化和实时推理的考量不足，临床转化的可行性论证略显单薄。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/lyyi599/MDM-Tent。但未说明代码是否已发布，或仅为占位页面。模型权重：论文中未提及是否提供预训练模型权重。数据集：实验使用了公开的DU-IN数据集，论文中未提供其具体获取方式，但暗示读者可参考原始研究。 Demo：论文中未提及在线演示。复现材料：论文中部分训练细节（如优化器、学习率、batch size）未说明。消融实验的完整结果可在提供的GitHub链接中获取。论文中引用的开源项目：论文引用了多个基线模型的开源实现或相关工作，如DU-IN、EEGNet、Tent等。 📌 核心摘要要解决什么问题：sEEG信号固有的非平稳性导致训练和测试数据之间存在分布偏移（域偏移），严重影响了解码模型的鲁棒性和在临床BCI中的可靠性。方法核心是什么：提出一个两阶段框架MDM-Tent。第一阶段，设计多尺度分解混合（MDM）模块，通过递归池化和自上而下融合，捕获语音产生过程中多时间尺度的层级动态，学习更稳定的表示。第二阶段，采用基于熵最小化的无源在线测试时适应（TTA）方法，在推理时仅利用无标签的测试数据调整归一化层参数，以适应分布变化。与已有方法相比新在哪里：相比DU-IN等SOTA基线，本方法的新颖之处在于：a) 显式建模神经活动的多时间尺度结构；b) 集成了在线测试时适应机制，使模型在部署时能持续自我调整，而基线模型缺乏这种内在的抗偏移能力。主要实验结果如何：在DU-IN数据集的12个受试者上，所提框架MDM-Tent取得了最佳的平均解码精度。相比基线DU-IN，在全部受试者上的平均准确率有显著提升，尤其在困难案例（如受试者03和10）上分别实现了6.64%和10.87%的绝对增益。消融实验证实了自蒸馏、MDM和Tent三个组件的有效性和协同作用。关键实验结果对比表（来自Table 1，部分数据）：方法模型大小 subj-01 subj-02 subj-03 … subj-12 整体趋势 DU-IN [11] 4.380M 71.04±2.28 71.78±2.74 27.99±4.05 … 49.63±4.51 基线性能 MDM-Tent (Ours) 5.964M 76.24±2.62 76.03±1.52 34.63±3.81 … 61.57±4.04 在所有受试者上均优于基线实际意义是什么：为构建更可靠、能适应动态真实环境的脑机接口系统提供了一种有效的技术路径，尤其在改善对低质量信号或显著偏移场景的解码性能方面具有临床应用潜力。主要局限性是什么：a) 实验仅在DU-IN这一个公开数据集上进行验证，泛化性需更多数据证实；b) 模型参数量（约6M）对于植入式BCI可能偏大，论文未讨论轻量化或实时推理方案；c) TTA方法仅调整归一化层，对于严重或复杂的分布偏移适应能力可能有限。 🏗️ 模型架构图1 展示了MDM-Tent的整体架构流程。其核心组件和数据流如下： ...

ICASSP 2026 - 语音解码共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 A Robust Multi-Scale Framework with Test-Time Adaptation for 7.5分前25% 📋 论文详情 🥇 A Robust Multi-Scale Framework with Test-Time Adaptation for sEEG-Based Speech Decoding ✅ 7.5/10 | 前25% | #语音解码 | #领域适应 | #脑机接口 #多尺度特征学习 👥 作者与机构第一作者：Yang-yang Li（南京理工大学计算机科学与工程学院；香港中文大学（深圳）数据科学学院、人工智能学院）通讯作者：Siqi Cai（哈尔滨工业大学（深圳）智能科学与工程学院、人工智能学院）作者列表：Yang-yang Li（南京理工大学计算机科学与工程学院；香港中文大学（深圳）数据科学学院、人工智能学院）、Suli Wang（达姆施塔特工业大学计算机科学系；香港中文大学（深圳）数据科学学院、人工智能学院）、Siqi Cai（哈尔滨工业大学（深圳）智能科学与工程学院、人工智能学院）、Haizhou Li（香港中文大学（深圳）数据科学学院、人工智能学院） 💡 毒舌点评这篇论文的亮点在于直面sEEG信号解码的核心痛点——非平稳性导致的域偏移，并提出了一个逻辑清晰、组件有效的“先强化表示，再在线适应”的两阶段解决方案，在公开数据集上确实取得了显著的性能提升。其短板在于实验仅在一个数据集（DU-IN）上验证，且模型大小（5.964M）在BCI植入式应用场景下可能偏大，论文对模型轻量化和实时推理的考量不足，临床转化的可行性论证略显单薄。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/lyyi599/MDM-Tent。但未说明代码是否已发布，或仅为占位页面。模型权重：论文中未提及是否提供预训练模型权重。数据集：实验使用了公开的DU-IN数据集，论文中未提供其具体获取方式，但暗示读者可参考原始研究。 Demo：论文中未提及在线演示。复现材料：论文中部分训练细节（如优化器、学习率、batch size）未说明。消融实验的完整结果可在提供的GitHub链接中获取。论文中引用的开源项目：论文引用了多个基线模型的开源实现或相关工作，如DU-IN、EEGNet、Tent等。 📌 核心摘要 ...