SpatialNet-Echo: Real-Time Acoustic Echo Cancellation via Integrated Narrow-Band and Cross-Band Processing
📄 SpatialNet-Echo: Real-Time Acoustic Echo Cancellation via Integrated Narrow-Band and Cross-Band Processing #语音增强 #声学回声消除 #端到端 #流式处理 #Mamba ✅ 7.5/10 | 前25% | #语音增强 | #自回归模型 | #声学回声消除 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ziyin Chen(浙江大学,杭州,中国) 通讯作者:Xiaofei Li(西湖大学 & 西湖高等研究院,杭州,中国) 作者列表:Ziyin Chen(浙江大学),Xiaofei Li(西湖大学 & 西湖高等研究院) 💡 毒舌点评 论文巧妙地将Mamba架构引入AEC的窄带处理,解决了传统RNN和Transformer的长序列建模效率问题,是一个有价值的工程实践。但其高达28.31G的MACs和1.71M参数的“标准版”模型,离真正的“实时”轻量化部署似乎还有距离,论文中“轻量级变体”的性能也仅比对比方法略好,且未公开代码,让“可部署性”的宣称打了折扣。 📌 核心摘要 这篇论文旨在解决实时通信中声学回声消除(AEC)的难题,特别是传统窄带处理方法的局限性和信号的非线性失真。论文提出了SpatialNet-Echo,这是首个集成窄带时间建模与跨带谱一致性的端到端实时AEC模型。其核心方法是结合时间-频率卷积块(TFCB)捕捉联合谱时特征、挤压-激励(SE)块进行动态通道加权,以及基于Mamba的窄带处理器进行高效的长上下文建模。同时,采用了一个结合SI-SNR、幅度谱和实/虚部损失的相位感知混合损失函数。 与已有方法相比,该模型的创新点在于首次将上述组件统一到一个针对AEC设计的端到端架构中,强调窄带与跨带处理的协同作用。在ICASSP 2023 AEC挑战赛盲测集上,SpatialNet-Echo在远端单讲(ST-FE)场景下取得了SOTA的4.81 EMOS,在双讲(DT)场景下取得了竞争性的4.59 EMOS和4.05 DMOS,优于或持平于其他四个SOTA方法。 该工作的实际意义在于推动了基于深度学习的端到端AEC模型的发展,并验证了Mamba在该任务中的有效性。主要的局限性在于其标准模型的计算复杂度(28.31G MACs)仍然较高,且论文未提供开源代码和模型,限制了其复现性和直接应用。 表1:与SOTA方法在ICASSP 2023 AEC挑战赛盲测集上的性能对比 ...