E2E-AEC: Implementing An End-To-End Neural Network Learning Approach for Acoustic Echo Cancellation

📄 E2E-AEC: Implementing An End-To-End Neural Network Learning Approach for Acoustic Echo Cancellation #语音增强 #端到端 #迁移学习 #声学回声消除 #多任务学习 ✅ 7.5/10 | 前25% | #语音增强 | #端到端 | #迁移学习 #声学回声消除 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yiheng Jiang(阿里巴巴通义实验室) 通讯作者:未说明 作者列表:Yiheng Jiang(阿里巴巴通义实验室)、Biao Tian(阿里巴巴通义实验室)、Haoxu Wang(阿里巴巴通义实验室)、Shengkui Zhao(阿里巴巴通义实验室)、Bin Ma(阿里巴巴通义实验室)、Daren Chen(阿里巴巴通义实验室)、Xiangang Li(阿里巴巴通义实验室) 💡 毒舌点评 本文最大亮点在于用扎实的消融实验证明了从传统LAEC模型迁移知识到纯神经网络E2E-AEC的可行性,为简化AEC系统流水线提供了有力证据。但短板也很明显:模型本身(1.2M参数的GRU网络)创新有限,更像是多个成熟技巧(渐进学习、注意力对齐、VAD掩码)的工程化组合,且论文未提供任何代码或模型,对于追求可复现的读者而言,其技术细节的透明度打了折扣。 📌 核心摘要 问题:传统声学回声消除(AEC)依赖线性自适应滤波器和时延估计,在非线性、时变回声路径下性能下降;现有混合系统复杂,而纯端到端方法在大时延场景下性能不佳。 方法核心:提出E2E-AEC,一个完全基于神经网络的端到端AEC模型。其核心创新在于:采用渐进式学习分阶段消除回声与噪声;通过知识迁移,用预训练的混合系统模型初始化网络,以继承其先验知识;设计带监督损失的注意力机制实现精确的信号时间对齐;并引入语音活动检测预测与掩码策略在推理时进一步抑制远端回声。 与已有方法相比:新在完全摆脱了传统信号处理流水线(TDE/LAEC),并通过上述策略的组合,解决了端到端模型在时间对齐和初始回声抑制上的难题,使其性能超越或媲美复杂的混合系统及已有的端到端方法(如DeepVQE)。 主要实验结果:在AEC Challenge 2023/2022盲测集上,完整模型(Exp 6)取得最优成绩。关键数据见表1: 方法 (AEC Challenge 2023) MOSavg ERLE (dB) DeepVQE (E2E, SOTA) 4.40 65.7 E2E-AEC (本文, Exp 6) 4.51 78.69 消融实验(表2)证明了“注意力+损失函数”对时间对齐的有效性。 表3显示从第五层提取VAD预测并掩码效果最佳。 实际意义:展示了端到端方法在AEC任务上达到甚至超越工业级混合系统的潜力,有望简化部署并提升全双工通话质量。 主要局限性:VAD掩码导致的超高ERLE(78.69dB)可能过度抑制,在真实复杂场景(如持续双讲、非平稳噪声)下的泛化能力和鲁棒性有待更全面评估。论文未公开模型与代码。 🏗️ 模型架构 模型整体为基于时频掩蔽的端到端神经网络,输入为带混响、回声和噪声的麦克风信号的STFT特征,输出为纯净近端语音的STFT频谱估计(中间阶段为回声抑制后的语音+噪声频谱)。 ...

2026-04-29

SpatialNet-Echo: Real-Time Acoustic Echo Cancellation via Integrated Narrow-Band and Cross-Band Processing

📄 SpatialNet-Echo: Real-Time Acoustic Echo Cancellation via Integrated Narrow-Band and Cross-Band Processing #语音增强 #声学回声消除 #端到端 #流式处理 #Mamba ✅ 7.5/10 | 前25% | #语音增强 | #自回归模型 | #声学回声消除 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ziyin Chen(浙江大学,杭州,中国) 通讯作者:Xiaofei Li(西湖大学 & 西湖高等研究院,杭州,中国) 作者列表:Ziyin Chen(浙江大学),Xiaofei Li(西湖大学 & 西湖高等研究院) 💡 毒舌点评 论文巧妙地将Mamba架构引入AEC的窄带处理,解决了传统RNN和Transformer的长序列建模效率问题,是一个有价值的工程实践。但其高达28.31G的MACs和1.71M参数的“标准版”模型,离真正的“实时”轻量化部署似乎还有距离,论文中“轻量级变体”的性能也仅比对比方法略好,且未公开代码,让“可部署性”的宣称打了折扣。 📌 核心摘要 这篇论文旨在解决实时通信中声学回声消除(AEC)的难题,特别是传统窄带处理方法的局限性和信号的非线性失真。论文提出了SpatialNet-Echo,这是首个集成窄带时间建模与跨带谱一致性的端到端实时AEC模型。其核心方法是结合时间-频率卷积块(TFCB)捕捉联合谱时特征、挤压-激励(SE)块进行动态通道加权,以及基于Mamba的窄带处理器进行高效的长上下文建模。同时,采用了一个结合SI-SNR、幅度谱和实/虚部损失的相位感知混合损失函数。 与已有方法相比,该模型的创新点在于首次将上述组件统一到一个针对AEC设计的端到端架构中,强调窄带与跨带处理的协同作用。在ICASSP 2023 AEC挑战赛盲测集上,SpatialNet-Echo在远端单讲(ST-FE)场景下取得了SOTA的4.81 EMOS,在双讲(DT)场景下取得了竞争性的4.59 EMOS和4.05 DMOS,优于或持平于其他四个SOTA方法。 该工作的实际意义在于推动了基于深度学习的端到端AEC模型的发展,并验证了Mamba在该任务中的有效性。主要的局限性在于其标准模型的计算复杂度(28.31G MACs)仍然较高,且论文未提供开源代码和模型,限制了其复现性和直接应用。 表1:与SOTA方法在ICASSP 2023 AEC挑战赛盲测集上的性能对比 ...

2026-04-29

Stereophonic Acoustic Echo Cancellation Using an Improved Affine Projection Algorithm with Adaptive Multiple Sub-Filters

📄 Stereophonic Acoustic Echo Cancellation Using an Improved Affine Projection Algorithm with Adaptive Multiple Sub-Filters #语音增强 #自适应滤波 #实时处理 #声学回声消除 ✅ 6.0/10 | 前50% | #语音增强 | #自适应滤波 | #实时处理 #声学回声消除 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Gagandeep Singh (印度Dr B R Ambedkar国立技术学院电子与通信工程系) 通讯作者:未说明 作者列表:Gagandeep Singh (印度Dr B R Ambedkar国立技术学院电子与通信工程系)、Asutosh Kar (英国伯明翰城市大学建筑、建成环境、计算与工程学院)、Rohit Singh (印度Dr B R Ambedkar国立技术学院电子与通信工程系)、Vasundhara (印度国立技术学院瓦朗加尔分校电子与通信工程系)、Jesper R. Jensen (丹麦奥尔堡大学音频分析实验室)、M.G. Christensen (丹麦奥尔堡大学音频分析实验室) 💡 毒舌点评 本文系统性地将多子滤波器(MSF)结构、基于递推均方偏差的可变步长机制以及能量方差跟踪重置策略相结合,为解决立体声回声消除中信号高相关性与非圆性难题提供了一个工程上完整且有效的方案,在特定条件下提升了收敛速度和追踪能力。但其创新点更像是“乐高积木”式的组合,缺乏底层理论突破,且完全忽略了双讲(double-talk)和非线性失真这两个实际场景中的核心挑战,限制了其在复杂真实环境中的适用性。 ...

2026-04-29