Improving Automatic Speech Recognition by Mitigating Distortions Introduced by Speech Enhancement Under Drone Noise
📄 Improving Automatic Speech Recognition by Mitigating Distortions Introduced by Speech Enhancement Under Drone Noise #语音识别 #语音增强 #扩散模型 #鲁棒性 #无人机 ✅ 6.5/10 | 前25% | #语音识别 | #语音增强 #扩散模型 | #语音增强 #扩散模型 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Ryusei Miura(东京科学大学 系统与控制工程系) 通讯作者:未说明 作者列表:Ryusei Miura(东京科学大学 系统与控制工程系),Takahiro Osaki(东京科学大学 系统与控制工程系),Benjamin Yen(东京科学大学 系统与控制工程系),Takeshi Ashizawa(东京科学大学 系统与控制工程系),Kazuhiro Nakadai(东京科学大学 系统与控制工程系) 💡 毒舌点评 亮点:论文针对“语音增强会扭曲语音”这个经典矛盾,提出了“动态融合增强中间结果”+“用噪声特征校正特征”的双模块轻量化解决方案,思路清晰且工程化味道浓。短板:在-10 dB信噪比下,所提系统性能雪崩式下降(CER平均92.4%),甚至远不如直接用ASR(81.6%),这暴露出方法在极端噪声下的脆弱性,也让其宣称的“鲁棒性”打了不少折扣。 📌 核心摘要 解决的问题:在无人机噪声环境下,使用语音增强(SE)作为预处理会引入失真或信息丢失,导致后续自动语音识别(ASR)模型因声学失配而性能下降。 方法核心:提出一个由前端自适应融合模型(AFM)和后端偏差网络(BN)组成的ASR系统。AFM动态融合基于扩散模型的SE中间输出,以平衡降噪与失真;BN利用预知的无人机噪声静态特征,对AFM输出的语音特征进行校正,以减少声学失配,且无需重训ASR模型。 创新性:AFM通过Transformer建模不同扩散步骤输出的时序和步间关系,自适应地加权融合,相比固定选择单一步骤或简单二选一的方法更灵活。BN是一种轻量级的后处理校正模块,利用噪声先验知识来适配预训练ASR模型。 主要实验结果:在LibriSpeech测试集与三种无人机噪声混合的数据上,所提系统(DM+AFM+BN)在0 dB和-5 dB SNR下相比ASR-only基线,平均字符错误率(CER)绝对降低了约20和25个百分点(相对改进分别为54.2%和39.1%)。但在-10 dB SNR下,系统失效,CER高达92.4%,甚至劣于基线。 ...