Improving Automatic Speech Recognition by Mitigating Distortions Introduced by Speech Enhancement Under Drone Noise
📄 Improving Automatic Speech Recognition by Mitigating Distortions Introduced by Speech Enhancement Under Drone Noise #语音识别 #语音增强 #扩散模型 #鲁棒性 #无人机 ✅ 6.5/10 | 前25% | #语音识别 | #语音增强 #扩散模型 | #语音增强 #扩散模型 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Ryusei Miura(东京科学大学 系统与控制工程系) 通讯作者:未说明 作者列表:Ryusei Miura(东京科学大学 系统与控制工程系),Takahiro Osaki(东京科学大学 系统与控制工程系),Benjamin Yen(东京科学大学 系统与控制工程系),Takeshi Ashizawa(东京科学大学 系统与控制工程系),Kazuhiro Nakadai(东京科学大学 系统与控制工程系) 💡 毒舌点评 亮点:论文针对“语音增强会扭曲语音”这个经典矛盾,提出了“动态融合增强中间结果”+“用噪声特征校正特征”的双模块轻量化解决方案,思路清晰且工程化味道浓。短板:在-10 dB信噪比下,所提系统性能雪崩式下降(CER平均92.4%),甚至远不如直接用ASR(81.6%),这暴露出方法在极端噪声下的脆弱性,也让其宣称的“鲁棒性”打了不少折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开的LibriSpeech语音集和三个无人机噪声数据集(Bebop, Mambo, MK-Quadro),论文中给出了引用。 Demo:未提供在线演示。 复现材料:论文提供了较为详细的实现细节(如模型维度、超参数、训练流程),但缺少完整的配置代码和预处理脚本。 论文中引用的开源项目:ESPnet工具包[24]。 总体情况:论文中未提及开源计划。 📌 核心摘要 解决的问题:在无人机噪声环境下,使用语音增强(SE)作为预处理会引入失真或信息丢失,导致后续自动语音识别(ASR)模型因声学失配而性能下降。 ...