无人机 | 语音/音乐/音频论文速递

📄 Improving Automatic Speech Recognition by Mitigating Distortions Introduced by Speech Enhancement Under Drone Noise #语音识别 #语音增强 #扩散模型 #鲁棒性 #无人机 ✅ 6.5/10 | 前25% | #语音识别 | #语音增强 #扩散模型 | #语音增强 #扩散模型学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Ryusei Miura（东京科学大学系统与控制工程系）通讯作者：未说明作者列表：Ryusei Miura（东京科学大学系统与控制工程系），Takahiro Osaki（东京科学大学系统与控制工程系），Benjamin Yen（东京科学大学系统与控制工程系），Takeshi Ashizawa（东京科学大学系统与控制工程系），Kazuhiro Nakadai（东京科学大学系统与控制工程系） 💡 毒舌点评亮点：论文针对“语音增强会扭曲语音”这个经典矛盾，提出了“动态融合增强中间结果”+“用噪声特征校正特征”的双模块轻量化解决方案，思路清晰且工程化味道浓。短板：在-10 dB信噪比下，所提系统性能雪崩式下降（CER平均92.4%），甚至远不如直接用ASR（81.6%），这暴露出方法在极端噪声下的脆弱性，也让其宣称的“鲁棒性”打了不少折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的LibriSpeech语音集和三个无人机噪声数据集（Bebop, Mambo, MK-Quadro），论文中给出了引用。 Demo：未提供在线演示。复现材料：论文提供了较为详细的实现细节（如模型维度、超参数、训练流程），但缺少完整的配置代码和预处理脚本。论文中引用的开源项目：ESPnet工具包[24]。总体情况：论文中未提及开源计划。 📌 核心摘要解决的问题：在无人机噪声环境下，使用语音增强（SE）作为预处理会引入失真或信息丢失，导致后续自动语音识别（ASR）模型因声学失配而性能下降。 ...