Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System
📄 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System #音频事件检测 #声源定位 #麦克风阵列 #自监督学习 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Yi Hong(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) 通讯作者:从论文中无法明确判断通讯作者。作者列表按顺序排列,Kevin Hung可能为资深作者。 其他作者: Mingyang Wang(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) Yalin Liu(香港科技大学,电子与计算机工程系) Yaru Fu(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) Kevin Hung(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) 💡 毒舌点评 亮点:论文提出的“两阶段”处理思路(哨兵+响应者)很务实,直击了无人机载系统能耗与性能的核心矛盾,用轻量级MAE做“警卫”,只在必要时唤醒“专家”进行精确定位,逻辑闭环设计得不错。 槽点:实验部分略显“理想国”,在高度受控的仿真环境下验证,缺乏真实复杂环境(如多风、多干扰源)下的鲁棒性测试,且对比的“SOTA方法”基本是自己系统的消融,说服力打了折扣。 🔗 开源详情 代码:论文提到“GitHub Issue”,并给出了一个不完整的链接(https://arxiv.org/abs/2604.12455v1 中的 “GitHub Issue ×” 可能是模板残留),但未提供明确的开源代码仓库地址。无法确认代码是否已开源。 模型权重:论文中提到“多个MAE模型”被预训练和微调,但未说明是否公开这些模型权重,也未提及在Hugging Face等平台发布。 数据集:论文详细描述了所构建的“噪声数据集”和“受害者声音数据集”的来源和规模,但未明确说明是否会公开这些数据集。数据集部分依赖于其他公开数据集(如无人机噪音、环境音、ASVP数据集)。 预训练权重:未提及提供基于其他模型的预训练权重。 在线Demo:未提及。 论文中引用的开源项目:论文引用了多个数据集(如 [dataset_drone], [audio_desert1], [audio_forest], [landry2020asvp]),但未具体列出所依赖的软件框架或工具库(除了提到PyTorch)。 总结:论文对开源计划的披露非常有限,主要依赖文字描述和引用,未提供直接的可访问资源链接。 📌 核心摘要 本文针对无人机搜救任务中视觉系统受遮蔽、能耗高的问题,提出了一个名为“Sky-Ear”的音频驱动受害者检测与定位系统。核心方法是设计了一个基于环形麦克风阵列的两阶段处理框架:在“哨兵阶段”,系统利用单通道音频和掩码自编码器(MAE)对梅尔频谱图进行重构,通过计算重构误差来检测异常声音(如呼救),此阶段功耗低,用于持续监听;一旦检测到异常,即触发“响应者阶段”,利用所有麦克风通道进行基于到达时间差(TDoA)的精确方向估计。为进一步提高定位精度,系统还设计了连续定位机制,通过优化无人机沿轨迹多次观测得到的方向向量,交叉计算出受害者的位置。实验表明,在模拟的沙漠和森林场景中,该系统能有效检测受害者声音,并通过多次观测显著降低定位误差。其主要贡献在于将自监督学习(MAE)与经典阵列信号处理相结合,实现了一种在计算和能耗约束下可靠的声学感知方案。 🏗️ 模型架构 “Sky-Ear”系统是一个端到端的处理流程,其整体架构可分为三个核心模块:哨兵阶段、响应者阶段和连续定位模块。 输入:M通道的连续音频流,由无人机搭载的环形麦克风阵列(中心1个,周围均匀分布M-1个)采集。 哨兵阶段(Sentinel Stage): 功能:低功耗、持续性的异常声音检测。 输入:仅使用中心麦克风(通道0)的单通道音频片段 a0[Δt]。 核心模型:掩码自编码器(MAE)。 流程: a. 梅尔谱图转换:将音频片段转换为二维梅尔频谱图 X ∈ R^(F×T)。 b. 分块与掩码:将频谱图分割为 N 个大小为 P×P 的图像块。随机掩码掉其中比例为 ρ 的块(用零向量替代),得到掩码后的块序列 Ẍ。 c. 编码器:一个标准的Transformer编码器。输入是未被掩码的块序列,每个块被展平并通过线性投影和位置编码后,送入Transformer。输出是编码后的特征序列 Z_enc。 d. 解码器:一个轻量级的Transformer解码器。输入是编码特征 Z_enc(对应未掩码块)和可学习的掩码标记 t_mask(对应被掩码块)的拼接序列。解码器输出每个块(包括掩码块)的预测特征。 e. 重构与异常判断:解码器的输出经线性层映射回原始像素空间,重构出完整的梅尔频谱图 X̃。计算原始频谱图 X 与重构图 X̃ 之间重建误差最大的前K%块(Top-K策略)的均方误差,作为异常分数 D_re。若 D_re 超过预设阈值 D_th,则判定检测到异常,触发响应者阶段。 响应者阶段(Responder Stage): 功能:被哨兵阶段触发后,进行高精度的单次方向估计。 输入:从环形缓冲区中提取的、包含异常声音的M通道音频序列 A_b[t_trig]。 核心方法:基于广义互相关-相位变换(GCC-PHAT)的TDoA估计与最小二乘法求解。 流程: a. TDoA估计:对于每个外围麦克风 m,计算其与中心麦克风 0 之间的TDoA。通过计算两者音频的互相关谱,在时延域寻找峰值对应的 TDoA_m。 b. DoA求解:根据已知的麦克风几何坐标 r_m 和估计的TDoA值(转换为距离差 V_m = TDoA_m * v_s),构建一个超定线性方程组 G * DoA = V。通过最小二乘法求解得到最优的到达方向单位向量 DoA*。 连续定位模块(Continuous Localization): 功能:整合多次观测结果,优化受害者位置估计。 输入:K次观测中每次观测时无人机的已知3D坐标 p_k 和由响应者阶段计算出的方向向量 DoA_k*。 核心方法:加权最小二乘交叉点优化。 流程:将每次观测视为一条从无人机位置 p_k 出发、方向为 DoA_k* 的射线。理论上,所有射线应相交于受害者位置 s。通过构建一个优化问题,最小化所有射线到估计点 s* 的加权距离平方和,从而解出最优的受害者3D坐标 s*。权重 w_k 由该次观测的TDoA互相关峰值强度决定,信号质量越高的观测权重越大。 输出:受害者的声音事件警报及其3D空间坐标。 💡 核心创新点 两阶段(哨兵-响应者)音频处理框架: ...