📄 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System

#音频事件检测 #声源定位 #麦克风阵列 #自监督学习

🔥 评分：8.0/10 | arxiv

👥 作者与机构

第一作者：Yi Hong（香港科技大学（广州），智慧城市与可持续发展研究所，系统枢纽）
通讯作者：从论文中无法明确判断通讯作者。作者列表按顺序排列，Kevin Hung可能为资深作者。
其他作者：
- Mingyang Wang（香港科技大学（广州），智慧城市与可持续发展研究所，系统枢纽）
- Yalin Liu（香港科技大学，电子与计算机工程系）
- Yaru Fu（香港科技大学（广州），智慧城市与可持续发展研究所，系统枢纽）
- Kevin Hung（香港科技大学（广州），智慧城市与可持续发展研究所，系统枢纽）

💡 毒舌点评

亮点：论文提出的“两阶段”处理思路（哨兵+响应者）很务实，直击了无人机载系统能耗与性能的核心矛盾，用轻量级MAE做“警卫”，只在必要时唤醒“专家”进行精确定位，逻辑闭环设计得不错。
槽点：实验部分略显“理想国”，在高度受控的仿真环境下验证，缺乏真实复杂环境（如多风、多干扰源）下的鲁棒性测试，且对比的“SOTA方法”基本是自己系统的消融，说服力打了折扣。

🔗 开源详情

代码：论文提到“GitHub Issue”，并给出了一个不完整的链接（https://arxiv.org/abs/2604.12455v1 中的 “GitHub Issue ×” 可能是模板残留），但未提供明确的开源代码仓库地址。无法确认代码是否已开源。
模型权重：论文中提到“多个MAE模型”被预训练和微调，但未说明是否公开这些模型权重，也未提及在Hugging Face等平台发布。
数据集：论文详细描述了所构建的“噪声数据集”和“受害者声音数据集”的来源和规模，但未明确说明是否会公开这些数据集。数据集部分依赖于其他公开数据集（如无人机噪音、环境音、ASVP数据集）。
预训练权重：未提及提供基于其他模型的预训练权重。
在线Demo：未提及。
论文中引用的开源项目：论文引用了多个数据集（如 [dataset_drone], [audio_desert1], [audio_forest], [landry2020asvp]），但未具体列出所依赖的软件框架或工具库（除了提到PyTorch）。

总结：论文对开源计划的披露非常有限，主要依赖文字描述和引用，未提供直接的可访问资源链接。

📌 核心摘要

本文针对无人机搜救任务中视觉系统受遮蔽、能耗高的问题，提出了一个名为“Sky-Ear”的音频驱动受害者检测与定位系统。核心方法是设计了一个基于环形麦克风阵列的两阶段处理框架：在“哨兵阶段”，系统利用单通道音频和掩码自编码器（MAE）对梅尔频谱图进行重构，通过计算重构误差来检测异常声音（如呼救），此阶段功耗低，用于持续监听；一旦检测到异常，即触发“响应者阶段”，利用所有麦克风通道进行基于到达时间差（TDoA）的精确方向估计。为进一步提高定位精度，系统还设计了连续定位机制，通过优化无人机沿轨迹多次观测得到的方向向量，交叉计算出受害者的位置。实验表明，在模拟的沙漠和森林场景中，该系统能有效检测受害者声音，并通过多次观测显著降低定位误差。其主要贡献在于将自监督学习（MAE）与经典阵列信号处理相结合，实现了一种在计算和能耗约束下可靠的声学感知方案。

🏗️ 模型架构

“Sky-Ear”系统是一个端到端的处理流程，其整体架构可分为三个核心模块：哨兵阶段、响应者阶段和连续定位模块。

输入：M通道的连续音频流，由无人机搭载的环形麦克风阵列（中心1个，周围均匀分布M-1个）采集。
哨兵阶段（Sentinel Stage）：
- 功能：低功耗、持续性的异常声音检测。
- 输入：仅使用中心麦克风（通道0）的单通道音频片段 a0[Δt]。
- 核心模型：掩码自编码器（MAE）。
- 流程： a. 梅尔谱图转换：将音频片段转换为二维梅尔频谱图 X ∈ R^(F×T)。 b. 分块与掩码：将频谱图分割为 N 个大小为 P×P 的图像块。随机掩码掉其中比例为 ρ 的块（用零向量替代），得到掩码后的块序列 Ẍ。 c. 编码器：一个标准的Transformer编码器。输入是未被掩码的块序列，每个块被展平并通过线性投影和位置编码后，送入Transformer。输出是编码后的特征序列 Z_enc。 d. 解码器：一个轻量级的Transformer解码器。输入是编码特征 Z_enc（对应未掩码块）和可学习的掩码标记 t_mask（对应被掩码块）的拼接序列。解码器输出每个块（包括掩码块）的预测特征。 e. 重构与异常判断：解码器的输出经线性层映射回原始像素空间，重构出完整的梅尔频谱图 X̃。计算原始频谱图 X 与重构图 X̃ 之间重建误差最大的前K%块（Top-K策略）的均方误差，作为异常分数 D_re。若 D_re 超过预设阈值 D_th，则判定检测到异常，触发响应者阶段。
响应者阶段（Responder Stage）：
- 功能：被哨兵阶段触发后，进行高精度的单次方向估计。
- 输入：从环形缓冲区中提取的、包含异常声音的M通道音频序列 A_b[t_trig]。
- 核心方法：基于广义互相关-相位变换（GCC-PHAT）的TDoA估计与最小二乘法求解。
- 流程： a. TDoA估计：对于每个外围麦克风 m，计算其与中心麦克风 0 之间的TDoA。通过计算两者音频的互相关谱，在时延域寻找峰值对应的 TDoA_m。 b. DoA求解：根据已知的麦克风几何坐标 r_m 和估计的TDoA值（转换为距离差 V_m = TDoA_m * v_s），构建一个超定线性方程组 G * DoA = V。通过最小二乘法求解得到最优的到达方向单位向量 DoA*。
连续定位模块（Continuous Localization）：
- 功能：整合多次观测结果，优化受害者位置估计。
- 输入：K次观测中每次观测时无人机的已知3D坐标 p_k 和由响应者阶段计算出的方向向量 DoA_k*。
- 核心方法：加权最小二乘交叉点优化。
- 流程：将每次观测视为一条从无人机位置 p_k 出发、方向为 DoA_k* 的射线。理论上，所有射线应相交于受害者位置 s。通过构建一个优化问题，最小化所有射线到估计点 s* 的加权距离平方和，从而解出最优的受害者3D坐标 s*。权重 w_k 由该次观测的TDoA互相关峰值强度决定，信号质量越高的观测权重越大。
输出：受害者的声音事件警报及其3D空间坐标。

💡 核心创新点

两阶段（哨兵-响应者）音频处理框架：
- 是什么：将高能耗的多通道阵列处理（响应者）与低功耗的单通道异常检测（哨兵）解耦，仅在检测到潜在受害者声音时才激活完整阵列处理。
- 之前方法：传统方法要么始终运行全阵列处理导致能耗过高，要么采用简单的周期性睡眠导致高漏检率。
- 如何解决问题：哨兵阶段像一个不知疲倦的“警卫”，用轻量级模型持续监听；响应者阶段像“专家”，只在警报响起时出动进行精确定位。这直接解决了无人机有限能源与长时间搜索任务之间的矛盾。
- 实际效果：在模拟实验中，系统在90%以上的“盲搜”时间里仅运行低功耗的哨兵阶段，显著提升了能效。
基于MAE的梅尔频谱图异常检测用于受害者声音识别：
- 是什么：利用自监督的掩码自编码器学习特定场景（如沙漠、森林）下背景噪声（环境音、无人机噪音）的频谱特征，将受害者声音视为无法被准确重构的“异常”。
- 之前方法：传统方法可能需要大量标注的“正常”和“异常”音频进行监督学习，或使用通用的声学事件分类模型。
- 如何解决问题：MAE通过掩码-重构任务，迫使模型深入理解背景噪声的时频结构。当输入包含异常声音时，模型无法从被破坏的上下文中准确重构出异常部分，导致高重建误差，从而被检测出来。这避免了收集大量异常样本进行监督训练的需要。
- 实际效果：在沙漠和森林两种场景下，经过微调的MAE模型（最佳掩码率ρ=0.10）在模拟测试中实现了较高的检测准确率（具体数值见实验部分）。
基于多观测优化的连续定位机制：
- 是什么：不依赖单次方向估计进行定位，而是利用无人机沿轨迹飞行产生的空间多样性，收集多个方向向量，通过全局优化求解受害者位置。
- 之前方法：单次DoA估计只能提供方向，无法确定距离；或需要复杂的同步多无人机协作。
- 如何解决问题：将定位问题转化为从多条射线中寻找最优交汇点的几何问题。通过加权最小二乘法，融合多次观测，并给予信号质量更高的观测更大权重，从而得到更鲁棒、更精确的位置估计。
- 实际效果：实验显示，随着无人机接近受害者并积累更多观测，定位误差急剧下降并收敛，验证了该机制的有效性。
Top-K重建误差评分策略：
- 是什么：在计算MAE的异常分数时，不使用全局平均误差，而是仅选择重建误差最大的前K%的图像块进行计算。
- 之前方法：使用全局平均重建误差容易被能量占主导的背景噪声块（如无人机噪音）所淹没，掩盖了真正异常但能量可能相对较弱的受害者声音块。
- 如何解决问题：Top-K策略聚焦于模型“最不理解”、重构最差的局部区域，这些区域更可能包含异常信号，从而提高了异常检测的灵敏度和抗噪能力。
- 实际效果：这是论文中提到的一个关键设计选择，用于提升在复杂噪声环境下的检测性能。

🔬 细节详述

训练数据：
- 噪声数据集：用于预训练MAE。
  - 无人机自身噪音：来自公开数据集的DJI无人机在各种飞行状态（悬停、上升、巡航）下的录音，共133.3秒。
  - 环境噪音：“沙漠”场景（风声、干旱环境声，180.2秒）和“森林”场景（自然植被、鸟鸣，669.8秒）的公开音频。
- 受害者声音数据集：用于评估，严格与训练集分开。包含真实的人类遇险发声，如儿童哭泣（8639秒）和男性呼救（2543秒），总时长11182秒，主要来自ASVP数据集。
- 预处理：音频功率按场景缩放以模拟真实情况：沙漠~~25 dB，森林~~35 dB，无人机噪音~~75 dB，受害者声音~~120 dB（模拟极度 distress 状态）。测试时，根据无人机高度和场景（沙漠α=2，森林α=2.5）应用 1/d^α 的声衰减模型。
损失函数：论文未明确列出MAE的损失函数公式。根据标准MAE实践，其训练目标是最小化被掩码图像块的像素级重构误差，通常使用均方误差（MSE）损失。
训练策略：
- 预训练：在噪声数据集上进行。使用了不同掩码率（ρ）的多个MAE模型。具体优化器、学习率、批次大小等超参数未在提供的节选中详细说明。
- 微调：基于受害者声音数据集对预训练模型进行微调，以适应异常检测任务。最佳掩码率通过实验确定为ρ=0.10。
关键超参数：
- 掩码率 (ρ)：实验范围从0.00到0.90，最佳值为0.10。
- 异常检测阈值 (D_th)：沙漠场景设为1.57，森林场景设为1.33。
- Top-K策略中的K：论文未给出具体百分比，但指出是“Top-K scoring strategy”。
- 无人机高度 (h)：沙漠场景测试高度：5, 10, 15, 20米；森林场景：15, 20, 35, 50米。
- 环形缓冲区长度 (τ_b) 和 有效回溯窗口 (τ_w)：具体数值未提供，但定义了 τ_w = τ_retro + τ_post。
训练硬件：未在提供的节选中说明。
推理细节：
- 哨兵阶段：以滑动窗口方式处理连续音频流，窗口长度为 Δt。
- 响应者阶段：触发后，从环形缓冲区提取长度为 τ_w 的M通道音频进行处理。
- 连续定位：在无人机轨迹上多次执行“哨兵-响应者”循环，收集足够多（K次）的有效观测后进行优化计算。
数据增强/正则化：MAE本身通过掩码机制作为一种强大的数据增强和正则化手段。论文未提及其他特定的音频数据增强方法。

📊 实验结果

主要指标对比（MAE检测准确率）：
- 沙漠场景：在最佳模型（ρ=0.10）和最低测试高度（h=5m）下，检测准确率最高。随着高度增加（h=10, 15, 20m），准确率呈下降趋势。不同掩码率下的准确率有波动，但整体在低掩码率区间表现更好。
- 森林场景：整体准确率低于沙漠场景。在最佳模型（ρ=0.10）和最低高度（h=15m）下取得最高准确率。随着高度增加（h=20, 35, 50m），准确率下降更明显。论文指出，由于更复杂的传播条件（如植被散射，α=2.5），森林场景的检测更具挑战性。
- 关键数据：论文以图2（Fig. 2）形式展示了34个MAE模型（17种ρ × 2种场景）在不同高度下的准确率曲线，但未在文本中列出具体数值表格。结论是低掩码率（ρ=0.10）和低飞行高度能带来最佳检测性能。
系统级性能（连续定位误差）：
- 沙漠场景：无人机从远处接近受害者时，信噪比（SNR）和异常分数 D_re 逐渐升高。在某个点触发响应者阶段后，定位误差随着无人机进一步接近和更多观测的积累而急剧下降并快速收敛到较低水平。
- 森林场景：由于飞行高度更高且存在冠层衰减，SNR上升更平缓。触发定位后，定位误差的峰值更“钝”，且需要更长的飞行路径（更多观测）才能收敛，收敛速度慢于沙漠场景。这验证了连续定位机制的有效性，也揭示了环境对性能的影响。
- 关键数据：论文以图3（Fig. 3）形式展示了沿无人机轨迹的动态评估结果，包括飞行路径、SNR、D_re 和定位误差的变化曲线。图中显示，在长时间的“哨兵阶段”后，一旦进入“响应者阶段”，定位误差能从数百米量级快速降至较低值（具体数值未在文本中给出）。
与SOTA方法对比：论文未与外部其他具体的受害者声音检测或声学定位SOTA方法进行对比。其对比主要体现在系统内部的消融（如两阶段 vs 单阶段，单次定位 vs 连续定位）以及不同场景、不同参数下的性能差异。
用户研究/主观评价：未涉及。

⚖️ 评分理由

创新性：7.5/10 - 将MAE这种自监督视觉模型创新性地应用于音频频谱图的异常检测，并结合经典的阵列信号处理构成两阶段系统，思路新颖且有明确的应用导向。连续定位机制也是对传统单次定位的实用改进。
实验充分性：7.0/10 - 实验设计合理，构建了包含多种噪声和受害者声音的数据集，并考虑了不同场景（沙漠/森林）、不同高度、不同模型参数的影响。然而，实验完全基于仿真，缺乏真实无人机平台和复杂声学环境的验证；对比基线较弱，主要是自身变体的比较。
实用价值：8.5/10 - 针对无人机搜救这一实际痛点，提出的系统框架在能耗和性能之间取得了良好平衡，具有明确的工程应用前景。两阶段设计和对计算资源的考量非常务实。
灌水程度：2.0/10 - 论文结构清晰，问题定义明确，方法描述具体，实验围绕核心贡献展开，没有明显的冗余内容或夸大表述。信息密度较高。

🖼️ 图片与表格

图1: Sky-Ear系统概览图 | 保留: 是 - 理由：这是核心架构图，直观展示了无人机、环形麦克风阵列、两阶段处理流程（哨兵/响应者）以及连续定位的概念，对于理解整个系统工作原理至关重要。
图2: 不同MAE模型在不同高度下的异常检测准确率 | 保留: 是 - 理由：这是��心实验结果图之一，展示了关键超参数（掩码率ρ）和环境因素（高度、场景）对系统核心模块（MAE）性能的影响，是支撑论文结论的重要数据。
图3: 连续定位系统性能沿无人机轨迹的动态评估 | 保留: 是 - 理由：这是系统级验证的核心结果图，通过时间序列动态展示了信噪比、异常检测分数和定位误差的变化，清晰地证明了两阶段触发机制和连续定位优化的有效性。
（论文中未出现其他图片或数据表格）

关键数据文字复述：

MAE检测准确率趋势：在沙漠和森林场景中，检测准确率均在较低掩码率（ρ=0.10）时达到峰值。森林场景的整体准确率低于沙漠场景。对于同一模型，飞行高度越低，检测准确率越高。
连续定位误差趋势：在两种场景下，随着无人机接近受害者并积累观测，定位误差均从高位急剧下降并收敛。森林场景由于传播条件复杂和飞行高度较高，误差收敛速度慢于沙漠场景。

📸 论文图片

← 返回 2026-04-19 语音/音乐/音频论文速递

📄 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

🖼️ 图片与表格#

📸 论文图片#

📎 相关论文