Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System

📄 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System #音频事件检测 #声源定位 #麦克风阵列 #自监督学习 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Yi Hong(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) 通讯作者:从论文中无法明确判断通讯作者。作者列表按顺序排列,Kevin Hung可能为资深作者。 其他作者: Mingyang Wang(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) Yalin Liu(香港科技大学,电子与计算机工程系) Yaru Fu(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) Kevin Hung(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) 💡 毒舌点评 亮点:论文提出的“两阶段”处理思路(哨兵+响应者)很务实,直击了无人机载系统能耗与性能的核心矛盾,用轻量级MAE做“警卫”,只在必要时唤醒“专家”进行精确定位,逻辑闭环设计得不错。 槽点:实验部分略显“理想国”,在高度受控的仿真环境下验证,缺乏真实复杂环境(如多风、多干扰源)下的鲁棒性测试,且对比的“SOTA方法”基本是自己系统的消融,说服力打了折扣。 🔗 开源详情 代码:论文提到“GitHub Issue”,并给出了一个不完整的链接(https://arxiv.org/abs/2604.12455v1 中的 “GitHub Issue ×” 可能是模板残留),但未提供明确的开源代码仓库地址。无法确认代码是否已开源。 模型权重:论文中提到“多个MAE模型”被预训练和微调,但未说明是否公开这些模型权重,也未提及在Hugging Face等平台发布。 数据集:论文详细描述了所构建的“噪声数据集”和“受害者声音数据集”的来源和规模,但未明确说明是否会公开这些数据集。数据集部分依赖于其他公开数据集(如无人机噪音、环境音、ASVP数据集)。 预训练权重:未提及提供基于其他模型的预训练权重。 在线Demo:未提及。 论文中引用的开源项目:论文引用了多个数据集(如 [dataset_drone], [audio_desert1], [audio_forest], [landry2020asvp]),但未具体列出所依赖的软件框架或工具库(除了提到PyTorch)。 总结:论文对开源计划的披露非常有限,主要依赖文字描述和引用,未提供直接的可访问资源链接。 📌 核心摘要 本文针对无人机搜救任务中视觉系统受遮蔽、能耗高的问题,提出了一个名为“Sky-Ear”的音频驱动受害者检测与定位系统。核心方法是设计了一个基于环形麦克风阵列的两阶段处理框架:在“哨兵阶段”,系统利用单通道音频和掩码自编码器(MAE)对梅尔频谱图进行重构,通过计算重构误差来检测异常声音(如呼救),此阶段功耗低,用于持续监听;一旦检测到异常,即触发“响应者阶段”,利用所有麦克风通道进行基于到达时间差(TDoA)的精确方向估计。为进一步提高定位精度,系统还设计了连续定位机制,通过优化无人机沿轨迹多次观测得到的方向向量,交叉计算出受害者的位置。实验表明,在模拟的沙漠和森林场景中,该系统能有效检测受害者声音,并通过多次观测显著降低定位误差。其主要贡献在于将自监督学习(MAE)与经典阵列信号处理相结合,实现了一种在计算和能耗约束下可靠的声学感知方案。 🏗️ 模型架构 “Sky-Ear”系统是一个端到端的处理流程,其整体架构可分为三个核心模块:哨兵阶段、响应者阶段和连续定位模块。 输入:M通道的连续音频流,由无人机搭载的环形麦克风阵列(中心1个,周围均匀分布M-1个)采集。 哨兵阶段(Sentinel Stage): 功能:低功耗、持续性的异常声音检测。 输入:仅使用中心麦克风(通道0)的单通道音频片段 a0[Δt]。 核心模型:掩码自编码器(MAE)。 流程: a. 梅尔谱图转换:将音频片段转换为二维梅尔频谱图 X ∈ R^(F×T)。 b. 分块与掩码:将频谱图分割为 N 个大小为 P×P 的图像块。随机掩码掉其中比例为 ρ 的块(用零向量替代),得到掩码后的块序列 Ẍ。 c. 编码器:一个标准的Transformer编码器。输入是未被掩码的块序列,每个块被展平并通过线性投影和位置编码后,送入Transformer。输出是编码后的特征序列 Z_enc。 d. 解码器:一个轻量级的Transformer解码器。输入是编码特征 Z_enc(对应未掩码块)和可学习的掩码标记 t_mask(对应被掩码块)的拼接序列。解码器输出每个块(包括掩码块)的预测特征。 e. 重构与异常判断:解码器的输出经线性层映射回原始像素空间,重构出完整的梅尔频谱图 X̃。计算原始频谱图 X 与重构图 X̃ 之间重建误差最大的前K%块(Top-K策略)的均方误差,作为异常分数 D_re。若 D_re 超过预设阈值 D_th,则判定检测到异常,触发响应者阶段。 响应者阶段(Responder Stage): 功能:被哨兵阶段触发后,进行高精度的单次方向估计。 输入:从环形缓冲区中提取的、包含异常声音的M通道音频序列 A_b[t_trig]。 核心方法:基于广义互相关-相位变换(GCC-PHAT)的TDoA估计与最小二乘法求解。 流程: a. TDoA估计:对于每个外围麦克风 m,计算其与中心麦克风 0 之间的TDoA。通过计算两者音频的互相关谱,在时延域寻找峰值对应的 TDoA_m。 b. DoA求解:根据已知的麦克风几何坐标 r_m 和估计的TDoA值(转换为距离差 V_m = TDoA_m * v_s),构建一个超定线性方程组 G * DoA = V。通过最小二乘法求解得到最优的到达方向单位向量 DoA*。 连续定位模块(Continuous Localization): 功能:整合多次观测结果,优化受害者位置估计。 输入:K次观测中每次观测时无人机的已知3D坐标 p_k 和由响应者阶段计算出的方向向量 DoA_k*。 核心方法:加权最小二乘交叉点优化。 流程:将每次观测视为一条从无人机位置 p_k 出发、方向为 DoA_k* 的射线。理论上,所有射线应相交于受害者位置 s。通过构建一个优化问题,最小化所有射线到估计点 s* 的加权距离平方和,从而解出最优的受害者3D坐标 s*。权重 w_k 由该次观测的TDoA互相关峰值强度决定,信号质量越高的观测权重越大。 输出:受害者的声音事件警报及其3D空间坐标。 💡 核心创新点 两阶段(哨兵-响应者)音频处理框架: ...

2026-04-19 · 更新于 2026-06-12 · 2 min · 304 words

UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations

📄 UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations #语音增强 #生成模型 #自监督学习 #多语言 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Xiaobin Rong (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室) 通讯作者:Jing Lu (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室) 其他作者: Zheng Wang (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室) Yushi Wang (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室) Jun Gao (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室) 💡 毒舌点评 亮点:这篇论文精准地抓住了当前生成式语音增强的“阿喀琉斯之踵”——幻觉问题,并提出了一个优雅且有效的解决方案。它没有盲目追求感知分数的虚高,而是通过引入“音素先验锚定”和显式声学增强阶段,在生成质量与内容保真度之间取得了令人信服的平衡,其赢得URGENT 2026挑战赛便是最好的证明。 槽点:模型架构的“全家桶”式堆叠(DeWavLM-Omni + Adapter + Vocoder + PostNet)虽然有效,但显得有些“笨重”,计算成本(79.2 GMACs/s)和训练复杂度(分四阶段训练)可能阻碍其在资源受限场景下的实时应用。此外,多速率支持依赖于后处理的PostNet,而非端到端设计,略显“补丁”感。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/xiaobin-rong/unipase/ 模型权重:已公开。在HuggingFace上发布(论文未直接给出链接,但通常会随代码仓库提供)。 数据集:训练数据来自公开数据集(DNS5, LibriTTS, VCTK, EARS, MLS, Common Voice, WHAM!, FSD50K等),并使用了URGENT 2025 Challenge的官方模拟脚本。评估数据集均为公开基准。 预训练权重:DeWavLM-Omni基于预训练的WavLM-Large模型进行初始化。 在线Demo:论文中提供了音频示例链接(可能在GitHub仓库中)。 依赖的开源项目:论文中引用了多个开源工具和模型,如WavLM, Vocos, TF-GridNet, OWSM, Whisper, HuBERT等。 📌 核心摘要 这篇论文旨在解决通用语音增强(USE)中生成模型面临的“高感知质量”与“低内容幻觉”难以兼得的核心矛盾。作者提出了UniPASE框架,它扩展了其先前的低幻觉PASE模型,以处理包括噪声、混响、丢包、风噪等在内的多种失真,并支持多采样率输入输出。其核心方法是构建一个两阶段生成流程:首先,利用基于WavLM知识蒸馏的DeWavLM-Omni模块,在音素表征层面进行核心增强,利用预训练模型的音素先验来抑制语言幻觉;其次,引入一个**适配器(Adapter)模块,以增强后的音素表征为条件,对退化的声学表征进行显式增强,以恢复细节并提升感知质量;最后,通过声码器(Vocoder)合成16kHz波形,并由后置网络(PostNet)**上采样至48kHz以支持高采样率输出。实验表明,UniPASE在多个基准测试(DNS 2020, PLC 2024, VoiceFixer GSR, URGENT 2025)上取得了SOTA或极具竞争力的性能,特别是在保持低字错误率(WER/CER)和说话人相似度(SpkSim)的同时,获得了优异的非侵入式感知分数(如UTMOS, NISQA),验证了其高保真、低幻觉的特性。其局限性在于模型结构复杂、计算开销大,且多速率处理依赖于后处理模块而非端到端设计。 ...

2026-04-19 · 更新于 2026-06-12 · 3 min · 580 words

X-VC: Zero-shot Streaming Voice Conversion in Codec Space

📄 X-VC: Zero-shot Streaming Voice Conversion in Codec Space #语音转换 #零样本 #流式处理 #自监督学习 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Qixi Zheng (上海交通大学) 通讯作者:Xie Chen (上海交通大学,上海创新研究院) 其他作者: Yuxiang Zhao (上海交通大学) Tianrui Wang (天津大学) Wenxi Chen (上海交通大学,上海创新研究院) Kele Xu (复杂与关键软件环境国家重点实验室) Yikang Li (上海创新研究院) Qinyuan Chen (复旦大学,上海创新研究院) Xipeng Qiu (复旦大学,上海创新研究院) Kai Yu (上海交通大学) 💡 毒舌点评 亮点:这篇论文最大的亮点是“化繁为简”,把复杂的零样本语音转换问题巧妙地“塞”进了一个预训练好的神经编解码器(SAC)的潜在空间里,用一步转换就搞定了,既避免了传统分析-合成管线的繁琐,又天然支持流式处理,RTF低得惊人。槽点:模型严重依赖一个高质量的、特定的编解码器(SAC),这相当于把“转换”这个核心难题的部分压力转移给了“重建”,有点“站在巨人肩膀上摘苹果”的意思;此外,539M的参数量对部署场景的硬件要求可不低。 🔗 开源详情 代码:论文提到“Our code and checkpoints will also be released.”,并提供了项目主页链接 https://x-vc.github.io。截至论文发布时(2026年4月),代码应已开源或即将开源,GitHub地址可能为项目主页所链接的仓库。 模型权重:论文提到将发布检查点(checkpoints),预计会发布X-VC的完整模型权重。 数据集:训练使用了公开的Emilia和LibriTTS数据集,以及由Seed-VC生成的配对数据。生成数据的方法已在论文中描述。 预训练权重:系统基于预训练的SAC编解码器和ERes2Net说话人编码器,这些预训练模型的可用性取决于SAC等项目的开源情况。 在线Demo:论文提供了音频样例链接 https://x-vc.github.io,可能包含在线演示。 依赖的开源项目:论文明确依赖并引用了SAC(编解码器)、Seed-VC(用于生成训练数据)、Whisper-large-v3和Paraformer-zh(用于WER评估)、WavLM(用于说话人相似度计算)、UTMOS(用于自然度评估)。 📌 核心摘要 这篇论文旨在解决零样本语音转换中高保真说话人迁移与低延迟流式推理难以兼得的核心挑战。作者提出了X-VC系统,其核心创新在于在预训练神经编解码器(SAC)的潜在空间中进行一步式语音转换,而非直接在波形或梅尔频谱图上操作。该方法通过一个双条件声学转换器,联合建模来自源语音的编解码器潜在表征(内容)和来自目标参考语音的帧级声学条件(梅尔谱)及句级说话人嵌入(身份),实现了对目标说话人细粒度和全局特征的有效利用。为减少训练与推理的不匹配,论文设计了基于生成配对数据和角色分配策略(标准、重建、反转模式)的训练范式。实验表明,X-VC在Seed-TTS-Eval基准测试中,在英语和中文的流式词错率(WER) 上取得最佳,同时在同语种和跨语种场景下保持了强大的说话人相似度(SIM),其离线实时因子(RTF) 远低于基线模型(0.014),证明了编解码器空间一步转换方案在构建高质量低延迟零样本语音转换系统中的实用性。 ...

2026-04-19 · 更新于 2026-06-12 · 2 min · 371 words