Task-Oriented Sound Privacy Preservation for Sound Event Detection Via End-to-End Adversarial Multi-Task Learning

📄 Task-Oriented Sound Privacy Preservation for Sound Event Detection Via End-to-End Adversarial Multi-Task Learning #音频事件检测 #对抗学习 #多任务学习 #隐私保护 #端到端 ✅ 7.5/10 | 前25% | #音频事件检测 | #对抗学习 | #多任务学习 #隐私保护 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Nao Sato (NTT, Inc., Japan) 通讯作者:未说明(论文中未明确指定通讯作者) 作者列表:Nao Sato (NTT, Inc., Japan), Masahiro Yasuda (NTT, Inc., Japan), Shoichiro Saito (NTT, Inc., Japan) 💡 毒舌点评 亮点是提出了一个灵活且可扩展的“任务导向”框架,将隐私保护从固定的信号处理流程转变为可通过改变训练任务(隐私目标)来定制的学习过程,思路巧妙。短板在于所有实验均基于自建的、场景相对可控的合成数据集,这虽然能验证方法原理,但离真实世界中复杂、非结构化的声学环境和攻击场景还有距离,说服力略打折扣。 📌 核心摘要 问题:声音事件检测(SED)在智能家居等场景的应用需要持续录音,这会导致说话人身份、键盘敲击声等隐私信息泄露。现有方法多集中于分离并处理语音,不够灵活,无法保护非语音的隐私信息,且混淆机制依赖手动设计。 方法核心:提出端到端对抗多任务学习(EAML)。其核心是一个混淆网络(OBFNet),通过对抗训练(梯度反转层GRL)学习一个时频掩膜,在混淆指定隐私信息(如说话人ID、键盘声)的同时,保留完成目标任务(如SED)所需的声音信息。 与已有方法相比新在哪里:与传统两阶段(先分离再信号处理)方法相比,EAML是端到端可学习的。最关键的是,它实现了“任务导向”的混淆:隐私保护的目标不再是固定的(仅限语音),而是可以作为训练任务之一,通过改变训练配置(如表1的T1-T3)灵活定义需要混淆的信息类型和需要保留的目标信息。 主要实验结果:实验在包含7类声音事件的合成数据集上进行。如表2所示,在T1配置下,EAML在混淆说话人身份(ASI)上达到了最接近随机猜测的性能(Top-1准确率0.11%),同时SED性能(F-score)仅比未混淆的基线(87.40%)下降约4.5个百分点(82.88%),显著优于传统方法(D和E)。如表3所示,EAML在T2配置中通过引入SI-SDR损失,将音频质量(SI-SDR)从-20.35 dB提升至-16.78 dB,同时不影响其他任务。在T3配置中,成功将键盘打字检测(TAD)的AUC从0.99降至0.72。 实际意义:为隐私敏感的音频应用(如家庭监控、办公环境感知)提供了一种新的、灵活的技术范式。用户可根据具体场景定义“何为隐私”和“何为有用信息”,系统通过学习来平衡二者。 主要局限性:研究基于精心构建的合成数据,可能无法完全代表真实场景的复杂性;对“隐私”的定义和攻击模型相对简单,仅评估了预定义分类器的识别性能,未考虑更强大的攻击者或更广泛的隐私属性;混淆导致目标任务性能有一定程度的下降。 🏗️ 模型架构 EAML的整体架构围绕一个核心的混淆网络(OBFNet)和多个任务网络展开,通过对抗学习和多任务损失联合训练。 ...

2026-04-29

Temporally Heterogeneous Graph Contrastive Learning for Multimodal Acoustic Event Classification

📄 Temporally Heterogeneous Graph Contrastive Learning for Multimodal Acoustic Event Classification #音频事件检测 #对比学习 #图神经网络 #多模态 #自监督学习 🔥 8.5/10 | 前25% | #音频事件检测 | #对比学习 #图神经网络 | #对比学习 #图神经网络 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Yuanjian Chen(哈尔滨理工大学) 通讯作者:Yang Xiao(墨尔本大学,邮件地址:yxiao9550@student.unimelb.edu.au) 作者列表:Yuanjian Chen(哈尔滨理工大学)、Yang Xiao(墨尔本大学)、Jinjie Huang(哈尔滨理工大学) 💡 毒舌点评 这篇论文在多模态声学事件分类的“时间对齐”这个老大难问题上,给出了一个既优雅又有效的图解方案,用高斯过程和Hawkes过程分别给模态内和模态间的边加权,思路清晰且实验结果亮眼,是同类工作中的一个扎实提升。不过,论文对模型在极端噪声、长尾类别或视频质量极差等更具挑战性的真实场景下的鲁棒性讨论不足,且所提的对比学习目标相对简单,可能未充分挖掘跨模态数据的复杂关系。 📌 核心摘要 要解决什么问题:多模态声学事件分类中,音频和视觉信号难以在时间上精确对齐,且易受跨模态噪声干扰,导致识别性能下降。 方法核心是什么:提出时序异质图对比学习框架(THGCL)。首先,为每个事件构建时序异质图,其中音频和视频片段作为节点。其次,创新性地采用高斯过程对模态内边赋予权重以保持平滑性,采用Hawkes过程对模态间边赋予权重以建模时间衰减效应。最后,引入对比学习目标来增强跨模态表示的一致性并抑制噪声。 与已有方法相比新在哪里:与大多仅后期融合或平等处理模态内/间关系的方法不同,THGCL显式区分并建模了模态内(平滑性)和模态间(时间衰减)不同的时间依赖关系,增强了图结构的表达能力和对齐精度。 主要实验结果如何:在AudioSet数据集的高置信子集上,THGCL达到了57.4%的mAP和0.948的AUC,超越了包括TMac在内的所有基线方法(如TMac为55.1% mAP),且参数量仅4.8M,效率较高。消融实验表明,结合高斯与Hawkes过程的策略(ID-1)优于仅使用Hawkes(ID-2)或仅使用高斯(ID-3);联合损失函数(FL+CL)在收敛速度和最终性能上均优于单独使用交叉熵或焦点损失。 模型 mAP (%) AUC 参数量 (M) THGCL (Ours) 57.4 0.948 4.8 TMac ⭐ 55.1 0.937 4.3 VAED ⭐ 51.6 0.919 2.1 PaSST-S 49.0 0.900 87.0 … … … … 实际意义是什么:为构建更鲁棒、更精准的智能音频-视觉系统(如安防监控、内容检索)提供了一种高效的新方法,证明了通过精细建模时序异质关系可以显著提升多模态事件分类性能。 ...

2026-04-29

Tldiffgan: A Latent Diffusion-Gan Framework with Temporal Information Fusion for Anomalous Sound Detection

📄 Tldiffgan: A Latent Diffusion-Gan Framework with Temporal Information Fusion for Anomalous Sound Detection #音频事件检测 #生成模型 #扩散模型 #预训练 #数据增强 ✅ 7.5/10 | 前25% | #音频事件检测 | #扩散模型 | #生成模型 #预训练 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Chengyuan Ma (清华大学深圳国际研究生院) 通讯作者:Wenming Yang (清华大学深圳国际研究生院) 作者列表:Chengyuan Ma (清华大学深圳国际研究生院), Peng Jia (大连海事大学交通运输协同创新中心), Hongyue Guo (大连海事大学交通运输协同创新中心), Wenming Yang (清华大学深圳国际研究生院) 💡 毒舌点评 论文在框架设计上确实展现了巧妙的组合能力,通过双分支结构(LDGAN重建+预训练编码器嵌入)有效融合了频谱图和波形两种互补信息源,并通过精心的消融实验证实了各模块的有效性。然而,其创新更多是将已有的强大组件(潜在扩散模型、GAN、预训练音频模型)进行整合与适配,而非提出全新的核心算法;此外,所有实验仅在单一基准数据集(DCASE 2020 Task 2)上进行,虽然性能优越,但缺乏在更多样化场景或最新数据集上的验证,限制了结论的泛化说服力。 📌 核心摘要 本文针对无监督异常声音检测(ASD)中生成模型难以完全捕捉正常声音复杂分布的问题,提出了一个名为TLDiffGAN的新框架。该框架包含两个互补分支:一个分支将潜在扩散模型(LDM)整合到GAN的生成器中(称为LDGAN),通过对抗训练提高生成质量和训练稳定性;另一个分支利用预训练的音频模型编码器直接从原始波形提取特征,以弥补Mel频谱图可能丢失的信息。此外,论文引入了一种自适应时间混合(TMixup)增强技术,通过注意力机制增强模型对局部时间模式的敏感性。在DCASE 2020 Challenge Task 2数据集上的大量实验表明,TLDiffGAN在平均AUC(88.60%)和pAUC(74.35%)上均优于其他主流生成模型(如AEGAN-AD、ASD-Diffusion),并具备优秀的异常时频定位能力。该工作的实际意义在于提升了工业设备声音监控中异常检测的性能和可解释性。其主要局限性在于评估完全基于单个数据集,且依赖多个经典的异常检测算法进行最终决策。 ...

2026-04-29

Toward Faithful Explanations in Acoustic Anomaly Detection

📄 Toward Faithful Explanations in Acoustic Anomaly Detection #音频事件检测 #自监督学习 #工业应用 ✅ 7.5/10 | 前25% | #音频事件检测 | #自监督学习 | #工业应用 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Maab Elrashid(1 Mila-Quebec AI Institute, 2 Concordia University, 3 FORAC Research Consortium, 4 Université Laval) 通讯作者:未说明 作者列表:Maab Elrashid (Mila-Quebec AI Institute, Concordia University, FORAC Research Consortium, Université Laval), Anthony Deschênes (FORAC Research Consortium, Université Laval), Cem Subakan (Mila-Quebec AI Institute, Concordia University), Mirco Ravanelli (Mila-Quebec AI Institute, Concordia University), Rémi Georges (FORAC Research Consortium, Université Laval), Michael Morin (FORAC Research Consortium, Université Laval) 💡 毒舌点评 亮点: 论文聚焦于一个被忽视但至关重要的维度——异常检测模型的“可解释性”,并针对工业场景提出了严谨的评估协议(结合专家标注与忠实度指标),工作扎实且具实用导向。 短板: 所提核心改进(掩码自编码器MAE)对检测性能有轻微损害(AUC从0.916降至0.902),且在解释性提升方面的创新性更多是“应用适配”而非“方法论突破”,更像一项扎实的对比消融研究。 ...

2026-04-29

Triad: Tri-Head with Auxiliary Duplicating Permutation Invariant Training for Multi-Task Sound Event Localization and Detection

📄 Triad: Tri-Head with Auxiliary Duplicating Permutation Invariant Training for Multi-Task Sound Event Localization and Detection #音频事件检测 #声源定位 #多任务学习 #立体声 #模型评估 ✅ 7.5/10 | 前25% | #音频事件检测 | #多任务学习 | #声源定位 #立体声 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Bingnan Duan(爱丁堡大学工程学院) 通讯作者:未说明 作者列表:Bingnan Duan(爱丁堡大学工程学院)、Yinhuan Dong(爱丁堡大学工程学院)、Tughrul Arslan(爱丁堡大学工程学院)、John Thompson(爱丁堡大学工程学院) 💡 毒舌点评 这篇论文精准地指出了现有SELD输出表示“要么任务耦合,要么无法处理同类重叠”的痛点,并用一个设计简洁的三头架构有效解决了前者,ADPIT的引入也巧妙地处理了后者。短板在于实验视野略窄,所有结论都建立在单一的DCASE2025立体声数据集上,缺乏在主流多通道(如FOA)数据集上的验证,其优越性的普适性有待商榷。 📌 核心摘要 要解决的问题:现有声音事件定位与检测(SELD)方法中,单分支输出表示(如multi-ACCDOA)将事件检测与定位任务过度耦合,导致优化相互干扰;而传统多分支方法无法表示同一音频类别的多个重叠事件(如两个不同位置的说话人)。 方法核心:提出TriAD三头输出架构。SED头独立预测事件活动概率,DOA和DIST头采用轨道式(track-wise)设计,每个音频类别分配多个并行轨道以表示重叠事件。训练时采用辅助复制置换不变训练(ADPIT),通过最优置换匹配预测轨道与真实事件,解决轨道赋值歧义。 与已有方法相比新在哪里:这是首个结合轨道式局部化与ADPIT的三头设计。它解耦了检测与定位任务,允许各自分支独立优化,同时利用ADPIT支持同类重叠事件检测,兼具了单分支表示的任务解耦优势和多分支表示的重叠事件处理能力。 主要实验结果:在DCASE2025立体声数据集上: 与多ACCDOA相比,F1分数提升2.03%(至30.05%),DOA误差降低3.77°,相对距离误差降低0.17m。 与传统多分支方法相比,F1分数提升3.44%,定位精度也有优势。 系统评估了多任务优化策略,发现投影冲突梯度(PCGrad)策略在TriAD基础上进一步将F1分数提升至33.62%(+11.9%),成为最佳策略。 实际意义:为SELD系统提供了更强大、更灵活的输出表示,并证明了针对SELD任务特性的多任务优化策略(如梯度冲突处理)能显著提升性能,推动了该领域向处理更复杂声学场景(如同类重叠声源)发展。 主要局限性:实验仅在立体声数据集上进行,未在更主流的四通道一阶 Ambisonics(FOA)数据集或真实场景数据上验证其泛化能力;未提供代码,可复现性依赖于读者自行实现。 🏗️ 模型架构 图1:TriAD架构概览 ...

2026-04-29

USVexplorer: Robust Detection of Ultrasonic Vocalizations with Cross Species Generalization

📄 USVexplorer: Robust Detection of Ultrasonic Vocalizations with Cross Species Generalization #音频事件检测 #端到端 #生物声学 #时频分析 🔥 8.0/10 | 前25% | #音频事件检测 | #端到端 | #生物声学 #时频分析 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yilan Wei (Northwestern University, Evanston, USA) 通讯作者:未说明 作者列表:Yilan Wei(Northwestern University, Evanston, USA)、Kumiko Long(Northwestern University, Evanston, USA)、Arielle Granston(Northwestern University, Evanston, USA)、Adrian Rodriguez-Contreras(Northwestern University, Evanston, USA) 💡 毒舌点评 亮点在于架构设计清晰(CNN+Transformer)并系统验证了其跨物种泛化能力,音视频同步的“锦上添花”功能也显示了对实际研究需求的理解。短板是实验部分虽然全面,但对比的基线方法(DeepSqueak, VocalMat等)相对较旧且并非在所有指标上都处于SOTA,论文未能提供在这些具体数据集上更新、更强的基线对比,削弱了“state-of-the-art”宣称的绝对说服力。 📌 核心摘要 要解决的问题:现有的超声波发声(USV)检测方法存在跨物种泛化能力差、依赖人工干预、无法有效将声音信号与动物行为数据同步对齐等问题,限制了对动物声音-行为关系的深入理解。 方法核心:提出USVexplorer,一个端到端的USV检测框架。其核心是一个四阶段架构:输入音频的STFT频谱图先经过“BandGate”自适应频率加权模块,然后通过“Conv1dSub”进行时间降采样和特征扩展,接着由“TransEnc”(8层Transformer编码器)进行长程依赖建模,最后通过分类头输出检测结果。此外,框架包含一个可选的音视频同步模块。 新在哪里:与以往方法(如基于Faster R-CNN的DeepSqueak)相比,USVexplorer系统地结合了1D CNN的局部特征提取与Transformer的全局上下文建模能力;其“BandGate”模块被设计用于动态适应不同物种的频带分布和噪声,增强了跨物种泛化能力;框架首次整合了可选的音视频同步功能,支持多模态分析。 主要实验结果:USVexplorer在两个大鼠数据集(RatPup, DeepSqueak)上取得了最优的F1和MCC分数。在跨物种测试中(绒猴MarmAudio和蝙蝠NABat数据集),其F1分数均超过0.99,展示了强大的泛化能力。消融实验证明了移除Conv1dSub或TransEnc模块会导致性能下降(例如,在RatPup上移除TransEnc使Precision从0.970降至0.913)。具体关键结果见下表: 物种 数据集 方法 F1 MCC Precision Recall 大鼠 RatPup USVexplorer 0.924 0.901 0.970 0.881 ContourUSV 0.868 0.823 0.868 0.868 DeepSqueak USVexplorer 0.877 0.784 0.888 0.866 ContourUSV 0.727 0.612 0.911 0.605 绒猴 MarmAudio USVexplorer 0.997 - 0.996 0.998 蝙蝠 NABat USVexplorer 0.998 - 0.998 0.997 图2:不同数据集上学习到特征的t-SNE可视化。图中显示了同物种内USV模式的清晰聚类以及不同物种间的明显分离,表明模型能够捕获物种不变的基本声学特征和物种特异性变异。 ...

2026-04-29

Earable Platform with Integrated Simultaneous EEG Sensing and Auditory Stimulation

📄 Earable Platform with Integrated Simultaneous EEG Sensing and Auditory Stimulation #音频事件检测 #信号处理 #多通道 #时频分析 📝 5.5/10 | 后50% | #音频事件检测 | #信号处理 | #多通道 #时频分析 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Min Suk Lee (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) 通讯作者:Yuchen Xu (yux013@ucsd.edu), Gert Cauwenberghs (gcauwenberghs@ucsd.edu) 作者列表: Min Suk Lee (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Abhinav Uppal (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Ananya Thota (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Chetan Pathrabe (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Rommani Mondal (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Akshay Paul (UC San Diego, Institute for Neural Computation) Yuchen Xu (UC San Diego, Institute for Neural Computation) Gert Cauwenberghs (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering; Institute for Neural Computation) 💡 毒舌点评 亮点在于其将定制化耳道模型与Ag/AgCl干电极喷涂技术相结合,显著提升了信号质量和佩戴舒适度,为长期脑电监测提供了实用方案。短板是验证仅限于单个受试者,且其中一个对侧通道表现出显著噪声,这使得“稳健”、“长期”等宣称的普适性大打折扣,更像一个精心调校的原型机演示。 ...

2026-04-27

Disentangling Damage from Operational Variability: A Label-Free Self-Supervised Representation Learning Framework for Output-Only Structural Damage Identification

📄 Disentangling Damage from Operational Variability: A Label-Free Self-Supervised Representation Learning Framework for Output-Only Structural Damage Identification #自监督学习 #解缠表示学习 #音频事件检测 #工业应用 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Xudong Jian (苏黎世联邦理工学院 ETH Zürich,土木、环境与地质工程系) 通讯作者:Eleni Chatzi (苏黎世联邦理工学院 ETH Zürich,土木、环境与地质工程系) - 根据论文中标注“\corrauth”推断 其他作者: Charikleia Stoura (米兰理工大学 Politecnico di Milano,机械工程系) Simon Scandella (苏黎世联邦理工学院 ETH Zürich,土木、环境与地质工程系) 💡 毒舌点评 亮点:这篇论文巧妙地将计算机视觉领域流行的自监督方法(VICReg)与结构动力学的物理先验(频域PSD)结合,像给模型戴上了一副“损伤透视镜”,让它在嘈杂的操作变异中死死盯住结构本身的微小损伤信号,思路非常清晰实用。 槽点:方法在“轻微损伤”场景下有点“视力不佳”(桥梁数据集TPR仅0.324),而且损伤量化能力更像是个“半成品”,离精确评估损伤程度还有距离。说白了,能告诉你“病了”,但说不准“病多重”。 📌 核心摘要 本文针对结构健康监测中损伤信号易被环境与操作变异掩盖的核心挑战,提出了一种无标签、自监督的解缠表示学习框架。该框架采用双流自编码器架构,通过时间序列重构损失确保信息完整性,并利用VICReg自监督损失(基于假设损伤状态不变的基线期数据)强制损伤敏感表征(z_dmg)对操作变异保持不变性。同时,引入频域PSD重构损失作为物理约束,确保z_dmg保留关键的损伤相关频谱特征。该框架在无需任何损伤、激励或环境标签的情况下,实现了损伤信息与干扰信息的有效分离。在真实桥梁实验数据集和高保真齿轮箱数据集上的评估表明,所提方法能有效进行损伤检测(在齿轮箱上平衡准确率达0.816)并揭示损伤演化进程,其性能显著优于仅使用时间序列重构或手工特征的基线方法。研究证实了结合数据驱动自监督与领域物理知识对于提升SHM鲁棒性的价值,为实际无标签监测场景提供了可行的解决方案。 🏗️ 模型架构 模型整体是一个双解码器自编码器,旨在从原始振动加速度信号X ∈ R^{C×T}(C个传感器通道,T个时间点)中学习两个解缠的潜在表征:z_dmg(损伤敏感)和z_ndmg(非损伤/干扰敏感)。流程如下: 编码器 (Encoder):一个一维卷积神经网络(1D CNN),将输入信号X映射为两个H维(H=128)的潜在向量z_dmg和z_ndmg。这是实现信息分离的关键设计。 解码器1 (Decoder1):另一个1D CNN,以拼接后的[z_dmg, z_ndmg]为输入,重构原始时间序列X̂。其目标是确保潜在空间保留足够的原始信号信息。 解码器2 (Decoder2):一个多层感知机(MLP),仅以z_dmg为输入,重构输入信号的归一化功率谱密度Ŝ。这是一个物理引导的约束,迫使z_dmg保留与结构属性(如固有频率)紧密相关的频谱特征。 损伤评分:训练后,使用z_dmg计算马氏距离作为损伤分数m。基于基线期z_dmg的分布(均值μ,协方差Σ)计算每个样本的偏离程度,并通过百分位数(如95%)设定检测阈值。 关键设计理由: ...

2026-04-22

Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System

📄 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System #音频事件检测 #声源定位 #麦克风阵列 #自监督学习 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Yi Hong(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) 通讯作者:从论文中无法明确判断通讯作者。作者列表按顺序排列,Kevin Hung可能为资深作者。 其他作者: Mingyang Wang(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) Yalin Liu(香港科技大学,电子与计算机工程系) Yaru Fu(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) Kevin Hung(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) 💡 毒舌点评 亮点:论文提出的“两阶段”处理思路(哨兵+响应者)很务实,直击了无人机载系统能耗与性能的核心矛盾,用轻量级MAE做“警卫”,只在必要时唤醒“专家”进行精确定位,逻辑闭环设计得不错。 槽点:实验部分略显“理想国”,在高度受控的仿真环境下验证,缺乏真实复杂环境(如多风、多干扰源)下的鲁棒性测试,且对比的“SOTA方法”基本是自己系统的消融,说服力打了折扣。 📌 核心摘要 本文针对无人机搜救任务中视觉系统受遮蔽、能耗高的问题,提出了一个名为“Sky-Ear”的音频驱动受害者检测与定位系统。核心方法是设计了一个基于环形麦克风阵列的两阶段处理框架:在“哨兵阶段”,系统利用单通道音频和掩码自编码器(MAE)对梅尔频谱图进行重构,通过计算重构误差来检测异常声音(如呼救),此阶段功耗低,用于持续监听;一旦检测到异常,即触发“响应者阶段”,利用所有麦克风通道进行基于到达时间差(TDoA)的精确方向估计。为进一步提高定位精度,系统还设计了连续定位机制,通过优化无人机沿轨迹多次观测得到的方向向量,交叉计算出受害者的位置。实验表明,在模拟的沙漠和森林场景中,该系统能有效检测受害者声音,并通过多次观测显著降低定位误差。其主要贡献在于将自监督学习(MAE)与经典阵列信号处理相结合,实现了一种在计算和能耗约束下可靠的声学感知方案。 🏗️ 模型架构 “Sky-Ear”系统是一个端到端的处理流程,其整体架构可分为三个核心模块:哨兵阶段、响应者阶段和连续定位模块。 输入:M通道的连续音频流,由无人机搭载的环形麦克风阵列(中心1个,周围均匀分布M-1个)采集。 哨兵阶段(Sentinel Stage): 功能:低功耗、持续性的异常声音检测。 输入:仅使用中心麦克风(通道0)的单通道音频片段 a0[Δt]。 核心模型:掩码自编码器(MAE)。 流程: a. 梅尔谱图转换:将音频片段转换为二维梅尔频谱图 X ∈ R^(F×T)。 b. 分块与掩码:将频谱图分割为 N 个大小为 P×P 的图像块。随机掩码掉其中比例为 ρ 的块(用零向量替代),得到掩码后的块序列 Ẍ。 c. 编码器:一个标准的Transformer编码器。输入是未被掩码的块序列,每个块被展平并通过线性投影和位置编码后,送入Transformer。输出是编码后的特征序列 Z_enc。 d. 解码器:一个轻量级的Transformer解码器。输入是编码特征 Z_enc(对应未掩码块)和可学习的掩码标记 t_mask(对应被掩码块)的拼接序列。解码器输出每个块(包括掩码块)的预测特征。 e. 重构与异常判断:解码器的输出经线性层映射回原始像素空间,重构出完整的梅尔频谱图 X̃。计算原始频谱图 X 与重构图 X̃ 之间重建误差最大的前K%块(Top-K策略)的均方误差,作为异常分数 D_re。若 D_re 超过预设阈值 D_th,则判定检测到异常,触发响应者阶段。 响应者阶段(Responder Stage): 功能:被哨兵阶段触发后,进行高精度的单次方向估计。 输入:从环形缓冲区中提取的、包含异常声音的M通道音频序列 A_b[t_trig]。 核心方法:基于广义互相关-相位变换(GCC-PHAT)的TDoA估计与最小二乘法求解。 流程: a. TDoA估计:对于每个外围麦克风 m,计算其与中心麦克风 0 之间的TDoA。通过计算两者音频的互相关谱,在时延域寻找峰值对应的 TDoA_m。 b. DoA求解:根据已知的麦克风几何坐标 r_m 和估计的TDoA值(转换为距离差 V_m = TDoA_m * v_s),构建一个超定线性方程组 G * DoA = V。通过最小二乘法求解得到最优的到达方向单位向量 DoA*。 连续定位模块(Continuous Localization): 功能:整合多次观测结果,优化受害者位置估计。 输入:K次观测中每次观测时无人机的已知3D坐标 p_k 和由响应者阶段计算出的方向向量 DoA_k*。 核心方法:加权最小二乘交叉点优化。 流程:将每次观测视为一条从无人机位置 p_k 出发、方向为 DoA_k* 的射线。理论上,所有射线应相交于受害者位置 s。通过构建一个优化问题,最小化所有射线到估计点 s* 的加权距离平方和,从而解出最优的受害者3D坐标 s*。权重 w_k 由该次观测的TDoA互相关峰值强度决定,信号质量越高的观测权重越大。 输出:受害者的声音事件警报及其3D空间坐标。 💡 核心创新点 两阶段(哨兵-响应者)音频处理框架: ...

2026-04-19

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

📄 SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding #音频理解 #音频事件检测 #音频大模型 #基准测试 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Luoyi Sun(浙江大学,上海人工智能实验室) 通讯作者:Weidi Xie(上海交通大学,上海人工智能实验室) 其他作者: Xiao Zhou(上海人工智能实验室,上海交通大学) Zeqian Li(上海人工智能实验室,上海交通大学) Ya Zhang(上海人工智能实验室,上海交通大学) Yanfeng Wang(上海人工智能实验室,上海交通大学) 💡 毒舌点评 亮点:这篇论文的“时间戳交错序列”设计堪称“暴力美学”,直接把时间戳文本硬塞进音频Token序列里,让大语言模型像读句子一样“读”出时间,思路简单粗暴但异常有效。槽点:合成数据管道虽然巧妙,但用VGGSound配“Walking Tours”背景音,总感觉像是在录音棚里模拟“菜市场”,离真正的复杂声学场景还有点距离;另外,模型对“狗叫”这种瞬态声音的定位精度(见失败案例),似乎还不如它对“男人说话”这种持续性声音的把握来得稳。 📌 核心摘要 本文旨在解决大型音频语言模型在细粒度音频事件时间定位上的不足。现有模型因训练数据缺乏精确时间戳、基准测试过于简单,导致在长音频中定位短暂事件(“大海捞针”)时表现不可靠。为此,作者提出了SpotSound框架,其核心创新在于:1)设计了时间戳交错序列,将绝对时间戳文本与音频特征交错输入LLM,提供显式的时间对齐信号;2)引入了抗幻觉训练目标,通过构建包含正负样本的判别式四元组,强制模型先判断事件是否存在,再进行定位,有效抑制了对不存在事件的幻觉定位。同时,论文构建了SpotSound-Bench基准,其中目标事件仅占音频总长的8.4%,模拟了真实的“稀疏事件定位”挑战。实验表明,SpotSound在多个时间定位基准上达到了最先进水平,并在标准的音频事件检测任务上保持了强泛化能力。 🏗️ 模型架构 SpotSound的整体架构是一个增强型的大音频语言模型,其核心流程分为数据预处理/序列构建和两阶段推理。 1. 输入与特征提取: 原始输入:一段音频 𝒜 和一个自然语言查询 ℚ。 音频编码:音频被重采样至16kHz,转换为128通道的梅尔频谱图。随后通过一个预训练的音频编码器(如Whisper-large-v3),该编码器包含一个步长为2的池化层,将时间分辨率压缩,每个输出时间步约对应原始音频40ms。输出为音频Token序列 𝐀𝑖。 2. 核心创新:时间戳交错序列构建 (Timestamp-Interleaved Sequence) 目的:为音频Token提供显式的、绝对的时间位置信息。 方法:对于每个时间索引 𝑡𝑖 (以1秒为粒度),创建一个文本Token “timestamp: 𝑡𝑖 seconds” (记为 𝐓𝑖),并将其直接放置在对应的音频Token 𝐀𝑖 之前。 序列格式:最终送入大语言模型的序列为:S = [𝐓₁; 𝐀₁; 𝐓₂; 𝐀₂; …; 𝐓ₙ; 𝐀ₙ; 𝐈; ℚ]。其中 𝐈 是任务指令(如“判断是否存在”或“定位时间”),ℚ 是查询文本。这相当于给LLM提供了一个带精确时间刻度的“音频文本混合文档”。 3. 两阶段推理流程: ...

2026-04-19