音频事件检测

HeadRoom: Lightweight, Edge-deployable Pipeline for Adaptive Notification Routing

📄 HeadRoom: Lightweight, Edge-deployable Pipeline for Adaptive Notification Routing 标签：#多模态模型 #音频事件检测 #语音活动检测 #端到端 #音频理解 7.2/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1.2/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 ✅ 7.2/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #音频事件检测 | #多模态模型 | #语音活动检测 #端到端 | arxiv 👥 作者与机构第一作者：Dinithi Dissanayake (Augmented Human Lab, National University of Singapore) 通讯作者：未说明（所有作者邮箱均为@ahlab.org）作者列表：Dinithi Dissanayake (Augmented Human Lab, National University of Singapore), Prasanth Sasikumar (Augmented Human Lab, National University of Singapore), Suranga Nanayakkara (Augmented Human Lab, National University of Singapore) 💡 毒舌点评论文提出了一个颇具启发性的想法——用预测误差作为感官通道负载的代理，并构建了一个极轻量的pipeline，其工程实现（特别是边缘部署）是扎实的亮点。然而，整个论证的弱点在于用户研究：实验设计受限于简单的探针检测任务，且缺乏与现有通知路由基线的直接对比，使得核心声明“自适应路由优于随机路由”的证据基础在关键的低需求场景中不够坚实，结论说服力因此打了折扣。 ...

语音/音乐/音频论文速递 2026-07-11

语音/音乐/音频论文速递 2026-07-11 共分析 1 篇论文 ⚡ 今日概览 📥 抓取 1 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频事件检测 1篇 █ 📊 论文评分排行榜（1 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 HeadRoom: Lightweight, Edge-deployable Pipeline for Ada 7.2分前50% 系统技术报告 #音频事件检测 📋 论文列表 🥇 HeadRoom: Lightweight, Edge-deployable Pipeline for Adaptive Notification Routing 7.2/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1.2/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 ...

A Self-Supervised Approach for Minimal-Annotation Hydroacoustic Data Exploration

📄 A Self-Supervised Approach for Minimal-Annotation Hydroacoustic Data Exploration 标签：#音频事件检测 #自监督学习 #Transformer #低资源 #音频理解 8.3/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 🔥 8.3/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #音频事件检测 | #自监督学习 | #Transformer #低资源 | arxiv 👥 作者与机构第一作者：Pierre-Yves Raumer (Laboratoire de Géologie, Ecole Normale Supérieure/CNRS UMR 8538, PSL Research University, Paris 75005, France; Université de Brest, CNRS, Ifremer, UMR6538 Geo-Ocean, 29280 Plouzané, France; Lab-STICC – UMR 6285 CNRS, ENSTA IP Paris, Brest, France) 通讯作者：Pierre-Yves Raumer (同上，邮箱为论文唯一指定的联系邮箱) 作者列表：Pierre-Yves Raumer (Laboratoire de Géologie, Ecole Normale Supérieure/CNRS UMR 8538; Université de Brest, CNRS, Ifremer, UMR6538 Geo-Ocean; Lab-STICC – UMR 6285 CNRS, ENSTA IP Paris), Axel Marmoret (IMT Atlantique, Lab-STICC, UMR 6285 CNRS, Brest, France), Dorian Cazau (Lab-STICC – UMR 6285 CNRS, ENSTA IP Paris, Brest, France), Anatole Gros-Martial (Centre d’Etudes Biologiques de Chizé (CEBC), UMR 7372, CNRS-La Rochelle Université, Villiers-en-Bois, France), Richard Dreo (Université de Paris, Institut de physique du globe de Paris, CNRS; SAS Boksound), Maëlle Torterotot (Lab-STICC – UMR 6285 CNRS, ENSTA IP Paris, Brest, France), Sara Bazin (Université de Brest, CNRS, Ifremer, UMR6538 Geo-Ocean, IUEM, 29280 Plouzané, France), Flore Samaran (Lab-STICC – UMR 6285 CNRS, ENSTA IP Paris, Brest, France), Jean-Yves Royer (Université de Brest, CNRS, Ifremer, UMR6538 Geo-Ocean, 29280 Plouzané, France) 💡 毒舌点评本文为低频水下声学数据提供了一个端到端、工程导向的探索流水线，其核心价值在于将自监督MAE表征学习与轻量化的事件级聚类相结合，旨在以最小的人工事后检查（声称约1小时）实现对海量未标注数据的快速模式发现。方法描述清晰，实验验证（作为分类器）显示其能达到可比或优于两个专门设计的监督/无监督基线。然而，作为一篇面向NeurIPS/ICML/ICLR的投稿，其技术贡献的“新颖性”和“深度”存在明显天花板：核心事件提取算法（基于切比雪夫距离的相邻patch合并）过于简单，对于形态复杂或部分重叠的声学事件缺乏精细解纠缠能力；聚类质量的最终评估（映射到15个语义类别）严重依赖单人快速视觉检查，缺乏客观、定量的聚类内部评估（如轮廓系数）或更严谨的人工验证，这使得其“成功”的结论显得主观且脆弱。整个流水线更像一个优秀的领域应用系统报告，而非能推动表征学习或聚类方法学本身发展的算法创新。 ...

A Self-Supervised Approach for Minimal-Annotation Hydroacoustic Data Exploration

📄 A Self-Supervised Approach for Minimal-Annotation Hydroacoustic Data Exploration 标签：#音频事件检测 #自监督学习 #Transformer #低资源 8.1/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 🔥 8.1/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #音频事件检测 | #自监督学习 | #Transformer #低资源 | arxiv 👥 作者与机构第一作者：Pierre-Yves Raumer (Laboratoire de Géologie, Ecole Normale Supérieure/CNRS UMR 8538, PSL Research University, Paris; Université de Brest, CNRS, Ifremer, UMR6538 Geo-Ocean; Lab-STICC – UMR 6285 CNRS, ENSTA IP Paris) 通讯作者：Pierre-Yves Raumer (论文中明确邮箱为pierre-yves.raumer@gmail.com，通常通讯作者为邮箱对应者) 作者列表：Pierre-Yves Raumer (Laboratoire de Géologie, ENS/CNRS; Univ. Brest/CNRS/Ifremer; Lab-STICC/CNRS/ENSTA)， Axel Marmoret (IMT Atlantique, Lab-STICC)， Dorian Cazau (Lab-STICC/CNRS/ENSTA)， Anatole Gros-Martial (Centre d’Etudes Biologiques de Chizé (CEBC), CNRS-La Rochelle Université)， Richard Dreo (Université de Paris, Institut de physique du globe de Paris, CNRS; SAS Boksound)， Maëlle Torterotot (Lab-STICC/CNRS/ENSTA)， Sara Bazin (Univ. Brest/CNRS/Ifremer)， Flore Samaran (Lab-STICC/CNRS/ENSTA)， Jean-Yves Royer (Univ. Brest/CNRS/Ifremer) 💡 毒舌点评本文提出了一个将视觉MAE移植到水声频谱图，并创新性地设计事件级提取流水线的框架，解决了信号重叠的实际痛点，工程落地性强，开源代码和模型。然而，其根本性的评估方法论缺陷严重削弱了结论的说服力：将无监督聚类强制映射到有监督分类任务，并以F1分数作为核心比较依据，这混淆了两种范式，使得定量比较的有效性存疑。技术细节上，部分启发式设计缺乏理论支撑，且影响力局限于非常专门的低频水声领域，难以触及更广泛的音频社区。 ...

Propose and Attend: Training-free MLLM Grounding Confidence via Multi-Token Localized Attention

📄 Propose and Attend: Training-free MLLM Grounding Confidence via Multi-Token Localized Attention #音频事件检测 #多模态模型 8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.4/0.5 | 工程 0.9/1.5 🔥 8.2/10 | 前25% | #音频事件检测 | #多模态模型 | arxiv 👥 作者与机构第一作者：Daniel Shalam（Amazon）通讯作者：未说明作者列表：Daniel Shalam（Amazon）、Emanuel Ben Baruch（Amazon）、Avi Ben Cohen（Amazon）、Tal Remez（Amazon） 💡 毒舌点评这是一篇"简单但有效"的典型工作：两个清晰insight（注意力应聚焦于预测区域、信号应跨token聚合）组合出一个即插即用的Training-free分数，在三个模态四个benchmark上一路吊打SVAR等基线，甚至在COCO上将零样本AP翻倍，实用性拉满。但"注意力质量即置信度"这条路线已有多篇工作在走，MTLA本质上是对SVAR做了"localize + multi-token"的工程优化，创新高度稍欠；且跨模态迁移性依旧依赖MLLM的天花板，并没有从根本上解决MLLM幻觉生成的底层缺陷。 📌 核心摘要要解决的问题：多模态大语言模型（MLLM）在生成定位输出（检测框、时序窗口）时存在严重幻觉（58%-68%的预测区域不匹配真实目标），且模型自身的token概率无法有效区分幻觉与真实定位，导致MLLM在标准检测/定位评测中可靠性差。 ...

Adaptive Diversity-Uncertainty Active Learning with Redundancy Control for Bioacoustic Event Classification

📄 Adaptive Diversity-Uncertainty Active Learning with Redundancy Control for Bioacoustic Event Classification #音频事件检测 #低资源 6.2/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.7/1.5 ✅ 6.2/10 | 前50% | #音频事件检测 | #低资源 | arxiv 👥 作者与机构第一作者：Gabriel Dubus（未说明）通讯作者：未说明作者列表：Gabriel Dubus（未说明）、Hugo Magaldi（未说明）、Anatole Gros-Martial（未说明） 💡 毒舌点评论文为多标签生物声学事件分类定制了一套自适应不确定性-多样性主动学习策略，并加上MMR去冗余，在鸟类数据集上确实跑赢了CoreSet和Margin，工程思路清晰。但海洋场景近乎翻车、基线缺少信息论方法、连BALD的影子都没见着，而TypiClust又被漏掉了。代码和数据全无，让这份“挑战赛报告”的复现与推广价值打了不小的折扣。 📌 核心摘要要解决的问题：在生物声学事件多标签分类中，标注代价高昂且声学环境异质性强，需设计能动态平衡探索与利用、并控制批次冗余的主动学习采样策略。方法核心：提出ADU-MMR，通过全局模型置信度驱动的自适应权重将预测不确定性与嵌入空间多样性结合，并用贪婪最大边际相关性（MMR）控制批次内样本冗余。与已有方法的区别：自适应权重根据未标注池的全局归一化熵非线性动态调整，早期偏重多样性探索，后期转向不确定性利用；同时显式引入MMR减少批次冗余，区别于固定权重或纯不确定/多样性方法。主要实验结果：在BirdSet（HSN、POW、UHH）和ATBFL上，平均AULC 0.505、mAP 0.590，优于CoreSet、Margin、TypiClust和Random。HSN上AULC领先CoreSet 7.6个百分点，ATBFL上所有方法差距微小且Random略优。实际意义：为生态监测中的多标签声学事件标注提供了更高效的主动学习策略，尤其适用于结构化声景，可直接嵌入BaseAL等主动学习框架。主要局限性：严重依赖PerchV2嵌入质量，在低频海洋场景优势消失；未开源且缺少BALD等更强基线；自适应阈值τ凭经验设定，缺乏灵敏度分析。 🔗 开源详情代码：未提供代码链接模型权重：未提供模型权重下载链接（使用预训练PerchV2嵌入，但未给出具体权重链接）数据集：使用BirdSet（引用[6]）和ATBFL（引用[4]），论文未提供可直接访问的数据集下载链接 Demo：未提及复现材料：未提供训练配置、检查点或其他复现材料论文引用的开源项目： PerchV2（预训练音频嵌入模型，引用[5,2]）— 常见获取方式为Google Research的Perch项目仓库（https://github.com/google-research/perch ） BirdSet（大规模鸟类声学数据集，引用[6]）— 常见链接：https://huggingface.co/datasets/multispecies/BirdSet ATBFL（Acoustic Trends Blue Fin Library，引用[4]）— 论文未提供链接，可能通过 https://data.csiro.au/ 获取 CoreSet选择方法（引用[8]）— 开源实现常见于 https://github.com/dsgissin/DiscriminativeActiveLearning TypiClust（引用未在片段中给出完整信息）— 作为多样性感知基线 BaseAL框架（BioDCASE 2026 Task 4提供）— 论文未提供链接，可能由挑战组织方提供 🏗️ 方法概述和架构该方法基于固定预训练嵌入空间，整体流程为：在每一轮主动学习迭代中，从无标注池中选择一个批次（大小 \(B=25\)）提交标注，更新多标签分类器，重复直到总预算500耗尽。核心是ADU-MMR采样策略，由三个模块级联：不确定性估计、多样性距离计算、自适应加权与MMR批次选择。 ...

Training-Free Model Selection and Domain-Aware Score Calibration for First-Shot Anomalous Sound Detection

📄 Training-Free Model Selection and Domain-Aware Score Calibration for First-Shot Anomalous Sound Detection #音频事件检测 #测试时自适应 #领域适应 #无监督学习 7.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.3/10 | 前50% | #音频事件检测 | #测试时自适应 | #领域适应 #无监督学习 | arxiv 👥 作者与机构第一作者：Grach Mkrtchian（独立研究者，未说明所属机构）通讯作者：Grach Mkrtchian（独立研究者，邮箱：g.mkrtchyan.m@gmail.com）作者列表：Grach Mkrtchian（独立研究者） 💡 毒舌点评这篇独立研究者的论文用极低成本的纯后处理方案，揭示并部分解决了DCASE ASD赛道中“开发集AUC漂亮，评估集AUC塌方”的结构性骗局——即这本质上是个操作点校准问题，而非模型能力问题。然而，其核心贡献——那个无标签的域平衡选择准则——在三个挑战赛年份中，仅一年展现出稳健的预测力，另外两年一个简单的全均衡固定默认配置就能打平甚至击败它。这让准则的通用性承诺大打折扣，使其更像是一次针对特定年份的聪明过拟合，而非一个可泛化的方法论突破。 📌 核心摘要问题定位：论文针对DCASE Challenge Task 2中首次异常声检测（ASD）的两个开放问题：源域与目标域AUC在不同系统间呈负相关，以及开发集性能无法预测评估集性能。核心方法：提出DACo（Domain-Aware Calibration），一个训练无关的后处理层，包含两部分：(i) 基于可收缩的每域分位数校准，通过先验强度 \(m\) 调节源域/目标域的平衡前沿；(ii) 一个基于交叉验证的、完全标签无关的域平衡准则，利用训练正常样本的KS距离自动从候选配置中进行选择。方法论主张：提出一种新范式，即用粗粒度的、基于有标签开发集的“可行性否决”来排除退化配置，再用细粒度的、标签无关的部署时准则来对剩余配置进行排序和选择。核心实验结论（DCASE 2025）：在45个配置的网格上，所提准则以 Spearman \(\rho = +0.91\) 预测评估集分数 \(\Omega\)，而开发集 \(\Omega\) 的预测力仅为 \(+0.06\)。准则选择将评估集 \(\Omega\) 从55.83提升至59.34（可排第7），在扩展网格上达到61.05（可排第4）。跨年度复现结论：在DCASE 2023和2024的复现中，准则的预测力在经家族聚类不确定性分析后，仅在2025年显著。2023年证据不足，2024年准则完全失效（\(\rho = -0.10\)）。固定全均衡默认配置（\(m=0\) 软分配）在多数情况下匹配或击败准则选择。实际价值与局限性：提供了一种部署时无需目标域标签即可自动校准操作点的方法，计算成本极低。主要局限在于：准则的跨年度泛化证据薄弱；需依赖有标签的开发集否决来规避退化配置；基于10个样本的目标域校准几乎整个pAUC区间都是外推的，且绝对错误率高于名义水平。 🔗 开源详情代码：https://github.com/polestvr/daco-experiments 模型权重： BEATs iter3+ AS2M（MIT许可，论文未给出直接下载链接） EAT-base（检查点 worstchan/EAT-base_epoch30_pretrain，MIT许可） PANNs CNN14-16k（权重来自 Zenodo 记录 3987831，CC-BY许可，https://zenodo.org/record/3987831）数据集： DCASE 2025 Task 2：Zenodo 记录 15097779, 15392814, 15519362 DCASE 2023 Task 2：Zenodo 记录 7882613, 7830345, 7860847 DCASE 2024 Task 2：Zenodo 记录 10902294, 11259435, 11363076 DCASE 2026 开发集：Zenodo 记录 19336329 复现材料：代码仓库提供了全套实验代码、结果CSV、配置清单、复现脚本、环境锁文件及预注册说明（PREREGISTRATION.md）。论文引用的开源项目： DCASE 2025/2024/2023官方评估器 PANNs预训练权重 BEATs/EAT预训练模型（仅提及名称与许可） 🏗️ 方法概述和架构 DACo是一个三阶段的后处理流水线，完全操作在已冻结的音频嵌入提取器和基础异常打分器之上，无需任何训练。 ...

BAT: Better Audio Transformer Guided by Convex Gated Probing

📄 BAT: Better Audio Transformer Guided by Convex Gated Probing #音频分类 #音频事件检测 #语音识别 #自监督学习 #Transformer 8.6/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 🔥 8.6/10 | 前25% | #音频分类 | #自监督学习 | #音频事件检测 #语音识别 | arxiv 👥 作者与机构第一作者：Houtan Ghaffari（Ghent University）、Lukas Rauch（University of Kassel，现就职于 Earth Species Project）（并列一作）通讯作者：Houtan Ghaffari（Ghent University）、Lukas Rauch（University of Kassel）作者列表：Houtan Ghaffari（Ghent University）、Lukas Rauch（University of Kassel，现就职于 Earth Species Project）、Christoph Scholz（University of Kassel，Fraunhofer IEE）、Paul Devos（Ghent University）发表于 ICML 2026，首尔，韩国 💡 毒舌点评论文以鲜明的"探测优先于微调"的评估哲学切入，提出的 CGP 和 BAT 形成了一套从评估到模型设计的闭环，实验维度相当完整且可复现性意识强。不过，其 AS-2M 的最终微调性能未能超越已报告 SOTA（Reported SSLAM 50.2 vs BAT 48.85），且性能提升的来源存在一定"调参红利"嫌疑，部分结论的泛化性仍待更严格的跨框架验证。 ...

Listening Through the Noise: Cauchy-Driven Diffusion Bridges for Robust Gastrointestinal Auscultation and Clinical Benchmarking

📄 Listening Through the Noise: Cauchy-Driven Diffusion Bridges for Robust Gastrointestinal Auscultation and Clinical Benchmarking #音频修复 #语音增强 #扩散模型 #音频事件检测 7.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 1.1/1.5 ✅ 7.4/10 | 前50% | #音频修复 | #扩散模型 | #语音增强 #音频事件检测 | arxiv 👥 作者与机构第一作者：Dian Ding（上海交通大学计算机科学与工程系）通讯作者：Yu Lu（上海交通大学计算机科学与工程系，yulu01@sjtu.edu.cn）作者列表：Dian Ding（上海交通大学）、Liren Dong（陕西师范大学人工智能与计算机科学学院）、Yu Lu（上海交通大学）、Juntao Zhou（上海交通大学）、Ran Wang（上海交通大学）、Peng Li（陕西师范大学）、Zhenyi Jia（上海交通大学医学院附属第六人民医院普外科）、Guangtao Xue（上海交通大学） 💡 毒舌点评本文在扩散桥框架内引入 Cauchy 噪声假设，对临床肠鸣音去噪具有扎实的理论动机——但“语音干扰呈重尾分布”这一核心动机仅通过 Fig.2 的目视对比来论证，并未给出正式的统计拟合优度检验，有“看图说话”之嫌。CLINBS 数据集填补了病理肠鸣音空白值得肯定，然而论文未提供任何代码、模型权重或数据集获取方式，严重削弱了可复现性与实际影响力。此外，所有评估均在人工加性混合的语音干扰下进行，即使在附录 C.4 补充了真实病房噪声实验，该实验仍采用加性混合模型（将无肠鸣音的背景录音与纯净肠鸣音线性混合），未涉及真实含噪临床录音的直接去噪，临床适用性仍有待证明。 ...

NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating

📄 NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating #音频事件检测 #长音频处理 #高效推理 5.5/10 | 创新 1/2 | 严谨 0.7/1.5 | 实验 0.8/1.5 | 清晰 0.4/1 | 影响 0.5/1.5 | 开源 0.8/1.5 | 复现 0.2/0.5 | 工程 1.1/1.5 📝 5.5/10 | 前50% | #音频事件检测 | #音频大模型 | #长音频处理 #高效推理 | arxiv 👥 作者与机构第一作者：Zhongju Yuan（WAVES Research Group, Ghent University, Gent, Belgium）通讯作者：Zhongju Yuan（zhongju.yuan@ugent.be）作者列表：Zhongju Yuan（Ghent University）、Geraint A. Wiggins（Vrije Universiteit Brussel; Queen Mary University of London）、Dick B.M. Botteldooren（Ghent University） 💡 毒舌点评这篇论文将“选择性注意”包装成一个神经启发的波动力学问题，想法有趣，但数学与工程落地之间存在不小的鸿沟。OWM的Bragg共振最优性证明看似漂亮，但从离散格点方程跳跃到连续介质近似的过程略显随意，部分定理（如Theorem 2.3）在连续假设下漂亮但实际系统离散、有界，理论对实际设计的指导意义有限。此外，实验仅在两个数据集上进行，主要性能提升（17.1% AP）令人印象深刻，但对比基线AudioQwen全量推理表现过弱（53.50% AP），且论文未与任何基于深度特征的时序模型基线（如简单的GRU/LSTM漂移检测器）对比，让人难以判断OWM复杂的波动力学机制是否真有必要。自适应阈值依赖多个手动设定的参数（W=20, α=0.2），其跨场景泛化能力存疑。论文自我定位为“训练自由”方法，但严重依赖两个大规模预训练模型（PANN和AudioQwen），这种“自由”是建立在他人训练成果之上的。 ...