Soroll-IA: A Weakly Labeled Audio Dataset for Real-World Industrial Port Monitoring
📄 Soroll-IA: A Weakly Labeled Audio Dataset for Real-World Industrial Port Monitoring #数据集 #工业应用 8.3/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.3/10 | 前25% | 音频事件检测 | #数据集 | #工业应用 | arxiv 👥 作者与机构 作者:Javier Naranjo-Alcazar, Jordi Grau-Haro, Ruben Ribes-Serrano, Marta Garcia-Ballesteros, Pedro Zuccarello 机构:未说明 💡 毒舌点评 这论文就像一个精心包装的“工业风”数据集开箱视频。动机很实在——港口确实缺这类数据,干得也不错,收集、标注、发布一条龙。但要说它能让顶会审稿人眼前一亮?恐怕难。它的创新点就在于“我做了第一个”,而不是“我做得多精妙”。主动学习流程直接沿用之前的工作,基准模型也是业界“标配”,缺乏让人眼前一亮的针对性设计或深度消融。分析部分点出了标注偏差和泛化性问题,算是戳到了痛处。总的来说,这是一篇合格的资源型论文,适合发在应用导向的会议或期刊上,但距离NeurIPS/ICML/ICLR的“方法创新”标杆,还差着那么点意思。不过,作为一个公开的基准,它的实用价值是实打实的。 📌 核心摘要 本文介绍了Soroll-IA,一个专门针对真实工业港口环境的弱标签音频数据集。该数据集在西班牙瓦伦西亚的一个工业港口通过两个固定户外传感节点采集,包含约22小时、7396个10秒片段的音频,涵盖26个与港口活动相关的声音事件类别(如起重机警报、火车声、交通噪声等)。标注过程采用了一种基于主动学习的迭代流程,由5名领域专家进行多轮标注,并发布了两种真值配置:Non-CV(至少一人标注即视为存在)和CV(需至少三分之二标注者同意)。论文提供了基于CNN14和MobileNetV2的基准测试结果,表明数据集具有挑战性,模型性能依赖于事件的声学特性及标注的严格性。Soroll-IA旨在填补工业港口音频分析领域的数据空白,支持音频标签、弱监督声音事件检测等研究,并为边缘计算场景下的实时监控提供参考。 🔗 开源详情 代码: 数据集仓库:https://github.com/anp-iti/soroll-ia 基准测试代码仓库:https://github.com/anp-iti/sorollia_baseline 模型权重:论文中未提供自行训练模型的权重下载链接。基准中使用的预训练CNN14模型来自PANNs项目,其官方权重可从以下仓库获取:https://github.com/qiuqiangkong/audioset_tagging_cnn 数据集: 名称:Soroll-IA 获取链接:https://www.kaggle.com/datasets/itiresearch/soroll-ia-weakly-labeled-audio-port-monitoring/ 开源协议:Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) Demo:论文中未提及在线演示链接。 复现材料:论文未提供预训练的模型检查点。但提供了完整的训练配置(详见“方法概述和架构”部分)和基准测试代码,足以支持复现论文中报告的所有实验结果。 论文中引用的开源项目: BAT (Basic Annotation Tool):音频标注工具。 链接:https://github.com/BlaiMelendezCatalan/BAT PANNs (Pre-trained Audio Neural Networks):提供AudioSet预训练模型。 链接:https://github.com/qiuqiangkong/audioset_tagging_cnn 🏗️ 方法概述和架构 本文的核心贡献是构建并发布了Soroll-IA数据集,其“方法”主要围绕数据采集、标注和基准测试流程展开。 ...