Towards Open World Sound Event Detection
📄 Towards Open World Sound Event Detection #音频事件检测 #Transformer #开放世界学习 #增量学习 🔥 8.5/10 | 前25% | #音频事件检测 | #Transformer | #开放世界学习 #增量学习 | arxiv 学术质量 8.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Pham Hoang Hai(越南河内国家大学工程与技术学院) 通讯作者:Le Hoang Son(越南河内国家大学工程与技术学院) 作者列表:Pham Hoang Hai(越南河内国家大学工程与技术学院)、Le Trong Minh(越南河内国家大学工程与技术学院)、Le Hoang Son(越南河内国家大学工程与技术学院,人工智能研究中心) 💡 毒舌点评 亮点:论文真正做到了“从0到1”,首次在音频领域定义并系统研究开放世界事件检测问题,并给出了一个技术细节扎实、模块设计合理的完整框架,为后续研究奠定了基础。短板:作为一篇方法论论文,代码与模型权重的缺失严重影响了社区的验证与跟进;此外,论文假设存在“人工Oracle”标注未知事件,在真实部署链条中的可行性与成本分析稍显不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中使用了两个数据集进行实验: URBAN-SED:论文中引用了该数据集,但未提供直接下载链接或开源协议。根据论文引用 [27],这是一个用于城市环境声音事件检测的数据集。 DESED:论文中引用了该数据集,但未提供直接下载链接或开源协议。根据论文引用 [30],这是一个用于家庭环境声音事件检测的数据集。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点或附录等具体复现材料。论文的实验设置和超参数细节已在“5.2 Implementation Details”部分提供。 论文中引用的开源项目:论文在相关工作和方法部分引用了多个开源项目作为基线或灵感来源,但未提供这些项目的具体代码链接。引用的项目包括: Open World Object Detector (ORE) [15] OW-DETR [11] PROB [39] CAT [18] SS OW-DETR [20] Sound Event Detection Transformer (SEDT) [32] ResNet-50 [13] Deformable DETR [38] Detection Transformer (DETR) [6] 论文中仅提供了这些工作的文献引用编号,未附上GitHub或其他代码仓库的URL。 补充信息 经对比,分析报告已覆盖论文核心内容,但以下细节信息在原文中存在,而在分析中未明确提及或可进一步强调: ...