Towards Open World Sound Event Detection

📄 Towards Open World Sound Event Detection #音频事件检测 #Transformer #开放世界学习 #增量学习 🔥 8.5/10 | 前25% | #音频事件检测 | #Transformer | #开放世界学习 #增量学习 | arxiv 学术质量 8.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Pham Hoang Hai(越南河内国家大学工程与技术学院) 通讯作者:Le Hoang Son(越南河内国家大学工程与技术学院) 作者列表:Pham Hoang Hai(越南河内国家大学工程与技术学院)、Le Trong Minh(越南河内国家大学工程与技术学院)、Le Hoang Son(越南河内国家大学工程与技术学院,人工智能研究中心) 💡 毒舌点评 亮点:论文真正做到了“从0到1”,首次在音频领域定义并系统研究开放世界事件检测问题,并给出了一个技术细节扎实、模块设计合理的完整框架,为后续研究奠定了基础。短板:作为一篇方法论论文,代码与模型权重的缺失严重影响了社区的验证与跟进;此外,论文假设存在“人工Oracle”标注未知事件,在真实部署链条中的可行性与成本分析稍显不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中使用了两个数据集进行实验: URBAN-SED:论文中引用了该数据集,但未提供直接下载链接或开源协议。根据论文引用 [27],这是一个用于城市环境声音事件检测的数据集。 DESED:论文中引用了该数据集,但未提供直接下载链接或开源协议。根据论文引用 [30],这是一个用于家庭环境声音事件检测的数据集。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点或附录等具体复现材料。论文的实验设置和超参数细节已在“5.2 Implementation Details”部分提供。 论文中引用的开源项目:论文在相关工作和方法部分引用了多个开源项目作为基线或灵感来源,但未提供这些项目的具体代码链接。引用的项目包括: Open World Object Detector (ORE) [15] OW-DETR [11] PROB [39] CAT [18] SS OW-DETR [20] Sound Event Detection Transformer (SEDT) [32] ResNet-50 [13] Deformable DETR [38] Detection Transformer (DETR) [6] 论文中仅提供了这些工作的文献引用编号,未附上GitHub或其他代码仓库的URL。 补充信息 经对比,分析报告已覆盖论文核心内容,但以下细节信息在原文中存在,而在分析中未明确提及或可进一步强调: ...

2026-05-06 · 更新于 2026-05-19 · 3 min · 475 words

语音/音频论文速递 2026-05-06

语音/音频论文速递 2026-05-06 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 5篇 █████ #音乐信息检索 3篇 ███ #生物声学 3篇 ███ #音频深度伪造检测 2篇 ██ #音频事件检测 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ #语音对话系统 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Towards Open World Sound Event Detection 8.5分 前25% #音频事件检测 🥈 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分 前25% #语音识别 🥉 PHALAR: Phasors for Learned Musical Audio Representatio 8.0分 前10% #音乐信息检索 4. Ecologically-Constrained Task Arithmetic for Multi-Taxa 8.0分 前25% #生物声学 5. AfriVox-v2: A Domain-Verticalized Benchmark for In-the- 8.0分 前25% #语音识别 6. APEX: Large-scale Multi-task Aesthetic-Informed Popular 8.0分 前25% #音乐理解 7. Mixed-Precision Information Bottlenecks for On-Device T 8.0分 前25% #语音生物标志物 8. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分 前25% #语音对话系统 9. Deepfake Audio Detection Using Self-supervised Fusion R 7.5分 前25% #音频深度伪造检测 10. Smart Passive Acoustic Monitoring: Embedding a Classifi 7.5分 前25% #生物声学 11. DECKER: Domain-invariant Embedding for Cross-Keyboard E 7.5分 前25% #音频安全 12. Contrastive Regularization for Accent-Robust ASR 7.5分 前25% #语音识别 13. AsymK-Talker: Real-Time and Long-Horizon Talking Head G 7.5分 前25% #语音合成 14. Learning Generalizable Action Representations via Pre-t 7.5分 前25% #生物声学 15. Stage Light is Sequence$^2$: Multi-Light Control via Im 7.5分 前25% #音乐信息检索 16. Enhancing Self-Supervised Talking Head Forgery Detectio 7.5分 前25% #说话头伪造检测 17. ReasonAudio: A Benchmark for Evaluating Reasoning Beyon 7.5分 前25% #音频检索 18. Assessing the Impact of Noise and Speech Enhancement on 7.0分 前25% #模型评估 19. Phoneme-Level Deepfake Detection Across Emotional Condi 7.0分 前50% #音频深度伪造检测 20. A Comprehensive Analysis of Tokenization and Self-Super 7.0分 前50% #语音识别 21. Toward Structural Multimodal Representations: Specializ 7.0分 前25% #多模态模型 22. Cosmodoit: A Python Package for Adaptive, Efficient Pip 6.5分 前50% #音乐信息检索 23. A Paradigm for Interpreting Metrics and Identifying Cri 6.0分 前50% #语音识别 📋 论文列表 🥇 Towards Open World Sound Event Detection 🔥 8.5/10 | 前25% | #音频事件检测 | #Transformer | #开放世界学习 #增量学习 | arxiv ...

2026-05-06 · 更新于 2026-05-19 · 15 min · 3158 words

Adaptive Embedding Fusion with Contrastive Learning for Robust Fully Few-Shot Class-Incremental Audio Classification

📄 Adaptive Embedding Fusion with Contrastive Learning for Robust Fully Few-Shot Class-Incremental Audio Classification #音频分类 #对比学习 #少样本学习 #增量学习 #自适应特征融合 ✅ 7.5/10 | 前25% | #音频分类 | #对比学习 | #少样本学习 #增量学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kai Guo(北京理工大学) 通讯作者:Xiang Xie†*(北京理工大学, †北京理工大学珠海校区) 作者列表:Kai Guo(北京理工大学), Xiang Xie(北京理工大学, 北京理工大学珠海校区), Shangkai Zhao(北京理工大学) 💡 毒舌点评 该论文精准地“手术”解决了EDE模型膨胀的痛点,并通过引入对比学习“补血”提升性能,实验结果亮眼,工程改进思路清晰。但理论分析稍显薄弱,为何自适应融合后对比学习效果更佳,未给出更深层次的解释;且对比学习的应用较为常规,未探索更前沿的对比策略。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开预训练或微调的模型权重。 数据集:论文提供了三个数据集(FSC-89, LS-100, NSynth-100)在ModelScope上的链接,表明数据集是可获取的。 Demo:未提及在线演示。 复现材料:论文详细描述了实验设置(骨干模型、超参数、训练轮数、硬件等),提供了足够信息以尝试复现,但未提供完整的代码或训练脚本。 论文中引用的开源项目:依赖的核心开源项目是AST(Audio Spectrogram Transformer),论文使用了其在AudioSet上预训练的版本。其他引用的基准方法(如iCaRL, FACT, PAN)来自先前工作,论文未说明是否使用其官方实现。 📌 核心摘要 问题:论文针对“全少样本类增量音频分类”(FFCAC)任务,即每个新类音频样本极少且需持续学习新类别的场景。现有基线方法EDE通过拼接多个特征提取器的输出来保留旧知识,但导致模型输入维度随学习进程无限膨胀,影响效率与性能。 方法核心:提出“自适应嵌入融合EDE(AEF-EDE)”。核心是引入一个可学习的加权融合模块,将不同时期(会话)的特征提取器输出进行加权求和,而非简单拼接,从而固定模型输入维度。同时,在增量学习阶段引入监督对比学习损失(LCL),以增强特征的判别性。 创新点:(1) 设计AEF模块,通过可学习参数自适应融合多会话嵌入,避免模型膨胀;(2) 将对比学习策略从基类会话(样本少)调整至增量会话(样本相对多),并证明其在AEF结构下能有效提升性能;(3) AEF与对比学习的结合在多个数据集上超越了原始EDE。 主要实验结果:在三个数据集上,AEF-EDE的平均准确率(AA)均优于EDE和其他方法。例如,在FSC-89上AA为43.39%(EDE为38.74%),在LS-100上为61.15%(EDE为56.65%),在NSynth-100上为56.44%(EDE为51.19%)。消融实验证实了AEF模块与对比学习损失(LCL)的协同有效性。 实际意义:为资源受限的音频持续学习场景(如野外声音监测)提供了一种更高效、可扩展的解决方案。 主要局限性:对比学习在基类会话中因样本过少而失效,作者承认这是未来工作方向;论文未讨论AEF模块的计算复杂度与EDE的具体对比;可学习参数θ的初始化和收敛性未深入分析。 🏗️ 模型架构 论文提出的AEF-EDE模型架构是对基线EDE的改进,其整体流程和核心模块如图1、图2所示。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 378 words

Adaptive Task-Incremental Learning For Underwater Acoustic Recognition Based on Mixture-of-Experts Adapter

📄 Adaptive Task-Incremental Learning For Underwater Acoustic Recognition Based on Mixture-of-Experts Adapter #水下声学目标识别 #增量学习 #混合专家 #适配器 #参数高效微调 ✅ 7.0/10 | 前25% | #水下声学目标识别 | #混合专家 | #增量学习 #适配器 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Yang Zhang(国防科技大学计算机学院,与Changjian Wang并列第一作者) 通讯作者:Weiguo Chen(国防科技大学计算机学院) 作者列表:Yang Zhang†(国防科技大学计算机学院)、Changjian Wang†(国防科技大学计算机学院)、Weiguo Chen*(国防科技大学计算机学院)、Yuan Yuan(国防科技大学计算机学院)、Yingzhi Chen(国防科技大学计算机学院) 💡 毒舌点评 亮点: 将混合专家(MoE)与参数高效适配器结合,并创新性地引入基于重放数据分布的自适应任务识别模块(RA-TID),为无需显式任务标签的增量学习提供了优雅的解决方案,在多个水声数据集上取得了优异的遗忘控制性能。 短板: 论文声称“自适应”和“未知任务”感知,但所有实验都是在固定的、任务ID明确的序列上进行的,缺乏在真正动态、任务边界模糊或未知任务出现的真实场景下的验证;此外,实验部分完全缺乏对计算资源、训练时长的描述,且未开源,极大削弱了其说服力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了五个公开数据集,但未提供获取方式的汇总或特别说明。 Demo:未提及。 复现材料:严重缺乏。未给出关键的训练超参数(学习率、优化器、批量大小、训练epoch数)、硬件环境(GPU型号与数量)、预训练模型SSAST的具体配置、数据增强方法、以及RA-TID模块的训练细节(如TINet的训练方式)。 论文中引用的开源项目:引用了SSAST预训练模型作为骨干网络。 开源计划:论文中未提及开源计划。 📌 核心摘要 这篇论文针对水下声学目标识别(UATR)中增量学习(IL)场景下,现有参数隔离方法依赖显式任务标签且忽略任务关联性的问题,提出了一种基于混合专家适配器(MoE-Adapter)的自适应任务增量学习框架。其核心方法是将预训练声学模型与稀疏门控的MoE-Adapter结合,通过轻量级路由器动态选择专家以实现跨任务知识共享;同时,设计了一个基于重放数据分布的任务识别模块(RA-TID),通过匹配输入特征与历史任务原型来自动推断任务身份,从而无需外部标签。实验在DeepShip等五个公开水声数据集上进行,结果显示,该方法在平均性能退化(PD)指标上达到了最低的1.93%,显著优于对比方法(如Meta-SC的2.86%),同时其可训练参数量仅为4.9M,相比全参数微调减少了90%以上。该工作的实际意义在于为水声系统在实际部署中应对新出现的目标类别提供了一种参数高效、自适应的增量学习方案。主要局限性在于缺乏对真实动态增量场景(如任务顺序未知、重叠)的验证,且复现信息严重不足。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 318 words

Incremental Learning for Audio Classification with Hebbian Deep Neural Networks

📄 Incremental Learning for Audio Classification with Hebbian Deep Neural Networks #音频分类 #增量学习 #灾难性遗忘 #Hebbian学习 #稳定性-可塑性 ✅ 7.5/10 | 前25% | #音频分类 | #增量学习 | #灾难性遗忘 #Hebbian学习 学术质量 7.0/7 | 选题价值 7.5/2 | 复现加成 8.0 | 置信度 高 👥 作者与机构 第一作者:Riccardo Casciotti (Tampere University, Signal Processing Research Centre) 通讯作者:未说明 作者列表:Riccardo Casciotti (Tampere University, Signal Processing Research Centre), Francesco De Santis (Politecnico di Milano, Department of Electronics, Information and Bioengineering), Alberto Antonietti (Politecnico di Milano, Department of Electronics, Information and Bioengineering), Annamaria Mesaros (Tampere University, Signal Processing Research Centre) 💡 毒舌点评 亮点:巧妙借用神经科学中的“多巴胺调节”概念,设计了一个简单而有效的核可塑性调制规则,在Hebbian学习框架下稳定了记忆,这是一个优雅的生物启发式工程实现。短板:所有验证仅基于一个规模和难度都有限的环境声数据集ESC-50,这使得“显著提升”和“生物合理性”的说法缺乏更有力的普适性证据,让人怀疑该方法在更大、更复杂的音频任务(如语音、音乐)或开放集增量学习中的真实效用。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 342 words