Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data

📄 Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data #生物声学 #任务算术 #模型合并 #零样本 #数据集 🔥 8.0/10 | 前25% | #生物声学 | #任务算术 | #模型合并 #零样本 | arxiv 学术质量 4.0/7 | 选题价值 4.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ragib Amin Nihal(东京科学研究所,系统与控制工程) 通讯作者:未明确说明(根据邮箱 ragib@ra.sc.e.titech.ac.jp 推断,可能为第一作者) 作者列表: Ragib Amin Nihal(东京科学研究所,系统与控制工程;RIKEN BDR) Benjamin Yen(东京科学研究所,系统与控制工程) Runwu Shi(东京科学研究所,系统与控制工程;RIKEN BDR) Takeshi Ashizawa(东京科学研究所,系统与控制工程) Kazuhiro Nakadai(东京科学研究所,系统与控制工程;RIKEN BDR) 💡 毒舌点评 亮点在于将生态学中的“声学生态位假说”巧妙映射到模型参数空间,为“为什么简单的模型合并(平均)在生物声学任务上有效,而复杂的冲突解决方法(如TIES)反而失效”提供了一个优雅的几何解释(任务向量近正交)。短板是应用场景相对垂直(多物种生物声学监测),其核心发现(基于频谱距离预测合并效果)的普适性有待在更广泛的音频任务(如通用声音事件检测)中验证,且合并后的模型精度(59.2%)相比联合训练基线(68.3%)仍有近10个百分点的明显差距。 🔗 开源详情 代码:论文中未提及代码链接。论文摘要下方有“Code Link”字样,但后文未给出具体URL。 模型权重:论文中未提及具体权重链接,但文中使用的预训练模型为BEATs (iter3+ AS2M) [chen2023beats]。 数据集:论文使用了多个开源数据集,具体获取链接未在论文中给出,但引用中指明了来源平台: BirdCLEF 2023/2024/2025:来源为Kaggle竞赛数据集。 Watkins Marine Mammal Sound Database:来源为WHOI(伍兹霍尔海洋研究所)。 AnuraSet:来源为Zenodo。 BirdSet POW:来源为HuggingFace Datasets。 (注:论文附录C和表格S3中提供了详细描述,但未给出具体项目主页URL。) Demo:论文中未提及。 复现材料:论文附录提供了详细的训练协议。具体包括: 完整超参数配置(附录D,表S2)。 任务向量计算方法和存储格式(附录D.3)。 复现所需的配置哈希(SHA-256前缀 c4c3cf3b)和随机种子设置(附录H)。 所有实验的附加分析(附录E,包括数据效率、层级分析、持续学习等)。 (注:论文未提供预训练检查点或具体代码的下载链接。) 论文中引用的开源项目: BEATs:预训练音频模型。论文中引用[chen2023beats],未提供具体链接。 Task arithmetic:模型合并方法。论文中引用[ilharco2023editing],未提供具体链接。 TIES-Merging:冲突解决型合并方法。论文中引用[yadav2023ties],未提供具体链接。 DARE:基于丢弃的合并方法。论文中引用[yu2024dare],未提供具体链接。 DELLA:结合DARE和TIES的合并方法。论文中引用[panigrahi2024della],未提供具体链接。 AudioSet:BEATs的预训练数据集。论文中引用[audioset],未提供具体链接。 补充信息 [细节详述] 补充:模型架构的关键设计动机之一是BEATs使用了LayerNorm,这使得合并后的编码器无需进行权重重新校准(原文2.5节:“BEATs uses LayerNorm, so merged encoders do not require recalibration.")。 ...

2026-05-06 · 更新于 2026-05-19 · 2 min · 312 words

语音/音频论文速递 2026-05-06

语音/音频论文速递 2026-05-06 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 5篇 █████ #音乐信息检索 3篇 ███ #生物声学 3篇 ███ #音频深度伪造检测 2篇 ██ #音频事件检测 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ #语音对话系统 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Towards Open World Sound Event Detection 8.5分 前25% #音频事件检测 🥈 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分 前25% #语音识别 🥉 PHALAR: Phasors for Learned Musical Audio Representatio 8.0分 前10% #音乐信息检索 4. Ecologically-Constrained Task Arithmetic for Multi-Taxa 8.0分 前25% #生物声学 5. AfriVox-v2: A Domain-Verticalized Benchmark for In-the- 8.0分 前25% #语音识别 6. APEX: Large-scale Multi-task Aesthetic-Informed Popular 8.0分 前25% #音乐理解 7. Mixed-Precision Information Bottlenecks for On-Device T 8.0分 前25% #语音生物标志物 8. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分 前25% #语音对话系统 9. Deepfake Audio Detection Using Self-supervised Fusion R 7.5分 前25% #音频深度伪造检测 10. Smart Passive Acoustic Monitoring: Embedding a Classifi 7.5分 前25% #生物声学 11. DECKER: Domain-invariant Embedding for Cross-Keyboard E 7.5分 前25% #音频安全 12. Contrastive Regularization for Accent-Robust ASR 7.5分 前25% #语音识别 13. AsymK-Talker: Real-Time and Long-Horizon Talking Head G 7.5分 前25% #语音合成 14. Learning Generalizable Action Representations via Pre-t 7.5分 前25% #生物声学 15. Stage Light is Sequence$^2$: Multi-Light Control via Im 7.5分 前25% #音乐信息检索 16. Enhancing Self-Supervised Talking Head Forgery Detectio 7.5分 前25% #说话头伪造检测 17. ReasonAudio: A Benchmark for Evaluating Reasoning Beyon 7.5分 前25% #音频检索 18. Assessing the Impact of Noise and Speech Enhancement on 7.0分 前25% #模型评估 19. Phoneme-Level Deepfake Detection Across Emotional Condi 7.0分 前50% #音频深度伪造检测 20. A Comprehensive Analysis of Tokenization and Self-Super 7.0分 前50% #语音识别 21. Toward Structural Multimodal Representations: Specializ 7.0分 前25% #多模态模型 22. Cosmodoit: A Python Package for Adaptive, Efficient Pip 6.5分 前50% #音乐信息检索 23. A Paradigm for Interpreting Metrics and Identifying Cri 6.0分 前50% #语音识别 📋 论文列表 🥇 Towards Open World Sound Event Detection 🔥 8.5/10 | 前25% | #音频事件检测 | #Transformer | #开放世界学习 #增量学习 | arxiv ...

2026-05-06 · 更新于 2026-05-19 · 15 min · 3158 words