任务算术 | 语音/音乐/音频论文速递

📄 Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data #生物声学 #任务算术 #模型合并 #零样本 #数据集 🔥 8.0/10 | 前25% | #生物声学 | #任务算术 | #模型合并 #零样本 | arxiv 学术质量 4.0/7 | 选题价值 4.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ragib Amin Nihal（东京科学研究所，系统与控制工程）通讯作者：未明确说明（根据邮箱 ragib@ra.sc.e.titech.ac.jp 推断，可能为第一作者）作者列表： Ragib Amin Nihal（东京科学研究所，系统与控制工程；RIKEN BDR） Benjamin Yen（东京科学研究所，系统与控制工程） Runwu Shi（东京科学研究所，系统与控制工程；RIKEN BDR） Takeshi Ashizawa（东京科学研究所，系统与控制工程） Kazuhiro Nakadai（东京科学研究所，系统与控制工程；RIKEN BDR） 💡 毒舌点评亮点在于将生态学中的“声学生态位假说”巧妙映射到模型参数空间，为“为什么简单的模型合并（平均）在生物声学任务上有效，而复杂的冲突解决方法（如TIES）反而失效”提供了一个优雅的几何解释（任务向量近正交）。短板是应用场景相对垂直（多物种生物声学监测），其核心发现（基于频谱距离预测合并效果）的普适性有待在更广泛的音频任务（如通用声音事件检测）中验证，且合并后的模型精度（59.2%）相比联合训练基线（68.3%）仍有近10个百分点的明显差距。 🔗 开源详情代码：论文中未提及代码链接。论文摘要下方有“Code Link”字样，但后文未给出具体URL。模型权重：论文中未提及具体权重链接，但文中使用的预训练模型为BEATs (iter3+ AS2M) [chen2023beats]。数据集：论文使用了多个开源数据集，具体获取链接未在论文中给出，但引用中指明了来源平台： BirdCLEF 2023/2024/2025：来源为Kaggle竞赛数据集。 Watkins Marine Mammal Sound Database：来源为WHOI（伍兹霍尔海洋研究所）。 AnuraSet：来源为Zenodo。 BirdSet POW：来源为HuggingFace Datasets。（注：论文附录C和表格S3中提供了详细描述，但未给出具体项目主页URL。） Demo：论文中未提及。复现材料：论文附录提供了详细的训练协议。具体包括：完整超参数配置（附录D，表S2）。任务向量计算方法和存储格式（附录D.3）。复现所需的配置哈希（SHA-256前缀 c4c3cf3b）和随机种子设置（附录H）。所有实验的附加分析（附录E，包括数据效率、层级分析、持续学习等）。（注：论文未提供预训练检查点或具体代码的下载链接。）论文中引用的开源项目： BEATs：预训练音频模型。论文中引用[chen2023beats]，未提供具体链接。 Task arithmetic：模型合并方法。论文中引用[ilharco2023editing]，未提供具体链接。 TIES-Merging：冲突解决型合并方法。论文中引用[yadav2023ties]，未提供具体链接。 DARE：基于丢弃的合并方法。论文中引用[yu2024dare]，未提供具体链接。 DELLA：结合DARE和TIES的合并方法。论文中引用[panigrahi2024della]，未提供具体链接。 AudioSet：BEATs的预训练数据集。论文中引用[audioset]，未提供具体链接。补充信息 [细节详述] 补充：模型架构的关键设计动机之一是BEATs使用了LayerNorm，这使得合并后的编码器无需进行权重重新校准（原文2.5节：“BEATs uses LayerNorm, so merged encoders do not require recalibration."）。 ...

语音/音乐/音频论文速递 2026-05-06 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 5篇 █████ #音乐信息检索 3篇 ███ #生物声学 3篇 ███ #音频深度伪造检测 2篇 ██ #音频事件检测 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ #语音对话系统 1篇 █ 📊 论文评分排行榜（23 篇，按分数降序）排名论文评分分档主任务 🥇 Towards Open World Sound Event Detection 8.5分前25% #音频事件检测 🥈 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分前25% #语音识别 🥉 PHALAR: Phasors for Learned Musical Audio Representatio 8.0分前10% #音乐信息检索 4. Ecologically-Constrained Task Arithmetic for Multi-Taxa 8.0分前25% #生物声学 5. AfriVox-v2: A Domain-Verticalized Benchmark for In-the- 8.0分前25% #语音识别 6. APEX: Large-scale Multi-task Aesthetic-Informed Popular 8.0分前25% #音乐理解 7. Mixed-Precision Information Bottlenecks for On-Device T 8.0分前25% #语音生物标志物 8. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分前25% #语音对话系统 9. Deepfake Audio Detection Using Self-supervised Fusion R 7.5分前25% #音频深度伪造检测 10. Smart Passive Acoustic Monitoring: Embedding a Classifi 7.5分前25% #生物声学 11. DECKER: Domain-invariant Embedding for Cross-Keyboard E 7.5分前25% #音频安全 12. Contrastive Regularization for Accent-Robust ASR 7.5分前25% #语音识别 13. AsymK-Talker: Real-Time and Long-Horizon Talking Head G 7.5分前25% #语音合成 14. Learning Generalizable Action Representations via Pre-t 7.5分前25% #生物声学 15. Stage Light is Sequence$^2$: Multi-Light Control via Im 7.5分前25% #音乐信息检索 16. Enhancing Self-Supervised Talking Head Forgery Detectio 7.5分前25% #说话头伪造检测 17. ReasonAudio: A Benchmark for Evaluating Reasoning Beyon 7.5分前25% #音频检索 18. Assessing the Impact of Noise and Speech Enhancement on 7.0分前25% #模型评估 19. Phoneme-Level Deepfake Detection Across Emotional Condi 7.0分前50% #音频深度伪造检测 20. A Comprehensive Analysis of Tokenization and Self-Super 7.0分前50% #语音识别 21. Toward Structural Multimodal Representations: Specializ 7.0分前25% #多模态模型 22. Cosmodoit: A Python Package for Adaptive, Efficient Pip 6.5分前50% #音乐信息检索 23. A Paradigm for Interpreting Metrics and Identifying Cri 6.0分前50% #语音识别 📋 论文列表 🥇 Towards Open World Sound Event Detection 🔥 8.5/10 | 前25% | #音频事件检测 | #Transformer | #开放世界学习 #增量学习 | arxiv ...