音频分类 | 语音/音乐/音频论文速递

Mixture-Constrained Max Pooling Improves Separation-Based Bird Species Classification

📄 Mixture-Constrained Max Pooling Improves Separation-Based Bird Species Classification #音频分类 #音频分离 #无监督学习 5.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 📝 5.3/10 | 后50% | #音频分类 | #无监督学习 | #音频分离 | arxiv 👥 作者与机构第一作者：Yuzhu Wang（单位未说明）通讯作者：未说明作者列表：Yuzhu Wang, Kalle Lahtinen, Patrik Lauha, Shiqi Zhang, Panu Somervuo, Otso Ovaskainen, Tuomas Virtanen（单位均未明确标注） 💡 毒舌点评混合约束最大池化（MCM）的出发点实用——用混合信号的概率去“砍”分离带来的假阳性虚高，真/假阳性增益分析也清晰地呈现了问题所在。但方法本质就是一个后处理trick，创新阈值偏低；分离器训练和分类器训练完全独立，域不匹配问题被轻易承认但毫无解决措施；最关键的超参数τ全靠验证集人工摸索，缺乏任何自动化或理论支撑；实验对比仅针对max pooling，完全忽略了更基本的平均池化、注意力加权等聚合策略，削弱了MCM优势的说服力。代码只给了分类器部分，分离器核心复现无望，整体完成度更像一个初步实验报告而非完整研究。 ...

AudioMosaic: Contrastive Masked Audio Representation Learning

📄 AudioMosaic: Contrastive Masked Audio Representation Learning #音频分类 7.7/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.7/10 | 前25% | #音频分类 | #对比学习 | arxiv 👥 作者与机构第一作者：Hanxun Huang（School of Computing and Information Systems, The University of Melbourne, Australia）通讯作者：Hanxun Huang（The University of Melbourne）、Christopher Leckie（The University of Melbourne）作者列表：Hanxun Huang（The University of Melbourne）、Qizhou Wang（The University of Melbourne）、Xingjun Ma（Institute of Trustworthy Embodied AI, Fudan University）、Cihang Xie（Baskin School of Engineering, University of California, Santa Cruz）、Christopher Leckie（The University of Melbourne）、Sarah Monazam Erfani（The University of Melbourne） 💡 毒舌点评这篇工作把 SpecAugment 的灵魂塞进了对比学习的壳子里，用结构化时频掩码造正样本，配上有效秩分析来解释为何此法能缓解维度崩塌，逻辑自洽、实验详实、效果亮眼。但本质上仍是"结构化掩码+SimCLR"的工程重组，理论新颖度有限，与 Audio‑LLM 的对接仅停留在替换编码器的层面，缺乏深入的协同优化，收益虽稳但未惊艳。 ...

BAT: Better Audio Transformer Guided by Convex Gated Probing

📄 BAT: Better Audio Transformer Guided by Convex Gated Probing #音频分类 #音频事件检测 #语音识别 #自监督学习 #Transformer 8.6/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 🔥 8.6/10 | 前25% | #音频分类 | #自监督学习 | #音频事件检测 #语音识别 | arxiv 👥 作者与机构第一作者：Houtan Ghaffari（Ghent University）、Lukas Rauch（University of Kassel，现就职于 Earth Species Project）（并列一作）通讯作者：Houtan Ghaffari（Ghent University）、Lukas Rauch（University of Kassel）作者列表：Houtan Ghaffari（Ghent University）、Lukas Rauch（University of Kassel，现就职于 Earth Species Project）、Christoph Scholz（University of Kassel，Fraunhofer IEE）、Paul Devos（Ghent University）发表于 ICML 2026，首尔，韩国 💡 毒舌点评论文以鲜明的"探测优先于微调"的评估哲学切入，提出的 CGP 和 BAT 形成了一套从评估到模型设计的闭环，实验维度相当完整且可复现性意识强。不过，其 AS-2M 的最终微调性能未能超越已报告 SOTA（Reported SSLAM 50.2 vs BAT 48.85），且性能提升的来源存在一定"调参红利"嫌疑，部分结论的泛化性仍待更严格的跨框架验证。 ...

Bioacoustic Geolocation: Species Sounds as Geographic Signals

📄 Bioacoustic Geolocation: Species Sounds as Geographic Signals #音频分类 #对比学习 #多任务学习 #数据集 5.8/10 | 创新 0.8/2 | 严谨 0.8/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.4/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1/1.5 📝 5.8/10 | 前50% | #音频理解 | #对比学习 | #音频分类 #多任务学习 | arxiv 👥 作者与机构第一作者：Mustafa Chasmai（University of Massachusetts, Amherst）通讯作者：Mustafa Chasmai（University of Massachusetts, Amherst）作者列表：Mustafa Chasmai、Wuao Liu、Subhransu Maji、Grant Van Horn（均来自 University of Massachusetts, Amherst） 💡 毒舌点评本文瞄准了一个有趣但极为小众的问题：利用生物声学信号进行全球尺度地理定位。核心思想——以物种分布范围作为定位的强先验——具有一定的洞见性。但方法层面上的贡献单薄得令人失望：AG-CLIP 本质上只是 GeoCLIP 的音频适配版，再加一个物种清单预测的辅助损失，两个组件的组合方式在 2025 年看来过于直白，缺乏方法学上的深度。更致命的是，模型在真实的黎明合唱场景（XCDC）下几乎完全失效（区域准确率仅4.3%），而作者对性能瓶颈的剖析仅停留在"分布偏移"和"物种重叠"的层面，缺乏深入的诊断实验，也未能提供任何有效的解决方案。论文的系统性基准测试值得肯定，但作为一个声称要"奠定地基"的工作，缺乏足够的算法贡献来支撑这一雄心。 ...

MetaPerch: Learning from metadata for bioacoustics foundation models

📄 MetaPerch: Learning from metadata for bioacoustics foundation models #音频分类 #多任务学习 #领域适应 6.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.5/10 | 前50% | #音频分类 | #多任务学习 | #领域适应 | arxiv 👥 作者与机构第一作者：Mustafa Chasmai（University of Massachusetts Amherst，工作期间在Google DeepMind）通讯作者：Jenny Hamer（Google DeepMind）其他作者：Vincent Dumoulin（Google DeepMind） 💡 毒舌点评这篇论文在生物声学元数据利用上做了一次大规模、系统化的实证练兵，17个数据集、9种元数据的覆盖度与消融颗粒度值得肯定，尤其揭示了位置和背景物种是最有价值的辅助信号。然而，方法的核心仅仅是给共享编码器加了一组元数据分类头，完全可以视作对多任务学习框架的常规扩写，其声称的增益很大程度上源于一个被“阉割”的基线——有意扔掉了Perch 2.0的源预测和自蒸馏，这使得元数据的净增量贡献变得模糊不清。此外，验证与测试性能排序的不一致暴露出其模型选择策略的脆弱性，而回避与NatureLM-audio等文本条件化方法的直接对比，则是为了护住“无需测试时元数据”这一卖点的巧妙躲闪。 📌 核心摘要要解决什么问题：生物声学基础模型面临着从训练用焦点录音到实际部署的被动声学监测(PAM)数据之间的声学域偏移和物种分布偏移。现有大规模训练方法仅将物种标签作为监督信号，未充分利用公民科学平台上丰富的录音元数据。方法核心：提出METAPERCH，在Perch 2.0的基架构上构建了多任务学习框架。将录音的地理位置（S2 cell分类）、季节、背景物种等9种元数据作为辅助分类任务，与主任务物种识别进行联合训练。与已有方法相比新在哪里：首次系统性地将9种per-recording元数据作为辅助监督信号引入生物声学基础模型训练，并通过大规模实验解耦了各元数据源的效果。与传统的测试时条件化方法（如Merlin）不同，该方法在测试时无需元数据即可推理，降低了部署门槛。主要实验结果如何：在17个数据集上评测，METAPERCH相比其自定义的弱化基线BioBaseline，在BirdSet平均ROC-AUC提升0.015（0.891→0.906），BEANS分类准确率提升0.016（0.854→0.870），WABAD原型学习ROC-AUC提升0.018（0.928→0.946）。其中，位置、背景物种和季节被证明是最有益的元数据源，且在仅保留1%位置元数据时仍能观察到性能增益。实际意义：为生物声学社区提供了一套无需测试时元数据的训练范式，可作为后续数据集构建和训练策略选择的参考，尤其对地理分布不均的稀有物种监测有指导意义。主要局限性：基线BioBaseline弱化了对比公平性；验证集与测试集的性能排序不一致导致模型选择不可靠；回避了与多模态预训练方法的直接公平对比；来源预测和自蒸馏的移除是双刃剑，可能导致归因分析高估了元数据的净增益。 🔗 开源详情代码：提供GitHub仓库链接 github:google-research/perch/metaperch。模型权重：未提及，未提供。数据集：所用训练与评估数据均为公开学术或社区数据集，包括Xeno-Canto, iNaturalist, Tierstimmenarchiv, FSD50K, BirdSet, BEANS, WABAD等。数据集获取方式在原文参考文献中均有说明。其他资源：未提及Demo或复现配置文件，亦未提供预训练checkpoint。论文附录A.6给出了详尽的超参数设置，但缺少可直接运行的训练pipeline脚本。 🏗️ 方法概述和架构整体流程：METAPERCH采用共享编码器的多任务学习框架。给定一个5秒的音频窗口，系统首先将其转换为大小为 500帧 × 128 mel频带的log-mel spectrogram。该spectrogram作为单通道图像输入一个轻量级的EfficientNet-B3编码器，从中提取空间嵌入(T'×F'×dim)和空间聚合后的全局嵌入dim。全局嵌入随后被分别送入一个线性物种分类头、一个基于空间嵌入的原型学习分类头，以及多个独立的元数据预测MLP头。系统通过联合优化主物种损失和多个辅助元数据损失的加权和来完成训练。在推理阶段，模型直接使用训练好的分类头，完全无需测试时元数据的输入。 ...

Rethinking Attention in Spiking Transformers: Overcoming Density Bias with Set Similarity

📄 Rethinking Attention in Spiking Transformers: Overcoming Density Bias with Set Similarity #音频分类 #Transformer 3.6/10 | 创新 0.8/2 | 严谨 0.6/1.5 | 实验 0.5/1.5 | 清晰 0.6/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 📝 3.6/10 | 后50% | #音频分类 | #Transformer | arxiv 👥 作者与机构第一作者：JinGyo Lim（首尔科学技术大学人工智能应用系）通讯作者：Seong-Eun Kim（首尔科学技术大学人工智能应用系）作者列表：JinGyo Lim、Seung Gyu Jeong、Seong-Eun Kim（均来自首尔科学技术大学人工智能应用系） 💡 毒舌点评这篇论文的Dice系数归一化思路简洁有效，用一个集合相似度指标解决了SNN-Transformer中长期被忽视的脉冲密度偏差问题——这是论文的唯一亮点。但令人失望的是，研究者在证明这一想法的有效性上投入不足，实验设计存在多处理论与实证断裂：能量估算基于十年前的45nm工艺，对现代神经形态硬件毫无参考价值；与音频SOTA（DTF-AT 0.187 mAP）的差距（-2.6个点）在不同汇报范式和训练设置下无法公平比较，却仍然声称“narrowing the gap”；CIFAR-100上的微弱提升（+0.59pp/+0.26pp）仅有两个模型实验，既无统计检验也无ImageNet验证，远不足以声称“broader applicability”。在缺乏代码、模型和硬件验证的现状下，这是一篇有闪光想法但工程和科学严谨性均未达标的半成品。 📌 核心摘要该论文针对脉冲Transformer中普遍存在的“密度偏差”问题——即现有脉冲注意力机制（点积或哈达玛积）的得分与脉冲发放率高度相关，导致高发放率神经元即使不含语义信息也能支配注意力。作者提出Spike Dice Attention (SDA)，将集合相似度指标（Dice系数）引入脉冲注意力，通过对脉冲计数的显式归一化消除密度偏差。论文进一步设计了音频专用的频率-时间解耦架构（SADA），并提出了线性化版本Lin-SDA以适配神经形态硬件。 ...

Spherical Procrustes Alignment for Reliable Medical Audio Diagnosis

📄 Spherical Procrustes Alignment for Reliable Medical Audio Diagnosis #音频分类 #音频事件检测 #低资源 8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1/1.5 🔥 8.2/10 | 前25% | #音频分类 | #知识蒸馏 | #音频事件检测 #低资源 | arxiv 👥 作者与机构第一作者：Ying Wang（Faculty of Applied Sciences, Macao Polytechnic University, Macao SAR, China）通讯作者：Xiaochen Yuan（Faculty of Applied Sciences, Macao Polytechnic University, Macao SAR, China）作者列表：Ying Wang（Faculty of Applied Sciences, Macao Polytechnic University）、Guoheng Huang（School of Computer Science and Technology, Guangdong University of Technology）、Chan-Tong Lam（Faculty of Applied Sciences, Macao Polytechnic University）、Xiaochen Yuan（Faculty of Applied Sciences, Macao Polytechnic University） 💡 毒舌点评这篇论文精准地抓住了医疗音频模型过度自信的几何病根——范数偏差，用球形约束和动态Procrustes对齐的组合拳切断了特征幅度与置信度的虚假耦合，理念清晰且动机扎实。实验校准效果惊人，将BEATs的ECE从28.51%拉低到4.44%，且做到了零额外推理成本，这一点很漂亮。然而，方法论层面更多是已知几何工具（L2归一化、ETF、SVD）在特定问题上的精巧组装，而非基础性突破。此外，验证局限于两个公开的呼吸音/心音数据集，在标签噪声、跨中心/跨设备泛化上的鲁棒性论证几乎为零，结论的临床闭环说服力仍需大量补充。 ...

WaveSSM: Multiscale State-Space Models for Non-stationary Signal Attention

📄 WaveSSM: Multiscale State-Space Models for Non-stationary Signal Attention #音频分类 #语音识别 4.8/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.9/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 📝 4.8/10 | 后50% | #音频分类 | #语音识别 | arxiv 👥 作者与机构第一作者：Ruben Solozabal (MBZUAI) 通讯作者：Ruben Solozabal (MBZUAI) 作者列表：Ruben Solozabal (MBZUAI)、Velibor Bojkovic (MBZUAI)、Hilal AlQuabeh (MBZUAI / RIKEN AIP)、Klea Ziu (MBZUAI)、Kentaro Inui (MBZUAI / RIKEN AIP)、Martin Takáč (MBZUAI) 💡 毒舌点评将小波先验注入状态空间模型（SSM），理论上为模型带来了期望的时间和频率局部化能力，在合成任务上的地址able记忆也展示得漂亮。但亮点止步于此：在真实基准上的性能提升微弱到几乎可以归为噪声，而在需要真正长程建模能力的任务（PathX, Pathfinder）上却全面溃败。这种极端的任务偏好性，加上零开源和大量悬而未决的理论-实践差距，使论文看起来更像一个精致的初步探索，而非一项坚实的贡献。 ...

A Multi-Branch Hierarchy-Aware Framework for Heterogeneous Audio Classification

📄 A Multi-Branch Hierarchy-Aware Framework for Heterogeneous Audio Classification #音频分类 #知识蒸馏 4.9/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 1/1.5 📝 4.9/10 | 后50% | #音频分类 | #模型集成 | #知识蒸馏 | arxiv 👥 作者与机构第一作者：Beile Ning（未说明）通讯作者：未说明作者列表：Beile Ning（未说明）、Jiayi Yu（未说明）、Zitong Wang（未说明）、Yufei Hu（未说明）、Wenjun Xu（未说明）、Yuanhang Qian（未说明）、Zhongxin Bai（未说明）、Gongping Huang（未说明） 💡 毒舌点评这是一份典型的竞赛技术报告，通过堆砌多分支手工特征、层级分类头和KNN检索后处理，在特定数据集上把CLAP基线提升了约2.4个百分点。然而，全文未提供任何代码、模型或可复现材料，且缺乏与任何外部公开SOTA模型的直接比较，因此其声称的提升幅度犹如在真空中举重——无人知晓这个81.25%的Hier. F1在领域内究竟是何水平。方法本质上是已有技术的工程拼装，创新性稀薄，影响力囿于单一的竞赛场景。 📌 核心摘要该论文针对DCASE 2026 Task 1的异构音频分类任务，提出了一种多分支层级感知框架。该方法在CLAP音频-文本表示的基础上，通过三个策略提升分类性能与层级一致性：(1) 构建扩展训练集BSD-Grand，合并清洗后的BSD35k子集以增强数据多样性；(2) 引入log-Mel、MFCC和log-STFT三个特征特异性声学分支，通过门控残差融合弥补CLAP对精细声学细节的建模不足；(3) 设计层级感知分类头（Flat、GC、LCL）以利用Broad Sound Taxonomy的层级结构，并采用基于KNN的嵌入检索与知识蒸馏来精细化预测。最终，最佳单模型（log-STFT + KNN后处理）达到80.84%的层级F1分数，最佳集成系统（System 3，5折交叉验证）进一步达到81.25%，相对于78.45%的CLAP基线提升显著。主要实验结果如下： ...

Cross Domain Few-Shot Class-Incremental Audio Classification Via Adversarial Contrastive Learning

📄 Cross Domain Few-Shot Class-Incremental Audio Classification Via Adversarial Contrastive Learning #音频分类 #对抗训练 #对比学习 #持续学习 7.4/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1.3/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 7.4/10 | 前50% | #音频分类 | #对抗训练 | #对比学习 #持续学习 | arxiv 👥 作者与机构第一作者：Yongjie Si（华南理工大学电子与信息工程学院，广州）通讯作者：Yanxiong Li（华南理工大学电子与信息工程学院，广州）作者列表：Yongjie Si、Yanxiong Li、Sen Huang、Beibei Liu（均隶属于华南理工大学电子与信息工程学院） 💡 毒舌点评本文首次在音频分类中形式化跨域少样本类增量学习（CD-FCAC）问题，并用对抗训练和对比学习给出直接解法，立意实用。然而，方法核心是将CV领域的域泛化策略（网络随机化+Wasserstein-style对抗训练）和监督对比学习套用至音频，技术深度有限；且仅靠谱图扰动模拟域偏移，在物理声学上缺乏依据。实验仅在三个公开数据集的六组域对上验证，回避了真实场景中的录音设备、声学环境等复杂域偏移，结论迁移性存疑。平均准确率作为主指标过于粗糙，掩盖了模型在增量后期的灾难性遗忘问题。 📌 核心摘要问题：解决跨域少样本类增量音频分类（CD-FCAC）。基类样本来自源域，增量类样本来自存在域偏移的目标域，且每类仅有少量样本（如K-shot）。方法核心：提出对抗对比训练策略。在基类训练阶段，使用谱扰动器对源域log-Mel谱图施加随机卷积扰动，并通过梯度上升最大化基于Wasserstein距离松弛的对抗损失，生成语义一致的伪目标域样本；随后联合源域和生成的对抗样本，最小化标准交叉熵与监督对比损失的组合目标，迫使编码器学习域不变且类内紧凑、类间可分的高区分度嵌入。增量阶段，冻结编码器以保留知识，仅用旧类嵌入均值和新类样本更新分类器。与已有方法的新颖之处：首次在FCAC框架内显式处理源域与目标域分布差异，将单源域泛化的对抗训练与监督对比学习结合，为少样本增量学习提供域鲁棒的特征表示。主要实验结果：在由LS-100、NSynth-100、FSC-89构造的六组跨域对上进行5-way 5-shot实验，方法在平均准确率（AA）上均超过对比基线（如NS→LS上79.09%，对比最佳基线AMFO+AFA的78.50%）。实际意义：为智能家居、机器人等场景中，需要从不同域持续识别少量新音频类别的应用提供了一种轻量级方案。主要局限性：域偏移仅通过谱图对抗扰动近似，未验证其对真实声学物理因素（录音设备、混响、噪声等）的模拟能力；冻结编码器策略完全放弃从目标域学习，限制性能上限；未探讨多源域或域标签未知的更复杂情形。 🔗 开源详情代码：https://github.com/YongjieSi/ACL （论文公开）模型权重：未提及数据集：LS-100, NSynth-100, FSC-89，均在ModelScope公开： https://www.modelscope.cn/datasets/pp199124903/LS-100/summary https://www.modelscope.cn/datasets/pp199124903/FSC-89/summary https://www.modelscope.cn/datasets/pp199124903/NSynth-100/summary Demo：未提及复现材料：未提及 🏗️ 方法概述和架构该方法将CD-FCAC问题分解为基类训练（m=0）与增量训练（1≤m≤M-1）两个阶段。模型由编码器（如ResNet-18）、分类器（权重向量为 \(\{c_{y_j}\}\)）和一个专用于数据增强的谱扰动器（Spectral Disruptor）构成。输入音频被转换为128维log-Mel谱图。 ...