BeeVe: Unsupervised Acoustic State Discovery in Honey Bee Buzzing

📄 BeeVe: Unsupervised Acoustic State Discovery in Honey Bee Buzzing #生物声学 #自监督学习 #音频事件检测 #预训练 #表示学习 ✅ 6.5/10 | #生物声学 #自监督学习 | arxiv 👥 作者与机构 第一作者:Hamze Hammami(Heriot-Watt University Dubai, School of Engineering and Physical Sciences) 通讯作者:未说明 作者列表:Hamze Hammami(Heriot-Watt University Dubai)、Nidhal Abdulaziz(Heriot-Watt University Dubai) 💡 毒舌点评 论文巧妙地将成熟的自监督特征提取(PaSST)与无监督离散表征学习(VQ-VAE)相结合,应用于非发声的蜜蜂蜂鸣信号,在小数据量(5小时)上展示了清晰的模式分离(JSD>0.6),这是其亮点。然而,核心方法(PaSST+VQ-VAE)是已有技术的直接堆叠,创新性有限;且缺乏与最直接、最强有监督基线的对比(如文中引用的作者先前工作[9]),使得“无监督性能”的说服力大打折扣。 📌 核心摘要 解决什么问题:现有生物声学方法通常假设发声模型或预定义语义单元,无法处理像蜜蜂蜂鸣这种非发声、由肌肉集体振动产生的生物信号。本文旨在探索能否在不使用任何标签或先验假设的情况下,从这类信号中自动发现可重复的、有意义的声学状态结构。 方法核心:采用两阶段流水线。首先,使用在AudioSet上预训练的Patchout Spectrogram Transformer (PaSST) 作为冻结的特征提取器,将原始音频转化为高维嵌入向量。然后,在这些嵌入上训练一个向量量化变分自编码器(VQ-VAE),通过重建损失和量化损失学习一个离散的、可复用的声学“码本”(codebook),每个码本条目代表一个反复出现的声学模式(令牌)。 与已有方法相比新在哪里:与大多数针对发声动物(如鲸鱼、鸣禽)的工作不同,BeeVe首次将无监督离散码本学习应用于非发声生物信号(蜜蜂蜂鸣)。它完全不依赖语音或发声假设,直接从集体机械振动中学习离散状态表示,填补了非发声物种在计算生物声学研究中的空白。 主要实验结果如何:在5小时蜜蜂音频上训练后,学习到的令牌能够无监督地分离蜂后存在(queenright)和蜂后缺失(queenless)状态,两者的令牌分布Jensen-Shannon散度(JSD)达到0.609-0.688。更重要的是,蜂后缺失状态内部进一步被发现存在三个稳定的子状态,其大小和主要令牌在不同代码本大小和随机种子下保持一致。令牌序列分析表明其时间结构非随机(卡方检验 p « 0.001)。关键数据见下表: 实验配置 训练数据 代码本大小 随机种子 重构损失 困惑度 活跃令牌数 E1_baseline 350k帧 (5h) 64 0 0.91 15.82 19/64 E1_baseline_seed1 350k帧 (5h) 64 1 0.93 14.54 17/64 E2_small_codebook 210k帧 (3h) 32 0 1.30 16.64 18/32 实验 条件 JSD 活跃令牌数 熵 (bits) 主导令牌占比 轮廓分数 QNL异常值占比 E1_baseline queenright 0.609 13/64 2.042 39.04% 0.046 1.57% queenless 5/64 1.134 58.00% E1_baseline_seed1 queenright 0.688 13/64 2.210 27.68% 0.016 1.57% queenless 6/64 1.187 56.30% E2_small_codebook queenright 0.663 16/32 2.398 19.94% 0.188 1.70% queenless 6/32 1.247 56.45% ...

2026-05-11 · 更新于 2026-05-19 · 2 min · 380 words

Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data

📄 Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data #生物声学 #任务算术 #模型合并 #零样本 #数据集 🔥 8.0/10 | 前25% | #生物声学 | #任务算术 | #模型合并 #零样本 | arxiv 学术质量 4.0/7 | 选题价值 4.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ragib Amin Nihal(东京科学研究所,系统与控制工程) 通讯作者:未明确说明(根据邮箱 ragib@ra.sc.e.titech.ac.jp 推断,可能为第一作者) 作者列表: Ragib Amin Nihal(东京科学研究所,系统与控制工程;RIKEN BDR) Benjamin Yen(东京科学研究所,系统与控制工程) Runwu Shi(东京科学研究所,系统与控制工程;RIKEN BDR) Takeshi Ashizawa(东京科学研究所,系统与控制工程) Kazuhiro Nakadai(东京科学研究所,系统与控制工程;RIKEN BDR) 💡 毒舌点评 亮点在于将生态学中的“声学生态位假说”巧妙映射到模型参数空间,为“为什么简单的模型合并(平均)在生物声学任务上有效,而复杂的冲突解决方法(如TIES)反而失效”提供了一个优雅的几何解释(任务向量近正交)。短板是应用场景相对垂直(多物种生物声学监测),其核心发现(基于频谱距离预测合并效果)的普适性有待在更广泛的音频任务(如通用声音事件检测)中验证,且合并后的模型精度(59.2%)相比联合训练基线(68.3%)仍有近10个百分点的明显差距。 🔗 开源详情 代码:论文中未提及代码链接。论文摘要下方有“Code Link”字样,但后文未给出具体URL。 模型权重:论文中未提及具体权重链接,但文中使用的预训练模型为BEATs (iter3+ AS2M) [chen2023beats]。 数据集:论文使用了多个开源数据集,具体获取链接未在论文中给出,但引用中指明了来源平台: BirdCLEF 2023/2024/2025:来源为Kaggle竞赛数据集。 Watkins Marine Mammal Sound Database:来源为WHOI(伍兹霍尔海洋研究所)。 AnuraSet:来源为Zenodo。 BirdSet POW:来源为HuggingFace Datasets。 (注:论文附录C和表格S3中提供了详细描述,但未给出具体项目主页URL。) Demo:论文中未提及。 复现材料:论文附录提供了详细的训练协议。具体包括: 完整超参数配置(附录D,表S2)。 任务向量计算方法和存储格式(附录D.3)。 复现所需的配置哈希(SHA-256前缀 c4c3cf3b)和随机种子设置(附录H)。 所有实验的附加分析(附录E,包括数据效率、层级分析、持续学习等)。 (注:论文未提供预训练检查点或具体代码的下载链接。) 论文中引用的开源项目: BEATs:预训练音频模型。论文中引用[chen2023beats],未提供具体链接。 Task arithmetic:模型合并方法。论文中引用[ilharco2023editing],未提供具体链接。 TIES-Merging:冲突解决型合并方法。论文中引用[yadav2023ties],未提供具体链接。 DARE:基于丢弃的合并方法。论文中引用[yu2024dare],未提供具体链接。 DELLA:结合DARE和TIES的合并方法。论文中引用[panigrahi2024della],未提供具体链接。 AudioSet:BEATs的预训练数据集。论文中引用[audioset],未提供具体链接。 补充信息 [细节详述] 补充:模型架构的关键设计动机之一是BEATs使用了LayerNorm,这使得合并后的编码器无需进行权重重新校准(原文2.5节:“BEATs uses LayerNorm, so merged encoders do not require recalibration.")。 ...

2026-05-06 · 更新于 2026-05-19 · 2 min · 312 words

Learning Generalizable Action Representations via Pre-training AEMG

📄 Learning Generalizable Action Representations via Pre-training AEMG #生物声学 #自监督学习 #预训练 #零样本 #信号处理 ✅ 7.5/10 | 前25% | #生物声学 | #预训练 | #自监督学习 #零样本 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Zhenghao Huang (华南理工大学) 通讯作者:Lin Shu (华南理工大学) 作者列表:Zhenghao Huang (华南理工大学)、Huilin Yao (华南理工大学)、Kaikai Wang (华南理工大学)、Lin Shu (华南理工大学) 💡 毒舌点评 亮点:将EMG信号巧妙类比为“生理语言”并设计了完整的“分词-造句-预训练”管线,在跨被试识别任务上取得了令人信服的性能提升(平均准确率提升近6个百分点),为EMG基础模型研究提供了有价值的范式探索。 短板:核心创新更多是工程集成与范式迁移(NLP的VQ-GPT思路到EMG),而非原理性突破;论文声称“首次”大规模预训练,但对“大规模”的量化描述模糊(如预训练token总数、FLOPs),且关键超参数和训练细节在正文中完全缺失,严重损害了工作的可复现性和说服力。 🔗 开源详情 代码:https://github.com/AEMG-series/AEMG 模型权重:论文中未提及模型权重的具体下载链接(如 HuggingFace/ModelScope 等)。 数据集:论文中提及使用了八个公开的 EMG 数据集(包括 ULB-MLG, EMG-EPN, Ninapro DB4, Toro-Ossaba 等),但未提供这些数据集的统一获取链接。具体数据集名称和来源详见论文附录 B.1 和附录表 2。 Demo:论文中提及“demos”资源与代码一同在 GitHub 仓库提供(见上述代码链接)。 复现材料:论文中详细描述了算法(如算法 1:神经收缩分词器)、模型架构(NST)、训练损失(公式 8)以及消融实验的配置,但未提供具体的训练脚本、配置文件或预训练检查点下载方式。相关信息主要在论文正文中。 论文中引用的开源项目:论文中未提及任何第三方开源项目/工具的具体名称和链接。论文主要引用了相关学术研究(如 Transformer 架构本身)。 补充信息 [训练细节] 补充:论文在附录D.6中提供了预训练的具体训练配置,而非正文中所述完全缺失。包括:优化器为AdamW,学习率为2e-4,批大小为32,训练了100个epoch,硬件环境为4张NVIDIA A100 80GB GPU。这些信息对于完整复现预训练过程至关重要。 [模型架构] 补充:论文在NST骨干网络部分明确说明,为每个收缩词注入的“联合时空条件嵌入”显式编码了三个属性:解剖学来源(电极布局)、激活相位和时序顺序。这一设计是应对异构电极拓扑、增强模型对肌肉协同位置信息理解的关键。 [实验结果] 补充:关于信号切分视角对比实验(表3),论文指出一个有趣现象:使用传统固定窗口方法时,掩码预训练阶段的预测准确率反而更高。作者分析这是因为传统切片包含大量可预测的零填充或静态噪声片段,降低了预训练难度,但这也佐证了NCT分词迫使模型学习更复杂、更有挑战性的生理语义,从而在下游任务中表现更好。 [论文自述的局限性] 补充:论文在摘要和结论中自述的局限性还包括:1)EMG信号本身的高度个性化可能限制通用词汇表对所有用户的完美适用性;2)当前工作专注于手势识别这一特定任务,未来可扩展至其他运动意图解码。 [与SOTA的具体差距数值] 补充:分析中已提及AEMG-Large与SOTA方法的平均准确率差距(5.85%)。此外,在特定数据集上(如Ninapro DB4),AEMG-Large (88.10%) 相比表现最好的SOTA方法SCDEM (82.33%),提升达到了 5.77%,具体数字可更精确对应。 📌 核心摘要 这篇论文旨在解决肌电图(EMG)信号在跨被试、跨设备场景下泛化能力差的核心问题。其方法核心是提出了AEMG框架,首次将大规模自监督预训练范式引入EMG领域,核心创新在于:1)提出“EMG即语言”范式,通过神经收缩分词器(NCT)将连续EMG信号分割为离散的“肌肉收缩词”,再组合成“EMG句子”;2)构建跨设备的统一表示空间,以处理异构数据;3)通过向量量化(VQ)学习一个通用的“EMG词汇表”,并通过掩码预测进行预训练,以捕捉肌肉协同模式。与已有基于特定数据集和有监督学习的方法相比,AEMG的新在于其大规模、无监督的预训练范式以及模拟语言结构的信号处理思路。主要实验结果表明,在严格的跨被试(LOSO)手势分类任务中,AEMG-Large模型在四个数据集上的平均准确率达到89.81%,比六种现有SOTA方法中最好的(84.02%)高出5.85个百分点;在少样本适应中,仅用5%的目标用户数据即可达到约90%的微调性能。其实际意义在于为构建通用、强健的EMG解码基础模型奠定了基础,有望减少对个体校准的依赖。主要局限性包括:框架核心组件(分词、VQ、掩码建模)并非全新;论文未提供预训练的具体数据规模、计算资源和关键训练参数,影响了复现;对比的基线方法并非该领域最新的基础模型工作。 ...

2026-05-06 · 更新于 2026-05-19 · 2 min · 338 words

Smart Passive Acoustic Monitoring: Embedding a Classifier on AudioMoth Microcontroller

📄 Smart Passive Acoustic Monitoring: Embedding a Classifier on AudioMoth Microcontroller #生物声学 #音频分类 #信号处理 #低资源 ✅ 7.5/10 | 前25% | #生物声学 | #信号处理 | #音频分类 #低资源 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Louis Lerbourg(未说明)、Paul Peyret(未说明)、Juliette Linossier(未说明)、Marielle Malfante(未说明) 💡 毒舌点评 本文直击生态监测中“数据洪水”与“设备贫电”的核心矛盾,将轻量化CNN模型塞进仅有毫瓦功耗的AudioMoth并实现91%的识别率,工程导向的创新非常务实;然而,仅凭摘要无法判断其模型是否真的优于传统数字信号处理方法或更简单的机器学习模型,且“智能”的边界——误报对野外记录的影响——似乎未被充分讨论。 🔗 开源详情 代码:论文中未提及明确的代码仓库链接。但论文全文提到了一个关于模型优化和导出的开源教程,以及修改后的AudioMoth固件代码。具体链接需在完整论文正文中查找。 模型权重:论文中未提及模型权重的公开托管平台(如HuggingFace或ModelScope)链接。模型训练于一个真实世界数据集,并优化后嵌入了设备。 数据集:论文中提及使用“一个真实世界的数据集(a real-world dataset)”进行训练,但未提供数据集的具体名称、获取链接或开源协议信息。 Demo:论文中未提及在线演示(Demo)地址。 复现材料:论文全文提到了一个开源的“教程(tutorial)”,详细说明了模型优化和导出策略,这可作为重要的复现材料。具体链接需在完整论文正文中查找。 论文中引用的开源项目: AudioMoth:一个开源的低成本声学记录仪。论文作者对其固件进行了修改。论文正文中引用的两个相关GitHub仓库为: https://github.com/OpenAcousticDevices/AudioMoth-Firmware https://github.com/OpenAcousticDevices/AudioMoth-Firmware-API (注:以上链接为论文中明确提及的AudioMoth官方开源项目地址,作者基于其进行了开发。) 📌 核心摘要 要解决什么问题:传统的被动声学监测(PAM)虽然高效,但自主录音机会产生海量数据,受限于设备的功耗和存储,限制了监测活动的持续时间与规模。 方法核心是什么:提出一个智能PAM系统,在AudioMoth微控制器上直接嵌入一个优化的1D卷积神经网络(1D-CNN)分类器,实现对音频的原位分析。 与已有方法相比新在哪里:新在“边缘智能”范式:不再先采集所有原始数据再回传处理,而是在采集设备端实时识别目标声学事件(濒危海鸟Scopoli Shearwater的叫声),仅记录有价值的数据或实时输出分类日志。 主要实验结果如何:该优化模型在真实数据集上达到91%的分类准确率(平衡准确率89%),内存占用仅约10kB,单次推理时间约20ms。论文未提供与其他具体基线模型的详细数值对比表格。 实际意义是什么:大幅降低了PAM系统的功耗和数据存储需求,使大规模、长时间、低成本的生态声学监测成为可能,并为其他领域的智能传感器开发提供了开源优化流程。 主要局限性是什么:论文摘要未明确说明,可能包括:模型仅针对单一物种的特定叫声,泛化能力未知;未讨论在复杂声学环境(如风雨声、其他动物声音干扰)下的鲁棒性;未提供完整固件的功耗实测数据。 🏗️ 模型架构 基于摘要描述,模型架构的详细信息有限。 ...

2026-05-06 · 更新于 2026-05-19 · 1 min · 123 words

AVEX: What Matters for Animal Vocalization Encoding

📄 AVEX: What Matters for Animal Vocalization Encoding #生物声学 #预训练 #自监督学习 #模型比较 #基准测试 ✅ 7.0/10 | 前25% | #生物声学 | #预训练 | #自监督学习 #模型比较 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Marius Miron(Earth Species Project),David Robinson(Earth Species Project)(共同贡献) 通讯作者:Marius Miron, David Robinson(Earth Species Project) 作者列表:Marius Miron(Earth Species Project),David Robinson(Earth Species Project),Milad Alizadeh(Earth Species Project),Ellen Gilsenan-McMahon(Earth Species Project),Gagan Narula(Earth Species Project),Emmanuel Chemla(Earth Species Project),Maddie Cusimano(Earth Species Project),Felix Effenberger(Earth Species Project),Masato Hagiwara(Earth Species Project),Benjamin Hoffman(Earth Species Project),Sara Keen(Earth Species Project),Diane Kim(Earth Species Project),Jane Lawton(Earth Species Project),Jen-Yu Liu(Earth Species Project),Aza Raskin(Earth Species Project),Olivier Pietquin(Earth Species Project),Matthieu Geist(Earth Species Project)。 💡 毒舌点评 亮点在于实验设计极其严谨和全面,如同为生物声学编码器领域做了一次“高考”,系统性地比较了各种技术路线,得出了可操作的“最优训练配方”。短板在于,其核心贡献是实证结论而非提出一种全新的、具有独创性的模型架构,更像是一个高质量的“工程最佳实践”指南。 ...

2026-05-04 · 更新于 2026-05-19 · 3 min · 432 words

From Birdsong to Rumbles: Classifying Elephant Calls with Out-of-Species Embeddings

📄 From Birdsong to Rumbles: Classifying Elephant Calls with Out-of-Species Embeddings #音频分类 #生物声学 #迁移学习 #预训练 #低资源 ✅ 6.5/10 | 前50% | #音频分类 | #迁移学习 | #生物声学 #预训练 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Christiaan M. Geldenhuys(南非斯泰伦博斯大学电气与电子工程系) 通讯作者:Thomas R. Niesler(南非斯泰伦博斯大学电气与电子工程系) 作者列表:Christiaan M. Geldenhuys(南非斯泰伦博斯大学电气与电子工程系)、Thomas R. Niesler(南非斯泰伦博斯大学电气与电子工程系) 💡 毒舌点评 亮点:这是一篇异常扎实的“系统性比较”论文,像一份详尽的调研报告,将二十多种预训练音频嵌入模型在大象叫声分类上测了个遍,实验规模和对比维度令人印象深刻。短板:其核心贡献是“验证了一个大家觉得大概率可行的想法”(即预训练嵌入能跨物种迁移),而非提出新架构或新范式;且由于最强模型(Perch 2.0)的训练数据可能包含大象录音,严格意义上的“跨物种”结论打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中未提及数据集获取链接。 Demo:论文中未提及。 复现材料:论文附录A提供了完整的实验结果表格(Table 3),但论文中未提及训练配置、检查点等具体复现材料。 论文中引用的开源项目: Xeno-canto:鸟类声音数据库,用于BirdNET和Perch 1.0等模型的训练。链接:https://xeno-canto.org/ Macaulay Library of Natural Sounds:康奈尔鸟类学实验室的自然声音库。链接:https://search.macaulaylibrary.org/ AudioSet:由Google维护的音频事件数据集,用于VGGish、BEATs等模型的预训练。链接:https://research.google.com/audioset/ LibriSpeech ASR:用于wav2vec 2.0和HuBERT预训练的语音数据集。链接:https://www.openslr.org/12 FSD50k:音频事件检测数据集,用于AVES和Perch 2.0的训练。链接:https://zenodo.org/record/4060432 VGGSound:视听数据集,用于AVES的训练。链接:https://www.robots.ox.ac.uk/~vgg/data/vggsound/ iNaturalist:自然观察平台,用于Perch 2.0的训练。链接:https://www.inaturalist.org/ Tierstimmenarchiv:德国的动物声音档案馆,用于Perch 2.0的训练。链接:https://www.tierstimmenarchiv.de/ MeerKAT数据集:用于animal2vec预训练的猫鼬叫声数据集。链接:https://zenodo.org/record/3834810 LDC:语言数据联盟,托管本研究中使用的亚洲象数据集。链接:https://www.ldc.upenn.edu/ Hugging Face:多个预训练模型权重的官方托管平台。链接:https://huggingface.co/ BEATs:预训练音频嵌入模型。相关论文与代码:https://arxiv.org/abs/2112.06607;代码仓库:https://github.com/microsoft/unilm/tree/master/beats wav2vec 2.0:自监督语音表示学习模型。相关论文与代码:https://arxiv.org/abs/2006.11477;代码仓库:https://github.com/facebookresearch/wav2vec2 HuBERT:自监督语音表示学习模型。相关论文与代码:https://arxiv.org/abs/2106.07447;代码仓库:https://github.com/facebookresearch/hubert XLS-R:多语言语音表示学习模型。相关论文与代码:https://arxiv.org/abs/2111.09296;代码仓库:https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec/xls_r BirdNET:鸟类声音识别模型。链接:https://birdnet.cornell.edu/;代码仓库:https://github.com/kahst/BirdNET-Analyzer Perch 1.0:鸟类声音嵌入模型。代码仓库:https://github.com/google-research/perch Perch 2.0:多物种声音嵌入模型。代码仓库:https://github.com/google-research/perch AVES:动物声音嵌入模型。代码仓库:https://github.com/earthspecies-project/aves BirdAVES:鸟类声音嵌入模型。代码仓库:https://github.com/earthspecies-project/aves animal2vec:动物声音嵌入模型。代码仓库:https://github.com/google-research/google-research/tree/master/animal2vec 补充信息 [细节详述] 补充:论文明确说明批次大小未具体说明,训练硬件也未提及(原文:“The batch size is not specified.” “The training hardware is not stated.”)。这属于关键训练细节的缺失。 [细节详述] 补充:在模型架构部分,论文对各嵌入模型的预训练数据集有更详细的说明与对比。例如: Perch 2.0:其训练数据包含来自Tierstimmenarchiv和iNaturalist的录音,这两个数据源可能包含大象录音。论文作者手动验证了评测数据未出现在公开可访问的源语料库中,但无法确定Perch 2.0的完整训练集。这直接影响了对其“跨物种”结论的纯粹性评估。 Speech Models:论文明确指出,XLS-R 在LDC数据集上优于wav2vec2.0,归因于其在更大、更多样化的多语言语音数据集上预训练,而wav2vec2.0和HuBERT在LibriSpeech(高质量、近录音棚条件)上预训练,与野外录音环境不匹配。论文推测,wav2vec2.0使用的量化码本目标可能使其产生的表示对非语音信号的信息量较少。 [实验结果] 补充:论文在讨论部分(Section 7) 明确指出,AERD在mAP指标上相比最佳嵌入模型具有更明显的优势。例如,在LDC数据集上,AERD的AP曲线在大部分召回率范围内都位于嵌入模型之上,AP差距约为0.18。这一观察解释了为何AUC接近而mAP差距较大的现象,并强调了不同评估指标的重要性。 [评分理由] 补充:论文自我声明的局限性(Section 8) 除了已提及的“缺乏细粒度呼叫标注”和“未开源”外,还包括:“缺乏上下文信息(环境、社会背景、时间模式),这些信息可能提升下游性能和生态相关性。” [核心摘要/评分理由] 补充:论文在引言和结论中强调了实际应用场景与权衡。例如,指出预训练嵌入分类器在需要高精度、允许一定召回率损失的场景下(如人工审核初筛、存在-不存在调查、人象冲突早期预警)可能优于端到端微调模型,因为后者可能产生更多假警报,影响社区信任。这是对选题价值(1.0分)的补充,表明其应用不仅在于“即插即用”,还涉及特定部署场景下的性能权衡。 [创新点] 补充:论文的层分析(Section 6.2)设计动机明确包含实际部署考量:如果中间层表征足以进行分类,则只需保留预训练模型的一小部分参数(如wav2vec2.0和HuBERT的第二层,仅占全网络约10%的参数),从而满足远程保护环境中计算资源有限的设备端处理需求。分析中已提及此结论,但未明确其“设计动机”部分。 📌 核心摘要 本文研究了在数据稀缺的生物声学领域,能否利用在非目标物种或非生物声学领域预训练的音频嵌入模型,无需微调即可有效分类大象叫声。 方法核心:采用“固定嵌入+轻量分类器”范式。研究者从通用音频(VGGish, BEATs)、语音(wav2vec2.0, HuBERT, XLS-R)和生物声学(Perch, BirdNET等)领域的预训练模型中提取固定声学嵌入向量,并在其上训练逻辑回归、多层感知机(MLP)、循环神经网络(RNN/GRU/LSTM)等轻量级监督分类器。 与已有方法的新颖之处:这是首次对如此广泛的预训练模型(特别是语音Transformer)在大象叫声分类任务上进行全面、系统的跨物种迁移学习评估。它严格评估了“域外”和“跨物种”嵌入的有效性,并提供了详细的层分析。 主要实验结果:在非洲 bush 大象(EV数据集)和亚洲大象(LDC数据集)的呼叫分类任务上,不微调的预训练嵌入性能可接近从头训练的端到端监督模型(AERD)。最佳模型Perch 2.0在EV数据集上AUC达0.849,在LDC数据集上AUC达0.935,与AERD的差距在2.2个百分点以内。严格意义上的“跨物种”模型Perch 1.0表现也很强。层分析发现,对于语音Transformer模型(如wav2vec2.0),中间层(如第2层)表征就能取得有竞争力的性能,意味着模型可大幅压缩。主要实验结果表格见下: ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 345 words

ICLR 2026 - 生物声学 论文列表

ICLR 2026 - 生物声学 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 AVEX: What Matters for Animal Vocalization Encoding 7.0分 前25% 📋 论文详情 🥇 AVEX: What Matters for Animal Vocalization Encoding ✅ 7.0/10 | 前25% | #生物声学 | #预训练 | #自监督学习 #模型比较 👥 作者与机构 第一作者:Marius Miron(Earth Species Project),David Robinson(Earth Species Project)(共同贡献) 通讯作者:Marius Miron, David Robinson(Earth Species Project) 作者列表:Marius Miron(Earth Species Project),David Robinson(Earth Species Project),Milad Alizadeh(Earth Species Project),Ellen Gilsenan-McMahon(Earth Species Project),Gagan Narula(Earth Species Project),Emmanuel Chemla(Earth Species Project),Maddie Cusimano(Earth Species Project),Felix Effenberger(Earth Species Project),Masato Hagiwara(Earth Species Project),Benjamin Hoffman(Earth Species Project),Sara Keen(Earth Species Project),Diane Kim(Earth Species Project),Jane Lawton(Earth Species Project),Jen-Yu Liu(Earth Species Project),Aza Raskin(Earth Species Project),Olivier Pietquin(Earth Species Project),Matthieu Geist(Earth Species Project)。 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-19 · 1 min · 193 words

Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #多模态模型 #流匹配 #数据增强 #生物声学 🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #流匹配 #数据增强 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Pengfei Zhang (香港科技大学(广州)) 通讯作者:Li Liu (香港科技大学(广州), avrillliu@hkust-gz.edu.cn) 作者列表:Pengfei ZHANG (香港科技大学(广州)), Tianxin Xie (香港科技大学(广州)), Minghao Yang (香港科技大学(广州)), Li Liu* (香港科技大学(广州)) 💡 毒舌点评 亮点:这篇论文最漂亮的地方在于它提出了一个“分析-生成”闭环的智能体系统,用LLM(Thinker-A2CA)动态决定“合成什么”来弥补诊断器的短板,把数据增强从一个被动的预处理步骤变成了主动的、对抗性的课程学习,这个系统设计思想很有启发性。 短板:不过,整个系统有点像个精心组装的乐高,依赖多个重型组件(LLM, BEATs, Longformer, 流匹配模型),对于呼吸音这个相对垂直的应用场景,其工程复杂度和算力需求是否与性能增益完全匹配,值得商榷。另外,生成的“合成临床音频”虽然用于训练有效,但缺乏真实生理细节的验证,其临床保真度仍需医生在严格双盲测试中评判。 📌 核心摘要 要解决的问题:深度学习在呼吸音分析中面临两大挑战:一是将音频信号转为频谱图会导致瞬态事件(如啰音)的信息损失;二是缺乏大规模、高质量的多模态(音频+临床文本)标注数据,且存在严重的类别不平衡。 方法核心:提出Resp-Agent,一个由中央控制器(Thinker-A2CA)编排的多智能体闭环系统。该系统能主动分析诊断器的弱点,并调度生成器进行针对性合成,从而将诊断与生成任务统一。诊断器采用“模态编织”将文本与音频token融合,并用稀疏音频锚点捕捉瞬态事件;生成器采用两阶段设计,先用LLM在文本诊断和参考音频风格条件下生成离散音频单元,再用流匹配解码器重建波形。 新在何处:1) 系统范式:首次将呼吸音的分析(诊断)和生成整合到一个由LLM驱动的闭环智能体框架中。2) 诊断器架构:提出基于稀疏全局注意力的“模态编织”和“音频锚点”机制,实现高效且精细的文本-音频跨模态对齐。3) 生成器设计:将文本LLM改造为可控的多模态音频单元生成器,并采用流匹配进行波形重建。4) 基准数据:构建并开源了首个大规模、多来源、跨机构的多模态呼吸音基准Resp-229k(22.9万条记录)。 主要实验结果:在ICBHI基准上,Resp-Agent的诊断性能(ICBHI Score 72.7%)超越先前最佳音频模型超过5个百分点。在自建的跨机构Resp-229k基准上,使用Thinker指导合成的平衡数据后,多模态诊断器的宏观F1从0.212大幅提升至0.598,证实了闭环生成策略的有效性。生成器在可控性(风格/内容解耦)和保真度(FAD 1.13)上也优于强基线(如微调的StableAudio Open)。关键实验结果见下表: 模型/方法 数据集 指标 原始(不平衡) 平衡后 诊断器对比 Conformer (音频基线) Resp-229k Test-CD Macro-F1 0.1935 0.5360 Resp-Agent Diagnoser (Ours) Resp-229k Test-CD Macro-F1 0.2118 0.5980 生成器策略对比 No-Synth (基线) Resp-229k Test-CD Macro-F1 0.212 - Class-Prior Rebalancing Resp-229k Test-CD Macro-F1 - 0.512 Thinker-A2CA (Ours) Resp-229k Test-CD Macro-F1 - 0.598 生成器音频保真度对比 StableAudio Open (微调) 个体化重建 FAD ↓ 1.54 - Resp-Agent Generator (Ours) 个体化重建 FAD ↓ 1.13 - 实际意义:为数据稀缺且不平衡的医疗音频分析提供了一种强大的范式,即通过智能体驱动的闭环生成来主动构建更鲁棒的模型。开源的Resp-229k基准和代码将加速呼吸音领域的多模态研究。 主要局限性:1) 系统复杂度高,涉及多个大模型的训练与协调。2) 生成的合成音频虽用于训练有效,但其真实性和临床细节(如相位、微结构)仍需更严格的评估。3) 评估主要集中在诊断性能,对生成音频的直接临床效用(如用于教学或模拟)验证不足。 🏗️ 模型架构 Resp-Agent是一个由中央控制器协调的多智能体系统,包含三个核心模块:Thinker(规划者)、Generator(生成器) 和 Diagnoser(诊断器),形成一个“诊断->发现问题->指导合成->改进诊断”的闭环。 ...

2026-05-04 · 更新于 2026-05-19 · 3 min · 545 words

AVEX: What Matters for Animal Vocalization Encoding

📄 AVEX: What Matters for Animal Vocalization Encoding #生物声学 #自监督学习 #预训练 #模型评估 #基准测试 ✅ 7.5/10 | 前25% | #生物声学 | #自监督学习 | #预训练 #模型评估 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Marius Miron(Earth Species Project), David Robinson(Earth Species Project) 通讯作者:Marius Miron({marius}@earthspecies.org), David Robinson({david}@earthspecies.org) 作者列表:Marius Miron†⋆(Earth Species Project), David Robinson†⋆(Earth Species Project), Milad Alizadeh†(Earth Species Project), Ellen Gilsenan-McMahon†(Earth Species Project), Gagan Narula†(Earth Species Project), Emmanuel Chemla(Earth Species Project), Maddie Cusimano(Earth Species Project), Felix Effenberger(Earth Species Project), Masato Hagiwara(Earth Species Project), Benjamin Hoffman(Earth Species Project), Sara Keen(Earth Species Project), Diane Kim(Earth Species Project), Jane Lawton(Earth Species Project), Jen-Yu Liu(Earth Species Project), Aza Raskin(Earth Species Project), Olivier Pietquin†‡(Earth Species Project), Matthieu Geist†‡(Earth Species Project) (†核心作者,⋆共同第一作者及通讯作者,‡共同资深作者) 💡 毒舌点评 亮点:这是一次教科书级别的、规模空前的“声学表征学习”工程实验,系统性地拆解并回答了“训练一个好用的通用动物声音编码器到底需要什么”这一实际问题,其结论(自监督预训练+监督微调+混合数据)清晰、可靠且实用,配套的开源工具链极大降低了该领域的入门门槛。短板:论文的“创新”更多体现在工程实践和经验总结层面,缺乏一个令人眼前一亮的、能驱动新方向的理论洞见或算法设计;其评估虽广,但数据集的“偏见”(如鸟类数据占主导)是否被完全克服仍存疑,对“真正全新物种”的泛化能力验证可能不够充分。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 318 words

Beyond the Baseband: Adaptive Multi-Band Encoding for Full-Spectrum Bioacoustics Classification

📄 Beyond the Baseband: Adaptive Multi-Band Encoding for Full-Spectrum Bioacoustics Classification #生物声学 #音频分类 #迁移学习 #多频带编码 #信号处理 ✅ 7.0/10 | 前25% | #生物声学 | #多频带编码 | #音频分类 #迁移学习 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eklavya Sarkar(论文中未说明其所属机构,仅注明为通信作者邮箱eklavya@earthspecies.org对应机构) 通讯作者:eklavya@earthspecies.org(根据脚注,对应机构为Earth Species Project) 作者列表:Eklavya Sarkar(Earth Species Project,未明确说明)、Marius Miron(未说明)、David Robinson(未说明)、Gagan Narula(未说明)、Milad Alizadeh(未说明)、Ellen Gilsenan-McMahon(未说明)、Felix Effenberger(未说明)、Emmanuel Chemla(未说明)、Olivier Pietquin(未说明)、Matthieu Geist(未说明)。 注:论文全文及脚注仅提供了通信作者的邮箱和对应机构线索,其他所有作者的具体所属机构(大学、实验室、公司)在提供的论文文本中均未明确说明。 💡 毒舌点评 这篇论文像一位细心的工程师,为现有的“近视”语音大模型配上了“多焦镜头”(多频带处理),让它们能看清蝙蝠的高频叫声,实验也做得相当扎实,横跨了八个模型和三个数据集。不过,其核心思路(频带分解再融合)在语音处理领域已是老生常谈,更像是一次精彩的“领域适配”而非“原理创新”,且部分融合策略在某些任务上效果拔得有点离谱,暗示其方案并非放之四海而皆准。 🔗 开源详情 代码:https://github.com/earthspecies/multiband-audio 模型权重:论文中未提及具体的模型权重下载链接(如HuggingFace/ModelScope链接)。 数据集:论文中使用了三个数据集(Dogs, CBI, Bats),它们属于BEANS基准,但未提供独立的数据集下载链接。论文中未提及。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点等具体的复现材料。 论文中引用的开源项目: BEANS: 这是一个用于评估生物声学模型的基准框架。论文引用了该基准,但未提供其具体的代码仓库链接。 EfficientNet: 这是一个预训练的CNN模型架构。论文使用了其变体(EffNet-Bio, EffNet-AS, EffNet-All),但这些特定变体的模型权重链接未在论文中提供。 BEATs: 这是一个基于SSL预训练的模型。论文使用了其变体(BEATs-Bio, BEATs-All, BEATs-NLM),但这些特定变体的模型权重链接未在论文中提供。 EATs: 这是一个基于SSL预训练的模型。论文使用了其变体(EATs-All, EATs-Bio),但这些特定变体的模型权重链接未在论文中提供。 BirdNET: 这是一个专门为鸟类声音分类设计的48 kHz模型。论文中使用了它,但未提供其模型权重的直接获取链接。 Nature-LM 音频的BEATS编码器: 论文提及了此模型,但未提供其具体的开源代码或权重链接。 *(注:论文中引用了所有上述项目,但除了本文提供的代码仓库外,均未在论文正文中给出可访问的代码仓库或权重下载的具体URL。) 补充信息 [核心摘要] 补充: 论文在引言部分明确提出了驱动本研究的两个核心问题(原文:we investigate the following two central questions):1) 多频带表征能否有效利用生物声学叫声中未使用的高频信息,并优于常规的基带和时间扩展方法?2) 该方法与简单使用更高采样率模型(如48kHz的BirdNET)的基带相比如何?当应用于此类高采样率模型时,是否能带来额外增益?这是理解论文研究动机的关键。 [模型架构] 补充: 在频带分解阶段,计算子带数量B的具体公式为 B = ceil(f_s / f_m),其中 f_s 为输入信号的采样率,f_m 为模型的采样率。第一个子带(0–f_m/2 Hz)直接对应于模型的基带,论文明确指出“无需进一步处理”(原文:The first band corresponds to the standard baseband, and is not further processed)。 [细节详述] 补充: 训练策略中,线性分类头的训练时长为20个epochs(原文:using a linear head trained for 20 epochs)。这是论文中明确提及的一个训练超参数。 [评分理由] 补充: 论文自我声明的局限性包括:1) 方法的有效性高度依赖于预训练编码器能否产生解耦的频带嵌入(如EffNet能,EATs不能);2) 对于需要极高带宽的物种(如蝙蝠),该方法未必能超越简单的时间扩展(原文:for species requiring extremely high bandwidth, like bats, this method may not surpass simple time-expansion)。这一局限性解释了在Bats数据集上时间扩展(TE)方法性能更优的现象,是论文实验结果和讨论中的重要结论。 📌 核心摘要 问题:当前主流的音频基础模型(如BEATs, EATs)通常基于16kHz采样率预训练,其可用带宽被限制在0-8kHz,丢失了大量生物声学信号(如蝙蝠、昆虫、海洋哺乳动物叫声)中至关重要的高频(超声波)信息。 ...

2026-05-01 · 更新于 2026-05-19 · 2 min · 378 words