Enabling Multi-Species Bird Classification on Low-Power Bioacoustic Loggers

📄 Enabling Multi-Species Bird Classification on Low-Power Bioacoustic Loggers #生物声学 #知识蒸馏 #时频分析 #边缘计算 #数据集 🔥 8.0/10 | 前25% | #生物声学 | #知识蒸馏 | #时频分析 #边缘计算 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Stefano Ciapponi(Fondazione Bruno Kessler, University of Trento) 通讯作者:未说明 作者列表:Stefano Ciapponi(Fondazione Bruno Kessler, University of Trento),Leonardo Mannini(Fondazione Bruno Kessler),Jarek Scanferla(Eurac Research),Matteo Anderle(Eurac Research),Elisabetta Farella(Fondazione Bruno Kessler, University of Trento) 💡 毒舌点评 亮点:论文首次在AudioMoth这类极低功耗微控制器上实现了多物种鸟类分类,将理论创新(半可学习滤波器组)与严格的硬件约束验证(77mJ/推理)紧密结合,工程实用性很强。短板:70种鸟类的全景分类准确率(70.1%)与BirdNET在特定子集上的表现相比仍有差距,对于生物声学实际应用而言,高难度物种的识别鲁棒性可能是更关键的瓶颈。 📌 核心摘要 这篇论文旨在解决在资源极度受限的低功耗边缘设备(如AudioMoth,内存≤1MB)上实现连续、实时的多物种鸟类声音分类的难题。其核心方法是提出了WrenNet神经网络架构,该架构采用流式兼容的因果卷积和GRU进行高效时序建模,并创新性地设计了一种半可学习(Semi-learnable)频谱特征提取器,通过可微的参数化频率映射自适应优化鸟类叫声的频谱分辨率。与固定梅尔尺度的特征提取相比,该设计能自动学习适合不同物种的频率过渡点。在由鸟类学家策划的70种阿尔卑斯鸟类数据集上,WrenNet对声学特征明显的物种准确率达90.8%,全任务准确率为70.1%。在AudioMoth设备上部署时,单次3秒推理仅消耗77mJ,比BirdNET在树莓派上运行能效高出16倍以上。这标志着首个在微控制器硬件上实现多物种鸟类分类的实用框架。主要局限性在于对声学相似的复杂物种组(如莺类、雀类)识别准确率(约77%)仍有提升空间。 ...

2026-04-29

Estimating Respiratory Effort from Nocturnal Breathing Sounds for Obstructive Sleep Apnoea Screening

📄 Estimating Respiratory Effort from Nocturnal Breathing Sounds for Obstructive Sleep Apnoea Screening #音频分类 #CNN-LSTM #多任务学习 #医疗声学 #生物声学 ✅ 6.5/10 | 前25% | #音频分类 | #多任务学习 | #CNN-LSTM #医疗声学 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Xiaolei Xu(谢菲尔德大学计算机科学学院) 通讯作者:未说明 作者列表:Xiaolei Xu(谢菲尔德大学计算机科学学院)、Chaoyue Niu(谢菲尔德大学计算机科学学院)、Guy J. Brown(谢菲尔德大学计算机科学学院)、Hector Romero(Passion for Life Healthcare)、Ning Ma(谢菲尔德大学计算机科学学院) 💡 毒舌点评 这篇论文的亮点在于其开创性思路:首次尝试从夜间呼吸声这一单一模态中,直接估计出通常需要接触式传感器才能获取的“呼吸努力”生理信号,从而为无感的睡眠监测扫清了一个关键障碍。然而,其短板也相当明显:呼吸努力的估计精度(CCC 0.48)仅达到中等相关性,这直接导致了后续融合策略带来的性能提升幅度有限,甚至在某些关键阈值(如AHI≥30)上不如直接使用音频特征,让人对“估计信号”的实际增益打个问号。 📌 核心摘要 本文针对阻塞性睡眠呼吸暂停症(OSA)诊断依赖复杂多导睡眠图(PSG)且普及困难的问题,提出一种仅需智能手机音频即可进行OSA筛查的新方法。其核心是设计了一个两阶段框架:首先训练一个模型从夜间呼吸/打鼾声中估计腹部呼吸努力信号,然后冻结该模型,提取其潜在表征作为“呼吸努力嵌入”,与另一个音频编码器提取的声学嵌入在潜在空间进行融合,最终用于OSA事件检测和严重程度分类。与已有方法相比,其新意在于首次实现了从音频直接推断呼吸努力,摆脱了对额外传感器的依赖,维持了纯声学方法的可扩展性。实验在157晚、103名参与者的家庭录音数据集上进行,结果显示:呼吸努力估计器达到0.48的平均CCC;融合估计的呼吸努力后,在AHI阈值5(检测轻度OSA)时,敏感性达到0.88,优于音频基线(0.86)和使用真实努力信号的“Oracle”系统(0.81),AUC为0.86。该方法的实际意义在于为低成本、无感、长期的OSA家庭监测提供了可行的技术路径。其主要局限性包括:呼吸努力的估计精度受限于复杂家庭环境噪声,导致融合收益有限;缺乏充分的消融实验以证明性能提升完全来自呼吸努力表征而非模型容量增加。 🏗️ 模型架构 论文提出一个两步走的潜在空间融合框架,用于从夜间音频检测OSA。 第一步:音频到呼吸努力的估计器(图1蓝色部分) 输入:30秒的音频片段,表示为64维对数梅尔滤波器组特征(1500帧 x 64频段)。 组件: CNN特征提取器:使用比音频基线更小的池化核以保留时间分辨率,将输入从1500x64转换为187x128的特征图。 LSTM编码器:处理CNN输出的187帧时序特征,捕获呼吸动力学,产生隐藏状态序列。 解码器与插值:一个线性解码器将每个LSTM隐藏状态投影为一个值,生成187点的预测序列。由于参考呼吸努力信号(32Hz采样)在30秒内有960个点,预测序列通过插值上采样至960点,以对齐标签并进行损失计算。 输出:预测的归一化呼吸努力信号序列。 关键设计:采用“先预测低分辨率序列再插值”的策略,平衡了LSTM训练复杂性和最终信号保真度。优化目标使用一致性相关系数(CCC)损失,以同时优化相关性与偏差。 第二步:融合OSA检测(图1橙色部分) ...

2026-04-29

Fusion of Multimodal Estimations by Extended State Hidden Markov Model: Application to Fetal Heart Rate Monitoring

📄 Fusion of Multimodal Estimations by Extended State Hidden Markov Model: Application to Fetal Heart Rate Monitoring #生物声学 #信号处理 #多任务学习 #医疗 ✅ 7.0/10 | 前50% | #生物声学 | #信号处理 | #多任务学习 #医疗 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Baptiste Rault(Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC) 通讯作者:Bertrand Rivet(未明确说明,但提供了邮箱;机构为Université Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab) 作者列表:Baptiste Rault(Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC)、Julie Fontecave-Jallon(Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC)、Bertrand Rivet(Université Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab) 💡 毒舌点评 亮点:扩展HMM状态变量以显式建模“观测是目标信号、混淆信号还是噪声”的思路巧妙且可解释,有效提升了融合算法在真实临床数据上的抗混淆能力(FuSEmHR的RMC中位数降至1.5%)。短板:算法复杂度急剧增加(融合1分钟数据从35ms升至8秒),且最终版本严重依赖可靠的参考信号(mHR),限制了其在未知或不稳定干扰下的应用;更遗憾的是,论文未开源任何代码或数据,让“可复现性”成了一纸空文。 ...

2026-04-29

ICASSP 2026 - 生物声学 论文列表

ICASSP 2026 - 生物声学 共 12 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Enabling Multi-Species Bird Classification on Low-Power Bioa 8.0分 前25% 🥈 Multi-Layer Attentive Probing Improves Transfer of Audio Rep 7.5分 前25% 🥉 Learning Domain-Robust Bioacoustic Representations for Mosqu 7.5分 前25% 4. Unsupervised Discovery and Analysis of the Vocal Repertoires 7.5分 前50% 5. BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal 7.5分 前25% 6. Testing The Efficient Coding Hypothesis Beyond Humans: The A 7.5分 前25% 7. Random Matrix-Driven Graph Representation Learning For Bioac 7.5分 前25% 8. Fusion of Multimodal Estimations by Extended State Hidden Ma 7.0分 前50% 9. Identifying Birdsong Syllables without Labelled Data 7.0分 前50% 10. Representation-Diverse Self-Supervision for Cross-Domain Bio 7.0分 前25% 11. Domain-Invariant Representation Learning of Bird Sounds 6.5分 前50% 12. Utilizing Information Theoretic Approach to Study Cochlear N 6.5分 前50% 📋 论文详情 🥇 Enabling Multi-Species Bird Classification on Low-Power Bioacoustic Loggers 🔥 8.0/10 | 前25% | #生物声学 | #知识蒸馏 | #时频分析 #边缘计算 ...

2026-04-29

Identifying Birdsong Syllables without Labelled Data

📄 Identifying Birdsong Syllables without Labelled Data #生物声学 #无监督学习 #聚类 #信号处理 ✅ 7.0/10 | 前50% | #生物声学 | #无监督学习 | #聚类 #信号处理 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Mélisande Teng (Mila - Quebec AI Institute, Université de Montréal) (共同第一作者) 通讯作者:未说明 作者列表:Mélisande Teng (Mila - Quebec AI Institute, Université de Montréal), Julien Boussard (Mila - Quebec AI Institute, McGill University) (共同第一作者), David Rolnick (Mila - Quebec AI Institute, McGill University), Hugo Larochelle (Mila - Quebec AI Institute, Université de Montréal) 💡 毒舌点评 亮点:该方法是首个完全无监督的鸟鸣音节分解算法,巧妙地将电生理信号处理中的spike sorting思想迁移到生物声学,避免了对大量标注数据的依赖,实用性强。短板:整个流水线(特别是匹配追求部分)对预设的音节检测阈值和模板质量非常敏感,论文在复杂噪声环境下的表现讨论不足,更像一个优雅的“工程流水线”而非一个可学习的、具有强泛化能力的模型。 ...

2026-04-29

Learning Domain-Robust Bioacoustic Representations for Mosquito Species Classification with Contrastive Learning and Distribution Alignment

📄 Learning Domain-Robust Bioacoustic Representations for Mosquito Species Classification with Contrastive Learning and Distribution Alignment #生物声学 #对比学习 #领域适应 #音频分类 ✅ 7.5/10 | 前25% | #生物声学 | #对比学习 | #领域适应 #音频分类 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yuanbo Hou(University of Oxford, UK) 通讯作者:Yuanbo Hou(Yuanbo.Hou@eng.ox.ac.uk, University of Oxford, UK) 作者列表:Yuanbo Hou(University of Oxford, UK)、Zhaoyi Liu(KU Leuven, Belgium)、Xin Shen(University of Oxford, UK)、Stephen Roberts(University of Oxford, UK) 💡 毒舌点评 亮点在于针对生物声学数据的特性(物种间声学特征相似、域间差异大)设计了包含对比学习和条件分布对齐的多损失函数框架,消融实验设计合理。短板是方法的理论分析部分较弱,更多是现象驱动;实验中的“非严格留一域外评估”设计是一个明显妥协,削弱了“跨域泛化”这一核心主张的证明力度。 ...

2026-04-29

Multi-Layer Attentive Probing Improves Transfer of Audio Representations for Bioacoustics

📄 Multi-Layer Attentive Probing Improves Transfer of Audio Representations for Bioacoustics #生物声学 #自监督学习 #迁移学习 #基准测试 #模型评估 ✅ 7.5/10 | 前25% | #生物声学 | #自监督学习 #迁移学习 | #自监督学习 #迁移学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文按作者列表排序,未明确标注第一作者) 通讯作者:未说明(论文未明确标注通讯作者) 作者列表:Marius Miron, David Robinson, Masato Hagiwara, Titouan Parcollet, Jules Cauzinille, Gagan Narula, Milad Alizadeh, Ellen Gilsenan-McMahon, Sara Keen, Emmanuel Chemla, Benjamin Hoffman, Maddie Cusimano, Diane Kim, Felix Effenberger, Jane K. Lawton, Aza Raskin, Olivier Pietquin, Matthieu Geist (均来自Earth Species Project) 💡 毒舌点评 论文系统性地揭示了在生物声学任务中,简单的线性探针会系统性低估优秀编码器的能力,这为改进该领域的模型评估标准提供了有力证据。然而,研究主要集中在对已有模型的“再评估”,而非提出新的编码器或解决更具挑战性的任务,创新维度略显单一。 ...

2026-04-29

Multi-Scale Physiologically-Motivated Alignment for Auditory Attention Decoding

📄 Multi-Scale Physiologically-Motivated Alignment for Auditory Attention Decoding #生物声学 #对比学习 #自监督学习 #跨模态 #信号处理 ✅ 7.5/10 | 前25% | #听觉注意力解码 | #对比学习 | #生物声学 #自监督学习 学术质量 6.0/7 | 选题价值 3.0/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Yuxuan Ma(华东师范大学计算机科学与技术学院, 丹麦技术大学) 通讯作者:Jun Xue(武汉大学网络空间安全学院); Jinqiu Sang(华东师范大学计算机科学与技术学院) 作者列表: Yuxuan Ma†(华东师范大学计算机科学与技术学院, 丹麦技术大学) Xiaoke Yang†(安徽大学计算机科学与技术学院) Tongxi Chen(丹麦技术大学) Jun Xue*(武汉大学网络空间安全学院) Jinqiu Sang*(华东师范大学计算机科学与技术学院) (注:†表示共同第一作者,*表示通讯作者) 💡 毒舌点评 这篇论文的最大亮点在于其清晰的问题定义和巧妙的解决方案——它没有追求复杂的模型架构,而是精准地抓住了“EEG响应相对于声音刺激存在生理延迟”这个关键点,并设计了一个仅在训练时生效、推理零开销的多尺度对齐模块。然而,其短板也同样明显:这个模块本质上是一个训练技巧,它依赖于现有的对比学习框架,并且其优越性仅在单一数据集(SparrKULee)的单一任务上得到验证,在更广泛的跨被试、跨范式场景下的鲁棒性有待考察。 📌 核心摘要 要解决什么问题:现有的听觉注意力解码(AAD)匹配-不匹配范式方法普遍假设神经响应与声学流在时间上严格对齐,但事实上,由于神经处理延迟,EEG信号会滞后于听觉刺激。现有方法要么使用固定的手动延迟,要么只能隐式容忍这种错位,这在短时决策窗口下尤其影响性能。 方法核心是什么:本文提出一个多尺度生理动机时间对齐模块。该模块利用大脑分层处理语音的神经科学证据(音素、音节、词汇、语义等不同时间尺度),使用带带宽约束的Soft-DTW在四个时间尺度上计算EEG和语音特征之间的可微对齐损失,并通过学习自适应的权重融合这些损失,作为对比学习目标的辅助损失。该模块仅在训练时使用。 与已有方法相比新在哪里: 首次引入生理学动机:将音素(40ms)、音节(250ms)等明确的生理时间常数编码到对齐损失中,而非依赖固定偏移或隐式学习。 可微的多尺度对齐:结合Soft-DTW和Sakoe-Chiba带宽约束,提供了一种可端到端优化的、多层次时间对齐目标。 自适应融合与零推理开销:通过可学习权重自动平衡不同尺度的贡献,避免人工调参;且模块仅在训练时参与计算。 主要实验结果如何:在SparrKULee数据集上,本方法达到了SOTA性能。表1(3秒窗口) 显示总准确率为87.61%,优于此前最佳的HERMES(87.19%);表2(1秒窗口) 显示总准确率为73.52%,比HERMES(69.67%)高出3.85个百分点,优势更显著。消融实验证明,去除多尺度设计后,准确率下降0.4个百分点(至87.21%)。 ...

2026-04-29

Random Matrix-Driven Graph Representation Learning For Bioacoustic Recognition

📄 Random Matrix-Driven Graph Representation Learning For Bioacoustic Recognition #生物声学 #图表示学习 #时频分析 #鲁棒性 #数据集 ✅ 7.5/10 | 前25% | #生物声学 | #图表示学习 | #时频分析 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Biaohang Yuan(西藏大学, 拉萨) 通讯作者:Jiangzhao Wang(湖南大学, 长沙) 作者列表:Biaohang Yuan(西藏大学), Jiangzhao Wang(湖南大学), YuKai Hao(武汉理工大学), Ruzhen Chen(西藏大学), Yan Zhou(北京理工大学, 珠海) 💡 毒舌点评 这篇论文的亮点在于巧妙地将随机矩阵理论融入图神经网络的构建过程,为处理低资源生物声学信号中的时频特征关联提供了一个有数学理论支撑的新颖视角,特别是通过可学习缩放因子α和超图结构来动态建模复杂谐波关系,立意很高。然而,短板在于其核心方法的“新颖性”更多体现在框架的复杂拼接上,对于随机矩阵理论如何具体且关键地提升了模型性能(而非仅作为理论背书)的阐述略显薄弱,且实验部分对训练细节的吝啬披露,让其宣称的优越性能打了折扣,复现门槛极高。 📌 核心摘要 问题:生态声学监测依赖生物声学识别,但面临训练数据稀缺、类别不平衡以及复杂声景中信号易受干扰等挑战,导致现有模型性能受限。 方法核心:提出了随机矩阵驱动的图表示学习框架(RM-GRL)。该框架首先将三通道梅尔频谱图(Log-Mel, Delta, Delta-Delta)视为时频图,并利用随机矩阵理论指导图结构的构建,引入一个可学习的缩放因子α来动态调整跨通道权重。它结合了普通图和超图结构,其中超边连接同一谐波成分内的时频节点。 创新点:与传统方法相比,新在:a) 将随机矩阵理论与图表示学习结合,通过低秩投影和JL引理保证特征投影的距离保持性;b) 构建时频超图以显式建模谐波结构;c) 在图卷积网络中引入Lipschitz常数约束和对抗扰动以增强局部判别特征;d) 采用ADD损失函数优化嵌入空间。 实验结果:在Birdsdata和牛蛙叫声数据集上进行评估。实验设置了四组不平衡正负样本比例(1:1至1:4)。结果显示,该模型在精确率-召回率曲线(图3)上始终优于MFTE、GraFPrint、BirdNET和METAAUDIO四个基线。在ROC-AUC评估中,对21种生物声音均达到0.8以上(图4)。消融研究表明,随机矩阵驱动投影模块贡献最大(+2.3%),其次是超图构建(+1.5%)。在F1分数对比中,该方法在大多数物种上表现最佳(图5b)。 实际意义:该工作为低资源、高噪声环境下的生物声学识别提供了一种新的图神经网络建模范式,有助于提升生态监测的自动化水平。 主要局限性:论文未提供代码、模型权重和关键训练超参数(如学习率、批次大小、具体网络层数/维度),可复现性差;对随机矩阵理论在模型中发挥具体作用的理论分析相对表面,更多依赖引理陈述;实验仅在两个自述数据集上进行,缺乏更广泛的验证。 🏗️ 模型架构 RM-GRL框架的整体架构如图1所示,主要包含三个阶段:时频图构建、基于随机矩阵的动态图学习、以及图神经网络编码与分类。 ...

2026-04-29

Representation-Diverse Self-Supervision for Cross-Domain Bioacoustic Learning in Low-Resource Settings

📄 Representation-Diverse Self-Supervision for Cross-Domain Bioacoustic Learning in Low-Resource Settings #生物声学 #对比学习 #自监督学习 #迁移学习 #低资源 ✅ 7.0/10 | 前25% | #生物声学 | #对比学习 | #自监督学习 #迁移学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dimitris N. Makropoulos(HERON - Hellenic Robotics Center of Excellence; 国家技术大学雅典分校电气与计算机工程学院;雅典研究中心机器人研究所;希腊海洋研究中心海洋学研究所) 通讯作者:未说明(论文未明确标注) 作者列表:Dimitris N. Makropoulos(同上),Christos Garoufis(HERON; 国家技术大学雅典分校; 雅典研究中心),Antigoni Tsiami(雅典研究中心),Panagiotis P. Filntisis(HERON; 雅典研究中心),Petros Maragos(HERON; 国家技术大学雅典分校; 雅典研究中心) 💡 毒舌点评 亮点:其核心想法——让模型学习同一段海豚叫声的两种不同“画像”(频谱图与能量图)之间的联系——非常巧妙,不仅有效利用了信号本身的物理特性,还意外地在完全不同的鸟类叫声识别任务上取得了优异效果,展现了生物声学中“调制模式”跨物种共享的有趣洞察。短板:实验验证的“跨域”跨度仅限于海豚与鸟类,且数据集规模偏小(预训练仅15类海豚),论文未提供代码开源计划或预训练模型,极大地限制了其作为通用生物声学预训练方法的即时可用性和影响力。 📌 核心摘要 解决的问题:在低资源生物声学领域,跨物种、跨数据集的迁移学习面临挑战,因为不同物种的发声信号虽有共性(如频率调制),但数据分布差异大。传统自监督学习(如SimCLR)依赖数据增强,可能未充分利用信号本身的多种物理表示。 方法核心:提出一种“表示多样性”的对比自监督学习框架。在预训练阶段,模型(ResNet18, MobileNetV2, ViT-B/16)学习区分同一段海豚叫声的频谱图和由Teager-Kaiser能量算子(TKEO)派生的能量图。这两种表示分别捕捉信号的功率谱密度和瞬时能量-调制特性。之后,将预训练好的编码器在鸟类叫声数据集上进行微调。 与已有方法的新颖之处:不同于SimCLR对同一表示进行随机数据增强,也不同于跨模态学习(如音频-文本),本方法首次利用同一信号的不同物理/数学表示(频谱图 vs. 能量图)构建正样本对进行对比学习。这种跨表示对比迫使模型学习更本质的、跨表示不变的声学特征。 主要实验结果: 在RFCx和BirdCLEF两个鸟类叫声数据集上,所有模型架构(ResNet18, MobileNetV2, ViT)均显示,从监督学习到SimCLR,再到对比不同窗口频谱图,最后到对比“频谱图-能量图”,性能持续提升。最佳配置(对比频谱图与离散TKEO能量图)显著优于监督基线和SimCLR。 模型 RFCx (加权F1) BirdCLEF (加权F1) ResNet18 82.38 ± 1.51% (最佳) 73.72 ± 0.40% (最佳) MobileNetV2 77.95 ± 1.12% 67.40 ± 0.68% ViT-B/16 82.10 ± 1.31% 68.12 ± 0.67% 表1:不同模型在最佳配置(对比频谱图与离散TKEO能量图)下的加权F1分数对比(数据来源于论文Table 1) 论文图2展示了虎鲸和旋转海豚的能量图与频谱图对比,直观显示了能量图对调制结构的增强效果。 实际意义:为低资源生物声学监测提供了一种有效的预训练策略。通过利用海豚叫声数据(可能相对易获取)预训练,能够提升鸟类(或其他物种)叫声分类的性能,有助于生态保护和生物多样性监测。 主要局限性:预训练数据(海豚)和下游任务数据(鸟类)虽然都包含调制成分,但物种差异巨大,框架的泛化能力到更多类群(如昆虫、蛙类)未被验证。数据集规模较小(预训练15类,下游测试集每类50-250样本),在大规模实际场景中的鲁棒性未知。论文未提供代码和预训练模型。 🏗️ 模型架构 本文提出的管道架构分为三个阶段(见论文图3): ...

2026-04-29