生物声学 | 语音/音乐/音频论文速递

AVEX: What Matters for Animal Vocalization Encoding

📄 AVEX: What Matters for Animal Vocalization Encoding #生物声学 #预训练 #自监督学习 #模型比较 #基准测试 ✅ 7.0/10 | 前25% | #生物声学 | #预训练 | #自监督学习 #模型比较学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Marius Miron（Earth Species Project），David Robinson（Earth Species Project）（共同贡献）通讯作者：Marius Miron, David Robinson（Earth Species Project）作者列表：Marius Miron（Earth Species Project），David Robinson（Earth Species Project），Milad Alizadeh（Earth Species Project），Ellen Gilsenan-McMahon（Earth Species Project），Gagan Narula（Earth Species Project），Emmanuel Chemla（Earth Species Project），Maddie Cusimano（Earth Species Project），Felix Effenberger（Earth Species Project），Masato Hagiwara（Earth Species Project），Benjamin Hoffman（Earth Species Project），Sara Keen（Earth Species Project），Diane Kim（Earth Species Project），Jane Lawton（Earth Species Project），Jen-Yu Liu（Earth Species Project），Aza Raskin（Earth Species Project），Olivier Pietquin（Earth Species Project），Matthieu Geist（Earth Species Project）。 💡 毒舌点评亮点在于实验设计极其严谨和全面，如同为生物声学编码器领域做了一次“高考”，系统性地比较了各种技术路线，得出了可操作的“最优训练配方”。短板在于，其核心贡献是实证结论而非提出一种全新的、具有独创性的模型架构，更像是一个高质量的“工程最佳实践”指南。 ...

From Birdsong to Rumbles: Classifying Elephant Calls with Out-of-Species Embeddings

📄 From Birdsong to Rumbles: Classifying Elephant Calls with Out-of-Species Embeddings #音频分类 #生物声学 #迁移学习 #预训练 #低资源 ✅ 6.5/10 | 前50% | #音频分类 | #迁移学习 | #生物声学 #预训练 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Christiaan M. Geldenhuys（南非斯泰伦博斯大学电气与电子工程系）通讯作者：Thomas R. Niesler（南非斯泰伦博斯大学电气与电子工程系）作者列表：Christiaan M. Geldenhuys（南非斯泰伦博斯大学电气与电子工程系）、Thomas R. Niesler（南非斯泰伦博斯大学电气与电子工程系） 💡 毒舌点评亮点：这是一篇异常扎实的“系统性比较”论文，像一份详尽的调研报告，将二十多种预训练音频嵌入模型在大象叫声分类上测了个遍，实验规模和对比维度令人印象深刻。短板：其核心贡献是“验证了一个大家觉得大概率可行的想法”（即预训练嵌入能跨物种迁移），而非提出新架构或新范式；且由于最强模型（Perch 2.0）的训练数据可能包含大象录音，严格意义上的“跨物种”结论打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中未提及数据集获取链接。 Demo：论文中未提及。复现材料：论文附录A提供了完整的实验结果表格（Table 3），但论文中未提及训练配置、检查点等具体复现材料。论文中引用的开源项目： Xeno-canto：鸟类声音数据库，用于BirdNET和Perch 1.0等模型的训练。链接：https://xeno-canto.org/ Macaulay Library of Natural Sounds：康奈尔鸟类学实验室的自然声音库。链接：https://search.macaulaylibrary.org/ AudioSet：由Google维护的音频事件数据集，用于VGGish、BEATs等模型的预训练。链接：https://research.google.com/audioset/ LibriSpeech ASR：用于wav2vec 2.0和HuBERT预训练的语音数据集。链接：https://www.openslr.org/12 FSD50k：音频事件检测数据集，用于AVES和Perch 2.0的训练。链接：https://zenodo.org/record/4060432 VGGSound：视听数据集，用于AVES的训练。链接：https://www.robots.ox.ac.uk/~vgg/data/vggsound/ iNaturalist：自然观察平台，用于Perch 2.0的训练。链接：https://www.inaturalist.org/ Tierstimmenarchiv：德国的动物声音档案馆，用于Perch 2.0的训练。链接：https://www.tierstimmenarchiv.de/ MeerKAT数据集：用于animal2vec预训练的猫鼬叫声数据集。链接：https://zenodo.org/record/3834810 LDC：语言数据联盟，托管本研究中使用的亚洲象数据集。链接：https://www.ldc.upenn.edu/ Hugging Face：多个预训练模型权重的官方托管平台。链接：https://huggingface.co/ BEATs：预训练音频嵌入模型。相关论文与代码：https://arxiv.org/abs/2112.06607；代码仓库：https://github.com/microsoft/unilm/tree/master/beats wav2vec 2.0：自监督语音表示学习模型。相关论文与代码：https://arxiv.org/abs/2006.11477；代码仓库：https://github.com/facebookresearch/wav2vec2 HuBERT：自监督语音表示学习模型。相关论文与代码：https://arxiv.org/abs/2106.07447；代码仓库：https://github.com/facebookresearch/hubert XLS-R：多语言语音表示学习模型。相关论文与代码：https://arxiv.org/abs/2111.09296；代码仓库：https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec/xls_r BirdNET：鸟类声音识别模型。链接：https://birdnet.cornell.edu/；代码仓库：https://github.com/kahst/BirdNET-Analyzer Perch 1.0：鸟类声音嵌入模型。代码仓库：https://github.com/google-research/perch Perch 2.0：多物种声音嵌入模型。代码仓库：https://github.com/google-research/perch AVES：动物声音嵌入模型。代码仓库：https://github.com/earthspecies-project/aves BirdAVES：鸟类声音嵌入模型。代码仓库：https://github.com/earthspecies-project/aves animal2vec：动物声音嵌入模型。代码仓库：https://github.com/google-research/google-research/tree/master/animal2vec 补充信息 [细节详述] 补充：论文明确说明批次大小未具体说明，训练硬件也未提及（原文：“The batch size is not specified.” “The training hardware is not stated.”）。这属于关键训练细节的缺失。 [细节详述] 补充：在模型架构部分，论文对各嵌入模型的预训练数据集有更详细的说明与对比。例如： Perch 2.0：其训练数据包含来自Tierstimmenarchiv和iNaturalist的录音，这两个数据源可能包含大象录音。论文作者手动验证了评测数据未出现在公开可访问的源语料库中，但无法确定Perch 2.0的完整训练集。这直接影响了对其“跨物种”结论的纯粹性评估。 Speech Models：论文明确指出，XLS-R 在LDC数据集上优于wav2vec2.0，归因于其在更大、更多样化的多语言语音数据集上预训练，而wav2vec2.0和HuBERT在LibriSpeech（高质量、近录音棚条件）上预训练，与野外录音环境不匹配。论文推测，wav2vec2.0使用的量化码本目标可能使其产生的表示对非语音信号的信息量较少。 [实验结果] 补充：论文在讨论部分（Section 7）明确指出，AERD在mAP指标上相比最佳嵌入模型具有更明显的优势。例如，在LDC数据集上，AERD的AP曲线在大部分召回率范围内都位于嵌入模型之上，AP差距约为0.18。这一观察解释了为何AUC接近而mAP差距较大的现象，并强调了不同评估指标的重要性。 [评分理由] 补充：论文自我声明的局限性（Section 8）除了已提及的“缺乏细粒度呼叫标注”和“未开源”外，还包括：“缺乏上下文信息（环境、社会背景、时间模式），这些信息可能提升下游性能和生态相关性。” [核心摘要/评分理由] 补充：论文在引言和结论中强调了实际应用场景与权衡。例如，指出预训练嵌入分类器在需要高精度、允许一定召回率损失的场景下（如人工审核初筛、存在-不存在调查、人象冲突早期预警）可能优于端到端微调模型，因为后者可能产生更多假警报，影响社区信任。这是对选题价值（1.0分）的补充，表明其应用不仅在于“即插即用”，还涉及特定部署场景下的性能权衡。 [创新点] 补充：论文的层分析（Section 6.2）设计动机明确包含实际部署考量：如果中间层表征足以进行分类，则只需保留预训练模型的一小部分参数（如wav2vec2.0和HuBERT的第二层，仅占全网络约10%的参数），从而满足远程保护环境中计算资源有限的设备端处理需求。分析中已提及此结论，但未明确其“设计动机”部分。 📌 核心摘要本文研究了在数据稀缺的生物声学领域，能否利用在非目标物种或非生物声学领域预训练的音频嵌入模型，无需微调即可有效分类大象叫声。方法核心：采用“固定嵌入+轻量分类器”范式。研究者从通用音频（VGGish， BEATs）、语音（wav2vec2.0， HuBERT， XLS-R）和生物声学（Perch， BirdNET等）领域的预训练模型中提取固定声学嵌入向量，并在其上训练逻辑回归、多层感知机（MLP）、循环神经网络（RNN/GRU/LSTM）等轻量级监督分类器。与已有方法的新颖之处：这是首次对如此广泛的预训练模型（特别是语音Transformer）在大象叫声分类任务上进行全面、系统的跨物种迁移学习评估。它严格评估了“域外”和“跨物种”嵌入的有效性，并提供了详细的层分析。主要实验结果：在非洲 bush 大象（EV数据集）和亚洲大象（LDC数据集）的呼叫分类任务上，不微调的预训练嵌入性能可接近从头训练的端到端监督模型（AERD）。最佳模型Perch 2.0在EV数据集上AUC达0.849，在LDC数据集上AUC达0.935，与AERD的差距在2.2个百分点以内。严格意义上的“跨物种”模型Perch 1.0表现也很强。层分析发现，对于语音Transformer模型（如wav2vec2.0），中间层（如第2层）表征就能取得有竞争力的性能，意味着模型可大幅压缩。主要实验结果表格见下： ...

ICLR 2026 - 生物声学论文列表

ICLR 2026 - 生物声学共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 AVEX: What Matters for Animal Vocalization Encoding 7.0分前25% 📋 论文详情 🥇 AVEX: What Matters for Animal Vocalization Encoding ✅ 7.0/10 | 前25% | #生物声学 | #预训练 | #自监督学习 #模型比较 👥 作者与机构第一作者：Marius Miron（Earth Species Project），David Robinson（Earth Species Project）（共同贡献）通讯作者：Marius Miron, David Robinson（Earth Species Project）作者列表：Marius Miron（Earth Species Project），David Robinson（Earth Species Project），Milad Alizadeh（Earth Species Project），Ellen Gilsenan-McMahon（Earth Species Project），Gagan Narula（Earth Species Project），Emmanuel Chemla（Earth Species Project），Maddie Cusimano（Earth Species Project），Felix Effenberger（Earth Species Project），Masato Hagiwara（Earth Species Project），Benjamin Hoffman（Earth Species Project），Sara Keen（Earth Species Project），Diane Kim（Earth Species Project），Jane Lawton（Earth Species Project），Jen-Yu Liu（Earth Species Project），Aza Raskin（Earth Species Project），Olivier Pietquin（Earth Species Project），Matthieu Geist（Earth Species Project）。 💡 毒舌点评 ...

Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #多模态模型 #流匹配 #数据增强 #生物声学 🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #流匹配 #数据增强学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Pengfei Zhang (香港科技大学（广州）) 通讯作者：Li Liu (香港科技大学（广州）， avrillliu@hkust-gz.edu.cn) 作者列表：Pengfei ZHANG (香港科技大学（广州）)， Tianxin Xie (香港科技大学（广州）)， Minghao Yang (香港科技大学（广州）)， Li Liu* (香港科技大学（广州）) 💡 毒舌点评亮点：这篇论文最漂亮的地方在于它提出了一个“分析-生成”闭环的智能体系统，用LLM（Thinker-A2CA）动态决定“合成什么”来弥补诊断器的短板，把数据增强从一个被动的预处理步骤变成了主动的、对抗性的课程学习，这个系统设计思想很有启发性。短板：不过，整个系统有点像个精心组装的乐高，依赖多个重型组件（LLM， BEATs， Longformer，流匹配模型），对于呼吸音这个相对垂直的应用场景，其工程复杂度和算力需求是否与性能增益完全匹配，值得商榷。另外，生成的“合成临床音频”虽然用于训练有效，但缺乏真实生理细节的验证，其临床保真度仍需医生在严格双盲测试中评判。 📌 核心摘要要解决的问题：深度学习在呼吸音分析中面临两大挑战：一是将音频信号转为频谱图会导致瞬态事件（如啰音）的信息损失；二是缺乏大规模、高质量的多模态（音频+临床文本）标注数据，且存在严重的类别不平衡。方法核心：提出Resp-Agent，一个由中央控制器（Thinker-A2CA）编排的多智能体闭环系统。该系统能主动分析诊断器的弱点，并调度生成器进行针对性合成，从而将诊断与生成任务统一。诊断器采用“模态编织”将文本与音频token融合，并用稀疏音频锚点捕捉瞬态事件；生成器采用两阶段设计，先用LLM在文本诊断和参考音频风格条件下生成离散音频单元，再用流匹配解码器重建波形。新在何处：1) 系统范式：首次将呼吸音的分析（诊断）和生成整合到一个由LLM驱动的闭环智能体框架中。2) 诊断器架构：提出基于稀疏全局注意力的“模态编织”和“音频锚点”机制，实现高效且精细的文本-音频跨模态对齐。3) 生成器设计：将文本LLM改造为可控的多模态音频单元生成器，并采用流匹配进行波形重建。4) 基准数据：构建并开源了首个大规模、多来源、跨机构的多模态呼吸音基准Resp-229k（22.9万条记录）。主要实验结果：在ICBHI基准上，Resp-Agent的诊断性能（ICBHI Score 72.7%）超越先前最佳音频模型超过5个百分点。在自建的跨机构Resp-229k基准上，使用Thinker指导合成的平衡数据后，多模态诊断器的宏观F1从0.212大幅提升至0.598，证实了闭环生成策略的有效性。生成器在可控性（风格/内容解耦）和保真度（FAD 1.13）上也优于强基线（如微调的StableAudio Open）。关键实验结果见下表：模型/方法数据集指标原始（不平衡）平衡后诊断器对比 Conformer (音频基线) Resp-229k Test-CD Macro-F1 0.1935 0.5360 Resp-Agent Diagnoser (Ours) Resp-229k Test-CD Macro-F1 0.2118 0.5980 生成器策略对比 No-Synth (基线) Resp-229k Test-CD Macro-F1 0.212 - Class-Prior Rebalancing Resp-229k Test-CD Macro-F1 - 0.512 Thinker-A2CA (Ours) Resp-229k Test-CD Macro-F1 - 0.598 生成器音频保真度对比 StableAudio Open (微调) 个体化重建 FAD ↓ 1.54 - Resp-Agent Generator (Ours) 个体化重建 FAD ↓ 1.13 - 实际意义：为数据稀缺且不平衡的医疗音频分析提供了一种强大的范式，即通过智能体驱动的闭环生成来主动构建更鲁棒的模型。开源的Resp-229k基准和代码将加速呼吸音领域的多模态研究。主要局限性：1) 系统复杂度高，涉及多个大模型的训练与协调。2) 生成的合成音频虽用于训练有效，但其真实性和临床细节（如相位、微结构）仍需更严格的评估。3) 评估主要集中在诊断性能，对生成音频的直接临床效用（如用于教学或模拟）验证不足。 🏗️ 模型架构 Resp-Agent是一个由中央控制器协调的多智能体系统，包含三个核心模块：Thinker（规划者）、Generator（生成器）和 Diagnoser（诊断器），形成一个“诊断->发现问题->指导合成->改进诊断”的闭环。 ...

AVEX: What Matters for Animal Vocalization Encoding

📄 AVEX: What Matters for Animal Vocalization Encoding #生物声学 #自监督学习 #预训练 #模型评估 #基准测试 ✅ 7.5/10 | 前25% | #生物声学 | #自监督学习 | #预训练 #模型评估学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Marius Miron（Earth Species Project）, David Robinson（Earth Species Project）通讯作者：Marius Miron（{marius}@earthspecies.org）， David Robinson（{david}@earthspecies.org）作者列表：Marius Miron†⋆（Earth Species Project）， David Robinson†⋆（Earth Species Project）， Milad Alizadeh†（Earth Species Project）， Ellen Gilsenan-McMahon†（Earth Species Project）， Gagan Narula†（Earth Species Project）， Emmanuel Chemla（Earth Species Project）， Maddie Cusimano（Earth Species Project）， Felix Effenberger（Earth Species Project）， Masato Hagiwara（Earth Species Project）， Benjamin Hoffman（Earth Species Project）， Sara Keen（Earth Species Project）， Diane Kim（Earth Species Project）， Jane Lawton（Earth Species Project）， Jen-Yu Liu（Earth Species Project）， Aza Raskin（Earth Species Project）， Olivier Pietquin†‡（Earth Species Project）， Matthieu Geist†‡（Earth Species Project）（†核心作者，⋆共同第一作者及通讯作者，‡共同资深作者） 💡 毒舌点评亮点：这是一次教科书级别的、规模空前的“声学表征学习”工程实验，系统性地拆解并回答了“训练一个好用的通用动物声音编码器到底需要什么”这一实际问题，其结论（自监督预训练+监督微调+混合数据）清晰、可靠且实用，配套的开源工具链极大降低了该领域的入门门槛。短板：论文的“创新”更多体现在工程实践和经验总结层面，缺乏一个令人眼前一亮的、能驱动新方向的理论洞见或算法设计；其评估虽广，但数据集的“偏见”（如鸟类数据占主导）是否被完全克服仍存疑，对“真正全新物种”的泛化能力验证可能不够充分。 ...

Beyond the Baseband: Adaptive Multi-Band Encoding for Full-Spectrum Bioacoustics Classification

📄 Beyond the Baseband: Adaptive Multi-Band Encoding for Full-Spectrum Bioacoustics Classification #生物声学 #音频分类 #迁移学习 #多频带编码 #信号处理 ✅ 7.0/10 | 前25% | #生物声学 | #多频带编码 | #音频分类 #迁移学习 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Eklavya Sarkar（论文中未说明其所属机构，仅注明为通信作者邮箱eklavya@earthspecies.org对应机构）通讯作者：eklavya@earthspecies.org（根据脚注，对应机构为Earth Species Project）作者列表：Eklavya Sarkar（Earth Species Project，未明确说明）、Marius Miron（未说明）、David Robinson（未说明）、Gagan Narula（未说明）、Milad Alizadeh（未说明）、Ellen Gilsenan-McMahon（未说明）、Felix Effenberger（未说明）、Emmanuel Chemla（未说明）、Olivier Pietquin（未说明）、Matthieu Geist（未说明）。注：论文全文及脚注仅提供了通信作者的邮箱和对应机构线索，其他所有作者的具体所属机构（大学、实验室、公司）在提供的论文文本中均未明确说明。 💡 毒舌点评这篇论文像一位细心的工程师，为现有的“近视”语音大模型配上了“多焦镜头”（多频带处理），让它们能看清蝙蝠的高频叫声，实验也做得相当扎实，横跨了八个模型和三个数据集。不过，其核心思路（频带分解再融合）在语音处理领域已是老生常谈，更像是一次精彩的“领域适配”而非“原理创新”，且部分融合策略在某些任务上效果拔得有点离谱，暗示其方案并非放之四海而皆准。 🔗 开源详情代码：https://github.com/earthspecies/multiband-audio 模型权重：论文中未提及具体的模型权重下载链接（如HuggingFace/ModelScope链接）。数据集：论文中使用了三个数据集（Dogs, CBI, Bats），它们属于BEANS基准，但未提供独立的数据集下载链接。论文中未提及。 Demo：论文中未提及。复现材料：论文中未提及训练配置、检查点等具体的复现材料。论文中引用的开源项目： BEANS: 这是一个用于评估生物声学模型的基准框架。论文引用了该基准，但未提供其具体的代码仓库链接。 EfficientNet: 这是一个预训练的CNN模型架构。论文使用了其变体（EffNet-Bio, EffNet-AS, EffNet-All），但这些特定变体的模型权重链接未在论文中提供。 BEATs: 这是一个基于SSL预训练的模型。论文使用了其变体（BEATs-Bio, BEATs-All, BEATs-NLM），但这些特定变体的模型权重链接未在论文中提供。 EATs: 这是一个基于SSL预训练的模型。论文使用了其变体（EATs-All, EATs-Bio），但这些特定变体的模型权重链接未在论文中提供。 BirdNET: 这是一个专门为鸟类声音分类设计的48 kHz模型。论文中使用了它，但未提供其模型权重的直接获取链接。 Nature-LM 音频的BEATS编码器: 论文提及了此模型，但未提供其具体的开源代码或权重链接。 *（注：论文中引用了所有上述项目，但除了本文提供的代码仓库外，均未在论文正文中给出可访问的代码仓库或权重下载的具体URL。）补充信息 [核心摘要] 补充：论文在引言部分明确提出了驱动本研究的两个核心问题（原文：we investigate the following two central questions）：1) 多频带表征能否有效利用生物声学叫声中未使用的高频信息，并优于常规的基带和时间扩展方法？2) 该方法与简单使用更高采样率模型（如48kHz的BirdNET）的基带相比如何？当应用于此类高采样率模型时，是否能带来额外增益？这是理解论文研究动机的关键。 [模型架构] 补充：在频带分解阶段，计算子带数量B的具体公式为 B = ceil(f_s / f_m)，其中 f_s 为输入信号的采样率，f_m 为模型的采样率。第一个子带（0–f_m/2 Hz）直接对应于模型的基带，论文明确指出“无需进一步处理”（原文：The first band corresponds to the standard baseband, and is not further processed）。 [细节详述] 补充：训练策略中，线性分类头的训练时长为20个epochs（原文：using a linear head trained for 20 epochs）。这是论文中明确提及的一个训练超参数。 [评分理由] 补充：论文自我声明的局限性包括：1) 方法的有效性高度依赖于预训练编码器能否产生解耦的频带嵌入（如EffNet能，EATs不能）；2) 对于需要极高带宽的物种（如蝙蝠），该方法未必能超越简单的时间扩展（原文：for species requiring extremely high bandwidth, like bats, this method may not surpass simple time-expansion）。这一局限性解释了在Bats数据集上时间扩展（TE）方法性能更优的现象，是论文实验结果和讨论中的重要结论。 📌 核心摘要问题：当前主流的音频基础模型（如BEATs, EATs）通常基于16kHz采样率预训练，其可用带宽被限制在0-8kHz，丢失了大量生物声学信号（如蝙蝠、昆虫、海洋哺乳动物叫声）中至关重要的高频（超声波）信息。 ...

A Metric Learning Approach to Heart Murmur Detection from Phonocardiogram Recordings

📄 A Metric Learning Approach to Heart Murmur Detection from Phonocardiogram Recordings #音频分类 #对比学习 #数据增强 #生物声学 #监督学习 ✅ 7.7/10 | 前25% | #音频分类 | #对比学习 | #数据增强 #生物声学学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Florian Lübbe（Fraunhofer Institute for Software and Systems Engineering ISST；University of Hildesheim Department of Data Science）通讯作者：未说明作者列表：Florian Lübbe（Fraunhofer ISST & University of Hildesheim）、Ahmad Bdeir（University of Hildesheim Department of Data Science）、Niels Landwehr（University of Hildesheim Department of Data Science）、Pinar Bisgin（University of Hildesheim Department of Data Science & TU Dortmund University Department of Computer Science） 💡 毒舌点评亮点在于系统性地验证了度量学习范式在心音分析不同任务（二分类、多分类、多标签）上的有效性，且在噪声更小的BMD-HS数据集上取得了高达18%的性能飞跃，证明了方法的潜力。短板则是对“多标签”场景的处理相对简单，仅将其视为一种分类任务，未能更深入地利用疾病（如主动脉瓣狭窄与反流）之间可能存在的生理关联性来设计更精巧的损失函数或网络结构。 ...

AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference

📄 AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference #音频分类 #对比学习 #多模态模型 #数据集 #生物声学 🔥 8.0/10 | 前25% | #音频分类 | #对比学习 | #多模态模型 #数据集学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Risa Shinoda（大阪大学 & 东京大学）通讯作者：未说明作者列表：Risa Shinoda（大阪大学 & 东京大学）、Kaede Shiohara（东京大学）、Nakamasa Inoue（东京科学大学）、Hiroaki Santo（大阪大学）、Fumio Okura（大阪大学） 💡 毒舌点评亮点：论文创新性地将生物学分类学层次结构融入音频-文本预训练范式，并构建了一个包含丰富生态特征的大规模动物声音数据集，为解决生态监测中“未见物种”识别这一实际难题提供了系统性的框架和宝贵的基准。短板：模型架构本身是CLAP的直接应用，技术上的新颖性有限；同时，对于“分类学结构”如何具体影响模型内部表征（例如，文本编码器如何理解层次关系）的机理解释和可视化分析可以更深入。 🔗 开源详情代码：论文承诺提供代码仓库链接（https://github.com/dahlian00/AnimalCLAP），但当前链接有效性未验证。模型权重：论文承诺将公开模型权重。数据集：论文承诺公开AnimalCLAP数据集，并会提供原始音频的URL以确保遵循相应的Creative Commons许可。 Demo：未提及。复现材料：提供了模型架构描述、关键训练参数（如学习率、优化器、epoch数）和文本模板示例，但未提供完整的超参数配置、数据增强代码、硬件要求等。引用的开源项目：模型构建依赖了CLAP框架，使用了HTS-AT音频编码器和RoBERTa文本编码器，并应用了CLIP对比损失。 📌 核心摘要问题：传统动物声音识别模型在训练时未见过的物种上性能急剧下降，这在物种繁多、数据稀缺的生物多样性监测领域是一个核心挑战。同时，从声音直接推断动物生态特征（如栖息地、食性）的研究尚未在音频-文本学习框架中被充分探索。方法核心：提出AnimalCLAP框架，其核心是分类学感知的音频-文本预训练。具体包括两方面：(1) 构建一个大规模、标注了物种分类学信息和22种生态特征的动物声音数据集；(2) 在训练时，将物种标签（学名、俗名、分类序列）通过多种文本模板增强，并明确使用有序的分类序列（纲→目→科→属→种）作为文本输入，以监督音频和文本编码器学习对齐，并内化生物层次知识。创新之处：与现有的通用CLAP或生物声音模型相比，新在：a) 首次将结构化的分类学层次信息系统性地整合进音频-文本对比学习；b) 贡献了一个目前公开数据中规模最大、物种最全（6823种）、并系统标注生态特征的动物声音数据集之一；c) 不仅做物种分类，还证明了从声音直接推断多种生态特征的可行性。主要结果：未见物种识别：在精心设计的未见物种测试集（300种罕见物种）上，AnimalCLAP显著优于CLAP基线。例如，使用混合文本提示（Tax+Com）时，Top-1准确率达到27.6%（CLAP仅1.61%），Top-5准确率53.5%（CLAP 5.19%）。生态特征推断：在22项生态特征预测任务上，AnimalCLAP的平均F1分数（79.0%）远超CLAP（48.9%）。在“活动模式”（83.7% vs 28.4%）、“迁徙”（84.8% vs 49.9%）等行为特征上提升尤为显著。消融实验证明层次结构关键：随机化分类序列顺序会导致性能显著下降（表4），且错误分析（图3）显示有序训练使模型的错误在更高分类阶元上更“一致”。实际意义：为基于声音的生物多样性自动监测提供了更强大、泛化能力更强的工具，特别是对于数据稀少的罕见物种。同时，证明了声音是推断动物生态特征的有效模态，为生态学研究提供新途径。主要局限性：a) 模型架构（HTS-AT + RoBERTa）是复用现有组件，核心创新在于训练范式和数据；b) 对于分类学结构如何“赋能”模型的更深层机理剖析不足；c) 数据集依赖iNaturalist和Xeno-canto，其数据质量与覆盖度仍受公民科学平台限制。 🏗️ 模型架构 AnimalCLAP模型是一个标准的双塔（Dual-Encoder）对比学习框架，其核心目标是将音频和文本映射到同一向量空间，并通过对比损失对齐它们的表示。 ...

Automated Dysphagia Screening Using Noninvasive Neck Acoustic Sensing

📄 Automated Dysphagia Screening Using Noninvasive Neck Acoustic Sensing #音频分类 #信号处理 #数字健康 #生物声学 🔥 8.0/10 | 前25% | #音频分类 | #信号处理 | #数字健康 #生物声学学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Jade Chng（Jacobs School of Engineering, University of California San Diego; Department of Biomedical Engineering, Duke University）（论文中标注了*，且名字在首位）通讯作者：未明确指定。论文中标注Andrew Yousef和Philip A Weissbrod为“Equal Senior Authors”（†）。作者列表： Jade Chng（加州大学圣地亚哥分校 Jacobs 工程学院；杜克大学生物医学工程系） Rong Xing（加州大学圣地亚哥分校 Jacobs 工程学院） Yunfei Luo（加州大学圣地亚哥分校 Halıcıoğlu 数据科学研究所） Kristen Linnemeyer-Risser（加州大学圣地亚哥分校耳鼻喉头颈外科系） Tauhidur Rahman（加州大学圣地亚哥分校 Jacobs 工程学院；Halıcıoğlu 数据科学研究所） Andrew Yousef（加州大学圣地亚哥分校耳鼻喉头颈外科系）（平等资深作者） Philip A Weissbrod（加州大学圣地亚哥分校耳鼻喉头颈外科系）（平等资深作者） 💡 毒舌点评亮点：这篇论文的最大亮点在于其扎实的临床数据采集流程——将声学传感与吞咽评估的“金标准”FEES实时同步进行，确保了标签的准确性，这为医疗声学研究树立了良好的数据基础。短板：然而，其核心模型（随机森林）和自动分割算法（固定参数/滑动窗口）显得相对传统和保守，在模型创新性上略显不足；更重要的是，未提供任何代码或数据，对于一项旨在推动“实用工具”的工作而言，这极大地限制了其快速验证和应用转化的可能性。 ...

Bayesian Signal Separation Via Plug-and-Play Diffusion-Within-Gibbs Sampling

📄 Bayesian Signal Separation Via Plug-and-Play Diffusion-Within-Gibbs Sampling #语音分离 #扩散模型 #信号处理 #生物声学 ✅ 7.5/10 | 前25% | #语音分离 | #扩散模型 | #信号处理 #生物声学学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yi Zhang（魏茨曼科学研究所，数学与计算机科学系）通讯作者：Rui Guo（魏茨曼科学研究所，数学与计算机科学系；邮箱：rui.guo@weizmann.ac.il）作者列表：Yi Zhang（魏茨曼科学研究所，数学与计算机科学系）、Rui Guo（魏茨曼科学研究所，数学与计算机科学系）、Yonina C. Eldar（魏茨曼科学研究所，数学与计算机科学系） 💡 毒舌点评亮点：将即插即用扩散模型与吉布斯采样的框架结合得极为优雅，不仅提供了严格的理论收敛证明，还实现了不同源信号先验模型的独立训练与自由组合，设计上富有巧思且模块化程度高。短板：理论证明高度依赖“完美扩散模型”这一理想化假设，而实际中扩散模型的训练误差、离散化误差等会直接影响算法性能，论文对此稳健性分析不足；此外，实验仅在一个特定且数据量可能有限的生物医学场景（心搏提取）上验证，未能充分展示其在更主流、更复杂的音频/语音分离任务上的泛化能力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开任何预训练的扩散模型权重。数据集：训练所用的“impedance dataset [21]”是引用的公开数据集，但论文未说明是否提供了处理后的具体数据包或下载链接。运动数据是程序生成的，但未公开生成脚本。 Demo：未提供在线演示。复现材料：论文给出了算法伪代码（Algorithm 2）和部分超参数（α=15, T=1, σ(t_v)=σ_v），但缺少关键的训练细节（如网络结构、优化器、学习率、训练步数）和完整的超参数配置（如迭代次数N的具体值、扩散模型的离散化步数）。这些缺失使得完全复现实验结果非常困难。论文中引用的开源项目：引用了WaveNet [22]的架构作为灵感，但未明确说明是否使用了其开源实现。 📌 核心摘要本文针对从噪声混合中恢复多个独立源信号的贝叶斯分离问题，提出了一种名为“扩散-内-吉布斯采样（DiG）”的后验采样算法。其核心是将吉布斯采样与即插即用（Plug-and-Play）扩散先验相结合：算法交替地对每个源信号进行更新，更新其条件分布时，通过模拟对应源信号的扩散模型的反向过程的一部分来实现。与现有大多数基于扩散模型的分离方法相比，该方法的新颖之处在于：1）模块化设计，允许预先独立训练每个源信号的扩散模型，然后灵活组合，无需为新的分离任务重新训练整个模型；2）在扩散模型完美训练的理想假设下，能够证明算法收敛到真实的后验分布。实验在从含有强运动伪影的混合信号中提取心搏的任务上进行，结果表明，所提DiG算法在均方误差（MSE）指标上全面优于传统方法（EMD, VMD）以及现有的先进扩散后验采样方法（MSDM, DPnP）。例如，在信号干扰比为-40.1 dB、信噪比为13.2 dB的极端情况下，DiG的MSE为0.57，而次优的DPnP为0.98，优势明显。该工作为信号分离问题提供了一种灵活、理论上可证明的新范式，其实际意义在于降低了扩散模型在分离任务中的应用门槛。主要局限是理论保证依赖于强理想化假设，且实验场景相对特定。 ...