BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal Vocalizations

📄 BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal Vocalizations #生物声学 #时频分析 #模型比较 #数据集 ✅ 7.5/10 | 前25% | #生物声学 | #时频分析 | #模型比较 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 基于当前提供的论文内容: 第一作者:Tianyu Song (九州大学 生物资源与生物环境科学研究生院) 通讯作者:Ton Viet Ta (九州大学 农学院) 作者列表:Tianyu Song (九州大学 生物资源与生物环境科学研究生院),Ton Viet Ta (九州大学 农学院),Ngamta Thamwattana (纽卡斯尔大学 信息与物理科学学院),Hisako Nomura (九州大学 农学院),Linh Thi Hoai Nguyen (九州大学 国际碳中和能源研究所) 💡 毒舌点评 本文精准地瞄准了生物声学信号增强这一“蓝海”问题,并通过三个针对性设计的模块(MSDA, BHME, EAGC)有效提升了性能,其计算效率优势显著,体现了扎实的工程优化能力。然而,论文中的消融实验结果存在明显的指标矛盾(如CSCConv-AE+MSDA的SNR为负),且核心贡献主要是在现有语音增强框架上的适配与组合创新,缺乏根本性的理论或架构突破,代码和模型权重的缺失也削弱了其即时影响力。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 395 words

Cardiobridge-DM: Bridging Cross-Cohort Heart Sound Synthesis via Rhythm-Aware Semi-Supervised Diffusion

📄 Cardiobridge-DM: Bridging Cross-Cohort Heart Sound Synthesis via Rhythm-Aware Semi-Supervised Diffusion #音频生成 #扩散模型 #数据增强 #生物声学 #医疗AI ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #数据增强 #生物声学 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Chenyang Xu(西安电子科技大学网络工程学院) 通讯作者:Hao Wang(西安电子科技大学网络工程学院) 作者列表:Chenyang Xu(西安电子科技大学网络工程学院)、Siming Li(西安电子科技大学通信工程学院)、Hao Wang(西安电子科技大学网络工程学院) 💡 毒舌点评 亮点是其半监督Classifier-Free Guidance (CFG) 策略的设计,通过结构化的模态缺失(对弱标注数据强制丢弃ECG),巧妙地迫使模型学习从文本到心律的跨模态映射,这超越了简单的数据拼接。短板在于,作为一个强调“首个”框架和“可扩展”解决方案的工作,其复现信息极度匮乏,未提供任何代码或模型权重,这严重削弱了其作为“开源解决方案”的实用价值,也让论文中的性能声称难以被独立验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:实验使用了公开的PhysioNet 2016和2022数据集,但论文未说明如何获取或处理后的具体数据形式。 Demo:未提供在线演示。 复现材料:给出了部分训练细节(优化器、学习率、批量大小)、模型总参数量(110M)和超参数敏感性分析图。但关键的网络架构参数、完整训练配置、数据预处理代码等均未说明。 引用的开源项目:论文引用了Wav2Vec 2.0 [21] 和 一种心音���割网络 [23],但未说明是否完全依赖其代码。 总结:论文中未提及开源计划。核心复现信息缺失。 📌 核心摘要 要解决什么问题:医疗AI(特别是心脏听诊AI)面临数据碎片化挑战:大型数据集(如PhysioNet 2016)标注简单,小型数据集(如PhysioNet 2022)标注详细但样本量小。需要一种方法桥接这两类数据,生成高质量、可控的心音(PCG)信号以增强模型泛化能力。 方法核心是什么:提出CardioBridge-DM,一个两阶段半监督扩散框架。第一阶段使用VQ-VAE学习跨队列的通用声学表征。第二阶段训练条件扩散模型,其核心创新是节奏感知的半监督Classifier-Free Guidance (CFG):对有ECG的丰富标注数据进行标准随机丢弃;对无ECG的弱标注数据,强制丢弃ECG模态,迫使模型仅从文本诊断中推断心律。 与已有方法相比新在哪里:首次设计用于跨队列(异构标注)心音合成的扩散框架。提出了半监督CFG机制,将条件生成从单纯的数据融合提升为一种跨模态生理推理能力,使模型能在缺失ECG时仅凭文本生成符合节律的心音。 主要实验结果如何:在FAD(生成质量)上达到4.3,远优于最强基线AudioLDM的9.8。提出了新的CCT(跨队列迁移性)指标,得分为0.82。消融实验证明,移除通用声学表征(第一阶段)和半监督CFG都会显著降低性能。感知图灵测试中,训练听众对合成音频的混淆率达到47.8%(接近50%的理想随机水平),MOS为4.2±0.4(与真实音频4.6±0.3可比)。具体结果见下表。 方法 FAD ↓ IS ↑ CLAP ↑ CCT ↑ StyleGAN2-V (adapted) 14.2±0.9 2.1±0.2 0.41±0.04 0.45±0.05 DiffWave (adapted) 11.2±0.6 2.3±0.2 0.48±0.03 0.51±0.04 AudioLDM (adapted) 9.8±0.5 2.6±0.1 0.52±0.03 0.58±0.06 CardioBridge-DM (Ours) 4.3±0.3 3.7±0.2 0.74±0.02 0.82±0.03 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 309 words

Domain-Invariant Representation Learning of Bird Sounds

📄 Domain-Invariant Representation Learning of Bird Sounds #生物声学 #对比学习 #自监督学习 #领域适应 #少样本学习 ✅ 6.5/10 | 前50% | #生物声学 | #对比学习 | #自监督学习 #领域适应 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ilyass Moummad(INRIA, LIRMM, Université de Montpellier, France) 通讯作者:未说明 作者列表:Ilyass Moummad(INRIA, LIRMM, Université de Montpellier, France)、Romain Serizel(Université de Lorraine, Loria, Nancy, France)、Emmanouil Benetos(C4DM, Queen Mary University of London, UK)、Nicolas Farrugia(IMT Atlantique, Lab-STICC, Brest, France) 💡 毒舌点评 亮点:ProtoCLR通过将对比学习的复杂度从O(N²)降至O(N×C),提供了一个在计算上更优雅、对生物声学这类大规模数据更实用的监督对比学习方案,并在特定评估基准上验证了其有效性。 短板:改进幅度有限,平均准确率提升不足3个百分点,且面对更强的领域特定基线(如Perch)时优势并不明显,应用场景受限于鸟类声音这一细分领域。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 412 words

EEG and Eye-Tracking Driven Dynamic Target Speaker Extraction with Spontaneous Attention Switching

📄 EEG and Eye-Tracking Driven Dynamic Target Speaker Extraction with Spontaneous Attention Switching #语音分离 #多模态模型 #多任务学习 #生物声学 #数据集 ✅ 7.0/10 | 前25% | #语音分离 | #多模态模型 | #多任务学习 #生物声学 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Xuefei Wang(南方科技大学电子与电气工程系) 通讯作者:Fei Chen(南方科技大学电子与电气工程系) 作者列表:Xuefei Wang(南方科技大学电子与电气工程系)、Ximin Chen(南方科技大学电子与电气工程系)、Yuting Ding(南方科技大学电子与电气工程系)、Yueting Ban(南方科技大学电子与电气工程系)、Siyu Yu(南方科技大学电子与电气工程系)、Yu Tsao(台湾中研院资讯科技创新研究中心)、Fei Chen(南方科技大学电子与电气工程系) 💡 毒舌点评 这篇论文首次将EEG引导的目标说话人提取问题从静态场景拓展到更符合真实情况的动态注意力切换场景,并为此构建了一个完整的多模态框架,这是其最大亮点;然而,实验仅在参与者数量有限(18人)的自建数据集上进行,且代码与模型未完全开源,极大限制了其结论的普适性与可复现性。 🔗 开源详情 代码:论文中未提及代码链接。数据集链接(https://github.com/XXuefeii/AASD)中可能包含部分代码,但论文正文未说明。 模型权重:未提及。 数据集:是。提供了专门的数据集仓库链接(https://github.com/XXuefeii/AASD),包含EEG和眼动数据。 Demo:未提及。 复现材料:论文提供了部分训练超参数(Adam优化器,lr=1e-4, batch size=16),但未提供完整的训练脚本、配置文件或检查点。代码和完整复现指南缺失。 论文中引用的开源项目:论文中提到了使用预训练的Wav2vec2.0模型[17]和基于Conv-TasNet[16]的架构。 📌 核心摘要 要解决什么问题? 论文旨在解决现有EEG引导的目标说话人提取(TSE)方法通常假设听众注意力静态不变,无法处理现实多说话人环境中听众自发在不同说话人之间切换注意力的动态场景。 方法核心是什么? 提出了一个多模态动态注意力TSE网络(MDATNet),其核心是:(a) 利用EEG和平均注视坐标(眼动)联合解码注意力是否发生切换;(b) 引入一个动态更新单元,当检测到注意力切换时重置历史信息,否则融合历史语音特征,以保持对同一目标说话人跟踪的连续性。 与已有方法相比新在哪里? 与之前仅基于EEG或假设静态注意力的方法(如BASEN, NeuroHeed等)相比,本文方法首次明确建模并处理了“注意力切换”这一动态过程,通过引入眼动先验和动态历史语音记忆机制,实现了更自适应、更符合认知过程的提取。 主要实验结果如何? 在自建的EEG自发注意力切换数据集上,MDATNet在所有指标上显著优于基线方法。相比最强的M3ANet,SDR提升了1.77 dB,STOI提升了3.99%。消融实验表明,眼动信息和动态更新单元分别带来了显著的性能提升,二者结合达到最佳效果(SDR 8.79 dB, STOI 88.17%)。 实际意义是什么? 该研究推动了脑机接口(BCI)与语音处理的交叉领域发展,为开发未来能更自然理解并跟随用户注意力焦点的助听器、耳机或人机交互系统提供了技术路径。 主要局限性是什么? 主要局限性在于实验数据集规模有限(18位被试,18小时数据),且均为特定实验室环境下的受控数据,跨被试泛化能力、在复杂声学场景(如背景噪音、混响)下的鲁棒性尚未得到充分验证。 🏗️ 模型架构 论文提出了一个名为MDATNet(Multimodal and Dynamic Attention Target Net)的端到端神经网络框架,整体架构见图1。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 295 words

EMG-to-Speech with Fewer Channels

📄 EMG-to-Speech with Fewer Channels #语音合成 #多任务学习 #少样本 #数据增强 #生物声学 ✅ 7.5/10 | 前25% | #语音合成 | #多任务学习 | #少样本 #数据增强 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Injune Hwang (首尔大学 智能与信息学系) 通讯作者:Kyogu Lee (首尔大学 智能与信息学系 / 人工智能研究所 / 人工智能跨学科项目) 作者列表:Injune Hwang (首尔大学 智能与信息学系), Jaejun Lee (首尔大学 智能与信息学系), Kyogu Lee (首尔大学 智能与信息学系 / 人工智能研究所 / 人工智能跨学科项目) 💡 毒舌点评 论文最大的亮点在于实验设计的系统性,通过贪心消除、穷举子集和音素分析三管齐下,将“哪些通道更重要”这个问题从工程选择上升到了对肌肉运动互补性的理解层面,其提出的“通道dropout微调”方案也切实有效。然而,所有结论和实验均局限于单说话人公开数据集,这使得其“推动实用化”的宣称在迈向真实、多变的用户场景时显得说服力不足,且模型架构本身并未跳出Gaddy et al. [13] 的框架。 🔗 开源详情 代码:论文中提供了开源代码仓库链接:https://github.com/SPJune/SS_by_Channel。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:实验使用的数据集(Gaddy et al. [5])为公开数据集。 Demo:论文中未提及提供在线演示。 复现材料:论文说明了遵循官方预处理流程,并给出了通道dropout的具体概率设置。但未提供完整的训练超参数(如优化器、学习率、批大小)。 论文中引用的开源项目: 模型架构基于Gaddy et al. [13] 的开源代码库:https://github.com/dgaddy/silent_speech 声码器使用了HiFi-GAN [16]��� 语音识别使用了OpenAI的Whisper模型 [17]。 📌 核心摘要 解决问题:表面肌电图(EMG)驱动的无声语音接口性能高度依赖传感器通道数量和位置,但减少通道会导致性能下降。本文旨在系统研究通道重要性,并缓解通道减少带来的性能损失。 方法核心:采用基于卷积和Transformer的EMG编码器模型,通过预测梅尔谱图(语音合成)和音素标签(多任务学习)进行预训练。核心策略是在预训练时引入通道dropout(随机屏蔽部分通道),然后在减少通道的子集上进行微调。 新意:(1) 通过贪心消除和穷举评估所有4通道组合(70种),系统量化了单个通道及通道组合的重要性,揭示了通道间的互补性;(2) 进行了音素级别的消融分析,将通道作用与具体语音学范畴(如擦音、塞音)关联;(3) 提出并验证了基于通道dropout的预训练-微调策略优于从头训练。 主要结果: 4通道子集的最佳WER为47.2%(通道{1,3,5,6}),优于贪心选择的{1,2,3,4}(48.1%)。各通道在所有4通道子集中出现的平均WER排名为:3(51.4) < 2(52.3) < 1(52.6) < 5(52.8) < 6(53.1) < 4(53.7) < 7(53.8) < 8(54.8)。 音素分析表明,去除不同通道对不同类别音素影响显著(如去除通道8对双唇音影响最大,去除通道7对高前元音影响最大)。 在4-6通道设置下,微调模型(基于8通道预训练权重)的WER一致性地低于从头训练的模型。例如,对于4通道最佳子集,微调(dropout p=0)WER为47.2%,而从头训练约为49.5%(根据图3估算)。 实际意义:证明了通过智能的训练策略(预训练+通道dropout+微调),可以在使用更少、更少侵入性传感器时,保持可接受的语音重建性能,有助于开发更轻便、实用的无声语音设备。 主要局限性:(1) 实验仅在单一说话人、单一数据集(Gaddy et al. [5])上验证,结论对其他说话人或场景的泛化能力未知;(2) 最佳通道子集和dropout概率对具体数据集和任务敏感,缺乏普适性指导;(3) 未与近期其他先进的EMG-to-speech模型(如基于扩散的模型)进行对比。 🏗️ 模型架构 论文沿用了Gaddy et al. [13] 提出的EMG-to-speech框架(如图1所示),其核心是一个结合了卷积层和Transformer层的序列模型。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 380 words

Empowering Multimodal Respiratory Sound Classification with Counterfactual Adversarial Debiasing for Out-of-Distribution Robustness

📄 Empowering Multimodal Respiratory Sound Classification with Counterfactual Adversarial Debiasing for Out-of-Distribution Robustness #音频分类 #生物声学 #对比学习 #数据增强 #多模态模型 ✅ 7.0/10 | 前25% | #音频分类 | #对比学习 | #生物声学 #数据增强 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Heejoon Koo(伦敦大学学院,RSC LAB) 通讯作者:June-Woo Kim(RSC LAB,光州科学技术院) 作者列表:Heejoon Koo(伦敦大学学院,RSC LAB)、Miika Toikkanen(RSC LAB)、Yoon Tae Kim(RSC LAB,韩国科学技术院)、Soo Yong Kim(RSC LAB)、June-Woo Kim†(RSC LAB,光州科学技术院) 💡 毒舌点评 本文的亮点在于构建了一个系统性较强的去偏框架,将因果推理中的反事实估计与公平学习领域的对抗去偏相结合,并针对医疗数据特点设计了具体的元数据增强策略,逻辑自洽。短板是创新性主要体现在技术组合与特定领域适配上,且实验部分的广度有限,仅在一个主任务(呼吸音分类)和两个数据集上验证,缺乏对更通用音频任务或更复杂偏见场景的探讨。 🔗 开源详情 详�� 代码:是,提供代码仓库链接:https://github.com/RSC-Toolkit/BTS-CARD。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:ICBHI和SPRSound均为公开数据集,论文中给出了具体引用和获取信息。 Demo:论文中未提及提供在线演示。 复现材料:论文中提供了详细的训练数据集描述、预处理步骤、训练超参数、损失函数配置以及评估协议,复现信息较为充分。 论文中引用的开源项目/模型:RUBi用于融合,Clinical TinyBERT用于元数据文本编码,Audio-CLAP/BTS作为基础模型,AdamW优化器。 📌 核心摘要 要解决的问题:多模态呼吸音分类模型易受患者元数据(如年龄、性别、采集设备)产生的虚假关联(伪相关)影响,导致在不同临床环境(分布外数据)下泛化性能显著下降。 方法核心:提出BTS-CARD框架,通过三重机制缓解偏见:1)基于因果图的反事实去偏,通过估计并减去自然直接效应(NDE)来抑制元数据对预测的直接虚假影响;2)对抗去偏,在NDE路径上引入梯度反转层,学习对位置和设备不敏感的特征表示;3)反事实元数据增强,在训练中用中性占位符替换敏感元数据,模拟干预以打破虚假依赖。 与已有方法相比新在哪里:首次将反事实推理与对抗去偏相结合用于多模态呼吸音分类。不同于简单地删除或掩码元数据,本文通过精心设计的反事实估计和对抗学习,旨在保留元数据中可能包含的有益间接信息,同时抑制其直接带来的偏见。 主要实验结果:在ICBHI(分布内)和SPRSound(分布外)数据集上,BTS-CARD在ICBHI Score(敏感性与特异性均值)指标上均优于强基线(如BTS)。具体而言,在分布外设置下,本文方法取得了61.96%的分数,显著高于BTS的53.42%。消融实验表明,三个组件对性能均有贡献,其中去除反事实元数据增强对分布外性能影响最大。参数分析显示,推理时去除直接效应(α=0)反而能获得最佳分布外性能。 实际意义:该方法提升了呼吸音分类模型在不同医院、不同设备间的泛化能力和鲁棒性,对于推动临床AI系统的实际部署具有积极意义。 主要局限性:研究的泛用性有待验证,仅在单一任务和特定数据集组合上进行评估。对抗去偏主要针对采集位置和设备,对年龄、性别等其他敏感属性的去偏效果在实验中未显示出优势,其普适性值得商榷。 🏗️ 模型架构 BTS-CARD框架建立在BTS(Bridging Text and Sound)多模态模型基础上,旨在对BTS预测进行反事实去偏。整体流程如下: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 408 words

Enabling Multi-Species Bird Classification on Low-Power Bioacoustic Loggers

📄 Enabling Multi-Species Bird Classification on Low-Power Bioacoustic Loggers #生物声学 #知识蒸馏 #时频分析 #边缘计算 #数据集 🔥 8.0/10 | 前25% | #生物声学 | #知识蒸馏 | #时频分析 #边缘计算 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Stefano Ciapponi(Fondazione Bruno Kessler, University of Trento) 通讯作者:未说明 作者列表:Stefano Ciapponi(Fondazione Bruno Kessler, University of Trento),Leonardo Mannini(Fondazione Bruno Kessler),Jarek Scanferla(Eurac Research),Matteo Anderle(Eurac Research),Elisabetta Farella(Fondazione Bruno Kessler, University of Trento) 💡 毒舌点评 亮点:论文首次在AudioMoth这类极低功耗微控制器上实现了多物种鸟类分类,将理论创新(半可学习滤波器组)与严格的硬件约束验证(77mJ/推理)紧密结合,工程实用性很强。短板:70种鸟类的全景分类准确率(70.1%)与BirdNET在特定子集上的表现相比仍有差距,对于生物声学实际应用而言,高难度物种的识别鲁棒性可能是更关键的瓶颈。 🔗 开源详情 代码:论文提供了公开代码仓库链接:https://github.com/wren-framework/wrennet,包含数据集创建、训练、蒸馏和模型导出脚本。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:论文中未明确说明该70种鸟类数据集是否公开,但提及了音频来源(Xeno-Canto)和预处理方法,部分数据可能需要根据方法自行构建。 Demo:论文中未提及在线演示。 复现材料:论文提供了详细的训练配置、损失函数权重、优化器设置、数据增强方法以及模型架构参数,复现信息较为充分。 论文中引用的开源项目:引用了AudioMoth(硬件平台)、BirdNET(教师模型)、ESC-50(环境声数据集)、CMSIS-NN(推理库)等开源项目或标准工具。 📌 核心摘要 这篇论文旨在解决在资源极度受限的低功耗边缘设备(如AudioMoth,内存≤1MB)上实现连续、实时的多物种鸟类声音分类的难题。其核心方法是提出了WrenNet神经网络架构,该架构采用流式兼容的因果卷积和GRU进行高效时序建模,并创新性地设计了一种半可学习(Semi-learnable)频谱特征提取器,通过可微的参数化频率映射自适应优化鸟类叫声的频谱分辨率。与固定梅尔尺度的特征提取相比,该设计能自动学习适合不同物种的频率过渡点。在由鸟类学家策划的70种阿尔卑斯鸟类数据集上,WrenNet对声学特征明显的物种准确率达90.8%,全任务准确率为70.1%。在AudioMoth设备上部署时,单次3秒推理仅消耗77mJ,比BirdNET在树莓派上运行能效高出16倍以上。这标志着首个在微控制器硬件上实现多物种鸟类分类的实用框架。主要局限性在于对声学相似的复杂物种组(如莺类、雀类)识别准确率(约77%)仍有提升空间。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 294 words

Estimating Respiratory Effort from Nocturnal Breathing Sounds for Obstructive Sleep Apnoea Screening

📄 Estimating Respiratory Effort from Nocturnal Breathing Sounds for Obstructive Sleep Apnoea Screening #音频分类 #CNN-LSTM #多任务学习 #医疗声学 #生物声学 ✅ 6.5/10 | 前25% | #音频分类 | #多任务学习 | #CNN-LSTM #医疗声学 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Xiaolei Xu(谢菲尔德大学计算机科学学院) 通讯作者:未说明 作者列表:Xiaolei Xu(谢菲尔德大学计算机科学学院)、Chaoyue Niu(谢菲尔德大学计算机科学学院)、Guy J. Brown(谢菲尔德大学计算机科学学院)、Hector Romero(Passion for Life Healthcare)、Ning Ma(谢菲尔德大学计算机科学学院) 💡 毒舌点评 这篇论文的亮点在于其开创性思路:首次尝试从夜间呼吸声这一单一模态中,直接估计出通常需要接触式传感器才能获取的“呼吸努力”生理信号,从而为无感的睡眠监测扫清了一个关键障碍。然而,其短板也相当明显:呼吸努力的估计精度(CCC 0.48)仅达到中等相关性,这直接导致了后续融合策略带来的性能提升幅度有限,甚至在某些关键阈值(如AHI≥30)上不如直接使用音频特征,让人对“估计信号”的实际增益打个问号。 🔗 开源详情 论文中未提及任何代码、模型权重、数据集的公开链接或在线演示。也未说明是否有公开计划。复现所需的训练细节(如优化器、学习率、超参数搜索范围)和检查点信息均未提供。论文中引用的开源项目主要为前序工作[9, 12]的数据集和基线方法。 📌 核心摘要 本文针对阻塞性睡眠呼吸暂停症(OSA)诊断依赖复杂多导睡眠图(PSG)且普及困难的问题,提出一种仅需智能手机音频即可进行OSA筛查的新方法。其核心是设计了一个两阶段框架:首先训练一个模型从夜间呼吸/打鼾声中估计腹部呼吸努力信号,然后冻结该模型,提取其潜在表征作为“呼吸努力嵌入”,与另一个音频编码器提取的声学嵌入在潜在空间进行融合,最终用于OSA事件检测和严重程度分类。与已有方法相比,其新意在于首次实现了从音频直接推断呼吸努力,摆脱了对额外传感器的依赖,维持了纯声学方法的可扩展性。实验在157晚、103名参与者的家庭录音数据集上进行,结果显示:呼吸努力估计器达到0.48的平均CCC;融合估计的呼吸努力后,在AHI阈值5(检测轻度OSA)时,敏感性达到0.88,优于音频基线(0.86)和使用真实努力信号的“Oracle”系统(0.81),AUC为0.86。该方法的实际意义在于为低成本、无感、长期的OSA家庭监测提供了可行的技术路径。其主要局限性包括:呼吸努力的估计精度受限于复杂家庭环境噪声,导致融合收益有限;缺乏充分的消融实验以证明性能提升完全来自呼吸努力表征而非模型容量增加。 🏗️ 模型架构 论文提出一个两步走的潜在空间融合框架,用于从夜间音频检测OSA。 第一步:音频到呼吸努力的估计器(图1蓝色部分) 输入:30秒的音频片段,表示为64维对数梅尔滤波器组特征(1500帧 x 64频段)。 组件: CNN特征提取器:使用比音频基线更小的池化核以保留时间分辨率,将输入从1500x64转换为187x128的特征图。 LSTM编码器:处理CNN输出的187帧时序特征,捕获呼吸动力学,产生隐藏状态序列。 解码器与插值:一个线性解码器将每个LSTM隐藏状态投影为一个值,生成187点的预测序列。由于参考呼吸努力信号(32Hz采样)在30秒内有960个点,预测序列通过插值上采样至960点,以对齐标签并进行损失计算。 输出:预测的归一化呼吸努力信号序列。 关键设计:采用“先预测低分辨率序列再插值”的策略,平衡了LSTM训练复杂性和最终信号保真度。优化目标使用一致性相关系数(CCC)损失,以同时优化相关性与偏差。 第二步:融合OSA检测(图1橙色部分) ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 223 words

Fusion of Multimodal Estimations by Extended State Hidden Markov Model: Application to Fetal Heart Rate Monitoring

📄 Fusion of Multimodal Estimations by Extended State Hidden Markov Model: Application to Fetal Heart Rate Monitoring #生物声学 #信号处理 #多任务学习 #医疗 ✅ 7.0/10 | 前50% | #生物声学 | #信号处理 | #多任务学习 #医疗 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Baptiste Rault(Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC) 通讯作者:Bertrand Rivet(未明确说明,但提供了邮箱;机构为Université Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab) 作者列表:Baptiste Rault(Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC)、Julie Fontecave-Jallon(Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC)、Bertrand Rivet(Université Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab) 💡 毒舌点评 亮点:扩展HMM状态变量以显式建模“观测是目标信号、混淆信号还是噪声”的思路巧妙且可解释,有效提升了融合算法在真实临床数据上的抗混淆能力(FuSEmHR的RMC中位数降至1.5%)。短板:算法复杂度急剧增加(融合1分钟数据从35ms升至8秒),且最终版本严重依赖可靠的参考信号(mHR),限制了其在未知或不稳定干扰下的应用;更遗憾的是,论文未开源任何代码或数据,让“可复现性”成了一纸空文。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 286 words

ICASSP 2026 - 生物声学 论文列表

ICASSP 2026 - 生物声学 共 12 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Enabling Multi-Species Bird Classification on Low-Power Bioa 8.0分 前25% 🥈 Multi-Layer Attentive Probing Improves Transfer of Audio Rep 7.5分 前25% 🥉 Learning Domain-Robust Bioacoustic Representations for Mosqu 7.5分 前25% 4. Unsupervised Discovery and Analysis of the Vocal Repertoires 7.5分 前50% 5. BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal 7.5分 前25% 6. Testing The Efficient Coding Hypothesis Beyond Humans: The A 7.5分 前25% 7. Random Matrix-Driven Graph Representation Learning For Bioac 7.5分 前25% 8. Fusion of Multimodal Estimations by Extended State Hidden Ma 7.0分 前50% 9. Identifying Birdsong Syllables without Labelled Data 7.0分 前50% 10. Representation-Diverse Self-Supervision for Cross-Domain Bio 7.0分 前25% 11. Domain-Invariant Representation Learning of Bird Sounds 6.5分 前50% 12. Utilizing Information Theoretic Approach to Study Cochlear N 6.5分 前50% 📋 论文详情 🥇 Enabling Multi-Species Bird Classification on Low-Power Bioacoustic Loggers 🔥 8.0/10 | 前25% | #生物声学 | #知识蒸馏 | #时频分析 #边缘计算 ...

2026-04-29 · 更新于 2026-06-12 · 7 min · 1362 words