LenslessMic: Audio Encryption and Authentication via Lensless Computational Imaging

📄 LenslessMic: Audio Encryption and Authentication via Lensless Computational Imaging #音频安全 #无透镜成像 #神经音频编码 #音频分类 ✅ 7.5/10 | 前25% | #音频安全 | #无透镜成像 | #神经音频编码 #音频分类 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Petr Grinberg (Audiovisual Communications Laboratory, EPFL) 通讯作者:未说明(作者列表未标注,邮箱为共通格式 first.last@epfl.ch) 作者列表:Petr Grinberg (EPFL), Eric Bezzam (EPFL), Paolo Prandoni (EPFL), Martin Vetterli (EPFL)。所有作者均隶属于 EPFL 的 Audiovisual Communications Laboratory。 💡 毒舌点评 亮点:本文巧妙地将“无透镜相机的视觉隐私”这一特性,逆向思维用于“音频的隐私保护”,构建了一个从声到光再到密文的全新物理安全链路,构思颇具巧思。短板:系统实用性受制于笨重的硬件原型(需要显示器作为光源)和缓慢的采集速度,其宣称的“物理层安全”优势,在“已知明文攻击”下可能因音频帧尺寸过小而受到挑战,迫使采用更复杂(且效果更差)的帧分组策略来弥补。 📌 核心摘要 要解决什么问题:数字音频的安全传输目前主要依赖软件加密算法(如AES),论文旨在探索一种新的、基于物理硬件的补充性安全方案,为音频数据提供额外的保护层,以应对潜在的深度伪造、窃听等威胁。 方法核心是什么:提出LenslessMic,一个混合硬件-软件系统。其核心流程是:将音频信号通过神经音频编码器(NAC,具体使用DAC)压缩为潜在表示,将该表示重塑为图像帧;利用无透镜相机(一个基于可编程掩模的低成本原型DigiCam)对这些图像帧进行拍摄,得到多重散射的测量值(密文)。解密时,必须使用正确的点扩散函数(PSF,由掩模图案决定)对测量值进行逆向重建,恢复出潜在表示图像,再输入音频解码器恢复音频。 与已有方法相比新在哪里:(1) 跨模态安全范式:首次将无透镜成像的视觉隐私特性应用于音频加密,开辟了光学物理层安全在音频领域的新应用。(2) 融合架构创新:结合了NAC的鲁棒性(尤其是残差向量量化RVQ的容错能力)与无透镜成像的安全性,提出了完整的端到端加密-解密流程。(3) 主动安全机制:通过可编程掩模动态改变PSF,并结合帧分组(g)技术,主动增强系统对各类攻击的抵抗力。 主要实验结果如何:论文在多个数据集上进行了验证。关键结果如表2所示:使用在域数据(train-clean)训练的Learned模型,解密语音的ViSQOL为4.50,STOI达0.96,接近无加密的Ground-truth。安全性方面,图2显示当正确PSF像素比例W=7%时,WER已达100%,搜索空间等效于AES-256。认证实验(图3)显示,正确PSF与随机PSF的恢复结果在WER和UTMOS指标上可完美区分,认证准确率达100%。帧分组消融表明,g=2足以防御已知明文攻击(NoPSF模型WER=100%),但会轻微降低重建质量。 实际意义是什么:该研究为音频数据安全提供了一种新的防御维度——物理层安全。它证明了光学加密可以与先进的音频编码技术结合,在保证解密质量的同时,提供强大的加密强度和用户认证能力。其开源贡献有助于推动该交叉领域的研究。 主要局限性是什么:(1) 硬件实用性:当前原型依赖电脑显示器作为光源,体积大,不适合实际部署;采集速度慢,存储开销大于原始音频。(2) 质量与安全的权衡:增强安全性(如增大g)会导致解密质量下降。(3) 泛化能力:模型在跨音频类型(语音到音乐)和跨编码器(DAC到X-Codec)时性能有下降,表明系统对特定编码格式有依赖性。(4) 潜在攻击面:论文承认小尺寸音频帧可能使已知明文攻击在理论上可行,尽管通过增大g进行了缓解。 🏗️ 模型架构 LenslessMic是一个端到端的音频加密与认证系统,其架构包含编码、加密(物理拍摄)、解密(重建)和解码四个主要阶段。 ...

2026-04-29

Leveraging prediction entropy for Automatic prompt weighting in Zero-Shot Audio-Language Classification

📄 Leveraging prediction entropy for Automatic prompt weighting in Zero-Shot Audio-Language Classification #音频分类 #零样本 #多模态模型 #基准测试 #模型评估 ✅ 7.5/10 | 前25% | #音频分类 | #零样本 | #多模态模型 #基准测试 学术质量 6.2/7 | 选题价值 1.3/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Karim El Khoury† (ICTEAM, UCLouvain, Belgium), Maxime Zanella† (ICTEAM, UCLouvain, Belgium; ILIA, UMons, Belgium), Tiffanie Godelaine† (ICTEAM, UCLouvain, Belgium) (论文注明†表示贡献均等) 通讯作者:未说明 作者列表:Karim El Khoury (ICTEAM, UCLouvain, Belgium), Maxime Zanella (ICTEAM, UCLouvain, Belgium; ILIA, UMons, Belgium), Tiffanie Godelaine (ICTEAM, UCLouvain, Belgium), Christophe De Vleeschouwer (ICTEAM, UCLouvain, Belgium), Benoît Macq (ICTEAM, UCLouvain, Belgium) 💡 毒舌点评 本文提出的“熵最小化”加权策略,是一个将视觉领域思路巧妙迁移到音频-语言模型提示集成的优雅解决方案,其轻量级(可忽略的计算开销)和无需标注数据的特性使其具备即插即用的实用价值。然而,整篇论文的创新和验证都高度绑定在一个较为陈旧的模型(CLAP-2022)上,缺乏在新近、更强大的音频-语言模型(如Audio-MAE, Pengi)上的验证,这极大地限制了其贡献的通用性和时效性。 ...

2026-04-29

Modeling Inter-Segment Relationships in Speech for Dementia Detection with Audio Spectrogram Transformers and Graph Attention Networks

📄 Modeling Inter-Segment Relationships in Speech for Dementia Detection with Audio Spectrogram Transformers and Graph Attention Networks #语音生物标志物 #音频大模型 #图神经网络 #预训练 #音频分类 ✅ 7.0/10 | 前25% | #语音生物标志物 | #图神经网络 | #音频大模型 #预训练 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Raphael Anaadumba (University of Massachusetts Lowell, Richard A. Miner School of Computer and Information Sciences) 通讯作者:Raphael Anaadumba (根据“Corresponding author”标注) 作者列表:Raphael Anaadumba (University of Massachusetts Lowell), Nazim A. Belabbaci (University of Massachusetts Lowell), Anton Kovalev (University of Massachusetts Lowell), Mohammad Arif Ul Alam (University of Massachusetts Lowell) 💡 毒舌点评 本文巧妙地将图注意力网络引入语音病理分析,首次明确建模“语音段”间的图状关系以捕捉话语结构异常,这一视角确实比简单池化或纯序列模型更贴近临床认知,并在MCI检测上取得了亮眼提升。然而,实验规模局限于两个英语数据集,且未开源代码,使得这一新颖方法在更广泛场景下的有效性和可复现性大打折扣。 ...

2026-04-29

More Than a Shortcut: A Hyperbolic Approach to Early-Exit Networks

📄 More Than a Shortcut: A Hyperbolic Approach to Early-Exit Networks #音频事件检测 #双曲几何 #早期退出网络 #音频分类 🔥 8.0/10 | 前25% | #音频事件检测 | #双曲几何 | #早期退出网络 #音频分类 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Swapnil Bhosale(英国萨里大学) 通讯作者:未明确说明(根据署名顺序和机构推测可能为通讯作者,但论文中未明确标注) 作者列表:Swapnil Bhosale(英国萨里大学), Cosmin Frateanu(Meta Reality Labs Research, UK), Camilla Clark(Meta Reality Labs Research, UK), Arnoldas Jasonas(Meta Reality Labs Research, UK), Chris Mitchell(Meta Reality Labs Research, UK), Xiatian Zhu(英国萨里大学), Vamsi Krishna Ithapu(Meta Reality Labs Research, UK), Giacomo Ferroni(Meta Reality Labs Research, UK), Cagdas Bilen(Meta Reality Labs Research, UK), Sanjeel Parekh(Meta Reality Labs Research, UK) 💡 毒舌点评 亮点:将双曲几何的“树状结构”先验优雅地融入早期退出网络,其设计的“蕴含损失”不仅理论上能强制执行层次一致性,实验上也在最节省计算的EE0出口实现了高达23个百分点的精度飞跃,证明了“几何即正则化”的有效性。短板:这篇论文本质上是一篇针对特定网络结构(EE)和特定任务(音频)的工程改进,虽然方法新颖,但双曲神经网络本身的计算开销和复杂性是否适合真正的资源受限端侧设备,论文缺乏更深入的实际部署功耗/延迟分析,略显“自说自话”。 ...

2026-04-29

Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection

📄 Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection #音频分类 #对比学习 #Conformer #鲁棒性 #医疗AI ✅ 7.0/10 | 前50% | #音频分类 | #对比学习 | #Conformer #鲁棒性 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Milan Marocchi, Matthew Fynn(*表示贡献相等) 通讯作者:未说明 作者列表:Milan Marocchi(Curtin University),Matthew Fynn(Curtin University),Yue Rong(Curtin University) 机构:Curtin University, Bentley 6102, WA, Australia(未说明具体学院或实验室) 💡 毒舌点评 论文的亮点在于将相对复杂的Conformer架构成功应用于心音信号,并设计了一个实用的多通道噪声段拒绝流程,在真实噪声数据集上验证了其有效性。短板是,其噪声拒绝核心算法(能量阈值)的创新性较为有限,且消融实验部分缺失,使得我们难以精确评估各个组件(如对比学习、中心损失、噪声拒绝)的具体贡献。 📌 核心摘要 要解决什么问题:在真实临床噪声环境下,提高基于心音图(PCG)信号的冠状动脉疾病(CAD)检测的鲁棒性和准确性。 方法核心是什么:提出一个包含噪声感知预处理和深度学习分类的端到端流程。核心包括:(1) 一种基于能量的多通道噪声段拒绝算法,利用听诊器内置的心声麦克风(HM)和噪声参考麦克风(NM)识别并剔除受非平稳噪声污染严重的信号段;(2) 一个将梅尔频率倒谱系数(MFCC)作为输入的Conformer编码器,并结合监督混合对比学习(包含对比损失、分类损失和中心损失)进行训练。 与已有方法相比新在哪里:首次将Conformer模型应用于心音分类任务;提出了一种联合利用HM和NM能量信息的噪声段拒绝方法;在同一个框架内集成了多通道MFCC特征提取、Conformer建模和混合对比学习,以应对真实世界噪声数据。 主要实验结果如何:在297名受试者的数据集上,所提出的方法(带噪声拒绝)在受试者级别取得了78.4%的准确率和78.2%的平衡准确率(UAR),相比不进行噪声拒绝的基线模型,准确率和UAR分别提升了4.1%和4.3%。与之前基于Wav2Vec 2.0的方法相比,准确率和UAR分别提升了1.3%和3.9%。具体实验数据如下表所示(仅列受试者级别关键指标): 方法 准确率 (Acc) 平衡准确率 (UAR) 真阳性率 (TPR) 真阴性率 (TNR) MCC 不带噪声拒绝的MFCC-Conformer 74.3±0.09% 73.9±0.10% 80.9±0.11% 66.9±0.30% 0.490±0.019 本文方法(带噪声拒绝的MFCC-Conformer) 78.4±0.29% 78.2±0.32% 81.9±0.49% 74.5±0.97% 0.570±0.058 Noisy Wav2Vec 2.0 [13] 77.1±1.50% 74.3±1.73% 86.5±1.30% 62.0±2.76% 0.510±0.035 实际意义是什么:为在真实世界噪声条件下(如嘈杂的医院环境)进行无创、低成本的CAD预筛查提供了更鲁棒的深度学习解决方案,有助于推动基于可穿戴设备的心脏病早期预警技术。 主要局限性是什么:实验仅在一个来源的特定数据集上进行验证;噪声拒绝算法的阈值(2.5倍中值)是固定的,缺乏自适应性讨论;论文未提供充分的消融实验以区分各技术组件(噪声拒绝、Conformer、对比学习等)的独立贡献。 🏗️ 模型架构 论文提出的模型是一个基于Conformer的编码器,用于处理从多通道PCG信号中提取的MFCC特征序列,以实现二分类(CAD vs. 正常)。 ...

2026-04-29

Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion

📄 Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion #音频分类 #多模态模型 #时频分析 #Conformer #声源定位 🔥 8.0/10 | 前25% | #音频分类 | #多模态模型 | #时频分析 #Conformer 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Huaxuan Wang(北京理工大学机械工程学院) 通讯作者:Huilong Yu(北京理工大学机械工程学院);Wei Zhou(Cardiff University, School of Computer Science and Informatics) 作者列表:Huaxuan Wang(北京理工大学机械工程学院),Huilong Yu(北京理工大学机械工程学院),Ruizeng Zhang(北京理工大学机械工程学院),Wei Zhou(Cardiff University, School of Computer Science and Informatics),Junqiang Xi(北京理工大学机械工程学院) 💡 毒舌点评 亮点:论文思路清晰,将“看不见的场景结构”(通过BEV图像表示)与“听得见的目标线索”(音频多域特征)显式融合,逻辑上自洽,实验也证明在特定场景下性能提升有效。短板:融合方式相对直接(拼接向量),且BEV生成依赖于已有地图和人工标注,限制了该框架在完全未知环境中的泛用性;验证仅限于公开数据集上的T型路口,现实复杂路况的鲁棒性存疑。 📌 核心摘要 问题:自动驾驶车辆在交通盲区(如T型路口)无法直接感知突然出现的障碍物,现有感知手段(摄像头、雷达)受限于视距,而传统音频感知方法忽略了场景结构对声波传播的决定性影响。 方法核心:提出一个场景感知的音视频融合网络。核心是引入鸟瞰图(BEV)来显式表征场景空间结构,并从车载麦克风阵列音频中提取时频谱图和DOA能量谱图。网络采用三分支结构处理这些特征,其中音频分支创新性地结合了LSTM、CNN和Conformer模块,以建模音频信号的时序依赖与全局局部特征。 新颖性:相较于之前仅依赖音频或未考虑场景结构的方法,本工作的主要创新在于:a) 显式构建并利用BEV图像融入场景结构先验;b) 在音频特征处理中引入Conformer模块,增强了模型对复杂声学特征的建模能力。 实验结果:在OVAD和AOVD两个真实世界数据集上,该方法的整体准确率分别达到94.1%和97.0%(移除BEV分支),显著优于SVM(88.2%, 90.8%)和pCRNN(92.6%, 95.4%)等基线方法。消融实验验证了BEV分支和Conformer模块的有效性。 实际意义:为智能车辆在交叉路口等视距受限场景提供了新的、更可靠的早期碰撞预警方案,提升了自动驾驶的安全性。 主要局限性:系统性能高度依赖于先验的BEV地图生成(需要卫星图像和手动标注),限制了部署的灵活性;研究聚焦于T型路口这一特定场景,未在更复杂或未知环境中验证其泛化能力。 🏗️ 模型架构 论文提出的整体框架如 图1 (pdf-image-page2-idx0) 所示,是一个用于遮挡车辆分类的音视频融合网络。系统处理流程如下: ...

2026-04-29

One Model–Three Tasks: Discovering a Shared Winning Ticket for Low-Complexity Audio Intelligence

📄 One Model–Three Tasks: Discovering a Shared Winning Ticket for Low-Complexity Audio Intelligence #音频分类 #多任务学习 #彩票假设 #低资源 #边缘计算 ✅ 7.5/10 | 前25% | #音频分类 | #多任务学习 #彩票假设 | #多任务学习 #彩票假设 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Maxim K. Surkov(ITMO University) 通讯作者:未说明 作者列表:Maxim K. Surkov(ITMO University) 💡 毒舌点评 亮点:论文将“彩票假设”成功应用于音频多任务学习,设计出仅3万参数即可同时处理三个任务的统一模型,且精度损失极小(AR=-1.3%),实现了单次推理下的极致效率,为边缘端音频智能提供了非常务实的优化蓝图。 短板:虽然实验对比充分,但“MTL-LTH”本质上是现有彩票假设方法的直接套用,方法论的原创性有限;此外,论文仅在三个相对简单的分类任务上验证,对于更复杂音频任务(如语音识别、情感识别)的泛化能力尚不明确。 📌 核心摘要 问题:在资源受限的边缘设备上,同时部署语音命令识别(SCR)、年龄估计(AC)和性别识别(GC)等多个音频任务面临计算开销大、参数冗余的挑战。 方法:提出将彩票假设(LTH)应用于多任务学习(MTL),通过系统性地探索共享编码器深度和多种剪枝策略(如MTL-LTH),发现一个高度稀疏的、可被所有任务共享的子网络(“中奖彩票”)。该子网络使用统一的编码器,为每个任务配备一个极简的解码器。 新意:首次在音频领域系统性地研究将彩票假设应用于多任务学习,旨在发现一个共享的、推理高效的稀疏子网络。与先前需为每个任务单独掩码、多次推理的LT4REC方法不同,本工作确保了计算图的完全共享和单次推理。 实验结果:提出的方法(MTL-LTH应用于c4架构)生成了一个总参数仅约30,000的统一模型,其参数量与单任务模型相当,比集成方法减少66%,且在三个任务上均达到或接近最佳精度,精度降低(AR)仅为-1.3%。消融实验表明,共享4层编码器(c4)是性能最优的架构配置。下表展示了核心实验结果: 表1:不同共享编码器深度(c1-c8)下的多任务学习性能(精度降低AR与参数量SIZE) 配置 硬参数共享(HS) AR HS 参数量 HS+精简解码器(HS+RD) AR MTL-LTH AR c1 -4.7% 87k -4.1% c2 -3.4% 79.1k -2.9% c3 -1.4% 71k -2.8% c4 -1.3% 63k -1.3% -1.3% c5 -2.1% 54.9k -3.9% -1.3% c6 -3.0% 46.9k -4.7% -2.6% c7 -3.0% 38.8k -5.4% -3.0% c8 -7.0% 30.7k -9.6% -8.5% 表2:不同剪枝算法对比(模型大小、共享权重数、操作数OPS) ...

2026-04-29

Optimizing Domain-Adaptive Self-Supervised Learning for Clinical Voice-Based Disease Classification

📄 Optimizing Domain-Adaptive Self-Supervised Learning for Clinical Voice-Based Disease Classification #语音生物标志物 #自监督学习 #领域适应 #音频分类 ✅ 7.0/10 | 前25% | #语音生物标志物 | #自监督学习 | #领域适应 #音频分类 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Weixin Liu(Vanderbilt University, Nashville, TN, USA) 通讯作者:论文未明确标注通讯作者(根据邮箱列表和致谢,Bradley Malin和Zhijun Yin是项目负责人)。 作者列表: Weixin Liu(Vanderbilt University) Bowen Qu(Vanderbilt University) Matthew Pontell(Vanderbilt University Medical Center) Maria Powell(Vanderbilt University Medical Center) Bradley Malin(Vanderbilt University, Vanderbilt University Medical Center) Zhijun Yin(Vanderbilt University, Vanderbilt University Medical Center) 💡 毒舌点评 亮点:论文的消融实验设计堪称教科书级别,系统性地解构了MAE框架在临床语音任务中的性能瓶颈,为领域适应提供了清晰的技术路线图。短板:创新更偏向于“组件调参”而非“原理革新”,且下游分类模块(Attention-FFNN)相对简单,未能充分利用SSL学到的中间表示,部分潜力可能被限制。 ...

2026-04-29

PADAM: Perceptual Audio Defect Assessment Model

📄 PADAM: Perceptual Audio Defect Assessment Model #音频分类 #对比学习 #预训练 #音频安全 ✅ 7.0/10 | 前50% | #音频分类 | #对比学习 | #预训练 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Alex Mackin, Pratha Khandelwal(共同贡献,论文中未明确区分第一作者) 通讯作者:论文中未明确标注通讯作者 作者列表:Alex Mackin (Amazon Prime Video), Pratha Khandelwal (Amazon Prime Video), Veneta Haralampieva (Amazon Prime Video), Michael Lau (Amazon Prime Video), Benoit Vallade (Amazon Prime Video), David Higham (Amazon Prime Video), Josh Anderson (Amazon Prime Video) 💡 毒舌点评 亮点:合成缺陷生成流程设计得相当扎实,考虑了从源到转码的整个制作管道,并针对七种缺陷给出了具体的生成算法和参数范围,这使得模型训练数据更贴近真实的工业场景。短板:模型在区分“技术缺陷”和“创意意图”上表现拙劣(生产评估中68.1%的“问题”实为创意意图),这暴露了纯信号层面检测的根本局限,也让“无参考感知评估”的“感知”二字打了折扣。 ...

2026-04-29

PC-MCL: Patient-Consistent Multi-Cycle Learning with Multi-Label Bias Correction for Respiratory Sound Classification

📄 PC-MCL: Patient-Consistent Multi-Cycle Learning with Multi-Label Bias Correction for Respiratory Sound Classification #音频分类 #数据增强 #多任务学习 ✅ 7.5/10 | 前10% | #音频分类 | #数据增强 | #多任务学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Seung Gyu Jeong(首尔科技大学应用AI系) 通讯作者:Seong-Eun Kim(首尔科技大学应用AI系) 作者列表:Seung Gyu Jeong(首尔科技大学应用AI系),Seong-Eun Kim(首尔科技大学应用AI系) 💡 毒舌点评 亮点在于论文系统性地指出了一个在多周期拼接方法中普遍存在但易被忽视的实际问题(多标签分布偏差),并提出了一个简单有效的三标签公式进行纠正,具有明确的临床直觉和可解释性。短板是作为主要正则化手段的“患者匹配”辅助任务,其带来的性能增益(如表3所示,+0.25分)在统计上并不显著,使得该核心创新点略显乏力;同时,论文对关键训练细节(如超参数、硬件)的交代不够完整,影响了可复现性。 📌 核心摘要 要解决什么问题:呼吸音自动分类面临两个主要限制:一是传统方法多为单周期分析,忽略了病理音在真实听诊中短暂且间歇出现的时序上下文;二是模型容易过拟合到特定患者的声学特征,而非通用的病理特征。 方法核心是什么:提出PC-MCL框架,包含三个核心组件:a) 多周期拼接作为数据增强,以模拟更真实的听诊场景;b) 一种新的3标签(正常、爆裂音、哮鸣音)标注方案,用于纠正传统2标签方案在拼接混合周期时导致的“正常”信息丢失问题;c) 一个患者匹配辅助任务,作为正则化器以减轻患者特异性过拟合。 与已有方法相比新在哪里:最关键的新颖性在于识别并解决了“多标签分布偏差”——即在使用传统2标签方案时,将正常周期与异常周期拼接后,标签会完全变成异常标签,从而系统性地削弱了模型对正常信号的建模能力。本文提出的3标签独立建模方案是解决此问题的关键。 主要实验结果如何:在ICBHI 2017基准数据集上,PC-MCL(使用BEATs骨干网络)达到了65.37% 的ICBHI Score,超过了此前最佳的64.84%。消融实验表明,多标签公式对提高灵敏度(+2.31%)贡献最大,而患者匹配任务则进一步提升了特异性和整体分数。与基线CE模型相比,在两个不同骨干网络(AST, BEATs)上均带来了显著的性能提升(分数提升约3-4个百分点)。 实际意义是什么:该框架提升了呼吸音分类的鲁棒性和泛化能力,对于辅助肺部疾病的低风险、低成本筛查具有潜在价值。它强调了在医疗音频分析中,数据增强策略需谨慎设计以保持标签的生物学合理性。 主要局限性是什么:a) 患者匹配辅助任务的贡献相对较小且不够稳定;b) 训练和推理之间存在微小的领域偏移(训练用拼接长音频,推理用单周期短音频),尽管论文称其稳健,但未深入分析;c) 论文未提供代码和模型权重,且关键训练细节缺失。 🏗️ 模型架构 论文的整体架构如图1所示。其核心流程为: ...

2026-04-29