医疗AI | 语音/音频论文速递

A Robust KNN Approach for Multi-Class Laryngeal Disease Detection using MFCC Features

📄 A Robust KNN Approach for Multi-Class Laryngeal Disease Detection using MFCC Features #音频分类 #信号处理 #图神经网络 #医疗AI #鲁棒性 ✅ 7.5/10 | 前25% | #音频分类 | #信号处理 | #图神经网络 #医疗AI 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Pingping Wu（南京审计大学工程审计学院）通讯作者：未说明作者列表： Pingping Wu（南京审计大学工程审计学院） Weijie Gao（南京审计大学计算机科学学院） Haibing Chen（江苏省人民医院耳鼻喉科） 💡 毒舌点评本文将图神经网络（GNN）引入传统的K近邻（KNN）分类框架，为病理语音特征建模提供了一个有趣的视角，这是其最亮眼的创新点。然而，论文对所提出图增强KNN中GNN的具体实现（如层数、聚合器类型、注意力机制）和关键超参数（如K值选择）的讨论严重不足，使得“图”这一核心概念的魔力显得有些“黑箱”，也给复现设置了不必要的障碍。此外，使用一个仅320例、未公开的临床数据集得出的结论，其泛化能力有待未来更大规模数据的验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：数据集来自合作医院，论文未提及是否公开或获取方式。 Demo：未提供在线演示。复现材料：论文详细说明了MFCC提取参数（采样率、帧长、帧移、滤波器组数量）、数据划分比例、交叉验证方法以及实验的软硬件环境（Table 2），这些信息有助于在相同条件下复现实验。引用的开源工具：论文明确提到了使用 librosa 库（版本0.10）进行音频处理和特征提取。总结：论文中未提及开源计划（代码、数据、模型均未公开）。 📌 核心摘要问题：喉部疾病（如癌症、息肉、结节、白斑）的早期无创检测对改善预后至关重要，而传统的内窥镜检查受限于设备和专家。现有研究多集中于简单的二分类，对多种疾病的精细分类探索不足。方法核心：提出一种图增强的KNN框架。首先从语音信号中提取MFCC特征序列，然后为每个样本构建基于特征相似度的K近邻图，最后利用图神经网络（GNN）在图上进行信息聚合，学习更具判别性的表示，最终进行分类。创新点：1) 首次将多种非癌症性喉部病变（息肉、结节、白斑）纳入统一的五分类框架进行研究；2) 将图神经网络与KNN结合，通过建模局部拓扑关系来增强传统距离度量的判别能力，这是对标准KNN分类器的一种结构性改进。主要结果：在自建的320例患者数据集上，该方法在二分类（健康 vs 病变）任务中达到96%的准确率，在五分类（健康、癌症、息肉、结节、白斑）任务中达到88%的准确率，均优于包括CNN和传统KNN在内的基线模型。关键数据对比如下表所示：模型二分类准确率五分类准确率传统KNN 0.94 0.83 CNN 0.94 0.80 本文方法 (Ours) 0.96 0.88 实际意义：该研究验证了基于语音的、结合图结构的机器学习模型在非侵入式喉部疾病筛查中的潜力，为临床早期诊断提供了新的技术思路。主要局限性：数据集规模较小（320例）且未公开，模型泛化性存疑；对图神经网络部分的实现细节描述不够深入，技术贡献的清晰度和可复现性有所折扣。 🏗️ 模型架构本文提出的模型整体流程（如图1所示）可分为四个主要阶段： ...

Cardiobridge-DM: Bridging Cross-Cohort Heart Sound Synthesis via Rhythm-Aware Semi-Supervised Diffusion

📄 Cardiobridge-DM: Bridging Cross-Cohort Heart Sound Synthesis via Rhythm-Aware Semi-Supervised Diffusion #音频生成 #扩散模型 #数据增强 #生物声学 #医疗AI ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #数据增强 #生物声学学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Chenyang Xu（西安电子科技大学网络工程学院）通讯作者：Hao Wang（西安电子科技大学网络工程学院）作者列表：Chenyang Xu（西安电子科技大学网络工程学院）、Siming Li（西安电子科技大学通信工程学院）、Hao Wang（西安电子科技大学网络工程学院） 💡 毒舌点评亮点是其半监督Classifier-Free Guidance (CFG) 策略的设计，通过结构化的模态缺失（对弱标注数据强制丢弃ECG），巧妙地迫使模型学习从文本到心律的跨模态映射，这超越了简单的数据拼接。短板在于，作为一个强调“首个”框架和“可扩展”解决方案的工作，其复现信息极度匮乏，未提供任何代码或模型权重，这严重削弱了其作为“开源解决方案”的实用价值，也让论文中的性能声称难以被独立验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：实验使用了公开的PhysioNet 2016和2022数据集，但论文未说明如何获取或处理后的具体数据形式。 Demo：未提供在线演示。复现材料：给出了部分训练细节（优化器、学习率、批量大小）、模型总参数量（110M）和超参数敏感性分析图。但关键的网络架构参数、完整训练配置、数据预处理代码等均未说明。引用的开源项目：论文引用了Wav2Vec 2.0 [21] 和一种心音��割网络 [23]，但未说明是否完全依赖其代码。总结：论文中未提及开源计划。核心复现信息缺失。 📌 核心摘要要解决什么问题：医疗AI（特别是心脏听诊AI）面临数据碎片化挑战：大型数据集（如PhysioNet 2016）标注简单，小型数据集（如PhysioNet 2022）标注详细但样本量小。需要一种方法桥接这两类数据，生成高质量、可控的心音（PCG）信号以增强模型泛化能力。方法核心是什么：提出CardioBridge-DM，一个两阶段半监督扩散框架。第一阶段使用VQ-VAE学习跨队列的通用声学表征。第二阶段训练条件扩散模型，其核心创新是节奏感知的半监督Classifier-Free Guidance (CFG)：对有ECG的丰富标注数据进行标准随机丢弃；对无ECG的弱标注数据，强制丢弃ECG模态，迫使模型仅从文本诊断中推断心律。与已有方法相比新在哪里：首次设计用于跨队列（异构标注）心音合成的扩散框架。提出了半监督CFG机制，将条件生成从单纯的数据融合提升为一种跨模态生理推理能力，使模型能在缺失ECG时仅凭文本生成符合节律的心音。主要实验结果如何：在FAD（生成质量）上达到4.3，远优于最强基线AudioLDM的9.8。提出了新的CCT（跨队列迁移性）指标，得分为0.82。消融实验证明，移除通用声学表征（第一阶段）和半监督CFG都会显著降低性能。感知图灵测试中，训练听众对合成音频的混淆率达到47.8%（接近50%的理想随机水平），MOS为4.2±0.4（与真实音频4.6±0.3可比）。具体结果见下表。方法 FAD ↓ IS ↑ CLAP ↑ CCT ↑ StyleGAN2-V (adapted) 14.2±0.9 2.1±0.2 0.41±0.04 0.45±0.05 DiffWave (adapted) 11.2±0.6 2.3±0.2 0.48±0.03 0.51±0.04 AudioLDM (adapted) 9.8±0.5 2.6±0.1 0.52±0.03 0.58±0.06 CardioBridge-DM (Ours) 4.3±0.3 3.7±0.2 0.74±0.02 0.82±0.03 ...

ICASSP 2026 - 医疗AI 论文列表

ICASSP 2026 - 医疗AI 共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 SpeechCT-CLIP: Distilling Text-Image Knowledge to Speech for 7.5分前25% 📋 论文详情 🥇 SpeechCT-CLIP: Distilling Text-Image Knowledge to Speech for Voice-Native Multimodal CT Analysis ✅ 7.5/10 | 前25% | #医疗AI | #知识蒸馏 | #多模态模型 #对比学习 👥 作者与机构第一作者：Lukas Buess（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室）通讯作者：Lukas Buess (Lukas.Buess@fau.de)（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室）作者列表：Lukas Buess（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室），Jan Geier（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室），David Bani-Harouni（慕尼黑工业大学，计算机辅助医疗程序组），Chantal Pellegrini（慕尼黑工业大学，计算机辅助医疗程序组），Matthias Keicher（慕尼黑工业大学，计算机辅助医疗程序组），Paula Andrea Perez-Toro（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室），Nassir Navab（慕尼黑工业大学，计算机辅助医疗程序组），Andreas Maier（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室），Tomas Arias-Vergara（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室） 💡 毒舌点评 ...

Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection

📄 Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection #音频分类 #对比学习 #Conformer #鲁棒性 #医疗AI ✅ 7.0/10 | 前50% | #音频分类 | #对比学习 | #Conformer #鲁棒性学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Milan Marocchi, Matthew Fynn（*表示贡献相等）通讯作者：未说明作者列表：Milan Marocchi（Curtin University），Matthew Fynn（Curtin University），Yue Rong（Curtin University）机构：Curtin University, Bentley 6102, WA, Australia（未说明具体学院或实验室） 💡 毒舌点评论文的亮点在于将相对复杂的Conformer架构成功应用于心音信号，并设计了一个实用的多通道噪声段拒绝流程，在真实噪声数据集上验证了其有效性。短板是，其噪声拒绝核心算法（能量阈值）的创新性较为有限，且消融实验部分缺失，使得我们难以精确评估各个组件（如对比学习、中心损失、噪声拒绝）的具体贡献。 🔗 开源详情代码：提供了完整的代码仓库链接：https://github.com/MilanMarocchi/noise-robust-cad-conformer。模型权重：论文中未提及是否公开预训练模型权重。数据集：数据集来自特定医院的采集，论文中未提及公开该数据集。 Demo：未提供在线演示。复现材料：论文提供了详细的超参数配置（表1）、训练策略、硬件环境、评估指标定义等，有利于复现。代码仓库的提供是最大的复现支持。论文中引用的开源项目：提到了使用的开源工具包括PyTorch、Optuna（用于超参优化）、AdamW优化器（参考文献[14]）。 📌 核心摘要要解决什么问题：在真实临床噪声环境下，提高基于心音图（PCG）信号的冠状动脉疾病（CAD）检测的鲁棒性和准确性。方法核心是什么：提出一个包含噪声感知预处理和深度学习分类的端到端流程。核心包括：(1) 一种基于能量的多通道噪声段拒绝算法，利用听诊器内置的心声麦克风（HM）和噪声参考麦克风（NM）识别并剔除受非平稳噪声污染严重的信号段；(2) 一个将梅尔频率倒谱系数（MFCC）作为输入的Conformer编码器，并结合监督混合对比学习（包含对比损失、分类损失和中心损失）进行训练。与已有方法相比新在哪里：首次将Conformer模型应用于心音分类任务；提出了一种联合利用HM和NM能量信息的噪声段拒绝方法；在同一个框架内集成了多通道MFCC特征提取、Conformer建模和混合对比学习，以应对真实世界噪声数据。主要实验结果如何：在297名受试者的数据集上，所提出的方法（带噪声拒绝）在受试者级别取得了78.4%的准确率和78.2%的平衡准确率（UAR），相比不进行噪声拒绝的基线模型，准确率和UAR分别提升了4.1%和4.3%。与之前基于Wav2Vec 2.0的方法相比，准确率和UAR分别提升了1.3%和3.9%。具体实验数据如下表所示（仅列受试者级别关键指标）：方法准确率 (Acc) 平衡准确率 (UAR) 真阳性率 (TPR) 真阴性率 (TNR) MCC 不带噪声拒绝的MFCC-Conformer 74.3±0.09% 73.9±0.10% 80.9±0.11% 66.9±0.30% 0.490±0.019 本文方法（带噪声拒绝的MFCC-Conformer） 78.4±0.29% 78.2±0.32% 81.9±0.49% 74.5±0.97% 0.570±0.058 Noisy Wav2Vec 2.0 [13] 77.1±1.50% 74.3±1.73% 86.5±1.30% 62.0±2.76% 0.510±0.035 实际意义是什么：为在真实世界噪声条件下（如嘈杂的医院环境）进行无创、低成本的CAD预筛查提供了更鲁棒的深度学习解决方案，有助于推动基于可穿戴设备的心脏病早期预警技术。主要局限性是什么：实验仅在一个来源的特定数据集上进行验证；噪声拒绝算法的阈值（2.5倍中值）是固定的，缺乏自适应性讨论；论文未提供充分的消融实验以区分各技术组件（噪声拒绝、Conformer、对比学习等）的独立贡献。 🏗️ 模型架构论文提出的模型是一个基于Conformer的编码器，用于处理从多通道PCG信号中提取的MFCC特征序列，以实现二分类（CAD vs. 正常）。 ...

SpeechCT-CLIP: Distilling Text-Image Knowledge to Speech for Voice-Native Multimodal CT Analysis

📄 SpeechCT-CLIP: Distilling Text-Image Knowledge to Speech for Voice-Native Multimodal CT Analysis #多模态模型 #知识蒸馏 #对比学习 #数据集 #医疗AI ✅ 7.5/10 | 前25% | #医疗AI | #知识蒸馏 | #多模态模型 #对比学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Lukas Buess（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室）通讯作者：Lukas Buess (Lukas.Buess@fau.de)（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室）作者列表：Lukas Buess（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室），Jan Geier（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室），David Bani-Harouni（慕尼黑工业大学，计算机辅助医疗程序组），Chantal Pellegrini（慕尼黑工业大学，计算机辅助医疗程序组），Matthias Keicher（慕尼黑工业大学，计算机辅助医疗程序组），Paula Andrea Perez-Toro（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室），Nassir Navab（慕尼黑工业大学，计算机辅助医疗程序组），Andreas Maier（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室），Tomas Arias-Vergara（弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校，模式识别实验室） 💡 毒舌点评这篇论文精准地切入了放射科医生“动口不动手”的报告习惯与现有AI“只认文字”之间的尴尬断层，为构建语音原生的医疗AI开了个好头，且数据集的合成与公开思路值得称赞。但其核心方法本质上是将强大的文本-影像CLIP模型作为“拐杖”来教一个语音模型，缺乏对语音本身独特信息（如语调、停顿）的深度挖掘与利用，使得“语音原生”的潜力尚未被充分释放。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开模型权重。数据集：Speech-RATE数据集承诺在 Hugging Face 上公开发布（地址：https://huggingface.co/datasets/lbuess/Speech-RATE）。 Demo：未提供在线演示。复现材料：论文给出了基本的训练超参数（学习率、batch size、优化器、训练步数），但缺少详细配置、检查点及更完整的复现说明（如环境配置、数据预处理脚本）。蒸馏权重λ等关键超参数未提供。论文中引用的开源项目：依赖的开源工具/模型包括：Kokoro TTS引擎、CT-RATE数据集、CT-CLIP模型、Whisper、HuBERT、wav2vec 2.0等预训练模型。 📌 核心摘要问题：临床放射学报告主要通过口述生成，但现有的医学多模态基础模型（如CT-CLIP）完全依赖书面文本进行训练，忽略了语音这一原生输入模态，且依赖ASR转录会引入错误并丢失信息。方法核心：提出SpeechCT-CLIP，一个将语音报告与3D CT体积对齐的对比学习模型。核心是构建一个大规模合成语音-CT对数据集Speech-RATE，并采用知识蒸馏策略，将一个预训练的文本-影像CLIP模型（教师）的知识迁移到语音-影像模型（学生）中。创新点：首次提出并实现了语音-CT的对比对齐；构建了首个大规模合成语音放射学报告数据集Speech-RATE；证明了从文本模型向语音模型进行知识蒸馏能有效弥合性能差距。实验结果：在零样本分类任务上，SpeechCT-CLIP的F1分数达到0.705，相比不使用知识蒸馏的基线（0.623）提升了13.2%，恢复了文本模型（CT-CLIP， F1=0.718）与语音基线之间88%的性能差距。在跨模态检索任务上，蒸馏也带来了显著提升（如R@100从0.291提升至0.377）。在外部数据集RAD-ChestCT上也验证了方法的泛化性。实际意义：为构建无需中间转录、直接以语音为输入的诊断支持工具铺平了道路，有望提升临床工作流程的效率和鲁棒性。主要局限性：1）用于训练的语音数据来自合成（TTS），与真实临床口述在韵律、噪声、口音等方面可能存在差距；2）模型在性能上仍略逊于以文本为输入的CLIP模型；3）论文未探讨模型对语音中额外信息（如犹豫、强调）的建模能力。 🏗️ 模型架构 SpeechCT-CLIP是一个双塔对比学习模型，其架构如图1所示。 ...