Cardiobridge-DM: Bridging Cross-Cohort Heart Sound Synthesis via Rhythm-Aware Semi-Supervised Diffusion
📄 Cardiobridge-DM: Bridging Cross-Cohort Heart Sound Synthesis via Rhythm-Aware Semi-Supervised Diffusion #音频生成 #扩散模型 #数据增强 #生物声学 #医疗AI ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #数据增强 #生物声学 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Chenyang Xu(西安电子科技大学网络工程学院) 通讯作者:Hao Wang(西安电子科技大学网络工程学院) 作者列表:Chenyang Xu(西安电子科技大学网络工程学院)、Siming Li(西安电子科技大学通信工程学院)、Hao Wang(西安电子科技大学网络工程学院) 💡 毒舌点评 亮点是其半监督Classifier-Free Guidance (CFG) 策略的设计,通过结构化的模态缺失(对弱标注数据强制丢弃ECG),巧妙地迫使模型学习从文本到心律的跨模态映射,这超越了简单的数据拼接。短板在于,作为一个强调“首个”框架和“可扩展”解决方案的工作,其复现信息极度匮乏,未提供任何代码或模型权重,这严重削弱了其作为“开源解决方案”的实用价值,也让论文中的性能声称难以被独立验证。 📌 核心摘要 要解决什么问题:医疗AI(特别是心脏听诊AI)面临数据碎片化挑战:大型数据集(如PhysioNet 2016)标注简单,小型数据集(如PhysioNet 2022)标注详细但样本量小。需要一种方法桥接这两类数据,生成高质量、可控的心音(PCG)信号以增强模型泛化能力。 方法核心是什么:提出CardioBridge-DM,一个两阶段半监督扩散框架。第一阶段使用VQ-VAE学习跨队列的通用声学表征。第二阶段训练条件扩散模型,其核心创新是节奏感知的半监督Classifier-Free Guidance (CFG):对有ECG的丰富标注数据进行标准随机丢弃;对无ECG的弱标注数据,强制丢弃ECG模态,迫使模型仅从文本诊断中推断心律。 与已有方法相比新在哪里:首次设计用于跨队列(异构标注)心音合成的扩散框架。提出了半监督CFG机制,将条件生成从单纯的数据融合提升为一种跨模态生理推理能力,使模型能在缺失ECG时仅凭文本生成符合节律的心音。 主要实验结果如何:在FAD(生成质量)上达到4.3,远优于最强基线AudioLDM的9.8。提出了新的CCT(跨队列迁移性)指标,得分为0.82。消融实验证明,移除通用声学表征(第一阶段)和半监督CFG都会显著降低性能。感知图灵测试中,训练听众对合成音频的混淆率达到47.8%(接近50%的理想随机水平),MOS为4.2±0.4(与真实音频4.6±0.3可比)。具体结果见下表。 方法 FAD ↓ IS ↑ CLAP ↑ CCT ↑ StyleGAN2-V (adapted) 14.2±0.9 2.1±0.2 0.41±0.04 0.45±0.05 DiffWave (adapted) 11.2±0.6 2.3±0.2 0.48±0.03 0.51±0.04 AudioLDM (adapted) 9.8±0.5 2.6±0.1 0.52±0.03 0.58±0.06 CardioBridge-DM (Ours) 4.3±0.3 3.7±0.2 0.74±0.02 0.82±0.03 ...