📄 Empowering Multimodal Respiratory Sound Classification with Counterfactual Adversarial Debiasing for Out-of-Distribution Robustness

#音频分类 #生物声学 #对比学习 #数据增强 #多模态模型

✅ 7.0/10 | 前25% | #音频分类 | #对比学习 | #生物声学 #数据增强

学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Heejoon Koo（伦敦大学学院，RSC LAB）
通讯作者：June-Woo Kim（RSC LAB，光州科学技术院）
作者列表：Heejoon Koo（伦敦大学学院，RSC LAB）、Miika Toikkanen（RSC LAB）、Yoon Tae Kim（RSC LAB，韩国科学技术院）、Soo Yong Kim（RSC LAB）、June-Woo Kim†（RSC LAB，光州科学技术院）

💡 毒舌点评

本文的亮点在于构建了一个系统性较强的去偏框架，将因果推理中的反事实估计与公平学习领域的对抗去偏相结合，并针对医疗数据特点设计了具体的元数据增强策略，逻辑自洽。短板是创新性主要体现在技术组合与特定领域适配上，且实验部分的广度有限，仅在一个主任务（呼吸音分类）和两个数据集上验证，缺乏对更通用音频任务或更复杂偏见场景的探讨。

🔗 开源详情

详��

代码：是，提供代码仓库链接：https://github.com/RSC-Toolkit/BTS-CARD。
模型权重：论文中未提及是否公开预训练模型权重。
数据集：ICBHI和SPRSound均为公开数据集，论文中给出了具体引用和获取信息。
Demo：论文中未提及提供在线演示。
复现材料：论文中提供了详细的训练数据集描述、预处理步骤、训练超参数、损失函数配置以及评估协议，复现信息较为充分。
论文中引用的开源项目/模型：RUBi用于融合，Clinical TinyBERT用于元数据文本编码，Audio-CLAP/BTS作为基础模型，AdamW优化器。

📌 核心摘要

要解决的问题：多模态呼吸音分类模型易受患者元数据（如年龄、性别、采集设备）产生的虚假关联（伪相关）影响，导致在不同临床环境（分布外数据）下泛化性能显著下降。
方法核心：提出BTS-CARD框架，通过三重机制缓解偏见：1）基于因果图的反事实去偏，通过估计并减去自然直接效应（NDE）来抑制元数据对预测的直接虚假影响；2）对抗去偏，在NDE路径上引入梯度反转层，学习对位置和设备不敏感的特征表示；3）反事实元数据增强，在训练中用中性占位符替换敏感元数据，模拟干预以打破虚假依赖。
与已有方法相比新在哪里：首次将反事实推理与对抗去偏相结合用于多模态呼吸音分类。不同于简单地删除或掩码元数据，本文通过精心设计的反事实估计和对抗学习，旨在保留元数据中可能包含的有益间接信息，同时抑制其直接带来的偏见。
主要实验结果：在ICBHI（分布内）和SPRSound（分布外）数据集上，BTS-CARD在ICBHI Score（敏感性与特异性均值）指标上均优于强基线（如BTS）。具体而言，在分布外设置下，本文方法取得了61.96%的分数，显著高于BTS的53.42%。消融实验表明，三个组件对性能均有贡献，其中去除反事实元数据增强对分布外性能影响最大。参数分析显示，推理时去除直接效应（α=0）反而能获得最佳分布外性能。
实际意义：该方法提升了呼吸音分类模型在不同医院、不同设备间的泛化能力和鲁棒性，对于推动临床AI系统的实际部署具有积极意义。
主要局限性：研究的泛用性有待验证，仅在单一任务和特定数据集组合上进行评估。对抗去偏主要针对采集位置和设备，对年龄、性别等其他敏感属性的去偏效果在实验中未显示出优势，其普适性值得商榷。

🏗️ 模型架构

BTS-CARD框架建立在BTS（Bridging Text and Sound）多模态模型基础上，旨在对BTS预测进行反事实去偏。整体流程如下：

输入：音频信号 a 和文本化的患者元数据 t（例如，“This patient is a 5-year-old female…”）。
事实世界预测（TE）：音频和文本通过BTS模型（基于Audio-CLAP等）融合生成多模态表示 m，并结合文本 t 经过融合层（采用RUBi）得到预测 Yt,m。
反事实世界预测（NDE估计）：将文本 t 输入一个专用的“临床TinyBERT”模型（Clinical TinyBERT），输出预测 Yt。同时，用一个常数向量 m（值为1）代替多模态表示 m，与文本 t 结合得到预测 Yt,m。通过计算 Yt,m - Yt,m（Yt 为文本使用占位符替换后的预测）来估计自然直接效应（NDE），这部分路径被建模为元数据到预测的直接虚假关联。
对抗去偏：NDE的输出 Yt 被送入一个对抗网络。该网络包含一个对抗器（Discriminator），用于预测元数据的敏感属性（位置 location 和设备 device）。在特征 z 和对抗器之间插入梯度反转层（GRL），使得主任务学习到的特征表示 z 能够误导对抗器，从而实现对敏感属性的不变性。
反事实元数据增强：在训练NDE模型（Clinical TinyBERT）时，以一定概率 p 将文本 t 中的敏感属性（如具体年龄、性别）替换为中性占位符（如“age is unknown”），从而在数据层面抑制虚假关联。
训练目标：总损失 L 包括：a) 对事实世界预测 Yt,m 和反事实预测 Yt,m* 的交叉熵损失 LCE；b) 对齐两个预测的KL散�� LKL；c) 对抗去偏损失 Ladv（包含NDE预测损失和位置/设备分类损失）。
推理：最终预测为事实预测减去NDE估计的加权值：ˆY = Yt,m - α · Yt,m* = TIE。α 控制去偏强度。实验发现，α=0（即直接使用事实预测）在分布外数据上表现最好，表明训练过程已有效去偏。

fig1 图1：BTS-CARD框架概览，展示了事实世界与反事实世界推理路径，以及对抗去偏和反事实元数据增强模块。

fig2 图2：因果图，用于解释变量间的直接与间接、事实与反事实关系，为去偏方法提供理论基础。

💡 核心创新点

反事实对抗去偏框架整合：首次将基于因果图的反事实去偏与对抗去偏相结合，应用于多模态呼吸音分类。之前的方法要么只做因果建模，要么只用对抗学习，本文将两者统一在一个框架内，分别处理元数据的直接虚假路径（通过反事实估计）和促进特征不变性（通过对抗学习）。
针对NDE路径的针对性去偏：框架精确定位并去偏由元数据 t 到预测 Y 的直接路径（T → Y）。通过反事实估计量化NDE，并在此路径上施加对抗损失，实现了更精准的偏见抑制，同时试图保留通过多模态融合路径（a, t → m → Y）可能带来的有益信息。
中性占位符反事实元数据增强：提出了一种有别于简单随机擦除或掩码的数据增强方法。在训练NDE子模型时，用语义中性的短语（如“unknown”）替换敏感属性，这模拟了一种因果干预（do(T=neutral)），旨在打破模型对特定敏感属性的依赖，同时避免引入无意义的 [UNK] token 带来的信息损失。

🔬 细节详述

训练数据：
- 分布内数据集：ICBHI呼吸音数据库。包含正常、啰音、哮鸣音、混合音四类，已进行年龄二值化（成人/儿童）。
- 分布外数据集：SPRSound（上海交通大学儿科呼吸音数据库）。类别与ICBHI对齐。使用其inter-patient级别的验证集作为测试集。
- 预处理：遵循BTS方法，提取呼吸周期，标准化为8秒，重采样至48kHz。文本元数据限制为64个tokens。
损失函数：
- LCE：事实预测和反事实预测的交叉熵损失之和。
- LKL：KL散度，约束反事实预测分布接近事实预测分布，以稳定训练。
- Ladv：包含NDE模型的预测损失 L_CE^NDE 和两个对抗判别器（位置、设备）的分类损失 L_a。
- 总损失：L = λCE LCE + λKL LKL + Ladv。
训练策略：
- 优化器：AdamW。
- 学习率：5e-5，采用余弦退火调度。
- 训练轮数：30 epochs。
- 批量大小：8。
- 损失权重：λCE = 1.0, λKL = 1.0, λ_location = 0.01, λ_device = 0.1，对抗损失系数为1.0。
- 增强概率：p = 0.25。
关键超参数：推理时的去偏系数 α，在0到1之间变化。最终发现 α=0 最佳。
训练硬件：单块NVIDIA RTX 3090 GPU。
推理细节：根据公式(10)计算最终预测，实验表明 α=0 时模型在分布外泛化能力最强。
正则化/稳定技巧：KL散度约束（LKL）用于稳定反事实预测。

📊 实验结果

主要评估指标为ICBHI Score，即特异性（Sp，正常样本识别率）和敏感性（Se，异常样本识别率）的算术平均值。

表2：主实验结果（IND: ICBHI, OOD: SPRSound）

方法	IND Sp (%)	IND Se (%)	IND Score (%)	OOD Sp (%)	OOD Se (%)	OOD Score (%)
Unimodal
Bae et al. (Fine-tuning)	77.14	41.97	59.55	69.62	32.65	51.13
Bae et al. (Patch-Mix CL)	81.66	43.07	62.37	62.69	39.33	51.01
Kim et al. (SG-SCL)	79.87	43.55	61.71	81.06	22.62	51.84
Kim et al. (Audio-CLAP)	80.85	44.67	62.56	70.67	41.90	56.29
Multimodal
Kim et al. (BTS)	81.40	45.67	63.54	67.50	39.33	53.42
Ours (BTS-CARD)	84.42±3.47	44.83±2.94	64.63±0.57	82.02±3.28	41.90±4.96	61.96±1.50

结论：BTS-CARD在分布内和分布外设置上均优于所有基线。在分布外设置上，Score提升显著（+8.54% vs. BTS），主要来源于特异性（Sp）的大幅提升（+14.52%），而敏感性（Se）基本持平。

表3：消融研究

组件	IND Score (%)	OOD Score (%)
w/o (a) 反事实去偏	63.25	58.55
w/o (b) 对抗去偏	64.33	59.39
w/o (c) 反事实元数据增强	63.68	56.96
Full	64.63	61.96

结论：三个组件均有贡献。去除反事实元数据增强（c）对分布外性能损害最大，验证了其在缓解分布偏移中的关键作用。

表4：不同去偏属性组合的比较

组合	IND Score (%)	OOD Score (%)
Age	63.70	63.18
Sex	63.42	54.80
Location	62.55	61.88
Device	64.17	60.20
Age & Sex	64.13	59.36
Age & Location & Device	63.39	58.16
Location & Device	64.63	61.96

结论：同时对采集位置和设备进行去偏（Location & Device）在分布内和分布外取得了最佳平衡。单独对年龄去偏在分布外效果最好，但分布内表现一般。

图3：参数α分析 fig3 描述：该折线图展示了推理系数α在0到1之间变化时，分布内（ICBHI）和分布外（SPRSound）的Score值。分布内性能随α增加而缓慢下降，但相对稳定；分布外性能随α增加而明显下降，在α=0时达到峰值。结论：在训练阶段已进行有效去偏后，推理时无需显式减去直接效应（α=0）反而能获得最佳的分布外泛化能力，这简化了部署流程。

⚖️ 评分理由

学术质量：5.0/7：论文提出了一个完整、逻辑自洽的框架，技术路径正确，实验设计规范（包括主实验、消融、对比、参数分析），数据充分。创新点在于多技术的有机整合与特定问题的针对性设计，而非提出全新理论或模型架构，属于扎实的领域应用研究。
选题价值：1.5/2：聚焦于医疗AI中的重要垂直任务，解决跨临床环境泛化这一实际痛点，具有明确的应用前景。多模态去偏研究是当前热点，本文工作对此有所贡献。
开源与复现加成：0.5/1：论文提供了清晰的代码仓库链接，详细描述了训练细节、数据集、预处理和超参数设置，可复现性高。但未提及是否开源预训练模型权重。

← 返回 ICASSP 2026 论文分析

📄 Empowering Multimodal Respiratory Sound Classification with Counterfactual Adversarial Debiasing for Out-of-Distribution Robustness#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文