📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis
#音频分类 #音频生成 #多模态模型 #流匹配 #大语言模型
🔥 8.5/10 | 前25% | #音频分类 | #多模态模型 | #音频生成 #流匹配
学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高
👥 作者与机构
- 第一作者:Pengfei Zhang (香港科技大学(广州))
- 通讯作者:Li Liu (香港科技大学(广州),邮箱:avrillliu@hkust-gz.edu.cn)
- 作者列表:Pengfei Zhang(香港科技大学(广州)),Tianxin Xie(未说明),Minghao Yang(未说明),Li Liu(香港科技大学(广州))
💡 毒舌点评
这篇论文最大的亮点是系统设计的“闭环”思想——用LLM规划器(Thinker)主动识别诊断弱点并指导生成器合成针对性数据,这比简单的过采样或数据增强要高明得多,且在数据集稀缺的医疗场景下思路很对路。短板则在于,虽然名为“Agent”,但其中的LLM规划器更多扮演了静态调度器的角色,论文对其“自主性”(如在线从诊断反馈中学习并调整策略)的展示和验证不足,削弱了Agent这一概念的冲击力;另外,多模态融合中,文本临床叙事的加入虽然带来了提升,但其具体贡献的“可解释性”与医生直觉的关联可以挖掘得更深。
🔗 开源详情
- 代码:提供。论文中给出了GitHub仓库链接:https://github.com/zpforlove/Resp-Agent
- 模型权重:提供。论文中给出了HuggingFace模型权重链接:https://huggingface.co/AustinZhang/resp-agent-models
- 数据集:提供。论文中给出了HuggingFace数据集链接:https://huggingface.co/datasets/AustinZhang/resp-agent-dataset
- Demo:论文中未提及在线演示。
- 复现材料:提供了训练和推理脚本、配置文件、完整的超参数设置(附录C)、训练细节和检查点,复现信息非常充分。
- 论文中引用的开源项目:依赖的开源工具/模型包括:DeepSeek系列模型(V3.2-Exp, R1-Distill-Qwen-7B)、Qwen3-0.6B-Base、BEATs、Longformer、Vocos声码器、Conformer、AST、Whisper等。
📌 核心摘要
这篇论文旨在解决深度学习在呼吸音听诊分析中面临的两个根本挑战:单模态表示的信息损失和标注数据的稀缺与不均衡。为此,论文提出了Resp-Agent,一个由中央规划器(Thinker-A2CA)编排的多智能体闭环系统。核心方法包括:1)一个可控生成器(Resp-MLLM),通过模态注入将大语言模型改造为多模态生成器,并结合流匹配解码器合成指定病理内容和声学风格的呼吸音;2)一个融合诊断器,通过模态编织将临床文本与音频嵌入在输入层融合,并利用稀疏全局注意力(音频锚点)捕捉瞬态声学事件。作为基础,论文构建了大规模多模态基准数据集Resp-229k(22.9万条记录)。主要实验结果表明,Resp-Agent在ICBHI数据集上以72.7的Score刷新了官方榜单记录,在Resp-229k跨域测试集上,其生成器配合规划器可将诊断器的宏F1分数从基线的0.212大幅提升至0.598。该工作为数据稀缺的医疗音频分析提供了整合生成与诊断的新范式,但其Agent的自主适应能力及系统在真实临床环境中的部署复杂度是其主要局限。
| 模型/设置 | 数据集 | 指标 | 数值 | 备注 |
|---|---|---|---|---|
| ICBHI 官方排行榜 (表2) | ||||
| 最佳先前方法 (Dong et al.) | ICBHI | Score (%) | 67.55 | SOTA |
| Resp-Agent [Ours] | ICBHI | Score (%) | 72.70 | (+5.15) |
| Resp-229k 跨域测试集 (表3, 表8) | ||||
| 音频基线 (Conformer) | Test-CD | Accuracy / Macro-F1 | 0.720 / 0.1935 | 仅音频,原始不平衡 |
| Resp-Agent (无合成) | Test-CD | Accuracy / Macro-F1 | 0.849 / 0.212 | 多模态诊断器 |
| Resp-Agent (Thinker-A2CA 合成) | Test-CD | Accuracy / Macro-F1 | 0.887 / 0.598 | 生成数据平衡后 |
主要创新在于:1)首次提出并实现了针对呼吸音分析的“分析-生成”闭环Agent系统;2)创建了Resp-229k大规模、带临床文本的呼吸音基准,填补了数据空白;3)设计了融合文本与音频的模态编织诊断器,通过音频锚点机制提升了对瞬态病理性声音的捕捉能力。
🏗️ 模型架构
Resp-Agent是一个由中央LLM规划器驱动的闭环多智能体系统,其整体架构如图1所示。

系统包含三个核心模块:
- Thinker-A2CA (规划器):基于DeepSeek-V3.2-Exp大语言模型。其功能是解析用户意图(如“诊断一段音频”或“合成某种疾病的呼吸音”),并调度任务至生成器或诊断器。关键在于它采用“计划-执行”范式,利用工具路由,并基于回收的诊断错误模式和置信度来调整后续行动(例如,针对识别不佳的类别请求生成更多数据),形成一个闭环。
- Generator (生成器):一个两阶段的可控呼吸音合成模块。
- 阶段一:Resp-MLLM (多模态单元生成器)。如图2所示,它以一个轻量级纯文本LLM(Qwen3-0.6B-Base)为核心。通过“模态注入”,将文本诊断标签(内容)和经过投影器的参考音频BEAT特征(风格)作为前缀提示,使LLM能够自回归预测离散声学单元序列。训练中采用随机掩码策略防止信息泄露。
- 阶段二:CFM解码器与声码器。预测的离散单元经嵌入和时序插值后,作为条件输入到一个基于扩散Transformer(DiT)的条件流匹配(CFM)解码器中,重建梅尔频谱图。最后使用Vocos声码器生成最终波形。这种设计实现了病理内容与声学风格的解耦控制。
- Diagnoser (诊断器):一个多模态融合的疾病分类模块。其核心设计如图3所示。
- 模态编织:在输入层,将文本EHR摘要的词嵌入和音频BEATs特征经投影后的嵌入交错编织成一个单一的序列,使跨模态交互从第一层就开始。
- 战略全局注意力:基于Longformer架构,在编织的序列上分配稀疏的全局注意力token,包括分类token [CLS]、文本描述sentinel [DESCRIPTION],以及以固定步长(s=4)采样的音频“锚点”(A)。这些锚点充当跨模态中心,允许文本token(如“喘息”)直接查询远处的瞬态音频事件,从而在保持线性计算复杂度的同时,实现约80.6ms的全局时间分辨率,有效捕捉转瞬即逝的呼吸音事件。

💡 核心创新点
- 闭环多智能体框架 (Resp-Agent):首次在呼吸音分析领域提出将可控生成与多模态诊断整合在一个由LLM协调的闭环系统中。规划器(Thinker)主动诊断模型弱点并指导生成针对性合成数据,将数据增强从被动操作转变为自适应的主动课程学习。
- 模态编织与音频锚点融合机制:与晚期融合或简单拼接不同,Diagnoser在输入层进行深度模态交织。特别设计的稀疏音频锚点充当全局信息枢纽,在保证计算效率的同时,极大地增强了模型对远距离临床文本与短暂声学事件之间关联的建模能力。
- 可控解耦的呼吸音生成 (Resp-MLLM):通过对轻量级LLM进行模态注入,实现病理语义内容(由文本控制)与录音声学风格(由参考音频BEATs特征控制)的解耦条件生成。结合条件流匹配解码器,能够合成高保真度、相位感知的波形,特别适合保留临床关键的瞬态声学特征。
- 大规模多模态基准 Resp-229k:构建了包含22.9万条记录、覆盖16种诊断类别、配有LLM蒸馏临床叙事的呼吸音-文本对数据集,并建立了严格的跨数据源/设备/机构评估协议,为该领域提供了前所未有的标准化评估基础。
🔬 细节详述
- 训练数据:
- 主要使用自建的Resp-229k数据集,聚合自5个公共数据库(ICBHI, SPRSound, UK COVID-19, COUGHVID, KAUH),总计约408小时、22.9万条质量控制后的录音。
- 临床文本描述由DeepSeek-R1-Distill-Qwen-7B模型从原始元数据(CSV/TXT/JSON)中自动合成,并经过两阶段审核(规则+LLM+人工抽查),确保质量。
- 预训练阶段使用了HF Lung V1数据集进行初始化。
- 损失函数:
- 生成器:阶段一(Resp-MLLM)使用自回归交叉熵损失(公式2)。阶段二(CFM)使用流匹配的均方误差损失(公式5),最小化预测速度场与目标速度场的差异。
- 诊断器:使用标准的交叉熵损失进行分类。
- 训练策略:
- Diagnoser:使用DeepSpeed训练,启用梯度检查点,优化器为AdamW,采用OneCycleLR调度器,最大学习率为1e-5。训练10个epoch。
- Generator:论文未详细说明其独立训练策略,但提及了“无泄漏的条件”训练机制(随机掩码)。
- Thinker:论文未说明其是否需要微调,但提到它“回收模型原理、错误模式和校准置信度”。
- 关键超参数:
- Diagnoser:基于Longformer-base-4096模型。音频输入为10秒16kHz,BEATs特征维度为D,投影到H维。音频锚点步长s=4,对应全局注意力分辨率约80.6ms。
- Generator:Resp-MLLM基于Qwen3-0.6B-Base。风格描述符数量K默认为8。BEATs码本大小V。
- 训练硬件:论文中未说明具体GPU型号和数量。
- 推理细节:Diagnoser使用Longformer进行前向传播。Generator的CFM解码器采用32步推理(相比DDPM,延迟降低约40%),最后通过Vocos声码器生成波形。Thinker-A2CA的推理细节未说明。
- 正则化或稳定训练技巧:Diagnoser在输入模态编织后,对文本和音频嵌入分别应用了token dropout(p=0.2)和帧 dropout(p=0.1)。Resp-MLLM训练时采用随机掩码采样(M≈10%)以防止信息泄露。
📊 实验结果
论文在两个主要基准上进行了评估:ICBHI 4分类任务和自建的Resp-229k 16分类跨域任务。
- ICBHI数据集性能(表2)
| 方法 | 后端 | 预训练数据 | Sp (%) | Se (%) | Score (%) |
|---|---|---|---|---|---|
| MVST (He et al., 2024) | AST | IN+AS | 81.99 | 51.10 | 66.55 |
| Dong et al. (2025) | AST | IN+AS | 85.99 | 49.11 | 67.55* |
| Resp-Agent [Ours] | LLM+Longformer | HF+SPR | 79.29 | 66.10 | 72.70 |
Resp-Agent以72.70的Score超越之前最优方法(67.55)5个百分点以上,刷新了ICBHI官方排行榜。
- Resp-229k 跨域测试集(Test-CD)消融研究
表3:不同规划器策略下的诊断性能
| 设置 | 方法 | 合成预算B (k) | 准确率 | 宏F1 | 宏F1-尾部 |
|---|---|---|---|---|---|
| 无合成基线 | CE | 0 | 0.849 | 0.212 | 0.074 |
| 随机采样 | Random | 50 | 0.869 | 0.442 | 0.291 |
| 类别先验平衡 | Class-Prior | 50 | 0.876 | 0.512 | 0.349 |
| 静态不确定性 | Uncertainty-Static | 50 | 0.881 | 0.546 | 0.376 |
| 本文方法 | Thinker-A2CA | 50 | 0.887 | 0.598 | 0.421 |
在相同合成预算下,Thinker-A2CA规划器取得最佳性能,宏F1比最强基线(不确定性静态采样)高0.052。
表4:生成器内容-风格解耦与诊断器消融(部分)
| 配置 | 准确率 | 宏F1 |
|---|---|---|
| 晚期融合,原始元数据,无锚点 | 0.780 | 0.145 |
| 模态编织,原始元数据,无锚点 | 0.640 | 0.175 |
| 模态编织,原始元数据,有锚点 | 0.835 | 0.195 |
| 完整Resp-Agent诊断器 (LLM EHR + 锚点) | 0.849 | 0.212 |
消融实验证明,高质量临床文本、模态编织和音频锚点机制对性能都有正向贡献,且锚点对于维持稳定性至关重要。
- 下游生成数据价值验证(表11,表12) 在跨域测试集上,使用不同方法生成的数据平衡训练集后,训练出的多模态诊断器(Longformer)和单模态诊断器(Conformer)的性能对比如下:
| 训练集策略 | Longformer 准确率 | Longformer 宏F1 | Conformer 准确率 | Conformer 宏F1 |
|---|---|---|---|---|
| 原始不平衡 | 0.8494 | 0.2118 | 0.7200 | 0.1935 |
| 简单增强平衡 | 0.7520 | 0.1720 | 0.6914 | 0.1688 |
| c-WaveGAN 平衡 | 0.8650 | 0.4520 | 0.7420 | 0.4010 |
| AudioLDM 2 平衡 | 0.8781 | 0.5265 | 0.7560 | 0.4760 |
| StableAudio Open 平衡 | 0.8830 | 0.5620 | 0.7700 | 0.5050 |
| Resp-Agent 平衡 | 0.8870 | 0.5980 | 0.7820 | 0.5360 |
Resp-Agent生成的数据在两种诊断器上均带来最大提升,证明其合成数据的临床价值高于其他生成模型。
图4展示了生成器在风格交换和内容交换实验中,均能保持高保真度(低FAD)和高可控性(高风格相似度、高病理准确率),验证了其内容与风格解耦的有效性。
图5显示,���相同合成预算下,Thinker-A2CA规划器比其他策略更早地获得更高的宏F1分数,体现了更高的数据利用效率。
⚖️ 评分理由
- 学术质量:6.5/7。论文提出了一个完整且富有创意的系统框架,将Agent、可控生成、多模态融合三项技术有机结合,用于解决一个重要的实际问题。技术细节扎实,实验设计严谨,提供了充分的消融研究和对比实验,证据可信。得分未达满分,是因为Agent的“自主性”和“在线学习”特性在实验中体现有限,更接近一个优秀的规划器。
- 选题价值:1.5/2。呼吸音分析是医疗AI的细分但重要方向,数据稀缺和跨设备泛化是实际落地的核心瓶颈。本工作直击这些痛点,提出的闭环解决思路具有启发性和应用潜力。相关性对生物声学和医疗AI研究者很高。
- 开源与复现加成:0.8/1。论文明确开源了代码、模型和全部数据集,并提供了详尽的复现说明、超参数和附录细节,极大地降低了复现门槛,对社区贡献显著。