Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis
📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #音频生成 #多模态模型 #流匹配 #大语言模型 🔥 8.5/10 | 前25% | #音频分类 | #多模态模型 | #音频生成 #流匹配 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Pengfei Zhang (香港科技大学(广州)) 通讯作者:Li Liu (香港科技大学(广州),邮箱:avrillliu@hkust-gz.edu.cn) 作者列表:Pengfei Zhang(香港科技大学(广州)),Tianxin Xie(未说明),Minghao Yang(未说明),Li Liu(香港科技大学(广州)) 💡 毒舌点评 这篇论文最大的亮点是系统设计的“闭环”思想——用LLM规划器(Thinker)主动识别诊断弱点并指导生成器合成针对性数据,这比简单的过采样或数据增强要高明得多,且在数据集稀缺的医疗场景下思路很对路。短板则在于,虽然名为“Agent”,但其中的LLM规划器更多扮演了静态调度器的角色,论文对其“自主性”(如在线从诊断反馈中学习并调整策略)的展示和验证不足,削弱了Agent这一概念的冲击力;另外,多模态融合中,文本临床叙事的加入虽然带来了提升,但其具体贡献的“可解释性”与医生直觉的关联可以挖掘得更深。 🔗 开源详情 代码:提供。论文中给出了GitHub仓库链接:https://github.com/zpforlove/Resp-Agent 模型权重:提供。论文中给出了HuggingFace模型权重链接:https://huggingface.co/AustinZhang/resp-agent-models 数据集:提供。论文中给出了HuggingFace数据集链接:https://huggingface.co/datasets/AustinZhang/resp-agent-dataset Demo:论文中未提及在线演示。 复现材料:提供了训练和推理脚本、配置文件、完整的超参数设置(附录C)、训练细节和检查点,复现信息非常充分。 论文中引用的开源项目:依赖的开源工具/模型包括:DeepSeek系列模型(V3.2-Exp, R1-Distill-Qwen-7B)、Qwen3-0.6B-Base、BEATs、Longformer、Vocos声码器、Conformer、AST、Whisper等。 📌 核心摘要 这篇论文旨在解决深度学习在呼吸音听诊分析中面临的两个根本挑战:单模态表示的信息损失和标注数据的稀缺与不均衡。为此,论文提出了Resp-Agent,一个由中央规划器(Thinker-A2CA)编排的多智能体闭环系统。核心方法包括:1)一个可控生成器(Resp-MLLM),通过模态注入将大语言模型改造为多模态生成器,并结合流匹配解码器合成指定病理内容和声学风格的呼吸音;2)一个融合诊断器,通过模态编织将临床文本与音频嵌入在输入层融合,并利用稀疏全局注意力(音频锚点)捕捉瞬态声学事件。作为基础,论文构建了大规模多模态基准数据集Resp-229k(22.9万条记录)。主要实验结果表明,Resp-Agent在ICBHI数据集上以72.7的Score刷新了官方榜单记录,在Resp-229k跨域测试集上,其生成器配合规划器可将诊断器的宏F1分数从基线的0.212大幅提升至0.598。该工作为数据稀缺的医疗音频分析提供了整合生成与诊断的新范式,但其Agent的自主适应能力及系统在真实临床环境中的部署复杂度是其主要局限。 模型/设置 数据集 指标 数值 备注 ICBHI 官方排行榜 (表2) 最佳先前方法 (Dong et al.) ICBHI Score (%) 67.55 SOTA Resp-Agent [Ours] ICBHI Score (%) 72.70 (+5.15) Resp-229k 跨域测试集 (表3, 表8) 音频基线 (Conformer) Test-CD Accuracy / Macro-F1 0.720 / 0.1935 仅音频,原始不平衡 Resp-Agent (无合成) Test-CD Accuracy / Macro-F1 0.849 / 0.212 多模态诊断器 Resp-Agent (Thinker-A2CA 合成) Test-CD Accuracy / Macro-F1 0.887 / 0.598 生成数据平衡后 主要创新在于:1)首次提出并实现了针对呼吸音分析的“分析-生成”闭环Agent系统;2)创建了Resp-229k大规模、带临床文本的呼吸音基准,填补了数据空白;3)设计了融合文本与音频的模态编织诊断器,通过音频锚点机制提升了对瞬态病理性声音的捕捉能力。 ...