Adaptive Test-Time Scaling for Zero-Shot Respiratory Audio Classification
📄 Adaptive Test-Time Scaling for Zero-Shot Respiratory Audio Classification #零样本 #音频分类 #大语言模型 #自适应推理 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者:Tsai-Ning Wang(埃因霍温理工大学,Eindhoven Artificial Intelligence Systems Institute) 通讯作者:Aaqib Saeed(埃因霍温理工大学,Eindhoven Artificial Intelligence Systems Institute) 其他作者: Herman Teun den Dekker(伊拉斯姆斯医学中心) Lin-Lin Chen(埃因霍温理工大学) Neil Zeghidour(Kyutai,法国) 💡 毒舌点评 亮点在于将“测试时计算缩放”这个前沿理念巧妙地引入医疗音频零样本分类,设计了一个优雅的三层“升级打怪”推理流程,让模型能“偷懒”也能“拼命”,在效率和效果间取得了很好的平衡。槽点则是核心框架严重依赖外部预训练模型(AcuLa编码器和Gemini LLM),自身创新集中在推理策略上,有点“站在巨人肩膀上做调度”的感觉,且临床属性系统和规则表的构建需要领域专家参与,通用性存疑。 🔗 开源详情 代码:论文声明“源代码在评审期间作为匿名补充材料提供,并将在论文被接收后在GitHub上公开”。目前未公开。 模型权重:未自行发布模型。完全依赖于公开的预训练模型: 音频-文本编码器:AcuLa(来自论文 wang2025languagemodelssemanticteachers)。 Tier-H LLM:Gemini 3 Pro(Google),以及消融实验中使用的gpt-oss、Mistral-Small、Kimi-K2。 数据集:使用的所有呼吸音频数据集均为公开数据集,并在实验部分和附录C中详细引用(如UK COVID-19, CoughVID, ICBHI, Coswara, KAUH, Resp.@TR)。 预训练权重:不适用。 在线Demo:论文中未提及。 依赖的开源工具:FAISS(用于高效近邻检索)。 📌 核心摘要 本文旨在解决零样本呼吸音频分类中“一刀切”的推理计算浪费问题。为此,提出了TRIAGE框架,这是一个三层自适应推理管道:第一层(Tier-L)进行快速的标签-文本相似度匹配;若置信度不足则升级至第二层(Tier-M),通过匹配预定义的临床描述符(如声音特征、位置)并基于规则投票决策;若仍不确定则进入第三层(Tier-H),检索相似病例报告并利用大语言模型进行推理。该框架通过置信度门控动态分配计算资源,使简单样本提前退出,复杂样本获得更多计算。在九个公开数据集上的零样本实验表明,TRIAGE平均AUROC达到0.744,显著优于先前的零样本方法,并在多个任务上匹配甚至超越了监督学习基线。分析显示,性能提升主要集中在难以判断的样本上(相对提升最高达19%),证明了自适应计算在医学音频分析中的有效性。 🏗️ 模型架构 TRIAGE是一个三层级联、基于置信度门控的自适应推理框架,其核心是冻结一个预训练的音频-文本嵌入模型(如AcuLa),仅通过改变测试时的推理策略来提升性能。 整体流程(输入到输出): ...