Zero-Shot Parkinson's Disease Detection from Speech: Comparing Large Audio and Language Models
📄 Zero-Shot Parkinson’s Disease Detection from Speech: Comparing Large Audio and Language Models #大语言模型 #多模态模型 #多语言 📝 5/10 | 前50% | #大语言模型 | #多模态模型 | #多语言 | arxiv 学术质量 3.8/7 | 影响力 1/2 | 可复现性 0.2/2 | 置信度 高 👥 作者与机构 Kabir, M., Munira, M., Sirajam, M. A. (作者姓名与单位未在已有分析中列出,现根据原文补充) School of Computing, Mathematics and Engineering, Charles Sturt University, NSW, Australia Department of Computer Science, Rensselaer Polytechnic Institute, NY, USA 💡 毒舌点评 这篇论文像一位勤奋但缺乏巧思的学生,把所有能找到的大模型都拿来在几个小数据集上跑了一遍,然后仔细比较了成绩。它的工作是扎实的,但就像用锤子、螺丝刀和扳手去敲钉子,然后写一篇关于“敲击工具比较”的报告——我们知道结果会因工具而异,但这个结论本身并不让人意外。最大的问题在于,它试图比较“输入模态”,却让“模型能力”这个混杂变量肆无忌惮地影响结果。一个通用文本LLM(LLaMA 3)和专用音频模型(Qwen2-Audio)本身就不是同一起跑线上的选手。这让整个比较的科学性大打折扣,结论的强度被严重削弱。它更适合出现在一个专注于临床语音处理的Workshop,而非NeurIPS这种追求突破的殿堂。 ...