UTI-LLM: A Personalized Articulatory-Speech Therapy Assistance System Based on Multimodal Large Language Model
📄 UTI-LLM: A Personalized Articulatory-Speech Therapy Assistance System Based on Multimodal Large Language Model #语音对话系统 #多模态模型 #医疗应用 #数据集 ✅ 7.5/10 | 前25% | #语音对话系统 | #多模态模型 | #医疗应用 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文首页列有多个作者,但未明确标注第一作者。根据作者列表顺序推测为Yudong Yang或Xiaokang Liu,但不明确) 通讯作者:Nan Yan, Lan Wang(论文中明确标注为“Corresponding authors”) 作者列表: Yudong Yang (1, 2) Xiaokang Liu (1) Shaofeng Zhao (3) Rongfeng Su (1) Nan Yan (1, 2, *) Lan Wang (1, 2, *) 单位1:Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, China (中国科学院深圳先进技术研究院) 单位2:Key Laboratory of Biomedical Imaging Science and System, Chinese Academy of Sciences, China (中国科学院生物医学成像科学与系统重点实验室) 单位3:Department of Rehabilitation Medicine, The Eighth Affiliated Hospital of Sun Yat-sen University, China (中山大学附属第八医院康复医学科) 💡 毒舌点评 亮点:系统性地解决了从领域数据构建(创新性的双智能体协作生成)、模型设计(针对UTI特性的时空特征融合)到多维度评估的完整流程,是一套“交钥匙”式的解决方案,对于想在医疗垂直领域应用MLLM的研究者有很好的示范作用。 短板:核心的“多模态融合”方法(图2)实质上是将语音特征与UTI的时空特征简单拼接后输入LLM,缺乏更精巧的跨模态交互机制;更重要的是,整个系统的“个性化”和“治疗辅助”效果目前仅通过离线数据集上的分析准确率和文本生成质量来间接证明,缺乏真实医患交互场景的验证和用户研究,离临床实用尚有距离。 ...