PhoenixDSR: Phoneme-Guided and LLM-Enhanced Dysarthric Speech Recognition
📄 PhoenixDSR: Phoneme-Guided and LLM-Enhanced Dysarthric Speech Recognition #语音识别 #构音障碍语音 #音素混淆矩阵 #大语言模型 #少样本学习 ✅ 7.0/10 | 前50% | #语音识别 | #音素混淆矩阵 | #构音障碍语音 #大语言模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未明确说明(论文作者列表首位为 Yuxuan Wu) 通讯作者:赵杰罗 (Zhaojie Luo)(东南大学生物科学与医学工程学院 / 数字医学工程国家重点实验室;深圳环宇研究院) 作者列表: Yuxuan Wu(东南大学,数字医学工程国家重点实验室 / 生物科学与医学工程学院) Yifan Xu(东南大学,数字医学工程国家重点实验室 / 生物科学与医学工程学院) Junkun Wang(东南大学,数字医学工程国家重点实验室 / 生物科学与医学工程学院) Xin Zhao(东南大学,数字医学工程国家重点实验室 / 生物科学与医学工程学院) Jiayong Jiang(东南大学,数字医学工程国家重点实验室 / 生物科学与医学工程学院) Zhaojie Luo(东南大学,数字医学工程国家重点实验室 / 生物科学与医学工程学院;深圳环宇研究院) 💡 毒舌点评 亮点在于提出了一个清晰、模块化且可解释的“音素中介”框架,将病理语音识别的难题分解为“健康音素识别器+混淆建模+LLM解码”三步,巧妙利用健康数据资源,并通过少量个性化数据即可快速适配,思路非常扎实。短板在于实验仅在单个中文数据集CDSD上进行,缺乏对其他语言、其他疾病类型(如帕金森、中风)或更复杂噪声环境下的验证,其普适性有待商榷;此外,论文声称超越Whisper-FT,但对比的Whisper-FT性能(34.4% CER)似乎异常差,暗示其微调策略或数据处理可能存在未言明的问题,削弱了对比的说服力。 ...