音素混淆矩阵

📄 PhoenixDSR: Phoneme-Guided and LLM-Enhanced Dysarthric Speech Recognition #语音识别 #构音障碍语音 #音素混淆矩阵 #大语言模型 #少样本学习 ✅ 7.0/10 | 前50% | #语音识别 | #音素混淆矩阵 | #构音障碍语音 #大语言模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未明确说明（论文作者列表首位为 Yuxuan Wu）通讯作者：赵杰罗 (Zhaojie Luo)（东南大学生物科学与医学工程学院 / 数字医学工程国家重点实验室；深圳环宇研究院）作者列表： Yuxuan Wu（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Yifan Xu（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Junkun Wang（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Xin Zhao（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Jiayong Jiang（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Zhaojie Luo（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院；深圳环宇研究院） 💡 毒舌点评亮点在于提出了一个清晰、模块化且可解释的“音素中介”框架，将病理语音识别的难题分解为“健康音素识别器+混淆建模+LLM解码”三步，巧妙利用健康数据资源，并通过少量个性化数据即可快速适配，思路非常扎实。短板在于实验仅在单个中文数据集CDSD上进行，缺乏对其他语言、其他疾病类型（如帕金森、中风）或更复杂噪声环境下的验证，其普适性有待商榷；此外，论文声称超越Whisper-FT，但对比的Whisper-FT性能（34.4% CER）似乎异常差，暗示其微调策略或数据处理可能存在未言明的问题，削弱了对比的说服力。 ...