Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction
📄 Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction #视觉语音识别 #音素建模 #关键点检测 #大语言模型 #数据增强 ✅ 7.5/10 | 前25% | #视觉语音识别 | #音素建模 #关键点检测 #大语言模型 | #音素建模 #关键点检测 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Matthew Kit Khinn Teng(九州工业大学) 通讯作者:未说明 作者列表:Matthew Kit Khinn Teng(九州工业大学)、Haibo Zhang(九州工业大学)、Takeshi Saitoh(九州工业大学) 💡 毒舌点评 这篇论文巧妙地将人脸关键点的几何信息与视觉外观特征相融合,为解决唇读中的视素歧义问题提供了一条清晰的音素建模路径,其使用紧凑的NLLB模型替代巨型LLM进行句子重建的思路也颇具工程吸引力。然而,论文的“故事”讲得不够完整——关键点特征在复杂场景下的脆弱性(如侧脸、遮挡)被明确提出,却缺乏系统性的解决或更鲁棒的融合机制;同时,核心的两阶段框架高度依赖于上游音素预测的准确性,而实验中对第一阶段(PV-ASR)音素预测性能的分析篇幅和深度,相较于对第二阶段LLM的调优,显得有些头重脚轻。 📌 核心摘要 解决的问题:视觉语音识别(唇读)面临视素歧义(多个音素对应相似唇部视觉外观)和说话者差异性带来的挑战,导致直接进行词或字符级预测困难且容易出错。 方法核心:提出一种两阶段、基于音素的框架(PV-ASR)。第一阶段,将视频帧和密集唇部关键点运动特征分别通过视觉编码器(3D CNN + ResNet-18 + Conformer)和关键点编码器(ST-GCN + Conformer)提取并融合,使用混合CTC/Attention损失预测音素序列。第二阶段,使用预训练的NLLB(No Language Left Behind)编码器-解码器模型,将预测的音素序列重构为自然语言句子。 与已有方法相比的新意:1) 创新地融合了密集的唇部/下巴区域关键点运动特征(117个点)与视觉外观特征,以建模发音几何信息;2) 使用紧凑的、非自回归的NLLB模型(而非大型自回归LLM如LLaMA)进行音素到文本的重建;3) 在训练第二阶段LLM时引入音素级数据增强(随机插入、删除、替换),以提高对第一阶段预测噪声的鲁棒性。 主要实验结果:在LRS2测试集上达到16.0% WER,在LRS3测试集上达到20.3% WER。消融实验表明,PV-ASR(视频+关键点)优于单独的V-ASR和P-ASR;在训练中引入10%-20%的音素错误率能显著降低第二阶段LLM重建的WER,其中NLLB-1.3B模型表现最佳。具体结果见下表。 表1:在LRS2和LRS3数据集上与最新方法的WER(%)对比 ...