视觉语音识别

FDCNet: Frequency Domain Channel Attention and Convolution for Lipreading

📄 FDCNet: Frequency Domain Channel Attention and Convolution for Lipreading #视觉语音识别 #频域处理 #注意力机制 #数据增强 🔥 8.5/10 | 前25% | #视觉语音识别 | #频域处理 | #注意力机制 #数据增强学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Qianxi Yan（浙江大学）通讯作者：Qifei Zhang（浙江大学）作者列表： Qianxi Yan（浙江大学） Qifei Zhang*（浙江大学，通讯作者） Lei Zhang（中国科学院大学） Linkun Yu（日本早稻田大学生产系统研究生院） Lei Sheng（宁波市知识产权保护中心） 💡 毒舌点评论文的亮点在于视角新颖，首次系统性地将频域协同处理（频域增强与频谱引导的注意力）引入唇读前端，为处理唇部动作的混合频率信号提供了合理的理论框架。短板是创新点SGCA和FADC的具体交互机制在图中未清晰展示，且92.2%到92.5%的提升虽达成SOTA，但幅度有限，难以断言是质变而非量变。 🔗 开源详情代码：论文中未提及任何代码仓库链接或开源计划。模型权重：论文中未提及公开的模型权重。数据集：使用的是公开的LRW数据集，但论文未说明其获取方式（标准公开数据集）。 Demo：未提及。复现材料：提供了详细的训练配置（数据增强、优化器、学习率、调度策略等），但未提供最终的模型检查点、训练日志或详细的配置文件。论文中未提及开源计划。论文中引用的开源项目：论文引用了多个已发表的方法（如ResNet, TSM, TCN, DC-TCN等）作为基线，但未明确说明其实现或代码来源。 📌 核心摘要问题：传统唇读前端方法主要在空间域提取特征，难以有效处理唇部动作这种混合了低频宏观轮廓和高频细节的复杂信号，导致关键信息提取不足。方法：提出一个频域协同网络（FDCNet）。其核心是两个模块：（1）频域自适应卷积（FADC），在频域通过动态加权的多尺度卷积核对不同频率成分进行差异化增强；（2）频谱引导的通道注意力（SGCA），利用完整的傅里叶幅度谱作为全局描述符，来筛选具有判别力的特征通道。 ...

ICASSP 2026 - 视觉语音识别论文列表

ICASSP 2026 - 视觉语音识别共 2 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 FDCNet: Frequency Domain Channel Attention and Convolution f 8.5分前25% 🥈 Phoneme-Level Visual Speech Recognition via Point-Visual Fus 7.5分前25% 📋 论文详情 🥇 FDCNet: Frequency Domain Channel Attention and Convolution for Lipreading 🔥 8.5/10 | 前25% | #视觉语音识别 | #频域处理 | #注意力机制 #数据增强 👥 作者与机构第一作者：Qianxi Yan（浙江大学）通讯作者：Qifei Zhang（浙江大学）作者列表： Qianxi Yan（浙江大学） Qifei Zhang*（浙江大学，通讯作者） Lei Zhang（中国科学院大学） Linkun Yu（日本早稻田大学生产系统研究生院） Lei Sheng（宁波市知识产权保护中心） 💡 毒舌点评 ...

Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction

📄 Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction #视觉语音识别 #音素建模 #关键点检测 #大语言模型 #数据增强 ✅ 7.5/10 | 前25% | #视觉语音识别 | #音素建模 #关键点检测 #大语言模型 | #音素建模 #关键点检测学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Matthew Kit Khinn Teng（九州工业大学）通讯作者：未说明作者列表：Matthew Kit Khinn Teng（九州工业大学）、Haibo Zhang（九州工业大学）、Takeshi Saitoh（九州工业大学） 💡 毒舌点评这篇论文巧妙地将人脸关键点的几何信息与视觉外观特征相融合，为解决唇读中的视素歧义问题提供了一条清晰的音素建模路径，其使用紧凑的NLLB模型替代巨型LLM进行句子重建的思路也颇具工程吸引力。然而，论文的“故事”讲得不够完整——关键点特征在复杂场景下的脆弱性（如侧脸、遮挡）被明确提出，却缺乏系统性的解决或更鲁棒的融合机制；同时，核心的两阶段框架高度依赖于上游音素预测的准确性，而实验中对第一阶段（PV-ASR）音素预测性能的分析篇幅和深度，相较于对第二阶段LLM的调优，显得有些头重脚轻。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开预训练或微调后的模型权重。数据集：实验使用的是公开数据集LRS2、LRS3、LRW，但论文未说明其获取方式或是否提供处理后的版本。 Demo：未提供在线演示。复现材料：论文描述了主要架构和训练策略，但未提供完整的配置文件、检查点或附录中的详细实现说明。论文中引用的开源项目：MediaPipe（用于关键点提取）、NVIDIA NeMo toolkit（用于文本规范化）、SoundChoice toolkit（用于音素转换）。这些是工具依赖，而非论文本身的开源贡献。论文中未提及开源计划。 📌 核心摘要解决的问题：视觉语音识别（唇读）面临视素歧义（多个音素对应相似唇部视觉外观）和说话者差异性带来的挑战，导致直接进行词或字符级预测困难且容易出错。方法核心：提出一种两阶段、基于音素的框架（PV-ASR）。第一阶段，将视频帧和密集唇部关键点运动特征分别通过视觉编码器（3D CNN + ResNet-18 + Conformer）和关键点编码器（ST-GCN + Conformer）提取并融合，使用混合CTC/Attention损失预测音素序列。第二阶段，使用预训练的NLLB（No Language Left Behind）编码器-解码器模型，将预测的音素序列重构为自然语言句子。与已有方法相比的新意：1) 创新地融合了密集的唇部/下巴区域关键点运动特征（117个点）与视觉外观特征，以建模发音几何信息；2) 使用紧凑的、非自回归的NLLB模型（而非大型自回归LLM如LLaMA）进行音素到文本的重建；3) 在训练第二阶段LLM时引入音素级数据增强（随机插入、删除、替换），以提高对第一阶段预测噪声的鲁棒性。主要实验结果：在LRS2测试集上达到16.0% WER，在LRS3测试集上达到20.3% WER。消融实验表明，PV-ASR（视频+关键点）优于单独的V-ASR和P-ASR；在训练中引入10%-20%的音素错误率能显著降低第二阶段LLM重建的WER，其中NLLB-1.3B模型表现最佳。具体结果见下表。表1：在LRS2和LRS3数据集上与最新方法的WER(%)对比 ...