FDCNet: Frequency Domain Channel Attention and Convolution for Lipreading

📄 FDCNet: Frequency Domain Channel Attention and Convolution for Lipreading #视觉语音识别 #频域处理 #注意力机制 #数据增强 🔥 8.5/10 | 前25% | #视觉语音识别 | #频域处理 | #注意力机制 #数据增强 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Qianxi Yan(浙江大学) 通讯作者:Qifei Zhang(浙江大学) 作者列表: Qianxi Yan(浙江大学) Qifei Zhang*(浙江大学,通讯作者) Lei Zhang(中国科学院大学) Linkun Yu(日本早稻田大学生产系统研究生院) Lei Sheng(宁波市知识产权保护中心) 💡 毒舌点评 论文的亮点在于视角新颖,首次系统性地将频域协同处理(频域增强与频谱引导的注意力)引入唇读前端,为处理唇部动作的混合频率信号提供了合理的理论框架。短板是创新点SGCA和FADC的具体交互机制在图中未清晰展示,且92.2%到92.5%的提升虽达成SOTA,但幅度有限,难以断言是质变而非量变。 📌 核心摘要 问题:传统唇读前端方法主要在空间域提取特征,难以有效处理唇部动作这种混合了低频宏观轮廓和高频细节的复杂信号,导致关键信息提取不足。 方法:提出一个频域协同网络(FDCNet)。其核心是两个模块:(1)频域自适应卷积(FADC),在频域通过动态加权的多尺度卷积核对不同频率成分进行差异化增强;(2)频谱引导的通道注意力(SGCA),利用完整的傅里叶幅度谱作为全局描述符,来筛选具有判别力的特征通道。 创新:首次在唇读前端中构建了“频域增强+频谱引导通道滤波”的统一处理管道。SGCA克服了传统全局平均池化(GAP)丢失高频信息的局限,FADC实现了内容自适应的频率调制。 实验:在LRW基准数据集上,FDCNet达到了92.5% 的准确率,超越了之前最优方法TCSAM-ResNet-18+DC-TCN(92.2%)。消融实验证实了SGCA(+0.32%)和FADC(+0.11%)各自的有效性。与多种注意力机制的对比表明SGCA的优越性。 表1:与SOTA方法对比 网络架构 准确率 (%) 3D-CNN [10] 61.1 ResNet-18 [1] 83.0 ResNet-34+BiGRU [16] 83.4 ResNet-50+TCN [2] 84.8 ResNet-18+MS-TCN [3] 85.3 ResNet-18+TSM+BiGRU [19] 86.2 EfficientNet+TCN+Transformer [17] 89.5 ResNet-18+DC-TCN [4] 92.1 TCSAM-ResNet-18+DC-TCN [18] 92.2 FDCNet (Ours) 92.5 表2:消融实验结果 ...

2026-04-29