ICASSP 2026 - 视觉语音识别

2 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇FDCNet: Frequency Domain Channel Attention and Convolution f8.5分前25%
🥈Phoneme-Level Visual Speech Recognition via Point-Visual Fus7.5分前25%

📋 论文详情

🥇 FDCNet: Frequency Domain Channel Attention and Convolution for Lipreading

🔥 8.5/10 | 前25% | #视觉语音识别 | #频域处理 | #注意力机制 #数据增强

👥 作者与机构

  • 第一作者:Qianxi Yan(浙江大学)
  • 通讯作者:Qifei Zhang(浙江大学)
  • 作者列表:
    • Qianxi Yan(浙江大学)
    • Qifei Zhang*(浙江大学,通讯作者)
    • Lei Zhang(中国科学院大学)
    • Linkun Yu(日本早稻田大学生产系统研究生院)
    • Lei Sheng(宁波市知识产权保护中心)

💡 毒舌点评

论文的亮点在于视角新颖,首次系统性地将频域协同处理(频域增强与频谱引导的注意力)引入唇读前端,为处理唇部动作的混合频率信号提供了合理的理论框架。短板是创新点SGCA和FADC的具体交互机制在图中未清晰展示,且92.2%到92.5%的提升虽达成SOTA,但幅度有限,难以断言是质变而非量变。

📌 核心摘要

  1. 问题:传统唇读前端方法主要在空间域提取特征,难以有效处理唇部动作这种混合了低频宏观轮廓和高频细节的复杂信号,导致关键信息提取不足。

  2. 方法:提出一个频域协同网络(FDCNet)。其核心是两个模块:(1)频域自适应卷积(FADC),在频域通过动态加权的多尺度卷积核对不同频率成分进行差异化增强;(2)频谱引导的通道注意力(SGCA),利用完整的傅里叶幅度谱作为全局描述符,来筛选具有判别力的特征通道。

  3. 创新:首次在唇读前端中构建了“频域增强+频谱引导通道滤波”的统一处理管道。SGCA克服了传统全局平均池化(GAP)丢失高频信息的局限,FADC实现了内容自适应的频率调制。

  4. 实验:在LRW基准数据集上,FDCNet达到了92.5% 的准确率,超越了之前最优方法TCSAM-ResNet-18+DC-TCN(92.2%)。消融实验证实了SGCA(+0.32%)和FADC(+0.11%)各自的有效性。与多种注意力机制的对比表明SGCA的优越性。

    • 表1:与SOTA方法对比

      网络架构准确率 (%)
      3D-CNN [10]61.1
      ResNet-18 [1]83.0
      ResNet-34+BiGRU [16]83.4
      ResNet-50+TCN [2]84.8
      ResNet-18+MS-TCN [3]85.3
      ResNet-18+TSM+BiGRU [19]86.2
      EfficientNet+TCN+Transformer [17]89.5
      ResNet-18+DC-TCN [4]92.1
      TCSAM-ResNet-18+DC-TCN [18]92.2
      FDCNet (Ours)92.5
    • 表2:消融实验结果

      方法配置准确率 (%)
      基线 (ResNet-18 + DenseTCN)92.1
      基线 + SGCA92.42
      基线 + FADC92.21
      FDCNet92.5
    • 表3:注意力机制对比

      方法全局描述符准确率 (%)
      基线-92.1
      ECA [20]GAP92.19
      TA [18]GAP92.25
      SE [8]GAP92.28
      FCANet [9]DCT92.3
      SGCA (Ours)FFT92.42
  5. 意义:为唇读乃至更广泛的视觉语音识别任务的前端特征提取提供了新的技术方向和有效工具,证明了频域分析在该领域的潜力。

  6. 局限:模型复杂度和计算开销可能增加(论文未详细讨论)。SGCA与FADC如何最优地协同工作(如级联顺序、是否并行)尚待更深入探索。性能提升虽创新但幅度有限。


🥈 Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction

7.5/10 | 前25% | #视觉语音识别 | #音素建模 #关键点检测 #大语言模型 | #音素建模 #关键点检测

👥 作者与机构

  • 第一作者:Matthew Kit Khinn Teng(九州工业大学)
  • 通讯作者:未说明
  • 作者列表:Matthew Kit Khinn Teng(九州工业大学)、Haibo Zhang(九州工业大学)、Takeshi Saitoh(九州工业大学)

💡 毒舌点评

这篇论文巧妙地将人脸关键点的几何信息与视觉外观特征相融合,为解决唇读中的视素歧义问题提供了一条清晰的音素建模路径,其使用紧凑的NLLB模型替代巨型LLM进行句子重建的思路也颇具工程吸引力。然而,论文的“故事”讲得不够完整——关键点特征在复杂场景下的脆弱性(如侧脸、遮挡)被明确提出,却缺乏系统性的解决或更鲁棒的融合机制;同时,核心的两阶段框架高度依赖于上游音素预测的准确性,而实验中对第一阶段(PV-ASR)音素预测性能的分析篇幅和深度,相较于对第二阶段LLM的调优,显得有些头重脚轻。

📌 核心摘要

  1. 解决的问题:视觉语音识别(唇读)面临视素歧义(多个音素对应相似唇部视觉外观)和说话者差异性带来的挑战,导致直接进行词或字符级预测困难且容易出错。
  2. 方法核心:提出一种两阶段、基于音素的框架(PV-ASR)。第一阶段,将视频帧和密集唇部关键点运动特征分别通过视觉编码器(3D CNN + ResNet-18 + Conformer)和关键点编码器(ST-GCN + Conformer)提取并融合,使用混合CTC/Attention损失预测音素序列。第二阶段,使用预训练的NLLB(No Language Left Behind)编码器-解码器模型,将预测的音素序列重构为自然语言句子。
  3. 与已有方法相比的新意:1) 创新地融合了密集的唇部/下巴区域关键点运动特征(117个点)与视觉外观特征,以建模发音几何信息;2) 使用紧凑的、非自回归的NLLB模型(而非大型自回归LLM如LLaMA)进行音素到文本的重建;3) 在训练第二阶段LLM时引入音素级数据增强(随机插入、删除、替换),以提高对第一阶段预测噪声的鲁棒性。
  4. 主要实验结果:在LRS2测试集上达到16.0% WER,在LRS3测试集上达到20.3% WER。消融实验表明,PV-ASR(视频+关键点)优于单独的V-ASR和P-ASR;在训练中引入10%-20%的音素错误率能显著降低第二阶段LLM重建的WER,其中NLLB-1.3B模型表现最佳。具体结果见下表。

表1:在LRS2和LRS3数据集上与最新方法的WER(%)对比

方法输入模态LLM额外数据LRS2 WER [%]LRS3 WER [%]总训练小时数 (LRS2/LRS3)
Auto-AVSR [2]视频-14.619.13448
VALLR [8]视频LLaMA20.818.728 / 30
ViT-3D [18]视频--17.090000
Ours (P-ASR)117个关键点NLLB(1.3B)72.266.4223 / 438
Ours (V-ASR)视频NLLB(1.3B)17.117.3223 / 438
Ours (PV-ASR)视频+117个关键点NLLB(1.3B)16.020.3223 / 438

表2:不同LLM及噪声水平下的WER(%)对比(部分关键数据)

模型输入LLM训练噪声错误率LRS2 WER (Beam) [%]LRS3 WER (Beam) [%]
PV-ASRNLLB (1.3B)0.0%24.9332.90
PV-ASRNLLB (1.3B)10.0%16.4821.82
PV-ASRNLLB (1.3B)20.0%16.0320.26
PV-ASRNLLB (1.3B)30.0%17.7021.32
  1. 实际意义:该工作为在有限计算资源下实现较高性能的视觉语音识别提供了一种可行方案。其两阶段解耦的设计和对音素级建模的坚持,为处理视素歧义和跨说话者泛化提供了新思路。
  2. 主要局限性:1) 对关键点检测质量高度依赖,在人脸大角度或遮挡时性能会下降;2) 第二阶段重建完全依赖第一阶段的音素预测,存在错误传播风险;3) 论文未提供代码和模型权重,可复现性存疑。