Diffusion Large Language Models for Visual Speech Recognition
📄 Diffusion Large Language Models for Visual Speech Recognition #参数高效微调 #数据增强 ✅ 7.0/10 | 前25% | #语音识别 | #参数高效微调 | #数据增强 | arxiv 学术质量 7.0/7 | 影响力 7.0/2 | 可复现性 1.0/2 | 置信度 高 👥 作者与机构 作者:Jeong Hun Yeo, Chae Won Kim, Hyeongseop Rha, Yong Man Ro†(†通讯作者) 机构:韩国科学技术院(KAIST)集成视觉语言实验室(Integrated Vision Language Lab) 💡 毒舌点评 本文是一篇“站在巨人肩膀上”的应用型工作。其核心想法——将扩散大语言模型(DLLM)引入视觉语音识别(VSR)以解决自回归解码的局限——是直接且合理的。实验结果(19.5% WER)也确实刷新了LRS3-only设置下的SOTA,证明了该范式在此任务上的有效性。然而,审稿人必须指出:1) 创新性深度有限,主要贡献是将现有DLLM解码策略(置信度解掩码)和训练技巧(两阶段训练)应用到VSR领域,而非提出全新的模型架构或理论;2) 实验的严谨性和全面性存在明显短板,消融实验严重不足,跨数据集验证薄弱;3) 部分关键实现细节(如阈值、训练超参数)缺失,影响了可复现性。总体而言,这是一篇扎实的系统工程工作,但在作为一篇NeurIPS/ICML/ICLR级别的论文时,其理论创新和实验的完备性还有提升空间。 📌 核心摘要 本文针对视觉语音识别(VSR)中自回归解码器因固定从左到右生成顺序而无法有效处理视觉模糊性的局限,提出了首个基于扩散大语言模型(DLLM)的VSR框架(DLLM-VSR)。该方法将转录过程建模为在固定长度画布上的迭代掩码去噪,允许灵活顺序解码。核心设计包括:1) 基于置信度的解掩码策略,优先解码并固定高置信度token,将其作为双向上下文来指导模糊位置的预测;2) 为适配VSR而设计的两阶段掩码去噪训练策略,第一阶段专注于文本内容对齐,第二阶段学习长度建模(填充padding token);3) 一种长度引导的候选解码方法,利用视频时长预测多个可能的转录长度假设,并行解码后通过联合重排序选择最佳结果。在LRS3数据集上,DLLM-VSR仅使用其标注数据训练便达到了19.5%的词错误率(WER),建立了新的最优性能。 🔗 开源详情 代码:https://bit.ly/DLLM-VSR (已提供,可访问) 模型权重:论文中未提及是否开源预训练的DLLM-VSR模型权重。 数据集:论文中提及使用LRS3和LRS2数据集,但未提供下载地址或开源协议链接(LRS3/LRS2通常需要申请)。 Demo:论文中未提及。 复现材料:论文提供了代码,但未明确说明是否包含完整的训练配置、脚本、环境说明以及两阶段训练的具体参数设置。 论文中引用的开源项目: Dream (基于Qwen2.5): https://github.com/ArtificialAnalysis/Dream LLaDA: https://github.com/ArtificialAnalysis/LLaDA LaViDa: https://github.com/ArtificialAnalysis/LaViDa Dimple: https://github.com/ArtificialAnalysis/Dimple DreamOn: https://github.com/ArtificialAnalysis/DreamOn DAEDAL: https://github.com/ArtificialAnalysis/DAEDAL Block Diffusion: https://github.com/ArtificialAnalysis/Block-Diffusion wav2vec 2.0: https://github.com/facebookresearch/wav2vec Whisper: https://github.com/openai/whisper Qwen2.5: https://github.com/QwenLM/Qwen2.5 🏗️ 方法概述和架构 本文提出的DLLM-VSR框架(如图2所示)旨在将扩散大语言模型的灵活解码能力应用于视觉语音识别任务。其整体架构包含一个冻结的视觉编码器、一个长度适配器、两个投影层以及一个基于LoRA适配的DLLM解码器。核心创新在于解码方式和训练策略的重新设计。 ...