Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention
📄 Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention #语音分离 #音视频 #多模态模型 #自监督学习 ✅ 7.5/10 | 前25% | #语音分离 | #多模态模型 | #音视频 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kai Li(清华大学计算机系,IDG/McGovern脑研究院)、Kejun Gao(清华大学计算机系)(论文注明两人贡献相等) 通讯作者:Xiaolin Hu(清华大学计算机系,IDG/McGovern脑研究院,中国脑研究中心) 作者列表:Kai Li(清华大学计算机系,IDG/McGovern脑研究院)、Kejun Gao(清华大学计算机系)、Xiaolin Hu(清华大学计算机系,IDG/McGovern脑研究院,中国脑研究中心) 💡 毒舌点评 亮点在于将“效率”作为核心优化目标并做到了极致,通过精心设计的轻量视频编码器(DP-LipCoder)和全局-局部注意力(GLA)模块,在大幅降低计算成本的同时保持了顶尖的分离性能,工程优化思路清晰且效果显著。短板则是核心创新略显“拼盘”,即DP-LipCoder(结合VQ与蒸馏)和GLA(结合CSA与HDA)更多是现有技术的针对性组合与优化,缺乏从第一性原理出发的突破性架构革新,理论深度有限。 🔗 开源详情 代码:论文明确承诺“在文章被接受后,将在GitHub上以Apache-2.0许可证发布Dolphin的代码”,并提供了演示页面链接(https://cslikai.cn/Dolphin)。当前可视为“未提供”但承诺提供。 模型权重:承诺发布“预训练权重(用于视频骨干)和Dolphin的源代码”。 数据集:使用公开数据集LRS2、LRS3、VoxCeleb2,但论文未提及是否提供预处理好的数据,表示“需要根据引用的参考文献独立获取”,但会提供预处理脚本。 Demo:提供了在线演示页面链接(https://cslikai.cn/Dolphin)。 复现材料:论文提供了极其详尽的训练细节:包括完整的超参数配置(附录E)、损失函数公式(附录D)、训练硬件规格、数据处理流程、评估指标定义等。这些信息足以支持复现。 引用的开源项目:论文提及并依赖的开源工具/模型包括:AV-HuBERT(用于知识蒸馏)、VQ实现(来自PyPI的vector-quantize-pytorch)、FlashAttention(可选)、MTCNN(人脸检测)等。 开源计划:论文明确说明了开源计划,但代码和模型权重需待论文正式接受后发布。 📌 核心摘要 本文针对音视频语音分离(AVSS)模型参数量大、计算成本高、难以部署的问题,提出了一种高效模型Dolphin。其核心方法包含两部分:1) 设计了双路径轻量视频编码器DP-LipCoder,通过引入向量量化(VQ)和AV-HuBERT知识蒸馏,将连续的唇部视频流映射为与音频语义高度对齐的离散视觉token;2) 构建了一个单次迭代的轻量级编码器-解码器分离器,在其每层引入全局-局部注意力(GLA)块,分别使用粗粒度自注意力(CSA)和热扩散注意力(HDA)来捕捉长程依赖和局部细节。与已有SOTA方法(如IIANet)相比,Dolphin在LRS2、LRS3、VoxCeleb2三个基准数据集上的分离指标(SI-SNRi, SDRi, PESQ)全面更优,同时实现了参数量减少超50%、MACs降低2.4倍以上、GPU推理速度提升6倍以上的显著效率提升。这证明了Dolphin是一个性能优越且具备实际部署可行性的AVSS解决方案。主要局限性包括对清晰、同步的唇部视频的依赖,以及在资源极度受限的边缘设备上部署仍存挑战。 ...