Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention
📄 Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention #语音分离 #知识蒸馏 #端到端 #音视频 #实时处理 🔥 9.0/10 | 前10% | #语音分离 | #知识蒸馏 | #端到端 #音视频 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Kai Li(清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院) 通讯作者:Xiaolin Hu(清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心) 作者列表:Kai Li(清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院)、Kejun Gao(清华大学计算机科学与技术系)、Xiaolin Hu(清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心) 注:Kai Li和Kejun Gao贡献均等(*标记),Xiaolin Hu为通讯作者(†标记)。 💡 毒舌点评 Dolphin的双路径视觉编码器设计和基于热扩散方程的局部注意力模块非常聪明,用极低的计算开销(MACs降低2.4倍)实现了SOTA分离性能,为AVSS的实际部署扫清了关键障碍。但其离散视觉token的设计可能丢弃了连续唇部运动中的一些细微发音线索,未来或可探索混合离散-连续表示来进一步提升。 🔗 开源详情 代码:论文中承诺在GitHub上开源代码(Apache-2.0许可证),并提供了一个Demo页面链接(https://cslikai.cn/Dolphin),但未在文中直接给出具体代码仓库URL。因此,具体链接需以论文被接收后的发布为准。 模型权重:论文中提到会公开预训练权重(“pretrained weights for the video backbone”),但未提供具体下载链接。 数据集:使用的LRS2, LRS3, VoxCeleb2为公开数据集,但需根据其出版方规定获取。论文承诺会提供预处理脚本。 Demo:提供了一个在线演示页面链接:https://cslikai.cn/Dolphin。 复现材料:提供了极其详细的复现信息,包括:conda环境规范、完整配置文件、所有超参数(附录E)、评估指标和损失函数的正式定义(附录D)、模型各组件的详细结构(附录A, B)、训练细节(附录A.3)。 引用的开源项目:论文中提到了依赖的开源工具/模型,包括:PyTorch, PyTorch Lightning, VQ实现(vector-quantize-pytorch on PyPI), AV-HuBERT(作为蒸馏教师模型)。 总体:开源意愿强烈,复现支持非常充分,是高质量开源论文的典范。论文中未提及具体的GitHub仓库链接,但根据“我们的代码和演示页面公开可访问于此链接”的表述及Demo链接,可认为代码已或即将公开。 📌 核心摘要 本文旨在解决音频-视觉语音分离(AVSS)模型计算成本过高、难以实际部署的问题。论文提出了一个名为Dolphin的高效AVSS模型。其核心创新包括:1) 设计了一个轻量级双路径视频编码器DP-LipCoder,通过向量量化(VQ)和知识蒸馏将唇部运动映射为与音频对齐的离散语义token;2) 构建了一个基于TDANet的轻量级编解码分离器,并引入全局-局部注意力(GLA)模块,在每个层内同时建模长程依赖和局部特征,从而实现单次迭代的高质量分离。与现有的SOTA方法(如IIANet)相比,Dolphin在三个基准数据集(LRS2, LRS3, VoxCeleb2)上取得了更好的分离性能(例如,在LRS2上SI-SNRi达到16.8dB,比IIANet高0.8dB),同时参数量减少超过50%,计算量(MACs)降低超过2.4倍,GPU推理速度提升超过6倍。这证明了Dolphin是一个兼顾高性能与高效率的实用解决方案。主要局限性在于模型对相对干净、同步的唇部视频有一定依赖,且在极端资源受限设备上的部署仍需进一步优化。 ...