AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching
📄 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching #语音分离 #流匹配 #音视频 #基准测试 #生成模型 🔥 8.0/10 | 前25% | #语音分离 | #流匹配 | #音视频 #基准测试 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文注明 Xize Cheng, Chenyuhao Wen, Tianhao Wang 为平等贡献) 通讯作者:未说明 作者列表:Xize Cheng(浙江大学),Chenyuhao Wen(浙江大学),Tianhao Wang(独立作者),Yongqi Wang(浙江大学),Zehan Wang(浙江大学),Rongjie Huang(浙江大学),Tao Jin(浙江大学),Zhou Zhao(浙江大学) 💡 毒舌点评 本文最大的亮点在于将流匹配生成范式成功引入视频查询声音分离任务,并系统性地分析了该任务作为“多条件生成”与传统流匹配任务的本质区别,这种对任务特性的深刻洞察比单纯提升几个点更有价值。然而,其构建的VGGSound-Hard新基准仅包含118个测试对,虽然难度高但规模偏小,其对结论的普适性支撑稍显不足;此外,作为生成模型,其推理速度(2.17 FPS)距实时处理仍有差距,论文中未探讨如何在效率上做进一步优化。 🔗 开源详情 代码:论文明确承诺在接收后公开代码仓库,但未提供具体链接(论文中未提及代码链接)。 模型权重:论文明确承诺在接收后公开预训练模型权重(未提及具体链接)。 数据集:VGGSound-Hard作为新提出的基准,论文未说明其具体下载方式,但提及由VGGSound测试集筛选而来。VGGSound-Hard的筛选脚本可能会随代码公开。 Demo:论文提供了项目主页链接 https://AlignSep.github.io ,其中包含更多结果和音频示例,可视为一种在线演示。 复现材料:附录A提供了非常详细的实现细节,包括音频VAE(表4)和向量场估计器(表5)的架构超参数、数据预处理方式、推理步数选择等关键信息。 引用的开源项目:论文依赖并引用了多个开源项目:CAVP视觉编码器 (Luo et al., 2023), 音频VAE (Liu et al., 2023a), BigVGAN声码器 (Lee et al., 2022), ImageBind (Han et al., 2023) 等。 📌 核心摘要 本文旨在解决视频查询声音分离(VQSS)任务中现有方法面临的两大挑战:1) 在声源同质(如多只同类狗叫)的干扰下,因缺乏精细时序建模而无法区分屏幕内外声音;2) 基于掩码的判别式方法在处理重叠声轨时易产生频谱空洞和不完整分离。 方法核心是提出AlignSep,这是首个基于条件流匹配的生成式VQSS模型。与已有方法不同,AlignSep通过设计一个时序对齐的向量场估计器(采用跨模态特征拼接和无交叉注意力的Transformer),并配合预训练的CAVP视觉时序编码器,显式地学习和维护音视频之间的时序对应关系,从而在生成过程中实现精确对齐。 与已有方法相比,新在两点:1) 范式上,采用生成式流程替代判别式掩码预测,能更好地处理重叠信号并避免频谱空洞;2) 建模上,明确引入并强化了时序对齐机制,而非仅依赖语义特征。此外,论文深入分析了VQSS作为多条件生成任务对标准流匹配范式提出的新挑战。 主要实验结果显示,AlignSep在三个基准上均达到最优性能。在MUSIC-Clean和VGGSound-Clean上,其时序对齐准确率(TA-V)分别达到66.67%和96.88%,大幅超越最强基线OmniSep(分别为68.89%和81.25%)。在专门为测试时序对齐能力构建的更具挑战性的VGGSound-Hard基准上,AlignSep的TA-V达到95.76%,而OmniSep仅为76.27%。人类感知评估(MOS)也证实了AlignSep在噪声残留、音视频一致性、音频质量和整体评分上的优势。 实际意义在于,AlignSep为解决真实复杂视听场景下的声音分离问题提供了新的、更鲁棒的框架,有助于提升视频编辑、内容理解等应用的体验。 主要局限性包括:1) 新提出的VGGSound-Hard基准规模较小(仅118对);2) 作为生成模型,推理效率有提升空间;3) 论文未深入探讨该生成范式在更复杂、多源场景下的扩展能力。 ...