AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching
📄 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching #音频分离 #流匹配 #音视频 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #音频分离 | #流匹配 | #音视频 #基准测试 学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:未说明(论文声明Xize Cheng, Chenyuhao Wen, Tianhao Wang为共同第一作者“Equal Contribution”) 通讯作者:未说明 作者列表:Xize Cheng (浙江大学1), Chenyuhao Wen (浙江大学1), Tianhao Wang (独立作者2), Yongqi Wang (浙江大学1), Zehan Wang (浙江大学1), Rongjie Huang (浙江大学1), Tao Jin (浙江大学1), Zhou Zhao (浙江大学1)。(注:1指浙江大学,2指独立作者,具体实验室或部门未在文中提供) 💡 毒舌点评 亮点:这是首个将流匹配范式成功引入视频引导声音分离的工作,并敏锐地指出了其与传统文本生成任务在“多条件生成”上的本质差异,为后续研究者提供了清晰的思路和新的挑战性基准。 短板:模型架构(拼接+FFN Transformer)略显“直给”,缺乏更精巧的跨模态交互设计;虽然实验充分,但“流匹配”相对于“扩散模型”在本任务中的具体优势论证(如表7所示)并不构成压倒性差距,说服力有提升空间。 ...