MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation
📄 MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation #语音分离 #流匹配 #多模态模型 #预训练 #迁移学习 🔥 8.0/10 | 前25% | #语音分离 | #流匹配 | #多模态模型 #预训练 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Akira Takahashi(Sony Group Corporation, Japan) 通讯作者:未说明 作者列表:Akira Takahashi(Sony Group Corporation, Japan)、Shusuke Takahashi(Sony Group Corporation, Japan)、Yuki Mitsufuji(Sony Group Corporation, Japan & Sony AI, USA) 💡 毒舌点评 亮点在于极具创意地“废物利用”,让一个“造声音”的生成模型去干“分声音”的分离活儿,还干得不错,这种跨任务的知识迁移思路本身就很值钱。短板则在于,用生成模型的评价体系(FAD, CLAP)来评判分离任务的好坏,如同用“饭菜香气”来评价厨师刀工是否精准,方法论的适配性有待更深入的讨论;另外,模型在分离后“不忘本”的生成能力验证也略显粗糙。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/sony/mmaudiosep。 模型权重:论文中未明确提及是否公开预训练的MMAudioSep模型��重或其依赖的预训练MMAudio权重。 数据集:论文中使用的训练数据集(VGGSound, AudioCaps等)是公开的。评估数据集(VGGSound-Clean, MUSIC)引用自AudioSep项目,部分可通过其GitHub获取。 Demo:论文中未提及在线演示链接。 复现材料:论文提供了架构图、关键超参数(如ODE步数、引导强度)和训练策略的大致描述,但缺少如学习率、batch size、具体训练步数等关键复现细节。复现强依赖于预训练的MMAudio模型。 论文中引用的开源项目:主要依赖于MMAudio(预训练模型)、CLIP、Synchformer、BiGVGAN(声码器)、AudioSep(评估数据集)、以及用于评估的av-benchmark工具。 📌 核心摘要 问题:传统声音分离模型通常基于判别式方法,而近期基于生成模型的声音分离也开始出现,但与同样使用生成模型的视频到音频(V2A)任务发展相互独立。本文旨在探索能否利用强大的预训练生成模型知识来提升分离任务。 ...