Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation
📄 Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation #音频生成 #语音合成 #音乐生成 #多模态模型 #课程学习 #扩散模型 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 7/10 | 前25% | #音频生成 | #课程学习 | #语音合成 #音乐生成 | arxiv 👥 作者与机构 作者:Ye Tao, Lupeng Liu, Xuenan Xu, Jiasun Feng, Jiarui Wang, Ying Qin, Shuiyang Mao, Wei Liu, Shuai Wang 机构:南京大学智能科学与技术学院,Video Rebirth,上海交通大学,北京交通大学,上海人工智能实验室 ...