ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling
📄 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling #音频生成 #多模态模型 #扩散模型 #基准测试 🔥 评分:9.2/10 | arxiv 👥 作者与机构 第一作者:Jianxuan Yang(小米 MiLM Plus) 通讯作者:Jian Luan(小米 MiLM Plus) 其他作者: Xinyue Guo(小米 MiLM Plus) Zhi Cheng(小米 MiLM Plus,武汉大学) Kai Wang(小米 MiLM Plus,武汉大学) Lipan Zhang(小米 MiLM Plus) Jinjie Hu(小米 MiLM Plus) Qiang Ji(小米 MiLM Plus) Yihua Cao(小米 MiLM Plus) Yihao Meng(小米 MiLM Plus,武汉大学) Zhaoyue Cui(小米 MiLM Plus,武汉大学) Mengmei Liu(小米 MiLM Plus) Meng Meng(小米 MiLM Plus) (所有作者均来自“Xiaomi LLM Core Team”或“MiLM Plus, Xiaomi Inc.”,部分作者有武汉大学的联合署名) 💡 毒舌点评 亮点:这篇论文精准地抓住了当前视频到音频生成领域的两大痛点——“文本说啥视频不听”和“参考音频带节奏还抢戏”,并给出了系统性的解决方案,尤其是提出的VGGSound-TVC基准,简直是给“视觉霸权”模型们准备的“照妖镜”。 槽点:方法虽然精巧,但本质上是“堆料”的艺术——双视觉编码器、多模态对齐损失、复杂的训练策略,对算力和数据的需求不低,感觉是在用“钞能力”解决“控制力”问题,小团队复现起来可能要掉头发。 ...