FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching
📄 FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching #视频生成 #扩散模型 📝 4.9/10 | 前50% | #视频生成 | #扩散模型 | arxiv 学术质量 4.6/7 | 影响力 0.3/2 | 可复现性 0.0/2 | 置信度 中 👥 作者与机构 第一作者:Jangho Park(KAIST) 第一作者(共同):Geon Yeong Park(KAIST,标注为Equal contribution) 通讯作者:Gihyun Kwon(Amazon)、Jong Chul Ye(KAIST) 作者列表:Jangho Park(KAIST), Geon Yeong Park(KAIST), Gihyun Kwon(Amazon), Jong Chul Ye(KAIST) 💡 毒舌点评 一篇聪明地将无训练长视频生成问题,用流式扩散逆问题求解框架进行重构的工作。核心思想是把滑动窗口生成的“拼接”问题,转化为在重叠区域对预测干净样本进行Tweedie匹配的优化问题,并用随机早期采样来打破各窗口独立轨迹的惯性。这确实是一个简洁、优雅且即插即用的工程方案。然而,其“优雅”也带来局限:方法高度依赖底层流模型学到的数据流形,对于超出该流形覆盖的极端长程或复杂语义(如需要全局规划的叙事),缺乏理论保障;实验虽全面,但对音视频联合生成等扩展任务的评估深度不足,更像一个概念验证;且整个工作未开源,对可复现性是一大打击。 📌 核心摘要 问题:预训练视频扩散模型通常只能生成固定长度短片段。现有无训练方法(如双向扩展)质量随长度增长下降,自回归方法则因暴露偏差导致误差累积和运动重复。 方法:本文提出FlowLong,一个无训练、架构无关的推理时框架。它通过重叠的滑动窗口并行采样多个视频块,并利用“Tweedie匹配”在重叠区域对各块预测的干净样本进行插值,以强制流形约束和时序一致性。同时,在高噪声的早期采样阶段注入随机噪声(“随机早期相位采样”),以打破各块独立ODE轨迹的惯性,促进跨块混合,随后切换至确定性ODE采样以保持视觉保真度。 新意:与依赖架构修改或KV缓存重用的现有方法不同,FlowLong通过一个简单的采样时优化框架统一解决了长程一致性问题,且可直接应用于包括音视频联合生成和文生3DGS在内的多种任务,无需微调。 主要结果:在Wan 2.1和LTX-2模型上,FlowLong生成了比原生窗口长度长数倍(如30秒、60秒)的视频。定量评估(VBench)显示,其在动态程度、时序一致性等指标上显著优于基线方法。例如,在30秒生成任务中,FlowLong(基于Wan 2.1-1.3B)的Overall得分(0.8233)高于所有基线,其中Dynamic Degree(0.7800)远超自回归最佳方法LongLive(0.3535)。对于文生3DGS,FlowLong生成的3D高斯数量是基线VIST3A的1.64倍,且置信度更高。 实际意义:提供了一个即插即用的工具,能立即延长现有视频、音频视频和3D生成模型的输出时长,无需重新训练或修改模型代码。 主要局限性:作者承认,基于局部重叠区域的约束可能在极长视频中阻碍全局语义连贯性。此外,方法的有效性依赖于底层模型学习到的良好数据流形,其泛化边界未充分探讨。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:https://flowlong-video.github.io/ 复现材料:论文中未提及训练配置或检查点,但附录A提供了详细的算法实现细节(如窗口几何、混合调度、聚合算法等)。 论文中引用的开源项目: FIFO-Diffusion: 论文中未提供链接 RIFLEx: 论文中未提供链接 UltraViCo: 论文中未提供链接 CausVid: 论文中未提供链接 Self-Forcing: 论文中未提供链接 Deep-Forcing: 论文中未提供链接 ∞-RoPE: 论文中未提供链接 LongLive: 论文中未提供链接 FlowDPS: 论文中未提供链接 DDS: 论文中未提供链接 Wan 2.1: 论文中未提供链接 LTX-2: 论文中未提供链接 VIST3A: 论文中未提供链接 AnySplat: 论文中未提供链接 🏗️ 方法概述和架构 整体流程概述:FlowLong是一个端到端的推理时框架,旨在将任何预训练的流式扩散模型(Flow Matching)扩展到更长的序列。输入是长视频的目标长度和文本提示(可能按块变化),输出是一个连贯的长视频。其核心流程是:将长视频分解为多个有重叠的短块,为每个块从独立噪声初始化并行采样,在每个去噪步骤中通过Tweedie匹配和随机早期采样来同步各块的轨迹,最终聚合生成完整的长视频。所有操作仅修改采样过程,不改变模型权重和结构。 ...