CineAGI: Character-Consistent Movie Creation through LLM-Orchestrated Multi-Modal Generation and Cross-Scene Integration

📄 CineAGI: Character-Consistent Movie Creation through LLM-Orchestrated Multi-Modal Generation and Cross-Scene Integration #跨模态 #多模态模型 #角色一致性 #大语言模型 #扩散模型 🔥 8.0/10 | 前25% | #跨模态 | #多模态模型 | #角色一致性 #大语言模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Tianyidan Xie(南京大学,具体院系未说明) 通讯作者:Zili Yi(南京大学,具体院系未说明) 作者列表:Tianyidan Xie(南京大学)、Mingjie Wang(未说明)、Qiang Tang(未说明)、Feixuan Liu(未说明)、Rui Ma(未说明)、Lanjun Wang(未说明)、Zili Yi(南京大学) 💡 毒舌点评 这篇论文最亮眼的地方在于它没有试图发明一个从零开始的端到端“电影生成大模型”,而是务实地将当下最强的几种单点技术(LLM、扩散模型、换脸、语音驱动)通过精心设计的多智能体流程“胶水”集成起来,形成一个可用的系统,展现了强大的工程整合能力和清晰的解决问题思路。但其核心短板也十分明显:它本身几乎没有底层算法或模型的创新,更像是一个前沿技术的应用系统集成报告,且所有组件均依赖现有开源模型或商用API,使得其“新颖性”和“可复现性”大打折扣。 📌 核心摘要 本文旨在解决自动化电影生成中的三大核心挑战:跨场景角色身份不一致、视觉风格/转场不连贯以及音视频(对口型、表情、音乐)跨模态不同步。其方法核心是提出了一个名为CineAGI的分层多智能体框架,该框架通过三个主要模块(叙事合成、角色生成、电影合成)将复杂的电影生成任务分解并交由专门的LLM智能体(如角色设计师、编剧)和专用生成模型(如HunyuanVideo、SimSwap、Wav2Lip)协作完成。与已有方法相比,其创新点在于通过系统化的“分层解耦”而非端到端生成来处理长序列和多角色问题。主要实验结果显示,在总体一致性(OC)上较最强基线(Hunyuan)提升40%,在主题一致性(SC)上提升4.4%,美学质量(AQ)提升5.4%,在人物一致性(CC)的人工评估上提升28.7%,证明了该系统框架的有效性。其实际意义在于为自动化、模块化的AI电影生产提供了一种可行的架构思路。主要局限性在于整个框架依赖大量现有的第三方模型,未讨论各模块联合训练或优化的可能性,且推理成本较高(每个场景约11.3分钟),限制了其实际部署和大规模应用。 🏗️ 模型架构 CineAGI是一个分层的电影生成框架,其整体架构如图2所示,核心流程是:故事概念 → 叙事合成 → 角色生成 → 电影合成 → 最终影片。 ...

2026-04-28