数字人生成

📄 Instilling an Active Mind in Avatars via Cognitive Simulation #数字人生成 #扩散模型 #多模态模型 #音视频 #大语言模型 🔥 8.0/10 | 前25% | #数字人生成 | #扩散模型 | #多模态模型 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jianwen Jiang（字节跳动）通讯作者：Jianwen Jiang（字节跳动）作者列表：Jianwen Jiang（字节跳动）、Weihong Zeng（字节跳动）、Zerong Zheng（字节跳动）、Jiaqi Yang（字节跳动）、Chao Liang（字节跳动）、Wang Liao（字节跳动）、Han Liang（字节跳动）、Weifeng Chen（字节跳动）、Xing Wang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动） 💡 毒舌点评亮点：首次系统地将认知科学的“双系统理论”引入数字人生成框架，通过LLM模拟“慢思考”来规划语义动作，显著提升了生成动画的上下文一致性和表现力，思路新颖且实验验证充分。短板：框架依赖一个可能产生20-30秒延迟的LLM推理模块，且生成模型本身基于现有MMDiT架构改进，核心创新更偏向系统级整合而非底层模型架构突破；此外，所有实验在闭源环境下进行，代码和模型的缺失严重影响了结果的可独立验证性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文中详细描述了数据筛选流程，但未提及是否公开数据集。 Demo：未提供在线演示链接。复现材料：论文附录中提供了详细的实现细节（超参数、训练阶段）、数据筛选工具、评估指标和MLLM使用的提示词模板，复现材料在文本层面较为充分。引用的开源项目：依赖Whisper（音频特征提取）、SyncNet（数据筛选）、RAFT（光流计算）、Q-align（质量评估）、PySceneDetect和PaddleOCR（视频预处理）。 📌 核心摘要问题：当前数字人视频生成模型虽然能生成流畅动画，但主要基于低层音频线索（如口型）进行反应式同步，缺乏对高层语义（如情感、意图、语境）的理解，导致生成的动作缺乏逻辑一致性和丰富性。方法核心：提出一个模拟人类“双系统”认知的框架。系统2：利用多模态大语言模型（MLLM）对输入（图像、音频、文本）进行推理，生成结构化的高层动作计划（推理文本）。系统1：设计一个专门的多模态扩散变换器（MMDiT），其核心是伪最后帧（PLF）策略和对称的音频分支融合，以鲁棒地整合MLLM生成的文本指导与音频等反应式信号，同时避免模态冲突。创新点：a) 首个将数字人问题置于认知科学双系统理论下建模的工作；b) 使用MLLM进行显式的语义规划；c) 提出伪最后帧（PLF）策略，通过时序外推能力维持身份一致性，避免了传统参考图条件带来的运动伪影；d) 设计了多模态预热训练策略以优化多分支融合。实验结果：在多项指标上达到SOTA。在CelebV-HQ肖像任务上，FID（31.320）和FVD（45.771）优于或接近OmniHuman-1；在CyberHost全身任务上，HKV（72.113）显著高于OmniHuman-1（47.561），表明手势动态性更强。用户研究（40人）显示，在整体质量、上下文自然度上显著优于多个学术和商业基线。消融研究证明，去除系统2推理会降低动作丰富度（HKV从168.9降至122.4），而PLF和多模态预热对图像质量、运动和身份一致性至关重要。实际意义：为创建具有“主动心智”、能根据语境进行逻辑反应的智能数字人提供了新范式，有望应用于虚拟伴侣、交互式娱乐、影视制作等领域。主要局限性：a) 引入LLM推理带来约20-30秒的额外延迟；b) 框架的有效性部分依赖所选用的特定MLLM；c) 当前评估主要在单人或简单多人场景，复杂交互场景的鲁棒性有待进一步验证；d) 模型和代码未开源。 🏗️ 模型架构整体框架模拟“双系统”认知，流程如图2所示。系统2（审慎控制）：由MLLM智能体驱动，包含分析器和规划器两个阶段。输入角色的参考图像、音频片段和可选文本提示。分析器通过逐步引导式提问，推断语音内容、情感状态和意图，并输出结构化的JSON总结。规划器基于此总结，制定一个详细、连贯的动作计划（作为“时间表”），以推理文本形式输出。该模块为下游生成提供高层语义指导。系统1（反应渲染）：基于多模态扩散变换器（MMDiT）骨干网络，用于最终视频合成。其关键设计包括： ...