VT-Heads: Voice Cloning and Talking Head Generation from Text Based on V-DiT

📄 VT-Heads: Voice Cloning and Talking Head Generation from Text Based on V-DiT #语音克隆 #视频生成 #多模态模型 #扩散模型 ✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #语音克隆 #多模态模型 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yali Cai(国防科技大学计算机学院) 通讯作者:Peng Qiao, Dongsheng Li(国防科技大学计算机学院,并行与分布式计算国家重点实验室) 作者列表:Yali Cai, Peng Qiao, Dongsheng Li(国防科技大学计算机学院,并行与分布式计算国家重点实验室) 💡 毒舌点评 亮点:论文将语音克隆、多模态融合和视频扩散模型(V-DiT)整合成一个端到端框架,并创新性地为T2S模块引入帧级时间锚点以改善音视频同步,整体技术路线清晰。 短板:T2S模块中“动态节奏控制”的具体机制(公式f(S, Θ))描述过于模糊,核心创新点之一缺乏技术细节支撑;实验部分的对比方法(如表3)更新不够及时,且部分指标(如多样性Diver)在所有方法中几乎无差异,难以证明其优越性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开数据集HDTF[16]和40个YouTube视频。未说明YouTube视频的具体来源或获取方式。 Demo:未提及。 复现材料:给出了部分训练超参数(优化器、学习率、EMA衰减率、T2S模块的batch size和epoch数)和数据集信息。未提供模型架构图的详细尺寸、损失函数、完整的数据预处理流程等。 论文中引用的开源项目:引用了FastSpeech 2 [13]、FREEVC [22]、VITS2 [23]等作为对比或基础。 论文中未提及明确的开源计划。 📌 核心摘要 这篇论文旨在解决文本驱动会说话头部生成(THG)中存在的唇部同步不准确和面部表情多样性有限的问题。方法核心是提出一个多模态融合框架VT-Heads,它包含三个关键部分:1)一个带有帧级时间锚点和动态节奏控制的T2S模块,用于生成与视频帧节奏同步的语音;2)一个基于注意力的多模态融合模块,用于细粒度融合文本和语音特征;3)一个以条件V-DiT为骨干的扩散模型,将视频生成建模为时序迭代去噪过程。与现有两阶段方法(先T2S再驱动视频)不同,VT-Heads通过多模态融合增强了文本语义与视觉生成的关联。实验表明,在HDTF数据集和YouTube视频上,VT-Heads在图像质量(FID↓10.12)、唇形同步(Sync↑5.99/6.21)等指标上优于部分基线。其实际意义在于为文本驱动的数字人内容生成提供了一种更同步、更自然的方案。主要局限性在于T2S模块的技术细节不够透明,且与最新SOTA方法的对比有待加强。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 341 words

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

📄 CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation #视频生成 #扩散模型 #多模态 #人机交互 ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #多模态 #人机交互 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Xiangyang Luo(清华大学,†阿里巴巴集团实习期间完成) 通讯作者:Xiaozhe Xin(阿里巴巴集团) 作者列表: Xiangyang Luo(清华大学,†阿里巴巴集团) Xiaozhe Xin(阿里巴巴集团,‡通讯作者) Tao Feng(阿里巴巴集团) Xu Guo(阿里巴巴集团) Meiguang Jin(阿里巴巴集团) Junfeng Ma(阿里巴巴集团) 💡 毒舌点评 亮点在于其“训练时注入物理约束,推理时零开销”的双流范式设计非常巧妙,有效平衡了生成质量与效率;但短板是论文对所用数据集的具体构成、清洗标准和规模描述模糊(仅称“12K high-quality clips”),且未公开数据集,这严重限制了工作的可复现性和公平比较的基础。 🔗 开源详情 代码:论文中提及了GitHub项目页面链接(https://xinxiaozhe12345.github.io/CoInteract_Project/),表明有开源计划,但未明确说明代码是否已公开及仓库地址。 模型权重:论文中未提及是否公开预训练或微调后的模型权重。 数据集:论文中描述了自建数据集的规模和内容,但明确未提及是否公开或如何获取。 Demo:论文中未提及是否提供在线演示。 复现材料:论文提供了部分训练细节(如优化器、学习率、迭代次数、损失权重)和推理设置,但缺少关键信息如batch size、总训练时长、GPU配置、完整的超参数列表。 论文中引用的开源项目:引用了Qwen-Edit(用于数据解耦)、SAM3和SAM3D-body(用于生成几何监督)、MediaPipe和DWPose(用于手脸检测)、WanS2V(作为初始化基础)、以及多种基线模型。 开源计划:论文中未明确提及具体的开源时间表或承诺。 📌 核心摘要 问题:现有视频扩散模型在生成人机交互(HOI)视频时,常出现手/脸结构崩溃和人机物理穿透等问题,根源在于模型缺乏对3D空间关系和交互结构的理解。 方法核心:提出CoInteract框架,核心是“空间结构化协同生成”范式。在一个共享的DiT骨干中联合训练RGB外观流和辅助的HOI结构流(去除纹理的轮廓图),后者通过非对称注意力机制向RGB流注入几何约束。同时,引入“人感知混合专家”模块,通过空间监督路由将手/脸区域的token分配给专用专家处理。 新意:首次将物理交互先验直接嵌入视频生成骨干网络的训练过程,并通过非对称掩码设计确保推理时无需辅助分支,实现了零额外开销。相比依赖外部预处理或后处理的方法,这是一种更端到端的解决方案。 结果:在多个指标上显著超越现有方法。例如,在VLM-QA(HOI合理性)上达到0.72(最佳),HQ(手部质量)达到0.724(最佳),用户研究在交互合理性上排名第一(平均排名1.79)。消融实验证明每个组件都有效。 意义:推动了高质量、物理一致的HOI视频合成技术发展,对电商直播、虚拟广告等应用有直接价值。 局限性:所用数据集未公开,具体规模和细节不足;模型在极端复杂或罕见交互上的泛化能力未充分验证;训练所需的计算资源(如GPU时长)未说明。 🏗️ 模型架构 CoInteract是一个端到端的视频生成框架,基于Diffusion Transformer(DiT)骨干构建。 ...

2026-04-23 · 更新于 2026-05-19 · 2 min · 276 words