📄 VT-Heads: Voice Cloning and Talking Head Generation from Text Based on V-DiT #语音克隆 #视频生成 #多模态模型 #扩散模型
✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #语音克隆 #多模态模型
学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 中
👥 作者与机构 第一作者:Yali Cai(国防科技大学计算机学院) 通讯作者:Peng Qiao, Dongsheng Li(国防科技大学计算机学院,并行与分布式计算国家重点实验室) 作者列表:Yali Cai, Peng Qiao, Dongsheng Li(国防科技大学计算机学院,并行与分布式计算国家重点实验室) 💡 毒舌点评 亮点:论文将语音克隆、多模态融合和视频扩散模型(V-DiT)整合成一个端到端框架,并创新性地为T2S模块引入帧级时间锚点以改善音视频同步,整体技术路线清晰。 短板:T2S模块中“动态节奏控制”的具体机制(公式f(S, Θ))描述过于模糊,核心创新点之一缺乏技术细节支撑;实验部分的对比方法(如表3)更新不够及时,且部分指标(如多样性Diver)在所有方法中几乎无差异,难以证明其优越性。
📌 核心摘要 这篇论文旨在解决文本驱动会说话头部生成(THG)中存在的唇部同步不准确和面部表情多样性有限的问题。方法核心是提出一个多模态融合框架VT-Heads,它包含三个关键部分:1)一个带有帧级时间锚点和动态节奏控制的T2S模块,用于生成与视频帧节奏同步的语音;2)一个基于注意力的多模态融合模块,用于细粒度融合文本和语音特征;3)一个以条件V-DiT为骨干的扩散模型,将视频生成建模为时序迭代去噪过程。与现有两阶段方法(先T2S再驱动视频)不同,VT-Heads通过多模态融合增强了文本语义与视觉生成的关联。实验表明,在HDTF数据集和YouTube视频上,VT-Heads在图像质量(FID↓10.12)、唇形同步(Sync↑5.99/6.21)等指标上优于部分基线。其实际意义在于为文本驱动的数字人内容生成提供了一种更同步、更自然的方案。主要局限性在于T2S模块的技术细节不够透明,且与最新SOTA方法的对比有待加强。
🏗️ 模型架构 VT-Heads的整体架构是一个条件扩散模型框架,其输入为驱动文本、参考语音和参考图像,输出为生成的会说话头部视频序列。核心流程如下(参考图1):
输入处理: 文本(T):送入T2S模块合成语音,并通过Word2Vec提取文本特征。 参考语音(Xr):送入T2S模块作为音色参考,并通过Wav2Vec提取语音特征。 参考图像(yr):通过编码器Er提取外观条件r的一部分。 运动帧(ym):可能来自参考视频或生成的中间帧,与参考图像特征共同构成外观条件r = Er(yr) ⊕ Er(ym)。 T2S模块:生成与帧同步的语音波形,其语音特征S’作为多模态融合的输入之一。 多模态融合模块(图2): 文本特征和语音特征分别经LSTM提取时序信息。 通过一个交叉注意力Transformer进行融合,文本作为Query,语音作为Key/Value,学习跨模态关联,输出融合特征。 融合特征f与经ConvNet Ek提取的面部关键点特征Ey(yr)相加,形成最终的时间条件m = Ey(yr) ⊕ f。 V-DiT骨干网络: 接收三部分输入:噪声图像块(Pi)、外观条件r、时间条件m。所有输入被线性投影为1D token。 通过L个Transformer块进行迭代去噪。每个块包含时间注意力(同一空间位置跨帧交互)和空间注意力(同一帧内不同位置交互)两个核心操作(公式2),建模时空依赖。 输出预测的噪声。 输出:经多步去噪后,由VAE解码器将潜在空间的视频帧解码为最终的高清视频。 关键设计选择:采用V-DiT(Video Diffusion Transformer)而非传统的UNet,旨在更好地建模视频的长程时空依赖性。
...