CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing
📄 CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing #语音克隆 #扩散模型 #流匹配 #多模态 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Gaoxiang Cong(推测,因其在作者列表中排首位,且为论文主要工作贡献者) 通讯作者:Qingming Huang(推测,因其为资深作者,且通常通讯作者在最后) 其他作者及机构: Gaoxiang Cong, Liang Li, Jiaxin Ye, Zhedong Zhang, Hongming Shan:中国科学院计算技术研究所(Institute of Computing Technology, Chinese Academy of Sciences)/ 中国科学院大学(University of Chinese Academy of Sciences) Yuankai Qi:复旦大学(Fudan University) Qingming Huang:中国科学院计算技术研究所 / 杭州电子科技大学(Hangzhou Dianzi University) / 麦考瑞大学(Macquarie University) 💡 毒舌点评 亮点:把配音演员“听-看-说”的认知过程拆解成模型的三阶段流水线,这个思路相当优雅,不仅解决了特征早期纠缠的问题,还让复杂的对齐任务变得模块化、可解释。槽点:论文里“认知同步”、“渐进式引导”这类高大上的词汇层出不穷,但核心的JSAR机制本质上还是对比学习+CTC损失的“老三样”,创新包装大于内核突破。另外,号称完全消除外部对齐工具依赖,但训练时却用上了预训练的AV-HuBERT,这算不算一种“隐形”的依赖呢? 📌 核心摘要 本文针对电影配音(视觉语音克隆)中音色保真度与唇形同步难以兼得的痛点,提出了一种基于流匹配的认知同步扩散Transformer(CoSyncDiT)框架。该方法受专业配音员认知过程启发,将噪声到语音的生成过程解耦为三个顺序阶段:声学风格适应、细粒度视觉校准和时间感知上下文对齐,从而渐进式地引导生成轨迹,避免了早期多模态特征干扰。为进一步稳定训练并提升对齐精度,作者设计了联合语义与对齐正则化(JSAR)机制,在中间上下文输出上施加帧级对比学习以强化时间一致性,在最终隐藏状态上施加CTC损失以保障语义正确性。在多个标准数据集及具有挑战性的“野外”场景下的实验表明,CoSyncDiT在说话人相似度、发音清晰度、情感相似度和音视频同步等关键指标上均取得了当前最佳性能,尤其在零样本和跨领域设定下展现出卓越的鲁棒性。 🏗️ 模型架构 CoSyncDiT的整体框架旨在将高斯噪声逐步转化为与目标视频唇形同步、并保持参考音色的梅尔频谱图。其核心是一个基于流匹配(Flow Matching)的扩散Transformer(DiT),但并非均匀处理所有层,而是将去噪过程划分为三个认知阶段。 完整输入输出流程: 输入: 参考音频:提取原始梅尔频谱图,经二进制时间掩码遮盖目标区域后,得到掩码声学特征 H_m。 无声视频:通过唇部运动编码器(预训练的AV-HuBERT)提取原始唇部特征,再经级联上采样层对齐至目标梅尔分辨率,得到 X_lip。 配音脚本:通过文本编码器(4层ConvNeXtV2)提取文本特征 H_text。 先验构建:将文本特征通过填充和交叉注意力操作扩展至梅尔级别,并与掩码声学特征 H_m 拼接,形成统一的“语义-声学先验”,作为初始条件。 生成过程(CoSync-DiT): 阶段1:声学风格适应:将带噪的中间变量 x_t 与“语义-声学先验”拼接,通过统一投影层输入DiT。此阶段仅使用多头自注意力(MHSA)和时间自适应层归一化(Time-AdaLN),让模型专注于从参考音频中学习说话人音色风格,并建立风格与文本的初步关联,不引入任何视觉信息。 阶段2:细粒度视觉校准:将阶段1的输出 Z_style 与经过上采样的唇部特征 X_lip 相加。关键设计是一个零初始化的可学习门控 Λ,初始值为0,使得视觉信息作为残差缓慢注入,用于校准声学表示以匹配唇部运动的节奏动态,同时保护已建立的风格信息。 阶段3:时间感知上下文对齐:在阶段2的输出 Z_lip 基础上,使用多头交叉注意力(MHCA),以 Z_lip 为Query,以文本特征 H_text 为Key和Value。同样使用Time-AdaLN进行时间调制。此阶段旨在让模型基于已融合的声学-视觉表示,隐式检索语言上下文,从而生成发音准确的语音。 输出:经过多个CoSync-DiT块迭代后,最终预测出从噪声到目标梅尔频谱的向量场,通过求解常微分方程(ODE)得到生成的梅尔频谱图 x_1。 正则化(JSAR):在训练时,对阶段3的中间交叉注意力输出 Z_ca 施加基于预训练AV-HuBERT特征的帧级对比损失(L_cl),约束时间对齐;对最终隐藏状态 Z_out 施加CTC损失(L_ctc),约束语义正确性。 关键设计选择理由: ...