📄 Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation

#音视频 #多模态模型 #语音克隆 #生成模型 #扩散模型

7.3/10 | 前25% | #音视频 | #多模态模型 | #语音克隆 #生成模型 | arxiv

学术质量 6.2/8 | 影响力 0.8/1 | 可复现性 0.3/1 | 置信度 高

👥 作者与机构

  • 第一作者:Yuheng Chen(上海交通大学)
  • 通讯作者:Qingdong He(电子科技大学,论文中标注为对应作者及项目负责人)
  • 作者列表:Yuheng Chen(上海交通大学,等同贡献)、Qingdong He(电子科技大学,等同贡献)、Teng Hu(上海交通大学)、Yuji Wang(上海交通大学)、Yabiao Wang(浙江大学)、Lizhuang Ma(上海交通大学)、Jiangning Zhang(浙江大学,对应作者)

💡 毒舌点评

这篇论文为“多主体联合音视频定制”这一具体问题提出了一套工程实现相对完整的端到端框架,其针对“Caption Vocalization”问题设计的MTP-CA掩码机制简单有效,SA-MRoPE的位置编码设计思路也具启发性。然而,其核心的OCF模块本质上是标准Transformer块对拼接序列的处理,架构创新度有限,且论文在“Caption Vocalization”的成因分析和SA-MRoPE有效性的理论解释上均显薄弱,更像是一次成功的系统工程集成而非深度理论探索。

📌 核心摘要

本文旨在解决在联合音视频生成中,为多个主体同时保持其视觉身份和声音音色,并实现精准绑定的难题。现有方法存在多主体身份混淆、无法有效跨模态绑定,以及基础模型固有的语音合成异常等问题。论文提出了Omni-Customizer,一个端到端框架。其核心方法包括:1) Omni-Context Fusion (OCF) 模块,将文本、视觉参考、音频参考和TTS嵌入拼接成统一序列,通过L层专用Transformer块进行深度跨模态交互,以富化文本表示;2) Semantic-Anchored Multimodal RoPE (SA-MRoPE),为不同模态的参考token设计了基于其对应文本描述符位置的3D位置编码,实现语义锚定;3) Masked TTS Cross-Attention (MTP-CA),通过二进制掩码机制,确保TTS语音信息仅注入到提示词中被<S><E>标签包裹的对话部分,消除“Caption Vocalization”异常。此外,论文提出了交错式模态解耦训练策略(交替进行联合音视频训练和纯音频训练)和渐进式课程学习(从单主体配对到多主体非配对数据),以在不损害基础模型能力的前提下,让模型适应多语言环境并学习鲁棒的身份特征。论文还详细描述了构建多主体多模态数据集的完整流程,并提出了新的评估基准OC-Bench。实验在OC-Bench上进行,结果表明,Omni-Customizer在视觉身份相似度、音色一致性、音视频同步和整体保真度上均达到了当前最佳水平。

🔗 开源详情

  • 代码:论文中提及了项目主页(https://aliothchen.github.io/projects/Omni-Customizer/),但该主页目前主要作为演示入口。未明确提及代码开源计划。
  • 模型权重:未提及。
  • 数据集:论文详细描述了OC-Bench和训练集的构建过程,但未提供任何公开下载链接。文中引用的OpenHumanVid [35]和OpenS2V-5M [57]数据集,也未提供具体获取方式。
  • Demo:项目主页作为演示入口。
  • 复现材料:论文中未提及提供配置文件、检查点或详细附录下载。
  • 论文中引用的开源项目(仅列出名称,未提供具体链接):
    • Ovi [40], InsightFace [12, 11], CosyVoice3 [13], F5-TTS [5], Qwen3-Omni-30B-A3B [56], Gemini 2.5-Pro [10], OpenHumanVid [35], OpenS2V-5M [57], Emilia [20], Whisper-v3 [43], ArcFace [12], WavLM [4]

🏗️ 方法概述和架构

整体流程概述: Omni-Customizer是一个基于预训练双流Diffusion Transformer (DiT) 骨干网络Ovi构建的端到端音视频联合定制生成框架。输入包括文本提示词P、多个主体的参考图像集合I和参考音频集合A。首先,文本提示词被构建为结构化格式,包含主体描述符、环境动作描述和用<S><E>标签包裹的对话内容。系统首先通过OCF模块将文本嵌入c_txt、视觉参考嵌入c_v、音频参考嵌入c_a以及由F5-TTS生成的TTS语音嵌入c_tts进行深度融合和富化。SA-MRoPE为拼接后的统一序列中的每个token分配结构化的3D位置编码。融合后的富文本表示作为核心条件,被注入到视频流和音频流的DiT中。在扩散去噪过程中,双流DiT在SA-MRoPE提供的位置先验下并行处理视频和音频潜在变量。在DiT内部,MTP-CA模块进一步确保TTS的语音先验仅影响对话部分的文本表示。最终,联合生成与输入身份一致的定制化视频和音频。

主要组件/模块详解:

  1. Omni-Context Fusion (OCF) 模块

    • 功能:该模块的核心职责是将来自文本、视觉参考图像、音频参考以及对话TTS的多模态信息,整合到一个统一的表示序列中,并通过深层交互,为文本嵌入注入密集的跨模态身份线索,从而将基础文本编码器“提升”为一个主动的跨模态对齐引擎。
    • 内部结构/实现:OCF模块由L层专用的Transformer块构成。输入序列S被定义为S = [c_txt ⊕ c_v ⊕ c_a ⊕ c_tts],其中c_v和c_a分别是参考图像和音频的潜变量表示,c_tts是由F5-TTS编码的、与对话内容对齐的语音嵌入。该序列在Transformer块中进行自注意力计算,以强制执行深层跨模态交互。为了在吸收多模态上下文的同时,保护预训练语言表示的完整性,在每一层,提取输出序列中对应原始c_txt长度部分的token,通过一个残差连接加回到原始的c_txt上。关键的稳定性设计是,残差投影层使用零初始化,确保训练开始时对原始文本表示的扰动严格为零。
    • 输入输出:输入是文本嵌入、视觉参考token、音频参考token和TTS嵌入的拼接序列;输出是经过多层交互后、富含跨模态信息的文本嵌入(c_txt_enriched),该嵌入将作为整个DiT生成过程的核心条件。
  2. Semantic-Anchored Multimodal RoPE (SA-MRoPE)

    • 功能:该模块旨在解决异构模态token在结构上的不匹配问题(文本一维、图像二维、音频一维),通过为每个token分配结构化的三维位置编码,将视觉和音频参考token“锚定”到其在文本描述中的正确语义位置,从而在OCF的前向传播中形成强大的空间-时间注意力偏置,防止多主体身份混淆。
    • 内部结构/实现:SA-MRoPE为序列中的每个token分配一个三维坐标(x, y, z)。对于主体k,其文本描述符P_sub,k在序列中的位置范围为[s_k, e_k]。其视觉参考token Z_img^(k)的位置被设定为(e_k+1, h, w),其中(h, w)是图像token的二维空间坐标;音频参考token Z_aud^(k)的位置为(e_k+2, j, 0),j是其时间索引。后续的文本token从e_k+3恢复时间位置。对于TTS语音token Z_tts^(k),其位置通过线性插值映射到对应的<S>..E>语音片段的时间范围[t_start, t_end]内,并且将其第三维坐标设置为1,以区别于默认为0的文本嵌入token。这种设计使得同一主体的图像、音频、文本描述token在位置空间上紧密相连,引导注意力进行语义对齐。
    • 输入输出:输入是OCF处理序列中各token的类型(文本、图像、音频、TTS)和语义位置信息;输出是为每个token分配的、结构化的三维旋转位置编码,用于指导自注意力计算。
  3. Masked TTS-to-Prompt Cross-Attention (MTP-CA)

    • 功能:专门解决预训练Ovi模型存在的“Caption Vocalization”异常(即音频塔错误地将描述性文本合成语音)。它通过硬掩码机制,严格限制来自TTS嵌入的语音先验只能注入到文本提示词中实际表示对话内容的<S><E>区域,而不会泄露到环境、动作等描述性文本中。
    • 内部结构/实现:这是一个带掩码的交叉注意力层。其“查询”来自DiT主干网络中处理文本条件的特征,“键”和“值”则来自TTS语音嵌入c_tts。关键设计是一个二进制掩码,该掩码在提示词中<S><E>标签之间的位置为1,其余所有位置为0。在计算注意力时,非对话区域的注意力权重被此掩码强制置零,从而实现了“外科手术式”的精确信息注入,杜绝了语音信息的泄漏。
    • 输入输出:输入是DiT主干中的文本条件特征和TTS嵌入c_tts;输出是仅作用于对话文本位置的语音增强特征。

组件间的数据流与交互:

  1. 数据准备:原始输入被编码。文本被构建为结构化提示词并编码为c_txt。参考图像和音频被分别编码为c_v和c_a。文本中<S><E>内的对话内容被送入F5-TTS生成c_tts。
  2. OCF与SA-MRoPE协同融合:将c_txt, c_v, c_a, c_tts拼接成序列S。SA-MRoPE根据各token的类型和语义位置,为其分配3D位置编码。序列S通过L层专用Transformer块,进行自注意力计算,完成深度跨模态交互。每一层的输出中,对应c_txt长度的部分通过零初始化残差连接加回到原始c_txt,最终得到富化后的c_txt_enriched。
  3. 条件注入与扩散生成:富化后的c_txt_enriched作为核心条件,被送入视频流和音频流的DiT。在DiT的交叉注意力层中,c_txt_enriched同时作为键和值,与视频/音频潜在变量进行交互。在音频流中,MTP-CA模块利用二进制掩码,将c_tts的信息仅注入到c_txt_enriched中对话对应的token位置。
  4. 联合去噪:双流DiT在当前时间步t,基于上述条件引导,联合预测视频和音频的噪声或速度,最终通过反向扩散过程生成视频和音频潜变量,再经解码器得到最终输出。

关键设计选择及动机(依据论文原文):

  • OCF作为主动对齐引擎:论文明确指出,简单地依赖文本特征来绑定多模态身份条件是不可靠的,因为在原始DiT中,不同模态的参考特征从未在一个统一模块内直接交互。因此,设计OCF来“提升”文本编码器,使其主动承担跨模态对齐任务。
  • SA-MRoPE的结构化锚定:论文指出,异构token(文本一维、图像二维、音频一维)的结构不匹配阻碍了有效交互。SA-MRoPE通过将参考token位置直接链接到其文本描述符的序列位置,提供结构化的、模态感知的位置先验,而非依赖易衰减的任意偏移。
  • MTP-CA的硬门控:论文发现Ovi模型存在“Caption Vocalization”异常,原因是音频塔全局处理文本,仅依靠<S>/<E>令牌的软约束在复杂提示中可能失效。因此,采用带掩码的硬门控交叉注意力进行严格隔离。
  • 交错训练与课程学习:动机源于预训练Ovi主要基于英文语料,而训练数据(如OpenHumanVid)分布不同,且直接联合训练会导致音频分支优化不平衡。交错训练(JAVG步与TTS-only步交替)旨在稳定优化并快速获得多语言能力。渐进式课程学习(单主体配对->多主体配对->多主体非配对)旨在从简到难稳定训练,避免直接进行复杂多主体训练导致的收敛失败。

💡 核心创新点

  1. 语义锚定的多模态位置编码 (SA-MRoPE):针对现有方法(如DreamID-Omni的Syn-RoPE)使用任意偏移易导致身份混淆的问题,SA-MRoPE提出将视觉、音频参考token的3D位置直接与其文本描述符在序列中的位置进行绑定,提供了一种结构化的、基于语义的位置先验,增强了多主体场景下的身份绑定鲁棒性。
  2. 掩码式语音信息注入 (MTP-CA):针对预训练Ovi模型固有的“Caption Vocalization”缺陷,MTP-CA提出使用二进制掩码在交叉注意力层面进行硬约束,确保TTS语音先验仅注入对话区域,从根本上解决了描述性文本被错误合成语音的问题,提升了可控性和生成纯度。
  3. 端到端框架与综合训练策略:论文不仅提出了新模块,还系统性地构建了支持多主体、跨语言音视频定制的完整框架。其创新的交错式模态解耦训练策略(交替联合与单模态优化)和渐进式课程学习策略,有效解决了从通用模型到定制任务适配过程中的优化不平衡和训练稳定性问题。
  4. 大规模多模态数据构建流程与基准:论文详细描述了一套复杂的数据策展流程,包括使用MLLM进行身份绑定和结构化提示词生成,并以此构建了专门的多主体多模态定制数据集和评估基准OC-Bench,为相关研究提供了重要基础。

📊 实验结果

论文在作者提出的新基准OC-Bench(包含300个测试用例,分三个复杂度子集)上进行了全面评估。

主要对比实验结果 (Tab. 1):

MethodIdentity Preservation (Face-Sim/Cons)Identity Preservation (T-Sim)AV-Sync (Sync-C/D)AV-Sync (IB-S)Video Quality (AQ)Video Quality (IQ)Video Quality (TF)Audio Quality (WER)Audio Quality (PQ)Audio Quality (IB-A)
Phantom [39]0.657 / 0.882-- / --0.3220.4310.853---
VACE [31]0.674 / 0.895-- / --0.3450.5340.862---
Humo [3]0.708 / 0.941-3.421 / 10.230.1240.5210.6120.887---
HunyuanCustom [26]0.732 / 0.954-3.752 / 9.8420.1810.5740.6540.908---
Wan2.2-S2V [16]0.774 / 0.963-5.864 / 8.5210.1220.5180.6420.954---
SkyReel-A2 [15]0.761 / 0.958-4.218 / 9.1240.1840.5520.6380.941---
Universe-1 [54]0.642 / 0.912-5.012 / 9.4210.0760.4120.5740.8420.4313.410.072
Ovi [40]0.692 / 0.934-5.421 / 8.9420.0840.4350.5920.8640.3423.640.084
MOVA [51]0.695 / 0.936-5.425 / 8.9380.0850.4380.5940.8660.3383.650.086
LTX2.3 [19]0.742 / 0.952-6.028 / 8.2140.0920.4840.6720.8780.2243.920.098
DreamID-Omni [18]0.789 / 0.9670.4716.082 / 8.0240.1880.5840.6480.9450.2844.120.112
Omni-Customizer (Ours)0.812 / 0.9760.5146.235 / 7.8210.1940.5920.6540.9680.1524.320.124

关键结论:Omni-Customizer在所有核心多模态指标上均优于所有基线。与最强基线DreamID-Omni相比,人脸相似度提升2.3%,音色相似度提升4.3%,唇音同步精度(Sync-C)有提升,WER显著降低。论文在分析中特别指出,随着测试集复杂度增加(子集2和3),其他基线性能因身份干扰和同步失败而大幅下降,而Omni-Customizer保持了鲁棒性,具有最高的IB-Score和最低的WER与Sync-D。

消融实验结果 (Tab. 2):

OCFSA-MRoPEMTP-CAInter-TTSIn/Cross-Curric.Face-Sim/ConsT-SimSync-C/DIB-SAQIQTFWERPQIB-A
-----0.612 / 0.8940.3623.125 / 11.420.0640.3120.4250.8241.3423.250.052
----0.684 / 0.9250.4154.214 / 10.150.0820.4280.5410.8420.8563.520.071
---0.742 / 0.9480.4584.862 / 9.2410.1350.5120.5940.8820.6423.820.094
--0.765 / 0.9580.4826.142 / 7.9540.1620.5540.6120.9140.1824.150.108
-0.785 / 0.9650.4956.012 / 8.1240.1810.5720.6380.9420.2014.240.115
0.812 / 0.9760.5146.235 / 7.8210.1940.5920.6540.9680.1524.320.124

关键结论:消融实验清晰地展示了每个提出组件的累积贡献。OCF模块提供了基础的多模态融合能力。SA-MRoPE的加入主要提升了身份保持指标(Face-Sim, T-Sim)和跨模态一致性(IB-S)。MTP-CA对音频质量指标(WER, Sync-C/D)有关键提升作用,验证了其解决“Caption Vocalization”的有效性。训练策略(Inter-TTS和课程学习)进一步带来了全面的性能增益,特别是在降低WER和提升视频美学质量方面。

图3: 定性对比 图3展示了与不同范式SOTA方法的视觉和音频质量对比。Omni-Customizer在多主体场景下(如第二行)能够同时保持两个角色的面部特征和声音特色,并实现准确的唇音同步,而其他方法则出现了面部僵硬、身份漂移或混淆。

图4: 消融实验定性结果 图4通过案例展示了移除各组件后的退化情况:无课程学习会导致面部扭曲;无OCF/SA-MRoPE导致两个主体同时说话(身份混淆);无MTP-CA导致非对话文本被错误发音。

🔬 细节详述

  • 训练数据:
    • 来源:OpenHumanVid [35] 和 OpenS2V-5M [57]数据集。
    • 预处理与构建流程:
      1. 数据过滤:移除无音频片段,基于数据集提供的元数据质量分数筛选。
      2. 参考图像提取:
        • 对于OpenHumanVid(主要用于配对训练),使用InsightFace [12, 11]进行人脸追踪,选择检测置信度与框面积乘积最大的帧作为参考图。
        • 对于OpenS2V-5M(用于非配对训练),利用其提供的参考图,通过掩码级IoU重新匹配到InsightFace追踪结果。
      3. ASR与音频描述:使用Qwen3-Omni-30B-A3B [56]为每个片段生成带时间戳的ASR文本(包含{speaker, text, start, end, language}结构字段)和全局音频描述。
      4. 参考音频合成:为避免训练中的“复制粘贴”捷径,为每个说话人提取其最长连续语音段及其ASR文本,用CosyVoice3 [13]重新合成参考音频,以保持音色但中和原始声学上下文。
      5. MLLM引导的绑定与标注:使用路由集成策略,由Gemini 2.5-Pro [10]处理多说话人场景,由Qwen3-Omni-30B-A3B处理单说话人场景。MLLM接收源视频、ASR文本、候选参考图像/音频池,输出主体间的身份绑定关系(FaceID-SpeakerID关联)以及符合公式(2)格式的结构化“全能提示词”。
    • 数据集规模:Stage 1使用0.7M单主体样本;Stage 2使用0.3M多主体样本;Stage 3使用0.5M跨主体配对样本。TTS-only训练步骤使用Emilia数据集 [20]。
  • 损失函数:论文未明确说明具体损失函数名称,仅提及优化“velocity or noise”预测。
  • 训练策略:
    • 优化器:AdamW (β1=0.9, β2=0.95),权重衰减0.01。
    • 学习率调度:对新增模块(OCF, MTP-CA)采用余弦衰减调度器,从1e-4衰减至1e-5。
    • 训练阶段与步数:
      • Stage 1 (单主体对齐与音频启动): 20K步。JAVG步与TTS-only步比例为1:1。JAVG步batch size 64,TTS-only步batch size 1024。
      • Stage 2 (多主体适配): 10K步,仅JAVG步,batch size 64。
      • Stage 3 (跨主体解耦): 10K步,仅JAVG步,batch size 64。
    • 交错训练(Interleaved Modality-Decoupled Training):在Stage 1中,JAVG步骤进行双流联合前向和反向传播,优化跨模态对齐。TTS-only步骤仅前向传播音频DiT,且多模态交叉注意力目标被置空(梯度不更新跨模态通路),旨在通过扩大音频批大小来平均VAE重建误差的影响,并作为正则化保护已学得的跨模态接口。
    • 课程学习(Progressive Disentanglement Curriculum):从Stage 1的单主体、配对数据(OpenHumanVid),逐步过渡到Stage 2的多主体、配对数据,最后到Stage 3的多主体、非配对数据(OpenS2V),以稳定训练过程。
  • 关键超参数:
    • 骨干网络:基于预训练Ovi [40],视频流和音频流均为Diffusion Transformer。
    • OCF模块层数L:未提及。
    • 生成时长/分辨率:论文在局限性中提到当前被限制在720P,10秒。
  • 训练硬件:未提及。
  • 推理细节:论文中未说明解码策略、温度、采样步数等具体推理参数。
  • 正则化技巧:OCF模块中的残差投影层零初始化;交错训练策略本身具有正则化效果。

⚖️ 评分理由

创新性:2.3/3 论文针对多主体音视频定制提出了多个针对性的组件。SA-MRoPE的位置编码设计具有新意,MTP-CA的硬掩码机制对解决特定问题有效。然而,核心的OCF模块本质上是标准Transformer对拼接序列的处理,架构创新度有限。论文的贡献更多体现在系统性地整合问题定义、解决方案(包括训练策略)和评估基准,而非提出颠覆性的新思想。

技术严谨性:1.3/2 方案在工程实现上逻辑自洽,SA-MRoPE和MTP-CA的设计有明确公式支撑。主要不足在于:1) OCF模块的关键参数(如Transformer层数L)未公开,技术细节不完整。2) 对“Caption Vocalization”的成因分析停留在现象描述,缺乏深入的机制剖析。3) 交错训练策略的理论推导被置于补充材料,正文未给出关键结论。

实验充分性:1.8/2 实验是本文亮点之一。1) 提出了专门的OC-Bench基准。2) 基线选择覆盖四种范式,对比全面。3) 指标体系涵盖多维度自动化评估。4) 消融实验设计严谨。主要缺点:1) 未提供结果的标准差或误差棒,无法评估统计显著性。2) 人类主观评估(如MOS)的缺失,使得对“自然度”、“情感表达”等高级属性的评价不完整。

清晰度:0.8/1 论文结构清晰,图表制作精良,方法描述较为到位。扣分点:1) 关键技术细节(如OCF结构、硬件、推理参数)缺失。2) 图2框架图虽然展示了整体流程,但对MTP-CA在DiT中的具体接入点和数据流向描绘不够细致。3) 数据构建流程复杂,其鲁棒性和对最终性能的影响讨论不足。

影响力:0.8/1 论文在多模态定制这一垂直领域做出了扎实贡献,为社区提供了新的基准OC-Bench和一种有效的技术组合思路。其端到端框架和训练策略对工业应用有参考价值。局限在于,主要影响力限于联合音视频生成与定制的子领域,对更广泛的生成模型基础理论贡献有限。

可复现性:0.3/1 这是论文的主要短板。虽然提供了项目主页,但根据现有信息,代码、模型权重、数据集(包括OC-Bench)均未明确承诺开源。训练细节虽有,但关键超参数(如OCF层数)缺失,且完全未提及硬件环境和推理配置,使得严格复现极为困难。

该论文在明确的应用问题上提供了完整的解决方案,实验设计扎实,结果具有说服力。主要失分点在于可复现性信息的严重缺失,以及部分技术细节和理论分析的深度不足,使其更像一篇优秀的工程论文而非理论突破性工作。

🚨 局限与问题

  1. 论文明确承认的局限:

    • 当前模型的生成能力被限制在720P分辨率和10秒时长。
    • 扩展到更高分辨率和更长序列面临着模型架构和数据策展方面的严峻挑战,尤其是在保持长期身份一致性方面。这是作者提出的未来主要工作方向。
  2. 审稿人发现的潜在问题:

    • 理论深度不足:对“Caption Vocalization”异常的分析偏于现象描述,未能从模型内部信息流或表征角度深入剖析其根源。对SA-MRoPE为何能有效缓解身份混淆,也缺乏理论层面的解释。
    • 方法泛化边界模糊:论文提出的“多模态定制”主要聚焦于身份(人脸、音色)的保持。对于更广泛的“定制”语义,如风格、情感、动作模式,论文未明确界定其方法的处理边界和能力。MLLM引导的数据构建流程在复杂、嘈杂或长尾场景下的鲁棒性未经检验。
    • 评估体系的完备性:大量依赖自动化指标,而“身份一致性”、“自然度”、“情感表达”等高级感知属性难以被完全捕捉。缺乏人类主观评估是明显的缺陷。
    • 计算成本未讨论:作为一个包含多层Transformer(OCF)和双流DiT的复杂端到端模型,其训练(特别是数据策展)和推理成本可能很高。论文未对此进行任何分析,而这在实际应用中至关重要。
    • 消融实验的完整性:消融研究验证了各模块的增量贡献,但未探讨关键设计选择的替代方案,例如OCF中残差连接的其他形式、SA-MRoPE中位置绑定的其他策略等。
    • 结论的普适性:论文声称达到SOTA,但这一结论严格依赖于其自建的OC-Bench。在其他可能更具挑战性或分布不同的多模态定制场景中,该结论的普适性有待验证。

← 返回 2026-05-19 论文速递