Training-Free Multimodal Guidance for Video to Audio Generation
📄 Training-Free Multimodal Guidance for Video to Audio Generation #音频生成 #多模态模型 #扩散模型 #音视频 🔥 8.0/10 | 前25% | #音频生成 | #扩散模型 #多模态模型 | #多模态模型 #扩散模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eleonora Grassucci*(罗马第一大学信息工程、电子与电信系) 通讯作者:未说明 作者列表:Eleonora Grassucci(罗马第一大学信息工程、电子与电信系)、Giuliano Galadini(罗马第一大学信息工程、电子与电信系;米兰理工大学电子、信息与生物工程系)、Giordano Cicchetti*(罗马第一大学信息工程、电子与电信系)、Aurelio Uncini(罗马第一大学信息工程、电子与电信系)、Fabio Antonacci(米兰理工大学电子、信息与生物工程系)、Danilo Comminiello(罗马第一大学信息工程、电子与电信系) 💡 毒舌点评 亮点:巧妙地将多模态嵌入空间的“体积”作为语义一致性度量,并将其融入扩散过程的梯度引导,为训练-free的V2A生成提供了一个优雅且理论动机清晰的新方向。短板:该方法高度依赖于一个强大的预训练多模态对齐空间(GRAM),且实验主要限于合成数据集VGGSound和描述性数据集AudioCaps,其在复杂真实场景(如声源不可见、环境噪声大)下的鲁棒性和有效性有待进一步验证。 📌 核心摘要 问题:现有视频到音频(V2A)生成方法要么需要在大规模配对数据上进行昂贵的联合训练,要么依赖于成对的相似度(如余弦相似度)进行引导,这可能导致全局多模态一致性不足,生成语义不对齐的音频。 方法核心:提出了一种新颖的训练-free多模态扩散引导(MDG)机制。其核心思想是利用视频、音频、文本三种模态的嵌入向量在共享潜在空间中张成的平行六面体体积作为语义相似度的度量。在推理时,通过最小化这个体积来引导预训练的音频扩散模型的去噪过程,使生成的音频在嵌入空间中与视频和文本条件“对齐”。 与已有方法相比新在哪里:不同于之前依赖成对余弦相似度的引导方法(如Seeing&Hearing),MDG提出了基于三模态联合几何结构(体积)的引导信号,能更有效地捕捉跨模态的全局语义一致性。该方法是训练-free、即插即用的,无需修改扩散模型或编码器。 主要实验结果:在VGGSound数据集上,MDG在几乎所有评估指标(FAD、FAVD、PEAVS、KL、ISc、FD)上均优于基线方法(SpecVQGAN, Diff-Foley, Seeing&Hearing)。例如,FAD从Seeing&Hearing的7.80降至6.04,FAVD从3.44降至2.60。在AudioCaps数据集上,MDG也持续优于Seeing&Hearing。语义一致性分析显示,MDG生成音频与原始视频及文本的体积V和跨模态距离均更小。 实际意义:提供了一种轻量、高效、可即插即用地增强现有音频生成模型多模态对齐能力的方法,无需昂贵的训练,降低了V2A生成技术的应用门槛。 主要局限性:性能依赖于GRAM预训练编码器的质量;引导过程需要额外的编码和优化计算;在音频与视觉内容关联不直接的数据集(如AudioCaps)上,提升幅度相对有限。 🏗️ 模型架构 本文提出的多模态扩散引导(MDG)是一个训练-free的推理时引导框架,它不设计新的生成模型,而是为现有的预训练音频扩散模型提供一个控制信号。其整体流程如下: 输入:一个无声视频 x_v 和一个可选的文本描述 x_p。 预训练组件: 音频生成模型:采用一个潜在扩散模型(LDM),具体是预训练的 AudioLDM。它包含音频编码器 E_a、解码器 D、扩散去噪网络 ε_θ 和一个基于文本的条件机制。 多模态编码器:采用预训练的 GRAM 编码器,它能将视频帧、音频频谱图和文本分别映射到一个共享的、对齐的D维潜在空间中。具体使用:EVAClip-ViT-G(视频),BEATS(音频),BERT-B(文本),记为 E_v, E_a, E_p。 引导流程(如算法1所示): 条件编码:首先,使用 E_p 和 E_v 分别编码文本和视频,得到固定的嵌入 e_p 和 e_v。 扩散采样循环:启动 AudioLDM 的标准DDIM采样过程(共T步)。 注入引导:在采样循环的后80%步数中(即当 t < K,K为warmup步数),在每个去噪步骤后执行引导优化: 根据当前带噪潜变量 z_a^t,通过去噪网络预测一个干净的音频潜变量 ~z_a^0。 使用 E_a 将 ~z_a^0 编码为音频嵌入 e_a。 计算由向量 e_v, e_a, e_p 构成的格拉姆矩阵 K 及其行列式的平方根,即体积 V(公式7)。 通过梯度下降更新带噪潜变量:z_a^t ← z_a^t - η ∇_{z_a^t} V,使体积减小。 输出:采样结束后,得到引导后的音频潜变量 z_a^0,经解码器 D 得到最终音频频谱图,再可通过任何声码器转换为波形。 图2] 图2:多模态扩散引导(MDG)框架概览。图中显示了视频输入 x_v 和文本输入 x_p 被编码为嵌入,与当前生成的音频嵌入 e_a 一起计算体积 V,该体积信号通过梯度反向传播来调整音频扩散模型的去噪轨迹 z_a^t。 ...