📄 AVTok: 1D Unified Tokenization for Holistic Audio-Video Generation

#多模态模型 #语音合成 #自回归模型 #模型压缩

6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 1/1.5

6.5/10 | 前25% | #语音合成 | #模型压缩 | #多模态模型 #自回归模型 | arxiv

👥 作者与机构

作者:Kien T. Pham, I Chieh Chen, Qifeng Chen, Long Chen (通讯作者)。 机构:香港科技大学(The Hong Kong University of Science and Technology)。

💡 毒舌点评

这篇论文像一把精心打造的瑞士军刀,试图用一把“1D统一编码”的钥匙打开所有音频-视频生成的锁。它瞄准了一个真实且重要的痛点——现有双分支模型中模态间的表示鸿沟与计算负担。AVTok的设计(共享编解码器+模态特定查询)思路清晰,VFAL训练策略也针对多模态训练的信息不平衡问题提出了直觉上有效的解决方案。然而,审稿人必须指出:1) 核心“统一”的威力在实验中并未被充分证明,其与强单模态基线(如LARP)的差距在音视频两侧均不大,跨模态信息增益有限;2) 实验完全基于VGGSound这一中等规模数据集(训练集仅18万),且在极低分辨率(128x128,~4秒)下进行,这对于宣称“为大规模多模态统一模型铺路”的工作来说,验证力度严重不足;3) 关于同步性的讨论流于表面,仅提到“隐式建模”,缺乏分析为何以及在多大程度上隐式建模足以应付复杂的视听同步;4) 论文将自身定位为“新任务”的开创者,但音频和视频的联合编码并非全新概念,其新颖性更多在于在1D离散潜在空间的具体技术实现。总体而言,这是一篇扎实的工程优化论文,但距离其宣称的宏大愿景还有相当距离,创新性和验证的充分性是其主要短板。

📌 核心摘要

本文提出了AVTok,一种用于联合音频-视频生成的1D统一离散分词器。AVTok采用双流Transformer架构,通过共享的编码器-解码器和模态特定的可学习查询(视频与音频各有独立的holistic queries和patch queries),将音频-视频对编码到统一的离散潜在空间(共享码本)。为解决多模态训练中的信息不平衡(视觉信息主导),作者提出了“先视频后音频”(VFAL)的分层训练策略:第一阶段仅训练视频流,第二阶段冻结视频与共享参数、仅训练音频特有模块,第三阶段共同微调解码器。此外,引入基于预训练音视频基础模型(CAV-MAE Sync)的表示对齐损失,以增强跨模态语义对齐。实验表明,AVTok在音频-视频重建任务上超越单模态基线(如LARP、SpectralCodec),在下游生成任务(A2V, V2A, cJAVG)上,集成AVTok的自回归(AR)模型以更少的参数量和计算成本,取得了与基线方法(扩散、流匹配模型)可比甚至更优的性能(FVD/FAD)。

🔗 开源详情

🏗️ 方法概述和架构

AVTok的核心目标是设计一个统一的分词器,将音频和视频联合编码到共享的1D离散潜在空间。其架构与训练流程如下:

  1. 输入处理与补丁化(Patchify):

    • 视频流: 输入视频 \(\mathbf{V} \in \mathbb{R}^{T \times H \times W \times 3}\)(默认16帧128x128)经过补丁化操作 \(\mathcal{P}\)(时空下采样因子 \((f_T, f_H, f_W)=(4,8,8)\))和展平 \(\mathcal{F}\),得到补丁嵌入 \(\mathbf{E}^v \in \mathbb{R}^{m \times d}\),其中 \(m\) 是视频补丁数量。
    • 音频流: 输入音频的梅尔频谱图 \(\mathbf{A}_{mel} \in \mathbb{R}^{M \times L}\)(默认80x384)被视为灰度图像,经过类似的补丁化(下采样因子 \((f_M, f_L)=(16,16)\))和展平,得到音频补丁嵌入 \(\mathbf{E}^a \in \mathbb{R}^{p \times d}\),其中 \(p\) 是音频补丁数量。原始波形可通过预训练的声码器(HiFi-GAN)从梅尔频谱图无损重建。
  2. 双流Transformer编码器-解码器:

    • 设计动机: 直接将音视频补丁拼接为单一序列(Vanilla版本)会导致模态间信息不平衡,学习互相干扰。AVTok采用双流设计,灵感来源于CAV-MAE。
    • 编码器: 一个共享的Transformer编码器 \(\mathcal{E}(\cdot; LN_1, LN_2)\),但音频流和视频流在前向传播时使用各自独立的层归一化层 \((LN_1^a, LN_2^a)\) 和 \((LN_1^v, LN_2^v)\)。对于每个模态 \(i \in \{v, a\}\),其一组可学习的holistic查询 \(\mathbf{Q}_L^i\) 与对应的补丁嵌入 \(\mathbf{E}^i\) 拼接后输入编码器,输出连续潜在表示 \(\mathbf{Z}^i\)。
    • 量化: 仅对 \(\mathbf{Z}^i\) 中对应holistic查询的前 \(n\) (视频) 或 \(q\) (音频) 个向量进行向量量化(使用共享码本的SVQ),得到离散令牌 \(\mathbf{x}^v\) 和 \(\mathbf{x}^a\),即统一的1D离散潜在表示。
    • 解码器: 一个共享的Transformer解码器 \(\mathcal{D}(\cdot; LN_1, LN_2)\),同样使用模态特定的归一化层。离散令牌经反量化后,与另一组可学习的补丁查询 \(\mathbf{Q}_P^i\) 拼接输入解码器。解码器输出 \(\hat{\mathbf{E}}^i\),其中对应补丁查询的部分被reshape并重建为视频 \(\hat{\mathbf{V}}\) 或梅尔频谱图 \(\hat{\mathbf{A}}\)(再经声码器转换为波形)。
    • 参数共享: 除了归一化层和查询向量,编码器和解码器的主体Transformer参数(如自注意力层)在音视频流之间共享,以实现隐式跨模态交互并保持效率。
  3. VFAL分层训练策略:

    • 阶段一(视频重建): 训练视频流的编码器(使用 \(LN^v\))、解码器(使用 \(LN^v\))、视频查询 \(\mathbf{Q}_L^v, \mathbf{Q}_P^v\)、量化器 \(\mathcal{Q}\) 和自回归先验模型 \(\mathcal{M}_P\)。损失为视频重建损失 \(\mathcal{L}_{rec}^v\) 加上基于视频令牌的先验损失 \(\mathcal{L}_{prior}\)。此阶段建立强大的视觉潜在空间。
    • 阶段二(音频重建): 冻结编码器、解码器主体和视频流的所有参数。仅训练音频流特有的归一化层 \((LN_1^a, LN_2^a)\)、音频查询 \(\mathbf{Q}_L^a, \mathbf{Q}_P^a\),以及先验模型 \(\mathcal{M}_P\) 和表示对齐损失中的MLP投影器 \(h_\phi\)。损失为音频重建损失 \(\mathcal{L}_{rec}^a\) 加上表示对齐损失 \(\mathcal{L}_{rep}\) 和先验损失。
    • 阶段三(细化): 冻结编码器。仅微调解码器(使用双流的 \(LN^{a,v}\))。损失为组合重建损失(视频权重1.0,音频权重0.01)加上 \(\mathcal{L}_{rep}\) 和 \(\mathcal{L}_{prior}\)。
    • 动机: 渐进式训练��免信息丰富的视频学习主导或抑制音频学习,确保两个模态都能获得有效的重建能力。
  4. 表示对齐学习:

    • 动机: 共享参数带来的跨模态交互是隐式的,可能不足以充分利用视听对应关系。
    • 方法: 使用预训练的音视频基础模型(CAV-MAE Sync) \(\mathcal{M}_F\) 提取真值视频和音频的语义特征 \(\mathbf{Z}_F^v, \mathbf{Z}_F^a\)。同时,取AVTok编码器输出的、对应补丁嵌入的连续潜在表示 \(\tilde{\mathbf{Z}}^v, \tilde{\mathbf{Z}}^a\)(经插值对齐维度),通过一个MLP \(h_\phi\) 映射后,计算与基础模型特征的相似度,作为损失 \(\mathcal{L}_{rep}\) 进行优化,以强制AVTok的编码器学习到与基础模型对齐的、富含语义对应关系的表示。
  5. 自回归生成先验:

    • 目的: 使学习到的离散潜在空间对下游自回归生成友好。
    • 方法: 在训练中,加入一个轻量级的自回归Transformer先验模型 \(\mathcal{M}_P\)(基于GPT-2)。计算对两种令牌顺序(\(\mathbf{x}^v \|\mathbf{x}^a\) 和 \(\mathbf{x}^a \|\mathbf{x}^v\))的下一令牌预测损失 \(\mathcal{L}_{prior}\)。该模型在推理时丢弃,仅用于训练时结构优化。
    • 下游生成: 推理时,使用一个单独的Llama风格自回归模型,以视频(或音频、类别标签)条件对应的holistic令牌为前缀,自回归生成音频(或视频)的holistic令牌,实现A2V、V2A或cJAVG。

图1

图2

💡 核心创新点

  1. 提出统一音视频分词任务与模型:明确提出将音频和视频联合编码到一个共享的1D离散潜在空间的任务,并设计了AVTok模型作为初步解决方案。这是对现有双分支分离分词范式的改进尝试。
  2. 双流Transformer架构:设计了具有共享编码器-解码器主体,但使用模态特定查询和归一化层的双流架构,旨在平衡效率与模态特异性信息的捕获,同时保持AR友好性。
  3. VFAL分层训练策略:为应对多模态训练中的信息不平衡问题,提出了分三阶段的渐进式训练范式,从易到难、从强模态到弱模态逐步建立能力。
  4. 表示对齐损失:引入基于预训练音视频基础模型的表示对齐损失,以显式增强编码器所学表示的跨模态语义对应关系,弥补隐式交互的不足。

📊 实验结果

重建任务(表1): AVTok在视频重建指标上全面超越单模态视频分词器(如LARP: rFVD 14.24 vs. AVTok: 12.80),在音频重建指标上与最强的音频分词器(SpectralCodec)具有竞争力(rFAD: 5.93 vs. 5.56)。其Vanilla单流版本性能显著差于AVTok,证明了双流设计的有效性。

生成任务(表2):

  • A2V: AVTok-A2V在gFVD上显著优于TempoTokens(150.26 vs. 786.61),在DeSync(1.317 vs. 1.359)和IB-Score(0.143 vs. 0.132)上也更优。
  • V2A: AVTok-V2A在gFAD上优于所有基线(49.47 vs. MMAudio的17.09更优,但需注意MMAudio是流匹配模型),在DeSync(1.239 vs. V-AURA的0.967较差)和IB-Score(0.249 vs. MMAudio的0.291)上表现中上。
  • cJAVG: AVTok-cJAVG在gFVD(138.80)、gFAD(56.58)、IB-Score(0.206)上均显著优于JavisDiT和Ovi(二者gFVD均>970),DeSync(1.319)与JavisDiT(1.330)相当,优于Ovi(0.814)。需要强调的是,AVTok集成的AR模型总参数量(~840M)远小于JavisDiT(~9.3B)和Ovi(~18B),体现了效率优势。

消融实验(表3):

  • 移除VFAL导致重建和生成性能显著下降,证明其关键作用。
  • 移除表示对齐损失 \(\mathcal{L}_{rep}\) 对重建影响不大,但对生成任务(尤其是V2A和cJAVG的gFAD)有负面影响,表明其有助于提升生成样本的语义一致性。
  • 移除自回归先验 \(\mathcal{L}_{prior}\) 获得最佳重建,但生成性能最差,验证了训练AR友好潜在空间的必要性。

其他分析(附录):

  • 效率(表5): AVTok生成管线的延迟和TFLOPs远低于大部分扩散/流匹配基线。
  • 可扩展性(表6): 从AVTok-S到AVTok-B性能提升明显,但到默认大小提升饱和。
  • 令牌数量(表7): 减少视频令牌数对音频重建影响显著,反之则影响小,表明模型对视频流变化更敏感。
  • 外部模型(表8): 更换基础模型(CAV-MAE)或声码器(BigVGAN)对性能影响有限。

图3

图4

⚖️ 评分理由

  • 创新性 (1.5/2):将1D视频分词(如LARP)与音频分词统一的任务定义具有启发性。双流架构、VFAL策略和表示对齐损失的组合提供了合理的解决方案。然而,核心的“统一”思想并非首创,且各组件(查询式Transformer、分阶段训练、表示对齐)在单模态或其它多模态工作中已有类似应用,原创性在于针对音频-视频这一具体组合的整合与适配。
  • 技术严谨性 (1.2/1.5):方法描述清晰,架构设计合理。VFAL策略有明确的动机和实验验证(表3)。损失函数和训练细节(附录)阐述充分。但存在不足:1) 对于音频流为何使用梅尔频谱图而非波形直接输入,仅提到“可视为灰度图像”和“便于补丁化”,缺乏与音频编码器(如Encodec)的深入对比分析;2) 表示对齐损失中插值操作的必要性和影响未充分讨论;3) 未与近期其他的统一多模态分词工作(如ImageBind在表示层面的统一)进行定位比较。
  • 实验充分性 (1.0/1.5):实验在多个任务和指标上验证了方法的有效性。消融研究覆盖了主要设计选择。但关键局限在于:1) 所有实验均在单一数据集VGGSound上进行(TAVGBench仅用于训练),数据规模中等(训练集18万),场景相对简单,严重限制结论的普适性;2) 未与更新的、更强的多模态生成基线(如基于DiT的模型)进行更全面的对比;3) 未进行用户研究来评估感知质量,而FVD/FAD等指标与人类感知相关性有限。
  • 清晰度 (1.2/1.5):论文结构清晰,图表(特别是图3)较好地辅助了方法理解。数学符号定义一致。主要问题:1) 部分关键术语(如“holistic queries” vs. “patch queries”)的定义和作用可以更早、更明确地介绍;2) 对下游AR生成模型如何具体利用AVTok的令牌(条件设置、[SEP]令牌用法)的描述可更直观。
  • 影响力 (0.8/1.0):工作聚焦于音频-视频生成这一热点领域,对解决现有模型冗余和表示割裂问题有实际价值。其提出的统一分词思路可能启发后续研究。然而,由于实验规模有限、验证不充分,其宣称的“为构建统一大规模多模态模型铺路”目前更多是愿景,实际影响力有待更强大的后续工作验证。对于专注于纯音频(如语音、音乐)领域的读者,本文的贡献间接,因为其核心创新在于视听联合处理架构。
  • 开源 (0.0/1.5):论文承诺公开代码、检查点和数据集,但截至审稿时未提供任何实际链接(如GitHub仓库)。因此,在开源维度上不得分。
  • ��复现性 (0.5/1.5):论文附录提供了详细的模型架构、训练超参数(表4)和评估设置,且承诺开源,这为可复现性提供了良好基础。然而,由于未实际提供代码,完全复现仍存在障碍,且实验依赖特定的预训练模型(CAV-MAE Sync, HiFi-GAN),其版本和获取方式需要确认。
  • 工程/实践价值 (1.0/1.0):工作具有明确的工程实践价值。AVTok通过统一编码显著降低了音视频联合生成模型的复杂度(相比双分支),AR集成方式提供了高效的推理路径。消融实验和效率分析(表5)验证了其在计算资源上的优势,适合部署场景。

🚨 局限与问题

  1. 验证规模与泛化性严重不足:这是最大的问题。所有生成实验仅在VGGSound数据集上进行,该数据集场景相对受限。训练数据总量(640K)和评估数据量(VGGSound测试集)均不足以支撑“通用音视频分词器”的宣称。模型在复杂场景、长时序列、高分辨率上的性能完全未知。
  2. “统一”优势的证明有限:虽然AVTok在重建上优于单模态基线,但增益幅度有限(例如rFVD从14.24降至12.80)。在生成任务上,其优势主要体现在与计算量大得多的扩散/流匹配模型的对比中,但缺少与其它高效的统一生成框架(如基于统一Transformer的直接生成)的直接比较。统一带来的核心好处——消除表示鸿沟——缺乏定量的、直接的分析(例如,是否减少了音视频语义错位)。
  3. 同步建模隐式且薄弱:论文承认同步性依赖于隐式机制(共享参数、对齐损失、AR先验)。实验中的DeSync指标在不同任务中表现不一(如cJAVG上与JavisDiT相当,但V2A上不如V-AURA)。这表明当前方法对精确同步性的建模能力有限,可能在复杂动态或长时依赖场景下失效。
  4. VFAL策略的工程复杂性:三阶段训练虽然有效,但增加了调参难度和流程复杂性。论文也承认这可能引入级联误差。缺乏与一个端到端训练变体的对比,以量化这种复杂性的必要性。
  5. 音频流输入选择:使用梅尔频谱图而非波形作为输入,虽然便于补丁化,但引入了声码器作为额外依赖,且梅尔频谱图本身是一种有损压缩表示。这是否是实现“统一”的最优输入选择值得商榷。
  6. 指标局限性:生成质量评估严重依赖FVD/FAD等自动指标,这些指标与人类偏好不完全一致。缺乏主观评估(MOS、偏好测试)来验证生成样本的真实感知质量和同步性。

📷 论文图片

图5


← 返回 2026-07-01 语音/音乐/音频论文速递