Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization
📄 Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization #多模态 #音频理解 #知识蒸馏 #音频大模型 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Xiangyu Zhang(新南威尔士大学电气工程与电信学院;杜比实验室,悉尼) 通讯作者:Julien Epps(新南威尔士大学电气工程与电信学院)(推断,作为最后作者及机构负责人) 其他作者: Benjamin John Southwell(杜比实验室,悉尼) Siqi Pan(杜比实验室,悉尼) Xinlei Niu(杜比实验室,悉尼) Beena Ahmed(新南威尔士大学电气工程与电信学院) 💡 毒舌点评 亮点:论文像一位严谨的侦探,系统性地“破案”了多模态融合在离散音频分词器中导致重建质量下降的元凶——融合位置和优化目标冲突,并给出了“预量化融合”和“知识蒸馏”这两把关键“凶器”。槽点:实验部分虽然扎实,但读起来像在啃一本厚重的实验手册,部分描述(如梯度分析)略显冗长,且主要聚焦于视频-音频融合,对其他模态组合的泛化性探讨不足,有点“偏科”。 📌 核心摘要 这篇论文深入探讨了在端到端音频语言模型中,将视觉信息融入音频分词器时普遍存在的“理解提升但重建质量下降”的核心矛盾。作者通过系统性实验,揭示了三个关键发现:融合位置(在量化前还是量化后)至关重要;在离散分词器中,知识蒸馏比对比学习更有效;基于时间轴的动态融合优于静态特征融合。基于此,论文提出了时间感知预量化融合(TAPF) 方法,这是首个能在集成视觉信息的同时,保持高保真音频重建质量的方案。实验表明,TAPF不仅维持了重建保真度,还在下游音频理解任务(如AVQA)上显著优于单模态音频分词器和现有多种多模态融合基线,特别是在低比特率(高压缩)场景下,展现了8倍的token效率提升。 🏗️ 模型架构 论文提出了一个用于视频增强音频分词的统一框架,其核心是预量化融合策略。整体流程如下: 输入:原始音频波形 x ∈ ℝ^T 和对应的视频帧序列。 音频编码:音频通过 SEANet编码器 (E_audio) 映射为连续表示 z_e ∈ ℝ^(d×T')。 视觉编码:视频帧通过预训练的 Perception Encoder 提取视觉特征 f_vision ∈ ℝ^(d_v×T_v)。 关键融合阶段(预量化):在量化之前,将视觉信息融合到音频的连续表示 z_e 中。论文比较了两种融合方法: 知识蒸馏融合:通过一个变换器将 z_e 投影到语义空间得到 f_audio,然后使用蒸馏损失 L_distill(基于余弦相似度)拉近 f_audio 与 f_vision 的距离。 对比学习融合:对 f_audio 和 f_vision 进行时序平均池化后,使用CLIP风格的对比损失 L_contrastive 进行对齐。 量化:融合后的连续特征送入 残差矢量量化器 (RVQ) 或 有限标量量化器 (FSQ),生成离散token序列 ẑ。RVQ包含8层,每层1024个码本。 音频解码:离散token ẑ 通过 SEANet解码器 (D_audio) 重构为音频波形。 训练目标:总损失 L_total 是重建损失(L1 + 多尺度梅尔频谱损失)、承诺损失和融合损失(蒸馏或对比损失)的加权和。 下游评估:为了评估分词器的理解能力,论文设计了一个音频token投影框架。离散token通过一个可训练的 AudioProjector(为每个量化层设置独立的嵌入层,拼接后通过多层Transformer映射网络)转换为语言模型兼容的表示,然后与文本问题一起输入冻结的 Llama 3.1 8B 模型,通过一个可训练的分类头完成音频视觉问答(AVQA) 任务。 关键设计选择理由: ...