📄 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

#多模态模型 #音视频 #自注意力 #端到端 #基准测试

🔥 8.5/10 | 前25% | #视频摘要 | #多模态模型 | #音视频 #自注意力

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高

👥 作者与机构

  • 第一作者:Sumin Kim(首尔大学), Hyemin Jeong(首尔大学), Mingu Kang(首尔大学)(表示同等贡献)
  • 通讯作者:Yoori Oh†(首尔大学), Joonseok Lee†(首尔大学)(†表示通讯作者)
  • 作者列表:Sumin Kim(首尔大学), Hyemin Jeong(首尔大学), Mingu Kang(首尔大学), Yejin Kim(首尔大学), Yoori Oh(首尔大学), Joonseok Lee(首尔大学)

💡 毒舌点评

论文提出了一个设计精巧的多模态视频摘要模型TripleSumm,其自适应帧级融合机制和引入的大规模三模态数据集MoSu是扎实的贡献,显著推动了视频摘要领域的多模态研究。然而,其核心创新点(自适应注意力融合)在多模态学习中并非前所未见,且在标准小数据集(SumMe/TVSum)上的绝对性能提升幅度有限,新数据集的“Most Replayed”监督信号本身的普适性也有待更广泛验证。

🔗 开源详情

  • 代码:论文提供了GitHub代码仓库链接:https://github.com/smkim37/TripleSumm
  • 模型权重:论文中未明确提及是否公开预训练模型权重。
  • 数据集:MoSu数据集已公开,论文提供了获取方式。
  • Demo:论文中未提及在线演示。
  • 复现材料:论文在附录中提供了非常详细的超参数设置(表I)、摘要生成算法、数据预处理细节、评估协议说明以及各种消融实验的配置,复现信息充分。
  • 论文中引用的开源项目:依赖了预训练模型CLIP、RoBERTa、AST以及用于生成文本描述的Qwen2.5-VL。

📌 核心摘要

  1. 要解决什么问题? 现有视频摘要方法通常采用静态或模态无关的融合策略,无法动态捕捉不同视频帧中视觉、文本和音频模态重要性的变化,导致理解复杂视频能力不足。同时,缺乏包含三模态特征的大规模基准数据集也阻碍了该领域的发展。
  2. 方法核心是什么? 论文提出了TripleSumm架构,其核心包括:a) 多尺度时间块,采用层次化的滑动窗口自注意力,从局部到全局捕捉视频的时序模式;b) 跨模态融合块,使用一个中性的“融合令牌”作为查询,动态地对三种模态的特征进行加权聚合,实现帧级别的自适应融合。
  3. 与已有方法相比新在哪里? 相比于现有模态静态或简单融合的方法,TripleSumm在帧级别动态地学习并分配各模态的权重。此外,论文首次提出了大规模、三模态的视频摘要基准数据集MoSu。
  4. 主要实验结果如何? TripleSumm在四个基准测试上均达到了SOTA性能。在提出的MoSu数据集上,其Kendall‘s τ和Spearman’s ρ分别达到0.351和0.472,大幅超越次优方法CFSum(0.277/0.374)。在Mr. HiSum,SumMe(TVT)和TVSum(TVT)数据集上,其全模型版本也均取得最优或并列最优的相关性指标。消融实验证实了三模态输入、层次化窗口和自适应融合机制的有效性。
  5. 实际意义是什么? 该工作推动了视频摘要向更符合人类多模态感知的方向发展,提出的MoSu数据集和TripleSumm模型为未来研究提供了可靠的基础和强大的基线,有助于从海量视频中高效提取关键信息。
  6. 主要局限性是什么? 论文指出,当前遵循的“帧重要性评分-分割-选择”流程并非端到端可训练,未来可探索直接学习选择连贯摘要片段的端到端模型。此外,数据集的监督信号基于聚合的“Most Replayed”数据,可能无法完全反映个体或多样化的用户需求。

🏗️ 模型架构

TripleSumm是一个用于视频摘要的端到端多模态模型,其整体架构如图2所示。其设计核心是将时序建模与跨模态融合解耦,并逐层进行“精炼-融合”的迭代处理。

完整输入输出流程:

  1. 输入:输入为经过预处理的视觉(V)、文本(T)、音频(A)三模态特征序列。
  2. 特征编码与对齐:使用预训练的编码器(如CLIP, RoBERTa, AST)提取各模态特征(公式1)。然后通过线性投影和层归一化,将它们映射到共同维度D的嵌入空间(公式2)。同时,通过平均聚合创建一个跨模态“融合令牌”嵌入(Ef)。最后,为所有嵌入添加时间位置编码(TPE)和可学习的模态嵌入(LME)以区分类别(公式3)。
  3. 交替精炼与融合:堆叠L层交替的“多尺度时间块”和“跨模态融合块”。
  4. 预测与输出:经过精炼的融合特征(Hf_CMF)通过预测头,输出每帧的重要性分数(S),最终通过分割和选择生成摘要视频。

主要组件详解:

  • 多尺度时间块:此模块负责在每个模态内部独立进行时序建模。其核心是窗口化自注意力,限制注意力范围在以当前帧为中心的窗口w内,将复杂度从O(N²)降至O(wN)。“多尺度” 通过逐层增大窗口尺寸实现:早期层使用小窗口捕捉帧间细微变化,后期层使用大窗口乃至全局窗口捕捉长程依赖和整体叙事(如图2中MST模块所示)。
  • 跨模态融合块:此模块负责在每个时间点独立进行跨模态交互。它将融合令牌(hf_i)作为查询(Query),将同时刻的三种模态特定令牌(hv_i, ht_i, ha_i)作为键(Key)和值(Value),通过交叉注意力机制动态计算并聚合信息(公式5-6)。这种设计使模型能够自由选择、加权当前帧最相关的模态信息,而不偏向任何特定模态。

关键设计选择:

  • 分离式设计:将时序精炼(MST)和跨模态融合(CMF)完全分离到不同模块中,使得每个模块专注于学习一种正交模式,同时便于并行计算。
  • 中性融合令牌:作为跨模态融合的查询,其初始状态是三种模态的简单平均,避免了以某一特定模态(如视觉)为中心查询可能引入的偏差。
  • 参数共享:多尺度时间块在所有模态间共享参数,这不仅显著减少了参数量(约3倍),还让模型能从更多样的数据中学习通用的时序模式。

TripleSumm模型整体架构图

💡 核心创新点

  1. 自适应帧级多模态融合机制:

    • 是什么:通过“跨模态融合块”和“融合令牌”,在视频的每一帧动态计算并分配视觉、文本、音频三种模态的权重,从而自适应地聚合最相关的信息。
    • 局限与创新:之前的方法或使用固定权重(静态融合),或简单拼接/拼接,或以单一模态为中心进行注意力计算。TripleSumm的设计允许模型根据内容实时、自由地调整对不同模态的依赖,更符合人类理解视频时注意力随场景内容变化的认知过程。
    • 收益:消融实验(表4d)证实,“动态”融合显著优于“静态”和“全局”权重方法。在图3的定性分析中,模型能根据吉他演示、手风琴演奏等不同内容,正确分配对音频、视觉或文本的注意力,即便模态缺失也能稳健预测。
  2. 多尺度时间块:

    • 是什么:采用层次化递增的窗口大小(如从5到N)进行窗口化自注意力,从局部到全局逐步捕捉时序信息。
    • 局限与创新:标准自注意力计算量大,且固定窗口可能无法同时捕捉微细动作和宏观剧情。该设计通过渐进式扩大感受野,兼顾了效率与多粒度时序特征建模的需求。
    • 收益:消融实验(表4b,表VI)表明,“由窄到宽”的策略(Local-to-Global)优于固定窗口或“由宽到窄”的策略,在保持计算效率的同时取得了最佳性能。
  3. 大规模三模态视频摘要数据集MoSu:

    • 是什么:首个大规模提供视觉、文本、音频三模态特征的视频摘要数据集,包含52,678个来自YouTube-8M的视频,标注基于“Most Replayed”统计。
    • 局限与创新:现有数据集(如SumMe, TVSum)规模极小且缺乏模态,或仅有视觉和文本(如MMSum)。MoSu填补了三模态、大规模、多样性基准的空白,为该领域的研究提供了可靠基础。
    • 收益:在MoSu上的实验(表2)清晰地展示了多模态方法的优势,且该数据集的有效性通过迁移学习实验(表3中Ours(MoSu)行)得到了验证。

🔬 细节详述

  • 训练数据:
    • 主要数据集:MoSu(52,678视频,约4000小时),从YouTube-8M筛选,需满足有英文字幕、有音频、观看量>5万、时长>120秒的条件。
    • 其他数据集:在外部基准测试中使用了Mr. HiSum(31,892视频), SumMe(25视频), TVSum(50视频)。对于没有文本/音频的基准,使用Qwen2.5-VL生成帧级文本描述,直接提取原始音频。
    • 预处理:视觉特征:1 fps采样,CLIP编码(768维)。文本特征:提取带时间戳的转录,用RoBERTa编码句子级[CLS]向量并广播至对应时间段,无文本帧用默认向量填充。音频特征:以1秒间隔,取中心10秒音频段,用AST编码(768维)。
  • 损失函数:预测帧分数向量与真实重要性分数向量之间的平方L2损失(公式7):$L(S, \hat{S}) = |S - \hat{S}|_2^2$。
  • 训练策略:
    • 优化器:AdamW。
    • 学习率:初始$1 \times 10^{-4}$,使用余弦调度器。
    • 批大小:64。
    • 训练轮数:100 epochs。
    • 数据划分:MoSu和Mr. HiSum使用官方划分。SumMe和TVSum使用5折交叉验证,论文中评估了传统的TV划分和更严格的TVT划分。
  • 关键超参数:
    • 模型架构:嵌入维度D=128。交错层数L=2,其中每层包含P=2个多尺度时间块和Q=2个跨模态融合块。注意力头数为4。预测头隐藏维度192。
    • 窗口尺寸:采用Local-to-Global策略,4个时间块的窗口尺寸w依次为:5, 15, 45, N(全局)。
    • Dropout:0.1。
  • 训练硬件:所有实验在单块NVIDIA RTX A100 GPU上进行。
  • 推理细节:
    • 重要性评分:模型输出帧级分数$\hat{S}$。
    • 摘要生成:使用核时序分割(KTS)将视频分割为连贯片段,计算每个片段的平均分数。然后在给定时长预算(如原始视频的15%)下,通过0/1背包问题选择总分最高的片段集合,按时间顺序拼接生成最终摘要。
  • 正则化技巧:使用了层归一化(LN)和Dropout。

📊 实验结果

论文在多个基准上进行了广泛的实验,包括新提出的MoSu、大规模的Mr. HiSum以及经典的人工标注数据集SumMe和TVSum。

  1. MoSu数据集上的性能对比(表2)
    方法模态τ ↑ρ ↑mAP50 ↑mAP15 ↑参数量 ↓GFLOPs ↓
    VASNetV0.1510.21964.4931.058.13M1.99G
    PGL-SUMV0.1510.21864.9730.635.31M1.21G
    CSTAV0.2910.39871.7740.6510.56M11.37G
    A2SummV, T0.1810.25766.4835.702.48M1.35G
    UMTV, A0.2390.33468.8336.734.66M1.39G
    CFSumV, T, A0.2770.37470.9738.2019.83M8.52G
    TripleSumm (Ours)V, T, A0.3510.47274.7244.421.37M0.97G

结论:TripleSumm在所有指标上大幅超越现有方法,且参数效率极高(仅1.37M参数)。

  1. 外部数据集性能对比(表3)
    数据集方法TVTTVTVTTV
    τρτρ
    Mr. HiSumOurs (Visual)0.1870.258--
    Ours (Full)0.2580.352--
    SumMeCSTA0.1330.1480.2460.274
    Ours (Full)0.1980.2590.2110.275
    Ours (MoSu)0.2000.2620.2170.282
    TVSumCSTA0.1680.2210.1940.255
    Ours (Full)0.1980.2590.2110.275
    Ours (MoSu)0.2000.2620.2170.282

结论:TripleSumm在Mr. HiSum上达到SOTA。在SumMe和TVSum上,全模型版本在严格的TVT划分下表现最佳,预训练在MoSu上(Ours(MoSu))可进一步提升在传统TV划分下的性能,证明了模型的迁移能力。

  1. 消融实验(表4)

消融实验结果

  • 模态组合(表4a):全三模态组合(V+T+A)性能最优(τ=0.351),证实了三模态的协同效应。音频模态单独使用略优于文本。
  • 窗口策略(表4b):“由窄到宽”的Local-to-Global策略(w: 5,15,45,N)性能最佳,优于固定窗口或其他渐变策略。
  • 模块作用(表4c):同时包含多尺度时间块(MST)和跨模态融合块(CMF)时性能最优。移除任一模块都会导致显著性能下降,其中移除MST影响更大。
  • 融合方法(表4d):“动态”融合(帧级自适应)性能最好(τ=0.351),验证了核心假设。
  1. 定性分析

在吉他演示视频中,模型注意力在开头Logo(视觉)、旁白(文本)和演奏(音频)之间动态切换;在手风琴视频中,即使视觉和文本信息不足,模型也能主要依赖音频进行准确摘要。这直观展示了模型自适应融合的能力。

⚖️ 评分理由

  • 学术质量:6.0/7。论文在技术设计上逻辑清晰,模块化强,实验非常充分,覆盖了新旧多个数据集、多角度消融和定性分析,证据可信。创新性体现在对现有多模态融合范式的系统性改进(自适应帧级融合、多尺度时序建模),而非提出全新的基础概念,因此属于扎实的增量式创新。
  • 选题价值:1.5/2。视频摘要随短视频时代而愈发重要,多模态融合是必然趋势。该工作针对性地解决了模态动态性问题并���供了关键数据集,对推动多模态视频内容理解有积极意义。与音频/语音读者的相关性中等,因其证明了音频在视频理解中的重要性。
  • 开源与复现加成:1.0/1。论文明确提供了代码仓库和MoSu数据集的链接,附录中详细列出了超参数、预处理步骤、评估协议等复现所需的所有关键信息,开源程度和文档完整性优秀。

← 返回 ICLR 2026 论文分析