📄 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization
#视频摘要 #多模态模型 #自适应融合 #基准测试 #数据集
🔥 8.0/10 | 前25% | #视频摘要 | #多模态模型 | #自适应融合 #基准测试
学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Sumin Kim(首尔国立大学)[论文中注明与Hyemin Jeong, Mingu Kang并列第一作者]
- 通讯作者:Yoori Oh, Joonseok Lee(首尔国立大学)
- 作者列表:Sumin Kim(首尔国立大学)、Hyemin Jeong(首尔国立大学)、Mingu Kang(首尔国立大学)、Yejin Kim(首尔国立大学)、Yoori Oh(首尔国立大学)、Joonseok Lee(首尔国立大学)
💡 毒舌点评
亮点在于直击了现有视频摘要模型“静态融合”或“忽视音频/文本”的痛点,并用一个设计巧妙的“融合令牌”自适应地解决了这个问题,效果立竿见影,同时构建了首个大规模三模态数据集,功在千秋。短板是其核心框架(时间窗口注意力+跨模态注意力)并未跳出Transformer的范畴,创新更多是组合与适配,且“先打分再选段”的两阶段范式本身限制了端到端优化的可能,论文也在结论中坦承了这一局限。
🔗 开源详情
- 代码:论文明确提供了代码仓库链接:
https://github.com/smkim37/TripleSumm。 - 模型权重:未在论文正文中明确提及是否公开预训练模型权重。
- 数据集:论文明确介绍了新数据集MoSu,并提供了数据获取信息(基于YouTube-8M,遵循特定筛选标准),论文中未明确给出直接下载链接,但提供了获取方法。
- Demo:论文中未提及在线演示。
- 复现材料:论文提供了详细的超参数表(表I)、训练硬件、数据预处理流程(附录B.4)、评估协议(附录B.5)以及完整的消融研究,复现信息非常充分。
- 引用的开源项目:依赖的主要预训练模型和库包括:CLIP (视觉编码器), RoBERTa (文本编码器), Audio Spectrogram Transformer (AST, 音频编码器), Qwen2.5-VL-7B-Instruct (用于外部数据集生成文本描述), SwiGLU (FFN层), KTS (视频分割)。
📌 核心摘要
本文针对视频摘要任务中现有方法无法动态、自适应地融合视觉、文本和音频模态信息的问题,提出了TripleSumm模型。该模型通过多尺度时间块(MST)在每一模态内部进行时序建模,并通过跨模态融合块(CMF)利用一个“融合令牌”作为中立查询,在每一帧动态选择和加权最相关的模态信息。与以往方法相比,其核心创新在于实现了帧级别的、自适应的模态重要性评估。为解决多模态训练数据稀缺的问题,论文还引入了首个大规模三模态视频摘要数据集MoSu,包含52,678个视频及其观看回放统计作为ground-truth。主要实验结果显示,TripleSumm在MoSu、Mr. HiSum、SumMe和TVSum四个基准上均显著超越了现有方法,例如在MoSu上,其Kendall‘s τ(0.351)和Spearman‘s ρ(0.472)大幅领先于此前最优的CFSum(0.277, 0.374)。该工作的实际意义在于提供了一个高效且可扩展的多模态视频摘要解决方案,并为未来研究奠定了可靠的大规模数据基础。主要局限性在于其摘要生成仍遵循“帧评分-片段选择”的传统两阶段流程,而非直接生成摘要片段,且模型架构的创新性主要体现在模块组合而非底层机制。
🏗️ 模型架构
模型整体架构遵循“编码-精炼-融合-预测”的流程,如图2所示。

输入表示:原始视频的视觉、文本、音频流被预处理为等长的时间序列,并分别通过预训练的编码器(CLIP, RoBERTa, AST)提取特征,再通过线性投影和层归一化映射到统一维度D。同时,计算一个“融合令牌”Ef,作为三模态特征的锚点(论文实验中发现简单平均聚合效果最佳)。最终,为每个令牌添加时间位置编码和可学习的模态嵌入。
多尺度时间块 (MST):该模块负责在单一模态内进行时序精炼。它采用窗口化自注意力,并设置不同层使用不同的窗口大小w(从局部到全局渐进增大)。这使得模型在浅层捕捉帧间细微变化(小窗口),在深层理解整体叙事脉络(大窗口)。此设计在保持线性复杂度O(w·N)的同时,实现了多尺度时序建模。MST块在所有模态间共享参数,以提高参数效率。
跨模态融合块 (CMF):该模块负责在单一时间点进行跨模态信息交互。它以MST输出的融合令牌作为查询(Q),同一时间步的各模态令牌作为键(K)和值(V),进行交叉注意力计算。这使得融合令牌能动态地、无偏地选择当前时刻最相关的模态信息进行聚合。CMF的输出是融合了三模态上下文的最终表征。
预测与推理:精炼后的融合表征通过一个预测头(含线性层、GeLU、线性层、Sigmoid)输出每个帧的重要性分数。最终摘要通过KTS算法分割视频,并用0/1背包问题选择总分最高的片段组合生成。
💡 核心创新点
- 自适应帧级多模态融合机制:之前方法要么采用静态融合(如平均),要么使用固定模态作为查询(如以视觉查询文本/音频),导致融合方式僵化。TripleSumm引入中立的“融合令牌”作为查询,使模型能在每个时间步动态学习视觉、文本、音频的相对重要性,实现了更灵活、内容驱动的融合。
- 多尺度时序建模与高效注意力:MST块采用渐进扩大的窗口化自注意力,既避免了全局注意力的高计算成本,又比固定小窗口能捕获更长范围的依赖。这种设计在效率和建模能力之间取得了良好平衡。
- 首个大规模三模态视频摘要基准(MoSu):MoSu数据集(52k视频,4k小时)填补了多模态视频摘要领域缺乏大规模、多样化、带可靠ground-truth数据集的空白,为模型训练和评估提供了坚实基础。
- 参数效率与性能兼顾:TripleSumm模型仅有1.37M参数,显著小于多个基线(如SSPVS的112.81M),但在所有评测基准上都达到了最优性能,展现了高效的架构设计。
🔬 细节详述
- 训练数据:主要使用自建的MoSu数据集(52,678视频),来源于YouTube-8M,筛选条件为有英文字幕、有音轨、观看量>5万、时长>120秒。地面真值采用YouTube的“Most Replayed”观看回放统计,并对其前5秒的偏差进行了清零处理。外部基准(Mr. HiSum, SumMe, TVSum)采用其官方提供的视觉特征,文本特征由Qwen2.5-VL-7B生成,音频特征由原始音频提取。文本和音频的预处理细节见附录B.4。
- 损失函数:使用预测分数与ground-truth分数之间的平方L2损失:
L = ||S - Ŝ||₂²。 - 训练策略:使用AdamW优化器,初始学习率1e-4,采用余弦退火调度器。训练100个epoch,批大小64。所有实验在单张NVIDIA RTX A100上进行。
- 关键超参数:模型嵌入维度D=128,包含2个交织层,每层有2个MST块和2个CMF块(共4个MST块)。注意力头数为4。窗口大小w从5开始,按层渐进增大到15,45,最终为N(序列长度)。预测头隐藏维度192。
- 训练硬件:单张NVIDIA RTX A100 GPU。
- 推理细节:推理时直接前向传播得到帧重要性分数,然后通过KTS分割和0/1背包选择生成最终摘要片段。
- 正则化:未提及显式正则化技巧,但Dropout率设为0.1。
📊 实验结果
论文在四个主要基准上进行了全面的对比和消融实验。
- 主要性能对比(表2和表3):
- MoSu数据集(表2)
| 方法 | 模态 (V/T/A) | τ ↑ | ρ ↑ | mAP50 ↑ | mAP15 ↑ | Params ↓ | GFLOPs ↓ |
|---|---|---|---|---|---|---|---|
| CFSum | ✓/✓/✓ | 0.277 | 0.374 | 70.97 | 38.20 | 19.83M | 8.52G |
| TripleSumm (Ours) | ✓/✓/✓ | 0.351 | 0.472 | 74.72 | 44.42 | 1.37M | 0.97G |
TripleSumm在所有指标上大幅超越此前最优的CFSum,且参数量和计算量仅为后者的约1/14和1/9。
- 其他数据集(表3)
| 数据集 | 方法 | τ | ρ |
|---|---|---|---|
| Mr. HiSum | UMT | 0.178 | 0.253 |
| Ours (Full) | 0.258 | 0.352 | |
| SumMe | CSTA | 0.246 | 0.274 |
| Ours (MoSu) | 0.282 | 0.314 | |
| TVSum | CSTA | 0.194 | 0.255 |
| Ours (MoSu) | 0.217 | 0.282 |
在Mr. HiSum上,即使只使用视觉特征,Ours (Visual)也优于大部分多模态方法;完整模型性能进一步大幅提升。在SumMe和TVSum上,预训练于MoSu的模型(Ours(MoSu))取得了最佳性能。
- 长视频零样本性能(表5):
| 方法 | τ | ρ | mAP50 | mAP15 |
|---|---|---|---|---|
| CSTA | 0.083 | 0.123 | 58.09 | 22.26 |
| UMT | 0.066 | 0.097 | 56.05 | 23.10 |
| TripleSumm | 0.128 | 0.189 | 59.70 | 23.27 |
在平均长度70.4分钟的长视频测试集上,TripleSumm同样取得了最优的秩相关指标。
- 消融实验(表4):
- 输入模态消融:三模态组合(V+T+A)性能最佳(τ=0.351, ρ=0.472),证明了所有模态的协同价值。
- 窗口大小消融:“Local-to-Global”渐进策略([5,15,45,N])性能最优,优于固定窗口和“Global-to-Local”策略。
- MST与CMF模块消融:同时使用两者时性能最高(0.351, 0.472)。移除MST比移除CMF导致更严重的性能下降,说明时序建模是基础。
- 融合方式消融:“Dynamic”(帧级自适应)融合(0.351, 0.472)显著优于“Global”(模态级自适应)和“Static”(平均)融合,验证了帧级动态权重的重要性。
图3展示了模型在两个视频上动态分配模态注意力的权重。在吉他演示视频中,模型根据内容在文本、视觉和音频注意力之间切换;在手风琴演奏视频中,当文本和视觉信息较少时,模型主要依赖音频。
⚖️ 评分理由
- 学术质量:6.5/7。论文解决了一个明确的现有技术瓶颈(静态/不充分的多模态融合),提出了逻辑自洽且设计合理的解决方案(TripleSumm)。引入大规模新数据集(MoSu)是重要贡献。实验设计全面,在多个基准上取得了令人信服的性能提升,消融研究充分验证了各组件作用。主要不足在于架构创新仍在Transformer范式内,且“两阶段”生成流程限制了潜力。
- 选题价值:1.0/2。视频摘要是计算机视觉领域的经典任务,多模态融合是当前的研究热点,论文选题具有前沿性。但该任务本身在工业界和学术界的关注度、市场规模相比生成模型等要小,因此对广泛的“音频/语音读者”的直接应用价值有限。
- 开源与复现加成:0.5/1。论文明确承诺开源代码和新数据集,并提供了详细的实验设置和超参数,复现门槛较低。这是显著的加分项。