ICASSP 2026 - 视频高光检测

共 1 篇论文

← 返回 ICASSP 2026 总览

排名	论文	评分	分档
🥇	Sounding Highlights: Dual-Pathway Audio Encoders for Audio-V	8.5分	前10%

📋 论文详情

🥇 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection

🔥 8.5/10 | 前10% | #视频高光检测 | #多模态融合 | #音视频 #自适应模型

👥 作者与机构

第一作者：Seohyun Joo（GIST电气工程与计算机科学学院）
通讯作者：论文中未明确说明通讯作者。
作者列表：Seohyun Joo（GIST电气工程与计算机科学学院）、Yoori Oh（首尔国立大学音乐与音频研究组）

💡 毒舌点评

亮点在于其“双通路”音频编码器的设计非常精巧，通过一个动态通路显式捕获频谱动态（如突变声音事件），并与语义通路进行门控式融合，有效解决了以往音频特征利用不足的痛点，在大规模数据集上效果显著。短板是其在较小规模、类别更多样的TVSum数据集上优势不明显，可能暗示模型的泛化能力或对不同视频风格的适应性仍有提升空间。

🔗 开源详情

代码：论文中未提及代码仓库链接。
模型权重：未提及。
数据集：使用了Mr.HiSum和TVSum公开数据集，但未在文中提供获取方式链接（假设读者已知）。
Demo：提供了在线演示链接：https://seohyj.github.io/soundhd.github.io/。
复现材料：提供了详细的训练细节（优化器、学习率、批量大小、训练轮数、权重衰减、梯度裁剪）、关键超参数（K值、特征维度、频谱图参数）和模型架构描述，便于复现。
论文中引用的开源项目：引用了多个预训练模型作为基线或组件，包括PANNs (用于音频语义编码器)、ResNet-34、Inception-v3 (用于视觉编码器)，以及作为基线比较的PGL-SUM, Joint-VA, UMT, CSTA等。
总结：论文中未提及开源计划，但提供了Demo和详细的复现参数。

📌 核心摘要

要解决什么问题：现有音视频视频高光检测模型对音频模态的利用过于简单，通常只提取高层语义特征，忽略了声音丰富的、动态的声学特性（如瞬态事件、能量突变），而这些特性对于识别视频中的亮点时刻至关重要。
方法核心是什么：提出名为DAViHD的框架，其核心是双通路音频编码器。它包含两个并行路径：1）语义通路（基于PANNs）处理原始波形，提取“听到了什么”的高层语义信息；2）动态通路（基于频率自适应卷积）处理对数梅尔频谱图，捕获“声音如何变化”的低层、时变动态特性。两条通路的输出经过自注意力后，通过元素级乘法进行融合（动态特征作为门控调制语义特征）。最终融合后的音频表征与视觉表征进行双向跨模态注意力融合，预测高光分数。
与已有方法相比新在哪里：主要创新在于显式地、并行地建模音频的语义内容与谱时动态，并通过精心设计的“早期自注意力+乘法融合”策略将两者结合。这与以往将音频视为单一流或仅使用通用预训练特征（如PANNs）的方法有本质区别。
主要实验结果如何：在大规模Mr.HiSum数据集上取得全面SOTA，例如在F1、mAP_50、ρ、τ等指标上均显著超越最强基线UMT。在TVSum数据集上部分指标也达到最优。消融实验证明，仅使用双通路音频（V+A_s+A_d）的性能已接近甚至超过一些传统音视频模型（V+A_s），凸显了精细音频表征的关键作用。
模型 Mr.HiSum F1 ↑ Mr.HiSum ρ ↑ TVSum F1 ↑ TVSum ρ ↑
UMT (强基线) 58.18±0.29 0.239±0.006 57.54±0.87 0.175±0.022
DAViHD (本文) 59.73±0.41 0.299±0.012 57.67±1.27 0.200±0.032
实际意义是什么：证明了在音视频理解任务中，对音频信号进行更物理、更精细的建模（如考虑其动态变化）能带来巨大性能提升。为视频摘要、检索等应用提供了更准确的技术基础。
主要局限性是什么：1）模型复杂度有所增加（双通路）；2）在数据量较小、视频类别多样的TVSum上提升幅度相对有限，表明其优势在大规模、风格可能更统一的互联网视频数据上更为突出；3）论文未讨论模型的计算开销与推理速度。

模型	Mr.HiSum F1 ↑	Mr.HiSum ρ ↑	TVSum F1 ↑	TVSum ρ ↑
UMT (强基线)	58.18±0.29	0.239±0.006	57.54±0.87	0.175±0.022
DAViHD (本文)	59.73±0.41	0.299±0.012	57.67±1.27	0.200±0.032

ICASSP 2026 - 视频高光检测#

📋 论文详情#

🥇 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection#

📎 相关论文

ICASSP 2026 - 视频高光检测

📋 论文详情

🥇 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection