ICASSP 2026 - 视频高光检测 论文列表
ICASSP 2026 - 视频高光检测 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-V 8.5分 前10% 📋 论文详情 🥇 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection 🔥 8.5/10 | 前10% | #视频高光检测 | #多模态融合 | #音视频 #自适应模型 👥 作者与机构 第一作者:Seohyun Joo(GIST电气工程与计算机科学学院) 通讯作者:论文中未明确说明通讯作者。 作者列表:Seohyun Joo(GIST电气工程与计算机科学学院)、Yoori Oh(首尔国立大学音乐与音频研究组) 💡 毒舌点评 亮点在于其“双通路”音频编码器的设计非常精巧,通过一个动态通路显式捕获频谱动态(如突变声音事件),并与语义通路进行门控式融合,有效解决了以往音频特征利用不足的痛点,在大规模数据集上效果显著。短板是其在较小规模、类别更多样的TVSum数据集上优势不明显,可能暗示模型的泛化能力或对不同视频风格的适应性仍有提升空间。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及。 数据集:使用了Mr.HiSum和TVSum公开数据集,但未在文中提供获取方式链接(假设读者已知)。 Demo:提供了在线演示链接:https://seohyj.github.io/soundhd.github.io/。 复现材料:提供了详细的训练细节(优化器、学习率、批量大小、训练轮数、权重衰减、梯度裁剪)、关键超参数(K值、特征维度、频谱图参数)和模型架构描述,便于复现。 论文中引用的开源项目:引用了多个预训练模型作为基线或组件,包括PANNs (用于音频语义编码器)、ResNet-34、Inception-v3 (用于视觉编码器),以及作为基线比较的PGL-SUM, Joint-VA, UMT, CSTA等。 总结:论文中未提及开源计划,但提供了Demo和详细的复现参数。 📌 核心摘要 ...