AV-SyncBench: Decoupled Benchmarking of Temporal and Semantic Audio-Visual Synchronization
📄 AV-SyncBench: Decoupled Benchmarking of Temporal and Semantic Audio-Visual Synchronization #音视频理解 #自监督学习 #对比学习 #音频事件检测 8.5/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 🔥 8.5/10 | 前25% | #音视频理解 | #自监督学习 | #对比学习 #音频事件检测 | arxiv 👥 作者与机构 第一作者:Tianhong Zhou(阿里巴巴集团;清华大学) 通讯作者:Jun Song(阿里巴巴集团) 作者列表:Tianhong Zhou(阿里巴巴集团;清华大学)、Mingyang Han(未说明)、Boyu Li(未说明)、Yuxuan Jiang(未说明)、Jiaxin Ye(未说明)、Dongxiao Wang(未说明)、Haoxiang Shi(未说明)、Kunpeng Wang(未说明)、Jun Song(阿里巴巴集团)、Cheng Yu(未说明)、Bo Zheng(未说明) 💡 毒舌点评 亮点是将音视频评估中被长期混淆的时序对齐与语义一致性进行系统性解耦,并基于野生视频构建了五类变量隔离的挑战任务,直击当前多模态模型训练中的维度偏置。短板是语义编辑完全依赖外部生成模型(DDSP、OpenVoice),但未对编辑产物的“声学纯度”进行定量控制或消融,使“纯语义”假设在物理声学层面站得不够稳;同时,数据集仅3,269个视频,基准规模偏小,且0.64秒切片的选择缺乏理论或实验依据,长期使用的鲁棒性存疑。 ...