APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track
📄 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track #视频对象分割 #多模态模型 #语音识别 #音视频 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Deshui Miao (鹏城实验室) 通讯作者:Xin Li (鹏城实验室) - 论文中作者列表“Xin Li”后标有星号(*),通常表示通讯作者。 其他作者: Yameng Gu (鹏城实验室) Chao Yang (鹏城实验室) Haijun Zhang (哈尔滨工业大学) Ming-Hsuan Yang (加州大学美熹德分校) 💡 毒舌点评 这篇论文的亮点是“把大象装冰箱”的工程思维:把一个看似复杂的音视频分割问题,拆解成“听语音、找东西、画轮廓、精修边”四步走,流程清晰得像一份高级菜谱,让模型各司其职,有效避免了端到端模型在噪声面前的“胡言乱语”。槽点也很明显:作为一篇学术论文,它更像是一份“竞赛冠军秘籍”或“系统集成报告”,创新主要体现在对现有顶尖模型(VibeVoice, Sa2VA, SAM3)的巧妙编排和调度上,而非提出全新的核心算法,学术深度略有欠缺。 📌 核心摘要 这篇论文报告了APRVOS系统,一个专为MEVIS_Audio(音频条件下的指代视频对象分割)任务设计的冠军方案。要解决的问题是传统文本指代分割模型无法直接处理包含噪声、不完整且可能描述视频中不存在物体的语音输入。采用的方法是一个四阶段流水线:首先使用VibeVoice-ASR将语音转为文本;然后用一个基于Qwen3-VL的视觉判断模块(Omni Judger)验证转写文本描述的目标是否在视频中存在,若不存在则直接输出空掩码;若存在,则将文本转化为提示词,输入Sa2VA模型生成粗略的分割轨迹;最后,引入一个“代理验证”层来评估粗分割结果的可靠性,并调用SAM3模型对可信锚点帧进行边界精修和时序传播。取得的效果在第五届PVUW MeViS-Audio赛道上排名第一,J&F分数达到0.6700,消融实验证明每个阶段(尤其是存在性判断和代理精修)都带来了显著的性能提升。局限性在于该报告侧重于系统描述,对各组件内部(如ASR、视觉判断模块)的训练细节和超参数披露有限,且整体性能高度依赖于几个大型预训练模型的组合。 🏗️ 模型架构 模型整体是一个串联式多阶段处理流水线,其完整输入输出流程如下: 输入:视频 V = {I_t} 和音频指代表达 A。 Stage -1: 语音转文本 (VibeVoice-ASR):输入音频 A,输出转写文本 q_asr。此阶段专注于长语音识别,提取语义内容。 Stage 2: 视觉存在性判断 (Omni Judger):输入视频采样帧和转写文本 q_asr,输出二元判断 e ∈ {0,1}。若 e=0,流程终止,输出全零掩码序列;若 e=1,流程继续。 Stage 3: 提示构建:将 q_asr 填入固定模板(如“\nPlease segment {exp}.”),生成适用于Sa2VA的分割提示。 Stage 4: 粗语义分割 (Sa2VA):输入视频 V 和构建好的提示,通过Sa2VA的 predict_forward 方法,输出粗掩码轨迹 ℳ~ = {m~_t}。 Stage 5: 代理验证 (Agentic Verification):这是一个推理决策层,而非传统神经网络。它分析粗掩码轨迹 ℳ~ 的可靠性,包括:检查非空掩码帧、掩码面积时序平滑度、语义与描述的一致性、是否存在干扰物等。其核心功能是识别出最可信的“锚点帧”。 Stage 6: 锚点精修 (Refinement from Trusted Anchors):对于代理层选定的锚点帧 a,从其粗掩码 m~_a 中提取几何提示(边界框 b_a、中心点 p_a)。以这些提示为输入,调用SAM3模型,在时序上向前和向后传播,生成最终的高精度、时序一致的分割掩码序列 ℳ。 输出:最终的二值掩码序列 ℳ。 关键设计选择理由: ...