APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track
📄 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track #视频对象分割 #多模态模型 #语音识别 #音视频 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Deshui Miao (鹏城实验室) 通讯作者:Xin Li (鹏城实验室) - 论文中作者列表“Xin Li”后标有星号(*),通常表示通讯作者。 其他作者: Yameng Gu (鹏城实验室) Chao Yang (鹏城实验室) Haijun Zhang (哈尔滨工业大学) Ming-Hsuan Yang (加州大学美熹德分校) 💡 毒舌点评 这篇论文的亮点是“把大象装冰箱”的工程思维:把一个看似复杂的音视频分割问题,拆解成“听语音、找东西、画轮廓、精修边”四步走,流程清晰得像一份高级菜谱,让模型各司其职,有效避免了端到端模型在噪声面前的“胡言乱语”。槽点也很明显:作为一篇学术论文,它更像是一份“竞赛冠军秘籍”或“系统集成报告”,创新主要体现在对现有顶尖模型(VibeVoice, Sa2VA, SAM3)的巧妙编排和调度上,而非提出全新的核心算法,学术深度略有欠缺。 🔗 开源详情 代码:论文中提到“Submit in GitHub”,暗示代码可能在GitHub上提交或开源,但未提供具体的仓库地址。因此,无法确认是否已开源。 模型权重:APRVOS本身不包含新训练的模型权重。它依赖于以下开源或已发表的预训练模型: VibeVoice-ASR:论文引用为[18],技术报告为arXiv:2601.18184。 Qwen3-VL:论文引用为[1],技术报告为arXiv:2502.13923。 Sa2VA:论文引用为[25],技术报告为arXiv:2501.04001。 SAM3:论文引用为[4],技术报告为arXiv:2511.16719。 数据集:方法在MEVIS_Audio数据集上进行评估和竞赛。 在线 Demo:未提及。 论文中引用的开源项目:如上所列,VibeVoice-ASR, Qwen3-VL, Sa2VA, SAM3。 📌 核心摘要 这篇论文报告了APRVOS系统,一个专为MEVIS_Audio(音频条件下的指代视频对象分割)任务设计的冠军方案。要解决的问题是传统文本指代分割模型无法直接处理包含噪声、不完整且可能描述视频中不存在物体的语音输入。采用的方法是一个四阶段流水线:首先使用VibeVoice-ASR将语音转为文本;然后用一个基于Qwen3-VL的视觉判断模块(Omni Judger)验证转写文本描述的目标是否在视频中存在,若不存在则直接输出空掩码;若存在,则将文本转化为提示词,输入Sa2VA模型生成粗略的分割轨迹;最后,引入一个“代理验证”层来评估粗分割结果的可靠性,并调用SAM3模型对可信锚点帧进行边界精修和时序传播。取得的效果在第五届PVUW MeViS-Audio赛道上排名第一,J&F分数达到0.6700,消融实验证明每个阶段(尤其是存在性判断和代理精修)都带来了显著的性能提升。局限性在于该报告侧重于系统描述,对各组件内部(如ASR、视觉判断模块)的训练细节和超参数披露有限,且整体性能高度依赖于几个大型预训练模型的组合。 🏗️ 模型架构 模型整体是一个串联式多阶段处理流水线,其完整输入输出流程如下: ...