📄 video-SALMONN-R\(^3\): Learning to ReWatch, ReAsk, and ReAnswer for Efficient Video Understanding
#多模态模型 #强化学习 #参数高效微调
8.2/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5
🔥 8.2/10 | 前10% | #多模态模型 | #强化学习 | #参数高效微调 | arxiv
👥 作者与机构
一作:Yixuan Li (清华大学 liyixuan25@mails.tsinghua.edu.cn);通讯作者:Chao Zhang (清华大学 czhang1@tsinghua.edu.cn);其他作者:Guangzhi Sun (剑桥大学), Yudong Yang (清华大学), Wei Li (字节跳动), Zejun Ma (字节跳动)。机构包括清华大学、字节跳动和剑桥大学。
💡 毒舌点评
这篇论文抓住了“视频LLM推理时算力分配不均”这个痛点,提出了一个“先粗后精”的重看范式,核心卖点是跳过了昂贵且可能有害的“链式思维”冷启动,直接通过强化学习(RL)从指令微调基座模型上训练重看策略,这确实是个讨巧且有效的工程思路。重答和重问两个机制设计简单但作用关键,实验也充分证明了其有效性。不过,论文的“首提”声称需要谨慎看待,相关工作已很丰富。整体看是一篇扎实、工程优化到位的工作,但理论新颖性有提升空间,且其成功严重依赖高质量的基座模型和精心设计的奖励函数。
📌 核心摘要
video-SALMONN-R3 是首个通过强化学习(RL)在指令微调视频LLM上赋予“重看”能力的端到端模型,完全摒弃了传统方法依赖链式思维(CoT)数据进行监督微调(SFT)冷启动的范式。为解决重看行为(先推理定位)与预训练模型“先回答”倾向之间的矛盾,论文提出了“重答”策略,即模型先输出基于先验的初始答案,再在重看后修正。同时,为解决因果注意力下重看阶段的问题,提出“重问”机制,在第二遍观看时重新注入问题。该模型在六个视频理解基准上,以显著更低的计算成本超越了现有音频视频LLM和基于定位的方法。其RL训练采用DAPO算法,并设计了多组件规则奖励。工程实现上,通过LoRA缩放因子调整、vLLM加速、Liger-Kernel算子融合、双向CPU卸载等手段确保训练高效。
🔗 开源详情
- 代码:论文承诺将开源,但当前未提供任何代码仓库链接(如GitHub)。论文多处(如摘要、1节、结论)声明“Code, models, and data will be publicly released upon acceptance”。
- 模型权重:论文承诺将开源模型权重,但当前未提供下载链接(如HuggingFace, ModelScope)。
- 数据集:
- 训练数据集:
- 音频对齐:LibriSpeech 960小时、CommonVoice、WavCaps、AudioCaps。论文提及这些为公开数据集,但未提供统一获取链接。
- 视频描述SFT:LLaVA-Video-178k,并使用Gemini 2.5 Pro重新标注。论文未提供重新标注后数据集的链接。
- RL阶段:CinePile和CG-Bench。论文提及这些为公开数据集,但未提供统一获取链接。
- 评估数据集:VideoHolmes, DailyOmni, AVUT, OmniVideoBench, VideoMME, LVOmniBench。论文未提供这些数据集的统一下载链接。
- 训练数据集:
- Demo:论文未提及在线演示链接。
- 复现材料:论文附录(Appendix A)提供了大量关键复现细节:1)完整的系统提示文本;2)LoRA在SFT和RL阶段的不同缩放因子设置(
α_SFT=256,α_RL=32);3)工程优化细节(vLLM, Liger-Kernel, DeepSpeed ZeRO-1, colocate模式与双向卸载,per-GPU rollout累积);4)计算资源(32/96张A800 GPU,训练时间约10/72小时)。这些信息对复现至关重要,但未提供训练脚本、配置文件或中间检查点。 - 引用的开源项目:论文引用了多个开源项目作为基础,但未在论文中提供这些项目的具体链接,以下链接为根据引用标注推断的标准地址:
- Qwen3-VL:
https://huggingface.co/Qwen/Qwen3-VL-8B(基础VLM) - Whisper-Large-v3:
https://huggingface.co/openai/whisper-large-v3(音频编码器) - LoRA:
https://github.com/microsoft/LoRA - DAPO:
https://arxiv.org/abs/2503.14476 - vLLM:
https://github.com/vllm-project/vllm - Liger-Kernel:
https://github.com/linkedin/Liger-Kernel - DeepSpeed:
https://github.com/microsoft/DeepSpeed - LLaVA-Video-178k:
https://huggingface.co/datasets/lmms-lab/LLaVA-Video-178K
- Qwen3-VL:
🏗️ 方法概述和架构
本文方法由两阶段推理工作流和三阶段训练流程构成。
- 推理工作流(核心架构)
- 输入:视频
V(交织的视觉令牌V_video和音频令牌V_audio)和问题Q。 - 第一遍(观看):
- 以低帧率(10 FPS, 最多768帧)和低分辨率(每帧最多44,100像素)处理整个视频,得到粗粒度表示
V^(1)。 - LLM结合
V^(1)和Q生成结构化输出O^(1) = (A^(1), R^(1), T)。其中,A^(1)是初始答案,R^(1)是简短推理轨迹,T = [t_start, t_end]是预测的相关时间片段。关键在于,A^(1)的生成完全遵循预训练指令微调模型的先验分布。
- 以低帧率(10 FPS, 最多768帧)和低分辨率(每帧最多44,100像素)处理整个视频,得到粗粒度表示
- 第二遍(重看与重答):
- 基于时间片段
T,以更高帧率(10 FPS, 但片段限制为128帧)和更高分辨率(每帧最多176,400像素)采样该片段,得到细粒度表示V^(2)。 - 为整合全局上下文,保留第一遍的输入
V^(1)和交互痕迹(Q, O^(1))。 - 重问机制:在
V^(2)之后重新注入问题Q',使得新观察到的视觉帧能在因果注意力下直接与问题交互,解决了仅靠原始问题Q在第一遍生成时无法有效关注后续帧的问题。 - 最终答案(重答)生成为:
O^(2) = A^(2) = LLM(V^(1), Q, O^(1), V^(2), Q')。A^(2)可以保留或修正A^(1)。
- 基于时间片段
- 三阶段训练流程
- 阶段一:音频对齐:在冻结的音频编码器(Whisper-Large-v3)和视觉LLM骨干之间,训练一个音频投影器(窗口级Q-Former),将声学特征映射到LLM表示空间。仅投影器参数更新。数据集:LibriSpeech 960h, CommonVoice (ASR), WavCaps, AudioCaps (音频描述)。
- 阶段二:视频描述SFT:在指令微调的视频LLM基座上,使用LoRA(缩放因子
α_SFT=256)联合优化LoRA适配器和模态投影器,音频/视觉编码器冻结。数据:LLaVA-Video-178k数据集,并使用Gemini 2.5 Pro重新标注以包含统一的音频-视觉叙事。此阶段产生一个强大的指令微调基座模型。 - 阶段三:端到端强化学习:
- 目标:在无CoT冷启动的情况下,通过RL注入重看能力。
- 策略:使用动态采样策略优化(DAPO)的全在策略变体。定义一个轻量级系统提示(见附录A.1),指定交互协议和输出格式(
<thinking>/<tool_call>>),模型在规则奖励下探索完整轨迹。 - 奖励设计:轨迹奖励
R(o_i)是五个二值{0, 1}组件的加权和:r_acc1,r_acc2: 初始答案A^(1)和最终答案A^(2)的准确性奖励。r_fmt1: 第一遍是否遵循“答案-思考-定位”格式且工具调用可解析。r_fmt2: 第二遍是否不含元令牌(<thinking>,<tool_call>),确保干净最终答案。r_rev: 修正奖励,仅当A^(1)错误且A^(2)简单重复时为0,否则为1,鼓励修正错误预测。- 权重系数:
λ_acc1=0.9,λ_acc2=1.1,λ_fmt1=1,λ_fmt2=1,λ_rev=0.5。
- 优化:采用组归一化优势函数(公式5),通过token级别损失(公式6)更新策略
π_θ。 - 关键实现细节:
- LoRA Dropping:RL阶段将LoRA缩放因子从
α_SFT=256降至α_RL=32,软化SFT后的策略,增加探索熵,稳定训练。 - 训练效率:对整个轨迹(包含两遍输出)进行单次前向-反向传播计算损失,仅对模型生成的token(
O^(1)和A^(2))计算梯度,其他token被掩码。 - 工程优化:使用vLLM进行高效rollout生成;使用Liger-Kernel融合算子(交叉熵、RMSNorm等)加速前向-反向;采用colocate模式与双向CPU卸载,让同一GPU在生成和训练阶段分别卸载对方模块;通过每GPU累积rollout缓解视频解码瓶颈。
- LoRA Dropping:RL阶段将LoRA缩放因子从


💡 核心创新点
- 冷启动强化学习实现重看:提出首个无需CoT冷启动SFT的端到端RL框架,直接从指令微调基座模型训练重看能力,避免了构建昂贵且可能引入偏差的CoT数据。
- 重答策略:通过强制模型先输出基于预训练先验的初始答案
A^(1),再在重看后修正,将新获得的定位能力“锚定”在已有的良好对齐先验上,防止性能退化。 - 重问机制:在第二遍观看时重新注入问题
Q',解决了因果注意力下重看阶段问题信息无法与新帧直接交互的限制,以极低开销提升问答一致性。 - 高效的工程实现:设计了一整套确保RL训练稳定高效的工程方案,包括LoRA缩放因子调整、专用rollout引擎、融合算子、内存优化调度(colocate与双向卸载)以及分布式数据并行下的rollout累积策略。
📊 实验结果
基准与设置:在短中视频(VideoHolmes, DailyOmni, AVUT, OmniVideoBench)和长视频(VideoMME, LVOmniBench)共六个基准上评估。
总体性能(表1):
模型 VideoHolmes DailyOmni AVUT OmniVideoBench VideoMME LVOmniBench Qwen 2.5-Omni 43.7 62.7 66.3 29.3 64.3 32.0 video-SALMONN 2+ 46.9 71.8 69.5 36.4 73.4 32.7 Qwen 3-Omni 54.1 69.8 72.0 38.4 70.5 35.8 D-ORCA 48.5 78.5 76.1 - 72.9 - Qwen 3-VL 46.6 60.1 61.4 - 71.4 35.6 AV-Caption-Base 49.8 76.7 76.7 40.0 72.5 39.3 QA-SFT 53.4 77.9 74.1 40.8 72.9 40.6 video-SALMONN-R3 54.6 78.7 77.5 43.9 76.3 42.9 video-SALMONN-R3在所有基准上超越了具有可比规模的先前最优音频视频LLM。在长视频基准上优势尤其明显(VideoMME: +3.4, LVOmniBench: +7.1,相对最强基线)。 与定位方法比较(表2, Video-MME):
模型类型 模型 Short Medium Long Avg 多智能体定位 VideoLucy 78.6 72.1 66.8 72.5 GCAgent 72.6 69.8 73.4 71.9 单模型定位 VideoChat-R1.5 - - - 67.1 LOVE-R1 75.3 65.6 57.7 66.2 LongVT - - - 67.0 VideoZoomer - - 55.8 65.2 video-SALMONN-R3 83.2 78.6 67.2 76.3 video-SALMONN-R3取得最佳整体性能(76.3),平衡了短中视频与长视频的表现。多智能体方法在长视频上强,但依赖文本摘要;单模型方法受限于CoT冷启动带来的性能损失。 消融实验
- 重看验证(表3):对比QA-SFT(单遍)、仅重答(无新视频输入)、均匀重看(相同token预算但均匀采样)和完整模型。证明性能增益源于针对性的重看,而非仅重复回答或增加视觉输入。
变体 VideoHolmes DailyOmni VideoMME LVOmniBench QA-SFT 53.4 77.9 72.9 40.6 Re-Answer only 53.1 77.3 74.4 39.7 Uniform Re-Watch 52.6 78.4 73.9 41.0 video-SALMONN-R3 (full) 54.6 78.7 76.3 42.9 - 重问与修正奖励(表4):分析有/无重问
Q'和修正奖励r_rev的设置下A^(1)和A^(2)的准确率及注意力质量。发现单独的重问不足,需要与修正奖励协同,才能使注意力从初始答案转移至重问问题和重看帧,从而有效修正答案。设置 答案 VideoHolmes DailyOmni VideoMME LVOmniBench a_Q a_A(1) a_Q' w/o Q’, w/ r_rev A(1) 52.6 77.3 71.9 38.5 0.09 0.06 - A(2) 52.7 77.3 71.9 38.5 w/ Q’, w/o r_rev A(1) 53.0 78.0 73.6 42.6 0.10 0.08 0.04 A(2) 53.0 77.9 73.6 42.6 w/ Q’, w/ r_rev A(1) 53.1 76.3 73.6 40.8 0.03 0.02 0.24 A(2) 54.6 78.7 76.3 42.9 - 训练策略消融(表5):对比
A^(2)only(无重答)、基于定位的SFT(有/无CoT推理)和完整模型。表明无重答锚定或采用传统CoT冷启动SFT均无法带来显著提升,甚至因引入偏差而大幅下降,凸显了本文冷启动RL与重答策略的有效性。变体 VideoHolmes DailyOmni VideoMME LVOmniBench QA-SFT 53.4 77.9 72.9 40.6 A(2) only 53.9 77.4 73.1 39.6 Localization SFT, w/o reasoning 53.2 77.3 72.9 40.4 Localization SFT, w/ reasoning 40.3 70.1 64.2 31.7 video-SALMONN-R3(full) 54.6 78.7 76.3 42.9

⚖️ 评分理由
- 创新性 (1.4/2):提出了冷启动RL训练重看范式,避免了CoT数据依赖,这是一个有价值的思路转变。重答和重问机制设计简洁有效,解决了实际问题。但核心思想(两阶段推理)并非首创,创新更多体现在训练范式的整合与优化上。
- 技术严谨性 (1.3/1.5):方法描述清晰,奖励设计与RL目标匹配,消融实验设计合理,能有效隔离各组件贡献。对注意力机制的分析增强了论证力度。但奖励函数权重(λ)的选择依据未充分讨论,且最终性能对奖励设计较为敏感。
- 实验充分性 (1.4/1.5):评估了六个涵盖不同规模和任务类型的视频理解基准,与多个相关基线(包括同类方法)进行了充分比较。消融实验系统地验证了重看、重问、重答以及训练范式的有效性。实验数据详实,结论有说服力。
- 清晰度 (1.1/1.5):论文结构完整,写作总体清晰,图表辅助理解。但方法部分(如3.1节公式)与附录(如A.1-A.4)的细节衔接可更流畅。对“LoRA dropping”等关键实现细节的解释集中在附录,主文未提及,降低了可读性。
- 影响力 (0.8/1.0):对视频理解社区有明确贡献,提供了一种高效且性能优越的重看模型实现范式。但核心方法(RL、重答/重问)具有通用性,可能对其他需要“细粒度推理”任务有启发。然而,其主要贡献领域是视觉-语言多模态,并非语音/音乐/音频的核心方向,因此对本领域读者的直接影响力有限。
- 开源 (0.5/1.5):论文承诺“upon acceptance”开源代码、模型和数据,这是一个积极信号。然而,截至当前审阅时点,未提供任何具体的代码仓库、模型权重或重新标注数据集的下载链接。仅凭承诺不足以支撑高分,但避免了零分。
- 可复现性 (0.9/1.0):论文提供了丰富的复现细节:系统提示、LoRA超参数(
α_SFT,α_RL)、训练硬件资源(A800 GPU数量和时间)、工程优化方法(vLLM, Liger-Kernel, DeepSpeed, colocate模式)。若代码开源,理论上有较高可复现性。扣分在于代码未开源且数据处理(如Gemini重标注)可能难以完全复制。 - 工程/实践价值 (1.3/1.5):论文在工程实现上亮点突出:1)通过LoRA缩放因子调整平衡SFT记忆与RL探索;2)针对双阶段推理设计了高效的GPU-CPU协同训练方案(colocate与双向卸载);3)解决了音频-视觉RL中特有的视频解码瓶颈(per-GPU rollout累积)。这些方案对从事类似大规模���模态RL训练的研究者具有直接参考价值。
🚨 局限与问题
- 作者自述的局限:1)思考轨迹与定位时间戳对应性有时不佳;2)仅适用于多项选择题,奖励设计难以扩展至开放式QA;3)单次定位可能对证据分散的长视频不足。
- 方法潜在缺陷:重答策略强制模型先输出
A^(1),这可能在某些情况下禁锢了模型的推理路径,使其在第一遍就过早地锁定一个可能错误的答案,即便后续重看也难以完全推翻。重问机制虽然有效,但依赖于r_rev奖励来“激励”模型利用新信息,奖励设计的鲁棒性有待检验。 - 实验设计漏洞与过强结论:消融实验(表3)中“Uniform Re-Watch”与“Full”的对比是在相同token预算下进行,这很好,但未进一步探究不同token预算下的性能曲线。论文声称“surpassing prior re-watch-based approaches with significantly lower computational cost”,但表2中与多智能体方法(如GCAgent)的比较仅限于性能,并未提供或引用具体的计算成本(FLOPs、推理时间、训练时间)数据对比,因此该声称缺乏直接证据支持。其“更低计算成本”的结论主要建立在与自身基线的比较上(如RL vs. CoT SFT)。
- 局限未深挖:训练数据(如LLaVA-Video-178k重标注)和评估数据(特别是VideoHolmes等)的特性可能对模型性能有重要影响,但论文未深入分析数据偏差。此外,模型对音频信息的利用主要体现在输入阶段,但奖励函数中并无针对音频推理正确性的专门奖励,其重看机制对纯音频线索的定位能力未被单独评估。