📄 Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

#多模态模型 #基准测试 #数据清洗 #后训练 #评测协议

📝 5.5/10 | 前50% | #多模态模型评估 | #后训练 #自蒸馏 | #多模态模型 #基准测试 | arxiv

学术质量 5.0/8 | 影响力 0.7/2 | 可复现性 0.1/1 | 置信度 中

👥 作者与机构

  • 第一作者:Che Liu (根据作者列表顺序推断)
  • 通讯作者:Fei Tian (tianfei@stepfun.com, StepFun)
  • 作者列表:Che Liu (StepFun, Imperial College London), Lichao Ma (StepFun, Peking University), Xiangyu Tony Zhang (StepFun, The University of New South Wales), Yuxin Zhang (StepFun, Shanghai Jiao Tong University), Haoyang Zhang (StepFun, Peking University), Xuerui Yang (StepFun), Fei Tian (StepFun, 通讯作者)

💡 毒舌点评

论文直击全模态模型评测的核心痛点——视觉捷径导致的性能虚高,并为此提出了系统化的去偏评测协议(OmniClean),这为社区提供了急需的、更干净的评估工具,具有明确的实用价值;然而,作为核心方法贡献的OmniBoost方案,本质上是将现有的SFT、RLVR和自蒸馏技术按固定顺序进行组合与调优,缺乏在算法或模型架构层面的根本性创新,且整个实证研究被严格限制在一个特定模型家族(Qwen2.5-Omni-3B)上,极大地削弱了其结论的普适性与指导意义。

📌 核心摘要

  1. 要解决什么问题:现有的全模态(音频-视觉-语言)基准测试得分存在“视觉泄露”问题,即许多查询仅凭视觉信息和问题文本即可回答,导致模型通过“视觉捷径”获得虚高分数,无法真实反映其跨模态整合能力。
  2. 方法核心是什么:提出了两阶段工作:(1) 构建OmniClean评测集,通过视觉单模态探测(使用Qwen3-VL-30B-Thinking模型,每个问题采样16次)过滤掉视觉可回答的问题,从9个基准的16,968个查询中保留了8,551个更依赖跨模态推理的查询。(2) 在OmniClean上研究OmniBoost分阶段后训练方案,基于Qwen2.5-Omni-3B模型,依次进行:混合双模态SFT(阶段1)、混合模态RLVR(使用DAPO算法,阶段2)、以及基于自蒸馏数据的SFT(阶段3)。
  3. 与已有方法相比新在哪里:(1) 提出了一个系统化的全模态评测去偏协议和数据集(OmniClean),明确指出现有基准的视觉泄露问题。(2) OmniBoost的“新意”在于其系统性对比的分阶段设计(旨在分离不同训练信号的影响)及无外部教师的自蒸馏数据构建流程(通过实体关系图谱和多轮过滤生成合成查询与轨迹)。
  4. 主要实验结果如何:在OmniClean上:
    • 基准宏平均:Stage 1: 26.49 → Stage 2: 31.43 → Stage 3: 31.03。RLVR(阶段2)带来了最显著的宏平均提升(+6.51)。
    • 查询加权平均:Stage 1: 27.58 → Stage 2: 30.74 → Stage 3: 32.15。自蒸馏阶段(阶段3)因在大查询集(如AV-Odyssey)上的提升而反超。
    • 最终3B模型(阶段3)的查询加权平均分(32.15)超过了参考的开源模型Qwen2.5-Omni-7B(28.68)和Qwen3-Omni-30B-A3B-Instruct(31.84)。
    • 消融实验(表3)显示,即使直接从基础模型开始,使用过滤后的合成数据进行SFT也能带来提升,其中F2过滤后的数据在宏平均上效果最好(28.09 vs 基线24.92)。
  5. 实际意义是什么:(1) 为全模态模型评测提供了更可靠的工具(OmniClean),揭示了原始基准中普遍存在的视觉泄露及其不均衡性。(2) 在去偏评测下,证明了通过分阶段后训练,较小的3B模型也能取得竞争力。
  6. 主要局限性是什么:(1) OmniClean的构建依赖于一个固定的探测模型(Qwen3-VL-30B-Thinking)和采样策略,其“视觉可回答”的定义是操作性的而非绝对的,过滤结果可能不完全或过于激进。(2) OmniBoost的实验仅在单一模型系列(Qwen2.5-Omni-3B)上进行,缺乏在不同架构或更大模型上的验证,结论的普适性存疑。(3) 自蒸馏数据构建流程复杂且依赖多个外部大模型,但缺乏对其各组件(如实体关系图生成)的深入分析或消融。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:论文中未提及。
  • 数据集:OmniClean 数据集,可通过 HuggingFace 获取:https://huggingface.co/datasets/che111/OmniClean。
  • Demo:论文中未提及。
  • 复现材料:论文详细描述了三阶段后训练(OmniBoost)的训练配置,包括混合双模态SFT、混合模态RLVR(使用DAPO算法)和自蒸馏SFT的具体设置。具体细节如批量大小、学习率、数据组成、过滤流程等在论文第4节及附录A中有详细说明。但未提供可直接运行的脚本或检查点。
  • 论文中引用的开源项目:
    • LLaVA-Video: 论文未提供直接链接,提及为自蒸馏查询构建的种子视频来源。
    • Step-Audio-R1: 论文未提供直接链接,用于生成音频描述。
    • Qwen3-VL (以及 Qwen3-VL-235B-A22B, Qwen3-VL-30B-A3B-Thinking): 论文未提供直接链接,用于生成视频描述和视觉探查。
    • gpt-oss-120b: 论文未提供直接链接,用于构建实体关系骨架和合成查询。
    • Qwen2.5-Omni (包括3B, 7B): 论文未提供直接链接,为本研究的基础模型和参考模型。
    • Qwen3-Omni (包括30B-A3B-Instruct, 30B-A3B-Thinking): 论文未提供直接链接,为参考模型。
    • DAPO: 论文未提供直接链接,为第二阶段使用的强化学习算法。
    • Video-R1-data, VideoAuto-R1-Data, ShareGPT4Video: 论文未提供直接链接,为第一阶段混合双模态SFT中视频文本数据的来源。

🏗️ 方法概述和架构

本文方法由两个关联部分构成:OmniClean评测集构建(第3节)和OmniBoost分阶段后训练研究(第4节)。

整体流程:这是一个基于查询级别过滤的评测协议,旨在从现有全模态基准中识别并移除“视觉可回答”的查询。流程为:输入现有9大全模态基准的查询 → 对每个查询执行视觉单模态探测 → 根据探测结果过滤查询 → 输出去偏后的评测集OmniClean。 核心组件与数据流:

  • 视觉单模态探测器:
    • 功能:判断一个问题是否仅凭视觉信息和问题文本就能被正确回答。
    • 实现:使用Qwen3-VL-30B-A3B-Thinking模型作为探测器。输入为图像/视频帧 + 原始文本问题(完全屏蔽音频)。
    • 技术细节:对于视频,以2fps采样帧,总帧数上限120帧;对于图像,短边缩放至448或768像素并保持比例。探测器为每个问题生成16个候选回答(温度=1.0,最大生成长度8192 tokens)。
  • 验证与过滤规则:
    • 功能:判断探测器的输出是否正确,从而决定查询的去留。
    • 实现:采用硬匹配方式,将模型输出与基准的官方答案进行对比。匹配规则包括:选择题接受最终选项字母或归一化后的选项文本;数值答案进行规范化比较。
    • 过滤规则:若16次采样中至少有1次回答正确,则该查询被标记为“视觉可回答”并被移除;否则保留。这是一个操作性定义,证明了在该固定探测协议下无法被解决,而非绝对的音频依赖性证明。
  • 基准特定例外规则:
    • AV-Odyssey:因其部分答案选项本身包含音频信息,无法进行纯视觉探测,故保留全部原始查询用于评分,不构建过滤子集。
    • CG-AV-Counting:尽管进行了诊断性探测,但为保持评分稳定性(该子集仅376个查询),不构建过滤子集,评分仍使用全部查询。
  • 数据流与规模:从9个源基准共计16,968个查询出发,经过上述探测和过滤(两个基准应用例外规则保留全部),最终得到一个包含8,551个保留查询的OmniClean评测集。表1详细展示了各基准过滤前后的分数变化。

整体流程:这是一个在Qwen2.5-Omni-3B基础模型上进行的三阶段顺序训练流水线,旨在系统研究不同后训练信号对OmniClean上性能的影响。流程为:基线模型 → 阶段1:混合双模态SFT → 阶段2:混合模态RLVR → 阶段3:基于自蒸馏数据的SFT。每个阶段都基于上一阶段的检查点初始化。

阶段1:混合双模态SFT

  • 功能:作为控制基线,测试仅增强双模态(音频-文本、图像-文本、视频-文本)能力是否足以提升全模态性能。
  • 数据构建:构建一个输出令牌数平衡的混合数据集,包含四个部分:音频-文本(1B输出令牌,来自内部数据集)、图像-文本(1B,来自内部数据集)、视频-文本(1B,来自多个开源语料如LLaVA-Video-178K等)、纯文本(1B,来自内部数据集)。视频数据经过Qwen2.5-VL-235B进行思维链重写和密集视频描述生成,并过滤掉模型仍无法回答的样本。
  • 训练细节:训练1个epoch,全局批量大小64。采用模态无关的打包策略,将不同模态的样本打包成64K令牌的序列进行训练。数据来源通过直接混洗混合,无额外批量级平衡。

阶段2:混合模态RLVR

  • 功能:使用强化学习优化明确需要跨模态证据整合的推理能力,这是获得显著OmniClean性能提升的关键阶段。
  • 数据构建:构建一个专门优化全模态推理的训练混合集,包含:54.8%音频-视频-文本查询、17.4%音频-图像-文本、9.0%视频-文本、9.4%图像-文本和9.4%纯文本查询(如图4所示)。所有类别均包含显式文本问题。
  • 算法与奖励:采用DAPO算法,不使用KL惩罚。奖励设计分两个阶段:
    • 前500步:格式奖励权重0.8,准确率奖励权重0.2,以稳定生成格式。
    • 500步后:格式奖励权重降至0.1,准确率奖励权重升至0.9,以聚焦于回答的正确性。
  • 训练细节:从阶段1检查点初始化,运行1200步。每次更新采样32个查询,每个查询采样16次,总批量大小为512条轨迹。最大生成长度4K tokens,温度1.0,学习率1e-6。

阶段3:基于自蒸馏数据的SFT

  • 功能:使用模型自身生成的推理轨迹进行自我提升,不依赖更强的外部教师模型。
  • 合成查询构建(如图5和附录A图7所示):这是一个数据合成管线,核心步骤如下:
    1. 种子与分段:从LLaVA-Video选择种子视频,按时长分段(≤30s为单元,>30s按20s窗口分段,末尾处理规则见原文)。
    2. 多模态描述生成:为每个视频片段生成音频描述(使用Step-Audio-R1)和详细视觉描述(使用Qwen3-VL-235B-A22B)。
    3. 实体关系图谱构建:从片段描述中提取实体,使用gpt-oss-120b构建一个轻量级的实体关系脚手架图,包含片段内空间关系和跨片段时间链接。
    4. 合成问题生成:基于描述、关系图谱和所需的答案格式(选择题、数值等),让语言模型合成可硬匹配验证的问答对。此步骤生成查询和答案,而非推理轨迹。
  • 轨迹生成与过滤(F1-F3):
    1. 生成:使用阶段2的RLVR检查点,为每个合成问题生成8条候选推理轨迹。
    2. 过滤:应用三轮渐进式过滤(F2应用于F1之后的数据,F3应用于F2之后的数据):
      • F1(难度过滤):移除全部错误(0/8正确)或过于均匀正确(7/8或8/8正确)的问题,保留具有挑战性但可解的问题。
      • F2(质量过滤):移除推理中存在明显感知缺陷(如声称“听不见”、“看不见”)或输出中包含异常媒体令牌(如<audio>)的轨迹。
      • F3(一致性过滤):仅保留推理过程与最终答案(由生成的硬匹配答案目标验证)一致的轨迹。若推理指向某个选项但最终答案标签错误,则修正答案标签以匹配推理。
  • 最终SFT:使用经过F1-F3过滤后并进行比例调整的合成数据,从阶段2检查点初始化,进行监督微调。注意:表2中的Stage 3结果即为此主实验设置,它与表3的消融实验设置不同。

架构图说明:

  • 图5:展示了合成查询构建管线。左侧显示LLaVA-Video种子视频被分段,并分别通过Step-Audio-R1和Qwen3-VL-235B生成音频和视频描述。中间部分展示了从描述中提取实体,并由gpt-oss-120b构建包含片段内和跨片段链接的实体关系图谱。右侧显示最终步骤:综合原始媒体、合成问题以及实体关系图谱,由语言模型生成可验证的答案对(非推理轨迹)。
  • 附录A图7:提供了图5的更详细版本,特别扩展了种子视频分段规则和实体关系脚手架图的构建细节。

💡 核心创新点

  1. 提出并构建OmniClean视觉去偏评测集:

    • 是什么:一个对9个现有全模态基准进行视觉单模态探测后过滤得到的评测视图,包含8,551个更少视觉捷径的查询。
    • 之前局限:现有全模态基准普遍存在“视觉泄露”问题,导致评分虚高,无法准确评估模型的跨模态整合能力。
    • 如何起作用:通过固定的视觉探测协议(使用强VL模型,屏蔽音频,采样16次)识别并移除视觉可回答的查询,为评估提供更干净的测试床。
    • 收益:提供了更可靠的评测标准;揭示了不同基准视觉泄露程度差异巨大(如Daily-Omni泄露严重,Video-Holmes较轻);相关性分析(第3.2节)表明清洗后评分与单模态能力的相关性发生改变。
  2. 系统性分阶段后训练研究与OmniBoost方案:

    • 是什么:提出并实验了三阶段(混合双模态SFT → 混合模态RLVR → 自蒸馏SFT)的后训练配方。
    • 之前局限:不清楚平衡的双模态能力是否足够,以及哪种后训练信号对全模态理解最有效。
    • 如何起作用:通过控制变量的阶段对比,发现仅靠双模态SFT提升有限且不均衡,显式的全模态数据(RLVR)是获得广泛提升的关键,而自蒸馏可以进一步优化性能分布(在查询加权平均上表现更好)。
    • 收益:在去偏的OmniClean上,3B模型最终性能可与更大开源模型媲美甚至超越,证明了精心设计的后训练对小模型的有效性。
  3. 设计无外部教师的自蒸馏数据构建与过滤流水线:

    • 是什么:一套完整的合成查询生成与轨迹过滤方法(实体关系图谱 + F1-F3多轮过滤)。
    • 之前局限:自蒸馏通常依赖更强的外部教师模型,数据质量控制不透明。
    • 如何起作用:通过结构化合成(基于实体图谱)和多轮过滤(难度、质量、一致性),确保��成数据的质量和对推理能力的针对性。
    • 收益:无需外部强教师即可提升模型;消融实验(表3)表明,即使直接从基础模型开始,使用过滤后的合成数据进行SFT也能带来提升,证明了合成数据本身的价值。

📊 实验结果

表2:OmniClean上各阶段模型与参考模型的性能对比

模型/方法Daily-OmniIntentBenchVideo-HolmesWorldSenseOmniBenchUNO-BenchCG-AV-CountingOmniVideoBenchAV-Odyssey宏平均查询加权平均
参考模型
Qwen2.5-Omni-3B27.5329.5724.3624.9127.1421.4112.7327.6729.0024.9227.05
Qwen2.5-Omni-7B31.7831.6127.3724.2532.1224.8415.1329.2530.1627.3928.68
Qwen3-Omni-30B-A3B-Instruct31.2232.4640.9423.7932.9729.1718.5732.9032.6130.5131.84
Qwen3-Omni-30B-A3B-Thinking42.6236.4246.3327.7032.1537.5520.2831.2740.0234.9337.56
OmniBoost阶段(基于Qwen2.5-Omni-3B)
Stage 1: 混合双模态SFT27.4330.1531.5324.1132.1323.6816.2225.1628.0026.4927.58
Stage 2: 混合模态RLVR38.0536.4647.0727.5343.2421.9719.6521.0027.8731.4330.74
Stage 3: 自蒸馏SFT38.8237.0344.4624.7140.2923.3516.4922.3331.8031.0332.15

关键结论:Stage 2(RLVR)在宏平均上提升最大(+6.51相对基线)。Stage 3在查询加权平均上最优(+5.10相对基线),主要得益于在AV-Odyssey等大查询集上的提升。论文指出,宏平均是主要总结指标,查询加权平均作为补充视图。

自蒸馏数据过滤消融实验(固定设置)

表3:使用不同过滤阶段保留数据对基础模型进行SFT的消融结果

变体AV-OdysseyCG-AV CountingDaily-OmniIntentBenchOmniBenchOmniVideoBenchUNO-BenchVideo-HolmesWorldSense宏平均查询加权平均
Qwen2.5-Omni-3B (基线)29.0012.7327.5329.5727.1427.6721.4124.3624.9124.9227.05
在F1保留数据上SFT28.47 (-0.53)15.16 (+2.43)30.38 (+2.85)31.06 (+1.49)29.74 (+2.60)23.90 (-3.77)25.44 (+4.03)34.46 (+10.10)23.09 (-1.82)26.86 (+1.94)28.02 (+0.97)
在F2保留数据上SFT28.96 (-0.04)14.36 (+1.63)34.60 (+7.07)28.64 (-0.93)29.50 (+2.36)25.79 (-1.88)28.95 (+7.54)36.38 (+12.02)25.60 (+0.69)28.09 (+3.17)28.78 (+1.74)
在F3保留数据上SFT30.03 (+1.03)15.69 (+2.96)32.07 (+4.54)30.75 (+1.18)28.78 (+1.64)22.33 (-5.34)25.88 (+4.47)31.98 (+7.62)26.29 (+1.38)27.09 (+2.17)28.87 (+1.83)

关键结论:即使直接从基础模型开始,使用过滤后的合成数据进行SFT也能带来提升(宏平均和查询加权平均均高于基线)。F2过滤数据在宏平均上表现最佳(28.09),F3在查询加权平均上略优(28.87)。不同过滤阶段的数据在不同基准上表现不一,例如OmniVideoBench在三种数据下均下降。

去偏前后的性能对比(参考)

表1中Daily-Omni的例子:Qwen3-Omni-30B-A3B-Thinking模型的原始得分为70.65,在OmniClean上过滤后大幅下降至42.62(-28.03),直观体现了视觉泄露对原始评分的夸大程度。

图表说明

  • 图2:箱线图比较了多个基准在原始评测集和OmniClean去偏集上的分数分布。所有基准的去偏后分数均显著下降,且下降幅度差异很大,证实了视觉泄露问题的普遍存在性与不均衡性。
  • 图6:柱状图总结了OmniBoost三个阶段在Qwen2.5-Omni-3B上的宏平均和查询加权平均分数。清晰展示了Stage 2在宏平均上最强,而Stage 3在查询加权平均上反超,原因在于AV-Odyssey等大查询集的影响。

🔬 细节详述

  • 训练数据:
    • 阶段1 SFT:音频-文本、图像-文本、纯文本各1B输出令牌(来源为内部数据集,未公开);视频-文本1B输出令牌,来自LLaVA-Video-178K, Video-R1-data, VideoAuto-R1-Data, ShareGPT4Video(已去重),并经过Qwen2.5-VL-235B思维链重写和密集视频描述生成。
    • 阶段2 RLVR:混合数据集,具体查询数和比例如图4所示(54.8% 音视频文本等)。
    • 阶段3 SFT:合成数据,源自LLaVA-Video种子视频,经过分段、多模态描述生成、实体图谱构建、问题合成,并经过F1-F3过滤。
  • 损失函数:阶段1和3为标准SFT的下一个令牌预测损失。阶段2为RLVR,具体为DAPO算法,未使用KL惩罚。
  • 训练策略:
    • 阶段1:1 epoch,全局批量64,序列打包至64K令牌,模态无关打包。
    • 阶段2:1200步DAPO,批量512轨迹(32查询 x 16采样),学习率1e-6,最大生成4K令牌。奖励分两阶段调整(前500步:格式0.8,准确率0.2;之后:格式0.1,准确率0.9)。
    • 阶段3(主实验):从阶段2检查点初始化进行SFT,具体训练步数未提及。消融实验(表3):60步,学习率1e-5,序列打包64K令牌。
  • 关键超参数:模型基座Qwen2.5-Omni-3B。视觉探测:16次采样,温度1.0,最大生成8192令牌。视频帧采样:2fps,上限120帧。
  • 训练硬件:未说明。
  • 推理细节:评估时遵循各基准的官方设置。视觉探测与正式评估使用相同的输入预处理(包括帧采样、图像缩放)。
  • 正则化:阶段1和3未提及特殊正则化。阶段2 DAPO未加KL项。

⚖️ 评分理由

创新性:1.2/3

  • 优点:问题定位准确(全模态评测的视觉泄露)且实用。OmniBoost的分阶段设计能清晰分离不同训练信号的影响。
  • 缺点:核心方法创新有限。OmniClean本质上是应用一个预训练VL模型进行数据过滤。OmniBoost的三个阶段(SFT, RL, 蒸馏)都是现有技术的顺序应用,缺乏在模型架构或优化算法上的本质突破。自蒸馏数据构建是亮点,但更偏向于数据工程。

技术严谨性:1.3/2

  • 优点:实验设计有控制变量意识(如阶段1作为控制基线)。消融实验(表3)分析了数据过滤的影响。对基准的例外处理(AV-Odyssey, CG-AV-Counting)有合理解释。
  • 缺点:OmniClean的“可视觉回答”定义依赖于单一探测模型和固定采样策略,存在假阴性/假阳性风险,论文对此的讨论不足。RLVR的奖励设计相对简单,未与其他奖励策略对比。

实验充分性:1.3/2

  • 优点:覆盖了9个主流全模态基准,基线包括多个开源SOTA模型。提供了宏平均和查询加权平均两种视角。消融实验直接展示了合成数据的价值。
  • 缺点:所有实验仅在Qwen2.5-Omni-3B单一模型系列上进行,无法验证方法对其他架构或更大模型的普适性。缺少对OmniBoost各阶段学习曲线、训练稳定性、计算开销的讨论。消融实验(表3)的训练设置与主实验(阶段3)差异较大,结果可比性受限。

清晰度:0.8/1

  • 优点:论文结构清晰,流程图(图5,图7)和表格有效地辅助了方法描述。
  • 缺点:方法细节仍有模糊之处。例如,阶段1的“视频CoT重写”和“密集全视频描述”的具体方法未充分说明。阶段3过滤Pass F1-F3的具体规则表述稍显绝对,未讨论其敏感性。

影响力:0.7/1

  • 优点:OmniClean有望成为全模态模型评测的重要参考,推动社区更严谨地评估模型能力。
  • 缺点:影响主要集中在评测方法学层面。后训练方法的改进是渐进式的,且依赖于特定的数据构建流程和单一模型验证,其广泛推广的潜力有限。

可复现性:0.2/1

  • 优点:论文承诺开源OmniClean数据集,这是最重要的复现资源。
  • 缺点:未提供OmniBoost的训练代码。阶段1使用的内部数据集未公开。合成数据构建中依赖的外部模型(Step-Audio-R1, gpt-oss-120b, Qwen3-VL-235B)的具体版本和使用方式未完全明确。训练硬件和部分超参数(如优化器参数)缺失。

总分:5.5/10 (计算:创新性1.2 + 技术严谨性1.3 + 实验充分性1.3 + 清晰度0.8 + 影响力0.7 + 可复现性0.2 = 5.5)

🚨 局限与问题

  1. 论文明确承认的局限:
    • 作者在结论中指出,OmniBoost的发现“scoped to one Qwen2.5-Omni-3B lineage and our visual-only leakage protocol”(局限在Qwen2.5-Omni-3B系列和视觉泄露协议内)。
    • 作者承认OmniClean是“operational evaluation view”(操作性评测视图),其过滤是基于固定协议的,而非证明保留查询在所有情况下都绝对依赖音频。
  2. 审稿人发现的潜在问题:
    • OmniClean的普适性质疑:过滤结果高度依赖所选探测模型(Qwen3-VL-30B-Thinking)。如果换用一个视觉推理能力更强或更弱的模型,过滤结果可能大相径庭,从而影响基于此评测集得出的所有结论。论文缺乏对此的敏感性分析。
    • 实验结论的外部有效性不足:所有正向结果都建立在Qwen2.5-Omni-3B上。缺乏在更大模型(如7B/14B)、不同架构(如使用不同音频编码器)、或更多样化训练数据上的验证。例如,RLVR的显著提升是否在更大模型上仍成立?自蒸馏的效果是否具有普遍性?
    • 自蒸馏数据构建的复杂性与黑箱性:合成管线涉及多个外部大模型(Step-Audio-R1, Qwen3-VL-235B, gpt-oss-120b),这些模型本身的能力和偏差会引入不确定性。最终合成数据的质量和多样性控制不够透明,缺乏对实体关系图生成等关键组件的深入分析或消融。
    • 评估指标的代表性问题:主要依赖宏观平均和查询加权平均,这两个指标容易被少数基准(如AV-Odyssey)或查询集主导。缺乏对模型在不同类型全模态推理任务(如时间对齐、因果推理、计数)上的更细粒度分析。
    • RLVR与自蒸馏的交互未深入探讨:阶段3建立在阶段2之上,但两者可能存在复杂的交互。缺乏直接从基线模型进行阶段3(跳过阶段2)的消融,以量化RLVR检查点作为初始化的额外价值。
    • 奖励设计简单性:RLVR阶段的奖励设计(格式+准确率)相对简单,且权重调整是启发式的,缺乏与其他奖励设计(如仅准确率、基于过程的奖励)的对比实验。

← 返回 2026-05-13 论文速递