📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

#多模态模型 #强化学习 #数据集 #基准测试 #模型评估

🔥 8.5/10 | 前25% | #多模态模型 | #强化学习 | #数据集 #基准测试

学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度 高

👥 作者与机构

  • 第一作者:Zhuoran Jin(中国科学院大学人工智能学院、中国科学院自动化研究所)
  • 通讯作者:Jun Zhao(中国科学院大学人工智能学院、中国科学院自动化研究所)
  • 作者列表:Zhuoran Jin(中国科学院大学人工智能学院、中国科学院自动化研究所), Hongbang Yuan(中国科学院大学人工智能学院、中国科学院自动化研究所), Kejian Zhu(中国科学院大学人工智能学院、中国科学院自动化研究所), Jiachun Li(中国科学院大学人工智能学院、中国科学院自动化研究所), Pengfei Cao(中国科学院大学人工智能学院、中国科学院自动化研究所), Yubo Chen(中国科学院大学人工智能学院、中国科学院自动化研究所), Kang Liu(中国科学院大学人工智能学院、中国科学院自动化研究所), Jun Zhao(中国科学院大学人工智能学院、中国科学院自动化研究所)

💡 毒舌点评

亮点:这篇论文最大的价值在于“系统性”和“开创性”,它首次将奖励模型(RM)的评估范围从传统的文本/图像扩展到了包括视频、音频、3D在内的全模态,并引入了自由形式的偏好描述,填补了一个重要的空白。短板:虽然构建了庞大的框架,但其核心生成式奖励模型(R1)的探索稍显初步,仅用了3%的数据进行训练,且论文中对训练的具体超参数和硬件环境交代不够清晰,使得这个最具野心的部分在可复现性上打了一丝折扣。

🔗 开源详情

  • 代码:论文提供了代码仓库链接:https://github.com/HongbangYuan/OmniReward
  • 模型权重:论文提及将发布Omni-RewardModel,但未在正文中直接提供权重下载链接,通常这些链接会包含在代码仓库的README中。
  • 数据集:Omni-RewardBench和Omni-RewardData均已公开,并提供了HuggingFace链接:
  • Demo:论文中未提及在线演示。
  • 复现材料:论文详细描述了数据集构建流程、模型架构和评估协议,并在附录中提供了标注指南、质量控制细节等。但如前所述,缺乏训练硬件、具体超参数配置(如学习率、batch size、训练轮数)等细节。
  • 引用的开源项目:论文基于并引用了MiniCPM-o-2.6、Qwen2.5-VL-7B-Instruct等开源模型作为基础模型,并使用了GPT-4o进行数据生成。

📌 核心摘要

这篇论文旨在解决当前奖励模型(RM)面临的模态不平衡(主要支持文本和图像)和偏好刚性(仅学习固定二元偏好)两大挑战,提出了一个面向全模态、支持自由形式偏好的奖励建模框架——Omni-Reward。其核心贡献包括三部分:(1)Omni-RewardBench:首个覆盖文本、图像、视频、音频和3D五种模态、九种任务、并支持自由形式偏好标注的奖励模型评估基准,包含3725个高质量人工标注对;(2)Omni-RewardData:一个大规模多模态偏好数据集,包含248K通用偏好对和69K指令微调对,以提升模型对跨模态任务和动态偏好的泛化能力;(3)Omni-RewardModel:基于上述数据训练的两种全模态奖励模型,包括判别式(BT)和生成式(R1)版本。实验表明,Omni-RewardModel在Omni-RewardBench上取得了最优性能(w/ Ties设置下准确率65.36%),在VL-RewardBench等公开基准上也达到了或超过了SOTA水平,证明了其有效性。论文指出现有模型在音频生成、3D生成等任务上表现不佳,凸显了模态不平衡问题。该工作为构建更通用、更个性化的多模态AI对齐工具奠定了重要基础,但其目前的基准规模、任务分类粒度以及对多轮对话偏好的支持仍有局限。

🏗️ 模型架构

论文提出了两种全模态奖励模型架构:

  1. 判别式奖励模型:Omni-RewardModel-BT Omni-RewardModel架构图 如图2(1)所示,该模型基于多模态大语言模型MiniCPM-o-2.6构建。其架构核心是一个统一的编码器-解码器框架,包含一个视觉编码器(用于处理图像、视频帧、3D渲染图)、一个音频编码器(用于处理音频波形)和一个语言模型解码器(骨干网络)。对于输入(c, x, y1, y2)(其中c是自由形式偏好准则,x是提示,y1/y2是候选响应),模型将各模态信息(如视频帧序列、音频特征)与文本指令一同输入。模型输出一个标量奖励分数r,用于衡量在给定准则c下,某个响应y的质量。训练时,模型使用经典的Bradley-Terry损失(公式1)进行优化,该损失函数鼓励被偏好的响应获得更高的分数。关键设计选择是冻结视觉和音频编码器的参数,仅微调语言模型解码器和新增的价值头(Value Head),这有助于在适配新任务时保留预训练模型强大的基础感知能力。

  2. 生成式奖励模型:Omni-RewardModel-R1 如图2(2)所示,该模型旨在提升奖励评估的可解释性。其基础架构与BT模型类似,但目标不同。给定相同的输入(c, x, y1, y2),模型不再直接输出标量分数,而是需要先生成一段链式思考(Chain-of-Thought)解释e,详细阐述两个候选响应在准则c下的优劣,然后给出最终的偏好判断p'(例如y1y2)。该模型通过基于GRPO的强化学习进行训练,奖励信号来自于模型预测的偏好p'与真实标签p的一致性。这种“先推理再判断”的模式,使得决策过程更加透明和可审计。

💡 核心创新点

  1. 首个支持自由形式偏好的全模态奖励建模基准(Omni-RewardBench):此前的多模态奖励模型基准(如VL-RewardBench, Multimodal RewardBench)主要覆盖图像理解任务。Omni-RewardBench将评估范围扩展至包含生成任务(文本到视频、音频、3D)的全模态场景,并创新性地采用自然语言描述的、细粒度的评价准则c替代简单的二元偏好对,允许对同一响应对在不同标准下进行评估,极大丰富了评估维度。
  2. 构建大规模、多模态、兼具通用与指令微调能力的偏好数据集(Omni-RewardData):该数据集不仅聚合了多个现有的多模态偏好数据(如RLAIF-V, HPDv2),更重要的是,它专门构建了69K条指令微调数据。这些数据将偏好对(x, y1, y2, p)与一条自由形式的偏好描述c关联起来,使奖励模型能够学习如何根据动态的、用户指定的标准来调整评分,从而直接解决“偏好刚性”问题。
  3. 提出可解释的生成式奖励模型(Omni-RewardModel-R1):通过强化学习训练模型生成文本化的推理过程,而不仅仅是给出一个分数。这解决了传统判别式奖励模型评分过程不透明的“黑箱”问题,对于建立可信AI、辅助人工审核具有重要价值。实验表明,即使只用了少量数据(3%),该模型也能展现出有竞争力的性能。

🔬 细节详述

  • 训练数据:
    • Omni-RewardData:包含两个子集。
      1. 通用偏好对(248K):来自多个现有数据集,包括:T2T任务50K来自Skywork-Reward-Preference;TI2T任务共133K(83K来自RLAIF-V, 50K来自OmniAlign-V-DPO);T2I任务共53K(50K来自HPDv2, 3K来自EvalMuse);T2V任务共12K(10K来自VideoDPO, 2K来自VisionReward)。
      2. 指令微调对(69K):由作者团队使用GPT-4o生成自由形式的偏好准则c,并使用GPT-4o-mini、Qwen2.5-VL-7B、Gemma-3-12B-it进行验证。具体包括:T2T任务24K(基于Skywork-Reward-Preference和UltraFeedback), TI2T任务28K(基于RLAIF-V和VLFeedback), T2I任务17K(基于HPDv2和Open-Image-Preferences)。
  • 损失函数:
    • BT模型:使用Bradley-Terry损失(公式1):$L_{BT} = -\log \frac{\exp(r_{BT}(c, x, y_c))}{\exp(r_{BT}(c, x, y_c)) + \exp(r_{BT}(c, x, y_r))}$,其中$y_c$是偏好响应,$y_r$是拒绝响应。
    • R1模型:使用强化学习(GRPO)进行优化,奖励函数为二值奖励:当预测偏好$p’$与真实标签$p$一致时,奖励为1;否则为0。
  • 训练策略:
    • BT模型:基于MiniCPM-o-2.6进行训练。冻结视觉和音频编码器参数,仅更新语言模型解码器和价值头。偏好准则c作为系统消息输入。
    • R1模型:从零开始,基于Qwen2.5-VL-7B-Instruct使用GRPO算法训练,仅使用了10K个指令微调样本(约占Omni-RewardData的3%)。
    • 关键超参数、训练硬件、具体优化器设置、学习率调度等:论文中未详细说明。
  • 推理细节:
    • BT模型:直接计算并比较两个响应的标量分数$y1$和$y2$。在w/ Ties评估中,通过调整阈值将标量分数映射到{y1, y2, tie}三类。
    • R1模型:采用成对(pairwise)格式,模型先生成对两个响应的批评文本,再做出最终偏好判断。

📊 实验结果

主要基准性能对比(Omni-RewardBench, w/ Ties设置):

模型T2TTI2TTV2TTA2TT2IT2VT2AT23DTI2I总体
最佳开源模型 (Gemma-3 27B)77.2261.1767.04-59.1461.44-63.9165.9465.12
最佳商业模型 (Claude-3.5 Sonnet)76.7461.5567.04-61.6964.27-68.5465.9466.54
最佳专用RM (UnifiedReward1.5)59.4754.1769.30-58.3569.57-61.5945.4159.69
Omni-RewardModel-BT (Ours)75.3060.2368.8570.5958.3564.0863.9967.8858.9565.36
Omni-RewardModel-R1 (Ours)71.2256.0663.88-61.6958.22-63.9146.2960.18

关键发现:

  1. 模态不平衡明显:所有模型在T2A(文本到音频)、T23D(文本到3D)、TI2I(图像编辑)任务上表现普遍较差,与文本/图像理解任务差距显著。
  2. Omni-RewardModel-BT性能优异:总体准确率(65.36%)与最强商业模型Claude-3.5 Sonnet(66.54%)相当,且在TA2T、T2A等模态上显著超越所有基线。
  3. 指令微调至关重要:消融实验(表3)显示,去掉指令微调数据后,模型总体准确率从65.36%下降至58.67%,证实了其对于适应自由形式偏好的关键作用。

在其他公开基准上的性能:

  • VL-RewardBench:Omni-RewardModel-BT达到76.3%的准确率,超过所有报告的基线模型(表2),包括专用RM如IXC-2.5-Reward(65.8%)和UnifiedReward(66.1%)。
  • Multimodal RewardBench:Omni-RewardModel性能与Claude-3.5 Sonnet相当(论文中提及,具体数值见表9)。

任务间性能相关性热力图 图3展示了不同任务间性能的皮尔逊相关系数。可以看出,理解类任务(T2T, TI2T, TV2T, TA2T)之间以及生成类任务(T2I, T2V, T2A, T23D, TI2I)内部的性能存在较强的正相关性(相关系数多在0.7-0.9之间),表明奖励模型在相似任务类别内具有一定的迁移和泛化能力。

⚖️ 评分理由

  • 学术质量:6.0/7。论文提出了一个系统性的解决方案,涵盖基准、数据集和模型三个层面,问题定义清晰,技术路线完整。实验规模宏大,对比了数十种模型,并在多个基准上验证了有效性。扣分点在于部分关键训练细节未公开,且生成式模型R1的探索尚处初级阶段。
  • 选题价值:2.0/2。课题紧扣多模态大模型时代“对齐”这一核心挑战,针对“模态覆盖”和“偏好个性化”两个痛点,具有极高的前沿性和实际应用潜力,对推动通用人工智能(AGI)发展有重要意义。
  • 开源与复现加成:0.8/1。论文承诺并提供了代码、数据、模型的完整链接,采用宽松的开源协议,极大地便利了后续研究。但未提供训练脚本、环境配置、详细超参数列表和检查点,因此未能获得满分。

← 返回 ICLR 2026 论文分析