Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

#多模态模型 #强化学习 #数据集 #基准测试 #模型评估

🔥 8.5/10 | 前25% | #多模态模型 | #强化学习 | #数据集 #基准测试

学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度高

👥 作者与机构

第一作者：Zhuoran Jin（中国科学院大学人工智能学院、中国科学院自动化研究所）
通讯作者：Jun Zhao（中国科学院大学人工智能学院、中国科学院自动化研究所）
作者列表：Zhuoran Jin（中国科学院大学人工智能学院、中国科学院自动化研究所）， Hongbang Yuan（中国科学院大学人工智能学院、中国科学院自动化研究所）， Kejian Zhu（中国科学院大学人工智能学院、中国科学院自动化研究所）， Jiachun Li（中国科学院大学人工智能学院、中国科学院自动化研究所）， Pengfei Cao（中国科学院大学人工智能学院、中国科学院自动化研究所）， Yubo Chen（中国科学院大学人工智能学院、中国科学院自动化研究所）， Kang Liu（中国科学院大学人工智能学院、中国科学院自动化研究所）， Jun Zhao（中国科学院大学人工智能学院、中国科学院自动化研究所）

💡 毒舌点评

亮点：这篇论文最大的价值在于“系统性”和“开创性”，它首次将奖励模型（RM）的评估范围从传统的文本/图像扩展到了包括视频、音频、3D在内的全模态，并引入了自由形式的偏好描述，填补了一个重要的空白。短板：虽然构建了庞大的框架，但其核心生成式奖励模型（R1）的探索稍显初步，仅用了3%的数据进行训练，且论文中对训练的具体超参数和硬件环境交代不够清晰，使得这个最具野心的部分在可复现性上打了一丝折扣。

🔗 开源详情

代码：论文提供了代码仓库链接：https://github.com/HongbangYuan/OmniReward
模型权重：论文提及将发布Omni-RewardModel，但未在正文中直接提供权重下载链接，通常这些链接会包含在代码仓库的README中。
数据集：Omni-RewardBench和Omni-RewardData均已公开，并提供了HuggingFace链接：
- https://hf.co/datasets/HongbangYuan/OmniRewardBench
- https://hf.co/datasets/jinzhuoran/OmniRewardData
Demo：论文中未提及在线演示。
复现材料：论文详细描述了数据集构建流程、模型架构和评估协议，并在附录中提供了标注指南、质量控制细节等。但如前所述，缺乏训练硬件、具体超参数配置（如学习率、batch size、训练轮数）等细节。
引用的开源项目：论文基于并引用了MiniCPM-o-2.6、Qwen2.5-VL-7B-Instruct等开源模型作为基础模型，并使用了GPT-4o进行数据生成。

📌 核心摘要

这篇论文旨在解决当前奖励模型（RM）面临的模态不平衡（主要支持文本和图像）和偏好刚性（仅学习固定二元偏好）两大挑战，提出了一个面向全模态、支持自由形式偏好的奖励建模框架——Omni-Reward。其核心贡献包括三部分：（1）Omni-RewardBench：首个覆盖文本、图像、视频、音频和3D五种模态、九种任务、并支持自由形式偏好标注的奖励模型评估基准，包含3725个高质量人工标注对；（2）Omni-RewardData：一个大规模多模态偏好数据集，包含248K通用偏好对和69K指令微调对，以提升模型对跨模态任务和动态偏好的泛化能力；（3）Omni-RewardModel：基于上述数据训练的两种全模态奖励模型，包括判别式（BT）和生成式（R1）版本。实验表明，Omni-RewardModel在Omni-RewardBench上取得了最优性能（w/ Ties设置下准确率65.36%），在VL-RewardBench等公开基准上也达到了或超过了SOTA水平，证明了其有效性。论文指出现有模型在音频生成、3D生成等任务上表现不佳，凸显了模态不平衡问题。该工作为构建更通用、更个性化的多模态AI对齐工具奠定了重要基础，但其目前的基准规模、任务分类粒度以及对多轮对话偏好的支持仍有局限。

🏗️ 模型架构

论文提出了两种全模态奖励模型架构：

判别式奖励模型：Omni-RewardModel-BT 如图2(1)所示，该模型基于多模态大语言模型MiniCPM-o-2.6构建。其架构核心是一个统一的编码器-解码器框架，包含一个视觉编码器（用于处理图像、视频帧、3D渲染图）、一个音频编码器（用于处理音频波形）和一个语言模型解码器（骨干网络）。对于输入(c, x, y1, y2)（其中c是自由形式偏好准则，x是提示，y1/y2是候选响应），模型将各模态信息（如视频帧序列、音频特征）与文本指令一同输入。模型输出一个标量奖励分数r，用于衡量在给定准则c下，某个响应y的质量。训练时，模型使用经典的Bradley-Terry损失（公式1）进行优化，该损失函数鼓励被偏好的响应获得更高的分数。关键设计选择是冻结视觉和音频编码器的参数，仅微调语言模型解码器和新增的价值头（Value Head），这有助于在适配新任务时保留预训练模型强大的基础感知能力。
生成式奖励模型：Omni-RewardModel-R1 如图2(2)所示，该模型旨在提升奖励评估的可解释性。其基础架构与BT模型类似，但目标不同。给定相同的输入(c, x, y1, y2)，模型不再直接输出标量分数，而是需要先生成一段链式思考（Chain-of-Thought）解释e，详细阐述两个候选响应在准则c下的优劣，然后给出最终的偏好判断p'（例如y1或y2）。该模型通过基于GRPO的强化学习进行训练，奖励信号来自于模型预测的偏好p'与真实标签p的一致性。这种“先推理再判断”的模式，使得决策过程更加透明和可审计。

💡 核心创新点

首个支持自由形式偏好的全模态奖励建模基准（Omni-RewardBench）：此前的多模态奖励模型基准（如VL-RewardBench, Multimodal RewardBench）主要覆盖图像理解任务。Omni-RewardBench将评估范围扩展至包含生成任务（文本到视频、音频、3D）的全模态场景，并创新性地采用自然语言描述的、细粒度的评价准则c替代简单的二元偏好对，允许对同一响应对在不同标准下进行评估，极大丰富了评估维度。
构建大规模、多模态、兼具通用与指令微调能力的偏好数据集（Omni-RewardData）：该数据集不仅聚合了多个现有的多模态偏好数据（如RLAIF-V， HPDv2），更重要的是，它专门构建了69K条指令微调数据。这些数据将偏好对(x, y1, y2, p)与一条自由形式的偏好描述c关联起来，使奖励模型能够学习如何根据动态的、用户指定的标准来调整评分，从而直接解决“偏好刚性”问题。
提出可解释的生成式奖励模型（Omni-RewardModel-R1）：通过强化学习训练模型生成文本化的推理过程，而不仅仅是给出一个分数。这解决了传统判别式奖励模型评分过程不透明的“黑箱”问题，对于建立可信AI、辅助人工审核具有重要价值。实验表明，即使只用了少量数据（3%），该模型也能展现出有竞争力的性能。

🔬 细节详述

训练数据：
- Omni-RewardData：包含两个子集。
  1. 通用偏好对（248K）：来自多个现有数据集，包括：T2T任务50K来自Skywork-Reward-Preference；TI2T任务共133K（83K来自RLAIF-V， 50K来自OmniAlign-V-DPO）；T2I任务共53K（50K来自HPDv2， 3K来自EvalMuse）；T2V任务共12K（10K来自VideoDPO， 2K来自VisionReward）。
  2. 指令微调对（69K）：由作者团队使用GPT-4o生成自由形式的偏好准则c，并使用GPT-4o-mini、Qwen2.5-VL-7B、Gemma-3-12B-it进行验证。具体包括：T2T任务24K（基于Skywork-Reward-Preference和UltraFeedback）， TI2T任务28K（基于RLAIF-V和VLFeedback）， T2I任务17K（基于HPDv2和Open-Image-Preferences）。
损失函数：
- BT模型：使用Bradley-Terry损失（公式1）：$L_{BT} = -\log \frac{\exp(r_{BT}(c, x, y_c))}{\exp(r_{BT}(c, x, y_c)) + \exp(r_{BT}(c, x, y_r))}$，其中$y_c$是偏好响应，$y_r$是拒绝响应。
- R1模型：使用强化学习（GRPO）进行优化，奖励函数为二值奖励：当预测偏好$p’$与真实标签$p$一致时，奖励为1；否则为0。
训练策略：
- BT模型：基于MiniCPM-o-2.6进行训练。冻结视觉和音频编码器参数，仅更新语言模型解码器和价值头。偏好准则c作为系统消息输入。
- R1模型：从零开始，基于Qwen2.5-VL-7B-Instruct使用GRPO算法训练，仅使用了10K个指令微调样本（约占Omni-RewardData的3%）。
- 关键超参数、训练硬件、具体优化器设置、学习率调度等：论文中未详细说明。
推理细节：
- BT模型：直接计算并比较两个响应的标量分数$y1$和$y2$。在w/ Ties评估中，通过调整阈值将标量分数映射到{y1, y2, tie}三类。
- R1模型：采用成对（pairwise）格式，模型先生成对两个响应的批评文本，再做出最终偏好判断。

📊 实验结果

主要基准性能对比（Omni-RewardBench, w/ Ties设置）：

模型	T2T	TI2T	TV2T	TA2T	T2I	T2V	T2A	T23D	TI2I	总体
最佳开源模型 (Gemma-3 27B)	77.22	61.17	67.04	-	59.14	61.44	-	63.91	65.94	65.12
最佳商业模型 (Claude-3.5 Sonnet)	76.74	61.55	67.04	-	61.69	64.27	-	68.54	65.94	66.54
最佳专用RM (UnifiedReward1.5)	59.47	54.17	69.30	-	58.35	69.57	-	61.59	45.41	59.69
Omni-RewardModel-BT (Ours)	75.30	60.23	68.85	70.59	58.35	64.08	63.99	67.88	58.95	65.36
Omni-RewardModel-R1 (Ours)	71.22	56.06	63.88	-	61.69	58.22	-	63.91	46.29	60.18

关键发现：

模态不平衡明显：所有模型在T2A（文本到音频）、T23D（文本到3D）、TI2I（图像编辑）任务上表现普遍较差，与文本/图像理解任务差距显著。
Omni-RewardModel-BT性能优异：总体准确率（65.36%）与最强商业模型Claude-3.5 Sonnet（66.54%）相当，且在TA2T、T2A等模态上显著超越所有基线。
指令微调至关重要：消融实验（表3）显示，去掉指令微调数据后，模型总体准确率从65.36%下降至58.67%，证实了其对于适应自由形式偏好的关键作用。

在其他公开基准上的性能：

VL-RewardBench：Omni-RewardModel-BT达到76.3%的准确率，超过所有报告的基线模型（表2），包括专用RM如IXC-2.5-Reward（65.8%）和UnifiedReward（66.1%）。
Multimodal RewardBench：Omni-RewardModel性能与Claude-3.5 Sonnet相当（论文中提及，具体数值见表9）。

任务间性能相关性热力图图3展示了不同任务间性能的皮尔逊相关系数。可以看出，理解类任务（T2T, TI2T, TV2T, TA2T）之间以及生成类任务（T2I, T2V, T2A, T23D, TI2I）内部的性能存在较强的正相关性（相关系数多在0.7-0.9之间），表明奖励模型在相似任务类别内具有一定的迁移和泛化能力。

⚖️ 评分理由

学术质量：6.0/7。论文提出了一个系统性的解决方案，涵盖基准、数据集和模型三个层面，问题定义清晰，技术路线完整。实验规模宏大，对比了数十种模型，并在多个基准上验证了有效性。扣分点在于部分关键训练细节未公开，且生成式模型R1的探索尚处初级阶段。
选题价值：2.0/2。课题紧扣多模态大模型时代“对齐”这一核心挑战，针对“模态覆盖”和“偏好个性化”两个痛点，具有极高的前沿性和实际应用潜力，对推动通用人工智能（AGI）发展有重要意义。
开源与复现加成：0.8/1。论文承诺并提供了代码、数据、模型的完整链接，采用宽松的开源协议，极大地便利了后续研究。但未提供训练脚本、环境配置、详细超参数列表和检查点，因此未能获得满分。

← 返回 ICLR 2026 论文分析

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences