📄 Omni-Persona: Systematic Benchmarking and Improving Omnimodal Personalization
#基准测试 #多模态模型 #强化学习 #模型评估 #强化学习与奖励设计
✅ 6.5/10 | 前25% | #基准测试 | #强化学习 | #多模态模型 #模型评估 | arxiv
学术质量 6.5/8 | 影响力 0.75/2 | 可复现性 0.7/1 | 置信度 高
👥 作者与机构
- 第一作者:Yeongtak Oh(首尔大学电气与计算机工程系)
- 通讯作者:Sungroh Yoon(首尔大学电气与计算机工程系,首尔大学人工智能跨学科项目)
- 作者列表:Yeongtak Oh(首尔大学电气与计算机工程系)、Dongwook Lee(首尔大学人工智能跨学科项目)、Sangkwon Park(首尔大学电气与计算机工程系)、Heeseung Kim(首尔市立大学人工智能系)、Sungroh Yoon(首尔大学电气与计算机工程系,首尔大学人工智能跨学科项目)
💡 毒舌点评
论文作为评测工作,其核心贡献在于定义了“全模态个性化”这一更现实的统一任务,并通过引入“缺席人格”场景和校准精度指标,系统性地揭示了现有评估框架的盲点(仅关注Answerable场景)和模型的关键失败模式(幻觉与过度回避)。然而,其本质仍是“定义问题与度量”而非“提出解决方案”。作为评测论文,其价值高度依赖于所提出基准的严谨性与诊断能力。论文在形式化(PMG)和指标设计(Cal)上展现了洞察力,但合成数据与真实评估间的域偏移、对LLM-as-a-judge的依赖、以及RLVR实验中奖励设计导致的模型“过度保守”副作用,均是其作为权威评测基准需要面对且未能完全解决的挑战。
📌 核心摘要
- 问题:当前多模态个性化研究主要局限于视觉-语言领域,缺乏统一覆盖文本、图像和音频的全模态基准。更关键的是,现有评估仅关注检索到正确人格(Answerable)的理想情况,忽略了真实世界中检索上下文可能完全不包含目标人格(Absent-Persona)的常见场景,导致评估存在盲点,无法诊断模型的幻觉和过度回避行为。
- 方法核心:提出“Omni-Persona”,第一个全面的全模态个性化评测基准。其核心是“Personae Modality Graph”形式化框架,将个性化任务定义为在图上进行的跨模态路由问题(感知匹配+信息检索)。基准明确包含约50%的“缺席人格”查询作为核心评估维度,并提出“校准精度”作为主指标,同时衡量模型在Answerable场景下的正确回答(Ans)和在Absent-Persona场景下的正确回避(Unans)。
- 新意:与已有基准(如CoViP)相比,Omni-Persona新增了:(1) 将音频作为与图像、文本同等重要的人格模态;(2) 将“缺席人格”查询作为一等评估对象,而非忽略或弱化;(3) 跨模态任务设计(如T2Any),以衡量模态间的语义对齐与偏见;(4) 统一的校准评估框架(Cal),联合评估正确回答与正确回避。
- 主要实验结果:论文在多个闭源(Gemini系列)和开源模型(Qwen2.5-Omni, Gemma4系列)上进行了系统评测。关键发现包括:(1) 开源模型普遍存在“音频接地”弱于“视觉接地”的模态偏见;(2) 仅凭Answerable召回率或模型参数规模不足以评估个性化能力,校准精度是必要维度;(3) 监督微调(SFT)的性能受限于高质量标注数据的构建规模,扩大数据不一定带来提升;而基于可验证奖励的强化学习(RLVR)训练能更稳定地提升校准精度,但可能导致模型过度保守(False Abstention增加)。例如,Gemma4-E4B模型在经过RLVR训练后,校准精度从52.6%提升至62.0%(+9.4%)。
- 实际意义:为全模态个性化研究提供了首个系统性的诊断框架,揭示了当前模型(尤其是开源模型)在音频感知和校准能力上的具体短板,明确了强化学习训练相较于监督微调在提升校准能力上的优势与权衡(过度保守),为未来模型对齐和奖励设计提供了明确的研究方向。
- 主要局限性:评测使用合成语音和文本,评估依赖真实图像,可能引入训练-评估域偏移;评估高度依赖LLM-as-a-judge,其可靠性虽在附录讨论但主文未充分论证;RLVR训练中使用的二值奖励设计导致了模型过度保守的副作用,更精细的奖励设计留作未来工作;基准不评估预检索过程的质量。
🔗 开源详情
- 代码:论文中未提及代码链接
- 模型权重:论文中未提及模型权重链接
- 数据集:论文中未提及数据集公开链接
- Demo:论文中未提及Demo链接
- 复现材料:论文中未提及复现所需的检查点、日志或预训练权重。但论文在附录D中详细描述了SFT和RLVR的实现细节,包括超参数、数据构成、奖励函数设计等,这些信息对于复现研究有指导意义。
- 论文中引用的开源项目:
- ms-swift: 论文中用于进行监督微调。链接:https://github.com/modelscope/ms-swift
- TRL (Transformer Reinforcement Learning): 论文中用于进行强化学习微调。链接:https://github.com/huggingface/trl
- LoRA (Low-Rank Adaptation): 论文中作为参数高效微调方法。链接:https://github.com/microsoft/LoRA
- Chatterbox: 论文中用于生成高保真合成音频。链接:https://github.com/resemble-ai/chatterbox
- wav2vec 2.0: 论文中用于自动性别检测以构建音频干扰项。链接:https://github.com/facebookresearch/wav2vec2
🏗️ 方法概述和架构
本文提出的方法主要是一个系统性的评测框架与分析流程,而非单一的神经网络模型架构。其核心是Omni-Persona基准构建与诊断性实验分析,旨在严格评估和诊断全模态(文本、图像、音频)个性化能力。
整体流程概述:本文工作分为两个主要部分。第一部分是构建Omni-Persona基准:通过Personae Modality Graph形式化问题,设计包含4个任务组、18个细粒度任务的评测集,并引入“缺席人格”查询和校准精度指标。第二部分是诊断性实验:使用构建的基准,系统性地评测现有模型,并在开源模型上对比监督微调(SFT)和基于可验证奖励的强化学习(RLVR)两种后训练策略的效果,从而分析全模态个性化能力的现状、瓶颈和改进路径。
主要组件/模块详解:
- Persona Modality Graph (PMG):
- 功能:将全模态个性化形式化为一个图上的跨模态路由问题。
- 内部结构:图 $\mathcal{G}=(\mathcal{V},\mathcal{E})$ 的顶点 $\mathcal{V}$ 包含一个查询节点 $\mathcal{Q}$ 和K个检索到的上下文节点 $\mathcal{C}_1, \dots, \mathcal{C}K$,每个节点是一个三元组 $(v_i, a_i, t_i)$,分别包含视觉(图像)、音频和文本模态。有向边 $e{q \to j}$ 表示模型将查询链接到特定上下文节点。
- 输入输出:输入为一个包含目标模态(查询图像 $v_q$、音频 $a_q$ 或文本 $t_q$)和文本提示的用户查询,以及预检索到的多模态上下文 ${\mathcal{C}i}{i=1}^K$。输出为模型建立的链接决策(即是否添加边 $e_{q \to j}$),以及基于该链接检索和整合信息后的响应。
- 任务组设计:基于PMG,定义了四种核心匹配场景,对应图1中两个并行轴(感知识别与文本检索):
- (1) 图像到图像(I2I):视觉身份识别。
- (2) 音频到音频(A2A):声音身份识别。
- (3) 文本到文本(T2T):同模态语义检索。
- (4) 文本到任意模态(T2Any):跨模态语义对齐(如文本描述匹配到音频身份再检索信息)。
- 校准精度 (Calibrated Accuracy, Cal):
- 功能:作为主要评估指标,联合衡量模型在“有答案”和“无答案”场景下的表现,以诊断模型的真实表达能力和校准行为。
- 实现:$Cal = \frac{1}{2}(Ans + Unans)$。其中,答案召回率(Ans) 使用LLM-as-a-judge(GPT-5.4-mini)评判答案正确性;无答案召回率(Unans) 通过关键词匹配(见附录表S.11)检测模型是否输出了预设的回避短语。该指标旨在平衡惩罚模型的幻觉(对所有问题都回答)和过度保守(对所有问题都回避)行为。
- 强化学习训练方法 (RLVR):
- 功能:使用可验证奖励来提升模型的全模态个性化对齐能力,不依赖参考响应。
- 内部结构:采用Group Sequence Policy Optimization (GSPO) 作为优化算法(公式S.5),以降低奖励噪声带来的梯度方差。奖励函数 $r(y,q,\mathcal{C})$ 分为两部分:(1) 感知奖励:基于规则的二值奖励,判断模型对图像/音频的身份判断是否与真实标签一致;(2) 检索奖励:对于Answerable场景,使用LLM-as-a-judge验证响应是否基于正确上下文回答;对于Absent-Persona场景,奖励模型正确回避。整体奖励是二值的(0或1)。训练中包含防止奖励作弊的过滤器(如检测重复4-gram、字符级垃圾等)。
- 关键超参数:KL系数 $\beta=0.04$(保守选择,防止训练漂移),组大小 $G=4$,学习率 $1 \times 10^{-5}$,LoRA参数 $r=32, \alpha=64$。
- Persona Modality Graph (PMG):
组件间的数据流与交互: 流程是单向的评测分析流。PMG形式化定义了任务结构,据此构建的评测集(包含Answerable和Absent-Persona样本)输入到待评测模型中。模型首先进行感知匹配(路由):根据查询模态(图、音、文)识别目标上下文节点,对应PMG中是否建立边。然后进行信息检索与整合:从匹配的上下文节点中提取相关信息生成响应。响应经过校准精度(Cal) 等指标的评估,输出诊断结果。在训练阶段,SFT或RLVR方法使用类似构造的合成数据集对模型进行微调,微调后的模型再次在评测集上评估,以比较不同策略的效果。图1和图2直观展示了从查询输入到响应生成的双轴流程及PMG的图结构。
关键设计选择及动机:
- 引入“缺席人格”场景:动机是模拟真实检索系统的噪声性(如图3所示),暴露模型在上下文不包含目标时的幻觉问题,这是现有基准忽略的关键失败模式。
- 采用校准精度而非仅召回率:动机是单一的召回率(Ans)无法同时捕捉幻觉和回避错误,需要一个联合指标来诊断模型在真实世界部署中所需的“可靠性”。
- 比较SFT与RLVR:动机是分析当前两种主流后训练范式在全模态个性化这一复杂任务上的适用性和权衡。选择RLVR进行重点分析,因为其不依赖成对的输入-输出标注,更适合开放场景。
- 使用二值奖励进行RLVR:动机是提供简单、可验证的直接监督信号,针对核心能力(感知和检索)进行优化,避免构建复杂参考响应。但论文也承认其导致了“过度保守”的副作用。
架构图/流程图:
- 图1:展示了全模态个性化在Omni-Persona中的问题表述流程。用户查询包含目标模态和文本问题。流程分为两个并行轴:蓝色轴代表感知识别过程,即模型需要识别查询中的人脸/声音对应于哪个上下文条目;粉色轴代表文本检索过程,即模型需要从匹配的上下文中提取相关信息来回答问题。图底部明确指出,评估假设预检索的原始多模态上下文已给定,不评估检索过程本身。
- 图2:Persona Modality Graph示意图。它将个性化场景抽象为图:一个查询节点(Query)和多个上下文节点(Context 0, 1, 2, 3),每个上下文节点包含图像、音频、文本的三元组。核心任务是根据查询模态,判断哪个上下文节点是目标,并建立链接(边),然后利用该上下文的信息生成回答。对于“缺席人格”的查询,则不建立任何边。
💡 核心创新点
- 首个全模态个性化基准:针对文本、图像、音频三种模态的个性化进行统一、系统化的评测,填补了现有基准在音频模态和跨模态任务上的空白。
- 将“缺席人格”提升为一等评估维度:明确在基准中包含约50%的、检索上下文不含目标人格的样本,并设计“校准精度”指标进行联合评估,从而系统性地诊断模型的幻觉与过度回避问题。
- 提出校准精度作为核心评估指标:该指标平衡了Answerable召回率和Unanswerable召回率,更真实地反映了模型在个性化场景中的实用性和可靠性,弥补了单一召回率指标的盲点。
- 系统性诊断全模态模型能力与后训练策略:通过大量实验揭示了开源模型中普遍存在的“音频感知短板”,并首次在全模态背景下对比了SFT与RLVR的权衡:SFT受限于高质量数据标注,RLVR能提升校准能力但易导致过度保守。
- 形式化问题为跨模态路由:使用Persona Modality Graph为全模态个性化问题提供了清晰、统一的形式化框架,有助于理解任务本质。
📊 实验结果
论文在多个闭源和开源全模态模型上进行了系统评测。主要结果见Table 2。关键发现和数据如下:
| 模型 | Overall Cal | Ans | Unans | I2I Cal | A2A Cal | T2T Cal | T2Any Cal | 1-FA | TA | Avg (Add. Metrics) |
|---|---|---|---|---|---|---|---|---|---|---|
| Closed-source Models | ||||||||||
| Gemini-3.1-Pro | 76.7 | 69.8 | 83.6 | 80.0 | 74.7 | 75.9 | 71.4 | 83.6 | 77.5 | |
| Gemini-3-Flash | 45.7 | 71.4 | 20.0 | 41.7 | 77.1 | 73.5 | 95.9 | 20.0 | 58.0 | |
| Gemini-3.1-Flash-lite | 42.0 | 52.8 | 31.2 | 26.9 | 71.1 | 56.6 | 93.9 | 31.2 | 62.6 | |
| Open-source Models | ||||||||||
| MiniCPM-o 4.5 (Think) | 33.6 | 51.8 | 15.4 | 27.8 | 21.9 | 67.5 | 94.6 | 15.4 | 55.0 | |
| Phi-4 Multimodal | 40.4 | 52.5 | 28.3 | 37.7 | 30.9 | 71.1 | 88.0 | 28.3 | 58.2 | |
| Qwen2.5-Omni-3B | 43.6 | 49.3 | 37.9 | 44.0 | 31.5 | 59.0 | 75.2 | 37.9 | 56.6 | |
| + SFT (1K) | 45.2 | 52.4 | 38.0 | 43.1 | 33.4 | 63.9 | 74.4 | 38.0 | 56.2 | |
| + SFT (10K) | 41.6 | 45.6 | 37.6 | 40.2 | 30.6 | 56.6 | 75.2 | 37.6 | 56.4 | |
| + RLVR | 55.2 | 54.7 | 55.7 | 43.6 | 44.4 | 60.2 | 60.9 | 55.7 | 56.2 | |
| Qwen2.5-Omni-7B | 34.2 | 47.9 | 20.5 | 26.7 | 20.7 | 62.7 | 83.6 | 20.5 | 52.1 | |
| + SFT (1K) | 34.3 | 47.2 | 21.4 | 28.4 | 22.5 | 61.4 | 84.4 | 21.4 | 52.9 | |
| + SFT (10K) | 33.0 | 45.9 | 20.1 | 26.7 | 19.3 | 62.7 | 83.9 | 20.1 | 52.0 | |
| + RLVR | 38.0 | 48.3 | 27.6 | 27.3 | 22.8 | 66.3 | 78.5 | 27.6 | 53.1 | |
| Qwen3-Omni-30B | 31.5 | 49.1 | 13.9 | 22.4 | 15.2 | 62.7 | 92.8 | 16.2 | 54.5 | |
| Gemma4-E2B | 36.4 | 46.6 | 26.2 | 17.2 | 39.0 | 61.4 | 89.0 | 26.2 | 57.6 | |
| + SFT (1K) | 35.7 | 45.7 | 25.7 | 16.4 | 36.3 | 63.9 | 88.8 | 25.7 | 57.3 | |
| + SFT (10K) | 36.9 | 48.3 | 25.5 | 17.2 | 38.7 | 66.3 | 88.5 | 25.5 | 57.0 | |
| + RLVR | 42.4 | 47.8 | 37.0 | 26.4 | 45.3 | 67.5 | 80.6 | 37.0 | 58.8 | |
| Gemma4-E4B | 52.6 | 65.3 | 39.9 | 41.8 | 54.9 | 79.5 | 77.8 | 39.9 | 58.9 | |
| + SFT (1K) | 51.6 | 65.3 | 37.9 | 35.5 | 55.7 | 84.3 | 80.3 | 37.9 | 59.1 | |
| + SFT (10K) | 53.7 | 66.2 | 41.2 | 42.7 | 57.5 | 74.7 | 78.5 | 41.2 | 59.9 | |
| + RLVR | 62.0 | 68.8 | 55.2 | 58.2 | 74.7 | 78.3 | 74.7 | 55.2 | 65.0 |
表2 关键结果摘要。Cal为校准精度,Ans为答案召回率,Unans为无答案召回率。I2I, A2A, T2T, T2Any为四组任务的Cal分数。1-FA为1-False Abstention,TA为True Abstention,Avg为附加指标的均值。加粗为该模型组内最佳。
关键消融实验发现:
- 音频接地缺陷:开源模型在A2A(声音识别)任务上的Ans召回率普遍比I2I(视觉识别)低15-25%(如Gemini-3.1-Pro例外)。RLVR通过提供显式的感知监督部分缩小了此差距(如Gemma4系列)。
- 模型规模不保证校准能力:Qwen3-Omni-30B的Cal分数(31.5%)显著低于更小的Qwen2.5-Omni-3B(43.6%),且表现出最高的幻觉(TA最低)。参数规模不是决定性因素。
- SFT与RLVR的权衡:SFT受高质量标注数据构建的瓶颈限制,扩大数据规模(从1K到10K)不总能带来Cal提升(如Qwen系列)。RLVR通过结果级监督能更有效地提升校准能力(如Gemma4-E4B Cal提升+9.4%),但会导致Answerable场景中False Abstention增加(1-FA分数下降,如图4c所示),表现出过度保守倾向。
- RLVR与传统指标的Trade-off:RLVR训练在提升Cal和TA的同时,会降低生成的ROUGE-L分数(与基线相比),表明其优化了校准能力但牺牲了部分传统词汇重叠度(Key Finding 4,附录C.3)。
🔬 细节详述
- 训练数据:
- SFT数据:包括1K和10K两个规模,涵盖12种任务类型(表S.7,S.8),包含基础接地、音频中心场景和缺席人格样本。数据构建涉及上下文重排、干扰项替换等增强措施。训练数据中约20%为缺席人格样本。
- RLVR数据:使用与SFT相同管道生成的合成人格上下文(1K样本,表S.9,S.10)。任务聚焦于视觉识别、声音识别和文本QA三个核心接地任务。约20%为缺席人格样本。
- 评估数据:约750项,包含真实图像和混合(真实+合成)音频。评估集与训练集在上下文条目数量(评估为4个,训练为3个)和图像来源(评估为真实,训练为合成)上存在刻意设计的分布偏移。
- 损失函数:SFT使用标准的自回归负对数似然损失(公式S.1)。RLVR使用GSPO目标函数(公式S.5),最大化可验证奖励并惩罚与参考策略的KL散度。
- 训练策略:
- SFT:使用LoRA微调(Qwen模型:r=64, α=128;Gemma4模型:r=32, α=64),学习率为2e-5,训练3个epoch,冻结视觉/音频编码器。
- RLVR:使用GSPO算法(公式S.5),组大小G=4,KL系数β=0.04,学习率1e-5,LoRA参数r=32, α=64,同样冻结感知编码器。无SFT预热。训练中应用了防止奖励作弊的过滤器(如检测重复4-gram、字符级垃圾等),并将这些输出奖励置零。
- 关键超参数:模型大小包括Gemima4-E2B (2.3B), Gemima4-E4B (4.5B), Qwen2.5-Omni-3B/7B, Qwen3-Omni-30B等。LoRA用于参数高效微调。RLVR中的β=0.04是经过调优的保守值,以防止训练漂移(见附录D.2解释)。
- 训练硬件:论文中未提供具体GPU型号、数量及训练时长。
- 推理细节:论文未明确说明推理时的具体解码策略(如温度、beam search)。评估时,Unans判断依赖于预定义的关键词匹配列表(表S.11)。
- 评估指标补充:除Cal外,还报告了Anti-Hallucination Accuracy:1-FA(Answerable场景中未错误回避的比例)和TA(Absent-Persona场景中正确回避的比例),以及一个综合指标Avg(9个高分更优指标的均值),用于防止通过单一行为(如总是回避)获得高分。
⚖️ 评分理由
创新性:2.0/3 本文的创新性主要体现在问题定义、评估框架和诊断分析上。它统一了全模态(文本-图像-音频)个性化任务,通过引入“缺席人格”场景和校准精度指标,系统性地指出了现有研究的评估盲点。Persona Modality Graph的形式化清晰有洞察力。然而,作为一篇“评测论文”,其在模型方法上的创新非常有限。RLVR的应用是将已有技术组合到新任务上进行分析,而非提出新算法。因此,其创新更多是“建立新标准”和“发现新问题”,而非算法突破。
技术严谨性:1.7/2 技术严谨性整体较高。PMG形式化定义清晰合理。评测指标设计(Cal, 1-FA, TA)逻辑严密,能有效捕捉不同类型错误。SFT与RLVR的对比实验设计控制得当(使用相同数据源)。主要不足在于:(1) 对RLVR导致的“过度保守”现象,虽然指出了是奖励设计所致,但未提供更细粒度的奖励消融实验(如非对称奖励)来验证或解决;(2) 评估高度依赖LLM-as-a-judge,虽然附录有讨论,但主文对其在Absent-Persona场景判断上的潜在偏见和一致性论证不够充分;(3) RLVR方法本身未与更先进的RL算法(如PPO)或近期针对多模态个性化的RL方法进行对比。
实验充分性:1.6/2 实验在评测模型的广度上较为充分,覆盖了多个闭源和开源模型,并在开源模型上进行了SFT(不同规模)与RLVR的对比。消融发现(如音频接地差距、模型规模与校准能力不匹配)有数据支撑。主要不足在于:(1) 基线对比有局限:RLVR方法缺乏与其他先进RL方法的直接对比,削弱了其作为“更优选择”的结论;(2) 评测集规模:~750项评测样本对于一个号称“全面”的基准可能偏小,尤其是在18个细粒度任务上分布,结论的统计显著性和覆盖长尾场景的能力可能不足;(3) 与现有SOTA的差距量化:论文主要与自身基线对比,未明确量化与当前领域内(即使是视觉个性化)最强方法在特定任务上的性能差距数值。
清晰度:0.85/1 论文写作清晰,组织结构良好。核心概念(PMG、Cal)解释得当。图表(尤其是图1、图2、图4)有效辅助理解。附录提供了大量细节。扣分点在于:(1) 方法部分(尤其是RLVR的完整奖励流程)描述相对简洁,关键细节需查阅附录;(2) 图4中“1-FA”的含义在主文中解释不够直观,需结合表格2理解。
影响力:0.75/1 作为首个全模态个性化基准,其领域推动价值较高,为社区提供了更全面、更严格的评测标准。对“缺席人格”场景和校准精度的强调,可能影响后续评估协议设计。诊断性发现为模型改进和奖励设计提供了方向。然而,其影响力主要局限于“评测和分析”层面,对于直接构建更好的个性化模型的方法论推动相对间接。与音频/语音读者的相关性在于,它强调了音频模态在个性化中的重要性及当前模型的不足。
可复现性:0.7/1 论文提供了相对充分的复现信息:详细的训练超参数、数据构建流程、评估指标计算方法和关键词列表。附录包含大量配置细节。然而,主要障碍在于:(1) 代码、模型权重和数据集(Omni-Persona)均未提及开源;(2) 评估依赖闭源的GPT-5.4/GPT-5.4-mini作为评判者,这引入了不可控和不可完全复现的因素;(3) 合成数据生成本身也依赖于闭源模型(GPT-5.4)。
🚨 局限与问题
论文明确承认的局限:
- 合成数据域偏移:训练数据(合成语音/文本)与评估数据(真实图像/混合音频)之间存在分布差异,可能影响泛化性。
- LLM-as-a-judge偏见:自由形式问答的评估依赖LLM作为评判,可能存在固有的偏见或不一致性。
- 奖励设计导致的过度保守:RLVR使用的二值奖励设计可能导致模型在Answerable场景中倾向于回避(False Abstention增加),这是一种奖励作弊行为。
- 基准简化:假设检索过程已完成,不评估检索质量;使用关键词匹配检测回避,可能无法覆盖所有有效的回避表达。
审稿人发现的潜在问题:
- 评测集的充分性与泛化性:约750个评测样本分散到18个任务,每个任务样本数有限,可能不足以支撑稳健的统计结论,也难以覆盖现实中的长尾个性化场景。
- 缺乏对RL基线的充分对比:RLVR未与更主流的RL方法(如PPO)或多模态RL的最新进展进行对比,使得“RLVR是更优后训练选择”的结论说服力不足。仅对比SFT与一种RLVR配置,视野不够全面。
- 校准精度指标的公平性假设:Cal将Ans和Unans各占50%权重,但在不同应用中,幻觉(误答)与回避(漏答)的代价可能不对等(例如,医疗场景中幻觉危害更大)。指标未考虑这种应用场景的差异性。
- 跨模态语义任务(T2Any)的诊断价值:该组任务难度极高,所有模型得分普遍偏低,其区分模型能力的有效性和诊断价值可能受限,容易成为“难而无用”的指标。
- 计算与评估成本未讨论:RLVR训练、以及使用闭源GPT模型进行大规模评估和数据生成,涉及高昂的API调用成本和计算开销,论文未对此进行任何效率分析或讨论。
- 结论的强度:例如,声称RLVR“能更稳定地提升校准能力”,但实验显示其副作用(1-FA下降)显著,且最优模型Gemma4-E4B+RLVR的1-FA(55.2%)仍低于其基线(52.6%)和SFT变体,表明其“稳定性”是有代价的,且整体校准行为并不完美。