DeepSeek新突破：解读SPCT技术与通用奖励模型DeepSeek-GRM

Posted Apr 7, 2025

By acone

11 min read

引言

近期，国内人工智能公司DeepSeek在大型语言模型（LLM）领域再掀波澜，发布了一项名为SPCT（Sparse Pre-training and Context Tuning）的新技术，旨在提升通用奖励模型（General Reward Model, GRM）的性能和AI对齐效率。这项技术不仅展示了DeepSeek在模型优化方面的深厚实力，也可能预示着其下一代模型（如传闻中的R2）的技术方向。

什么是奖励模型（Reward Model）？

在深入SPCT之前，我们先简单了解一下奖励模型。在LLM的训练过程中，特别是通过人类反馈进行强化学习（RLHF）时，奖励模型扮演着至关重要的角色。它负责评估LLM生成的不同响应的好坏，并给出一个分数（奖励信号），指导LLM朝着更符合人类偏好、更安全、更有用的方向优化。

然而，传统的奖励模型往往直接对输出进行打分，难以捕捉复杂的、依赖上下文的判断标准，尤其是在面对通用任务和多样化指令时。

Reward Generation Paradigms 和 Scoring Patterns

concept

奖励生成范式 (Reward Generation Paradigms) 主要有以下三种：

范式 (Paradigm)	描述 (Description)
(a)标量 (Scalar)	这种方法直接为给定的查询和回复分配一个标量值作为奖励。这个标量值代表了模型对回复质量的评估。
(b)半标量 (Semi-Scalar)	这种方法不仅生成一个标量奖励值，还会生成一段文本形式的判断或评论 (Critique)。评论可以解释模型给出该标量奖励的原因。
(c)生成式 (Generative)	这种方法只生成文本形式的评论 (Critique) 作为奖励。奖励值可以从生成的文本中提取出来（例如，评论中直接包含分数，或者通过分析评论内容来判断偏好）。

评分模式 (Scoring Patterns) 主要有两种：

点式直接评价response，对式评价2个response之间的正负关系（哪个更好）

模式 (Pattern)	描述 (Description)
(i)点式 (Pointwise)	这种方法独立地为每一个给定的回复分配一个分数。它可以接受单个或多个回复作为输入，并为每个回复都给出一个评估。
(ii)成对 (Pairwise)	这种方法主要考虑两个回复之间的相对偏好。模型通常会判断在给定的两个回复中，哪一个更好。虽然这种方法可以扩展到处理多个回复，但通常需要额外的技术。

组合

(a) + (i) = Bradley-Terry: 生成标量评分并对每个回复打分，即图中的0.251和-0.707
(a) + (ii) = PairRM: 生成标量评分并对两个回复进行比较，即图中的>=0和<=0
(b) + (i) = CLoud: 生成文本形式的评论和分数, 即图中的critique1/2和0.251，-0.707
(b)/(c) + (ii) = LLM-as-a-Judge / TokenProb: 这里生成的critique即包含了哪个更好，即方法2中的正负号, 用一个特殊的Token表示，即图中的1，再用TokenProb方法提取这个1
(c) + (i) = Pointwise GRM: 即直接生成critique和打分

论文用了2个维度来对比5个方法：

inference time scalable:
通过scaling law算力增强模型能力，指的是在不重新训练模型的情况下，通过增加计算资源（例如，进行多次采样）来提升模型在推理阶段的性能。对于那些可以通过多次采样获得不同结果的模型，我们可以通过聚合 (aggregation) 这些不同的结果（例如，通过投票、平均或其他更复杂的策略）来得到一个更稳定和更准确的最终判断。
对于标量的Reward Model即使我们增加了推理计算次数，但由于标量奖励模型的输出缺乏多样性，我们无法利用这些额外的计算来改进最终的奖励评估。
input flexible：输入灵活性
如果只能针对Pair评价则丧失了input的灵活性

结论：

含有(a)的Scalar Reward Model 必然丧失inference time scalable 因此1、2是叉
含有(ii)的方法必然丧失input flexible 因此2、4是叉

Cloud 与 GRM

通过上一节的结论我们剩下的选择就是3和5了，那么哪个更好呢？或者都和理论一样吗？论文给了结论： CLoud是绿色那条线，GRM是红色和蓝色的
CLoud的问题在于半标量虽然生成了评论但分数的方差仍然不大，因此在实验中的scaling law并不明显因此最终选择是方法5，也就是本文的重点

SPCT：先定原则，再做判断

DeepSeek提出的SPCT技术，为奖励模型的构建提供了一种新思路。其核心思想是：让奖励模型首先根据当前上下文生成一套评估原则（Evaluation Principles），然后再基于这些原则对LLM的响应进行判断和打分。

拒绝式微调(Rejective Fine-Tuning, RFT): SPCT的冷启动阶段，让GRM能够生成格式正确的原则和批判，适应各种输入
提示采样(hinted sampling): 将真实最佳回复的索引添加到提示中，以期望预测的奖励与真实情况对齐。
基于规则的在线强化学习(Rule-based Online Reinforcement Learning): 通过不断优化生成的原则和批判来增强通用奖励生成能力，鼓励GRM区分最佳回复
因此先要训一个meta RM（人工标注）和GRM（生成Principles和critiques并提取标量）,在base model上做RFT时用这2个模型来评价，RFT冷启动后进入GRM在线强化学习

这种“先定原则，再做判断”的方式有几个显著优势：

更强的泛化能力：通过动态生成与上下文相关的评估原则，模型能够更好地适应不同的任务和指令，做出更准确的判断。
更高的透明度和可解释性：生成的评估原则可以帮助我们理解模型做出判断的依据。
提升AI对齐效率：使模型能更有效地学习和遵循人类的偏好及安全准则。

基于SPCT技术，DeepSeek训练了一个名为DeepSeek-GRM的通用奖励模型（论文中使用了DeepSeek-GRM-27B，基于Gemma-2-27B进行后训练）。该模型在训练中学习如何从任何偏好数据集中提取奖励信号。

SPCT的另一个亮点在于其支持有效的推理时缩放。在推理（即实际使用）阶段，DeepSeek-GRM可以通过多次并行采样，生成多组不同的评估原则和相应的批判性评估。然后，通过对这些结果进行投票或聚合，可以获得更稳定、更准确的最终奖励判断。

随着采样规模的扩大（即增加推理时的计算量），DeepSeek-GRM能够基于更多样化的原则进行更细粒度的判断，从而在不重新训练模型的情况下提升性能。

这篇文章本来2天前发的，太忙了拖到今天已经比较晚了，做个笔记

参考资料：

技术, LLM, DeepSeek

This post is licensed under CC BY 4.0 by the author.