GRPO 最早是在 DeepSeek-Math 里露脸的,也是DeepSeekR1能火起来的重要秘诀。相比PPO这种传统做法,GRPO 直接把评估模型给干掉了,换成了组内相对奖励,不仅省算力,还稳如老狗,训练不容易炸。
它的思路很简单,就是针对每个输入生成一组输出,然后在每个小组里算相对奖励值,主要是看组内谁强谁弱,优化策略的时候就按照这个来,而不是像RLHF那样靠评估模型打分。这样省去了维护评估模型的麻烦,计算负担直接减轻不少,跑起来更快。
除此之外,GRPO 直接在损失函数里加了KL散度正则化,不像PPO那样在奖励里搞一堆 KL罚项,细粒度控制策略更新,调整幅度更丝滑,保证策略不会乱飘,属于是 PPO 的加强版了。



