一个从头实现DeepSeekR1的GRPO算法的项目github.co

蚁工厂 2025-05-19 19:49:19

一个从头实现 DeepSeek R1 的 GRPO 算法的项目

github.com/policy-gradient/GRPO-Zero

该实现的依赖很少,无需依赖 transformers 和 vLLM ,且 GPU 内存占用极低。并在原始 GRPO 算法基础上做了多项改进。

AI创造营 ​​​

0 阅读:1
蚁工厂

蚁工厂

感谢大家的关注