一个从头实现DeepSeekR1的GRPO算法的项目github.co

蚁工厂 2025-05-19 19:49:19

一个从头实现 DeepSeek R1 的 GRPO 算法的项目

github.com/policy-gradient/GRPO-Zero

该实现的依赖很少，无需依赖 transformers 和 vLLM ，且 GPU 内存占用极低。并在原始 GRPO 算法基础上做了多项改进。

AI创造营

0 阅读：1

感谢大家的关注

作者最新文章

1

全球品牌中国线上500强发布北京大学国家发展研究院做的一个榜单。名字有点容易误

2

字跳的 DeerFlow 项目（一个 Deep Research 框架）还是引

3

Arwaal 是一个教育性质的 React 实现，通过逐步构建来理解 React

4

一个从零开始学习 AI 和 LLM的免费资源收集项目。github.com/as

5

电子书《给研究生的学术建议》中文翻译psychelzh.github.io/ph

6

AniruddhaChattopadhyay个人收藏的免费人工智能与机器学习书籍

7

玄戒O1的一些网传资料~1. CPU是10核的，2 核 @ 1.80GHz、2

8

：《2025年优秀公关案例：全棉时代 5 步走修复信任，教科书级操作解析》

9

一张关于 C++ std::numeric_limits 模板的速查表图自hac

10

塞巴斯蒂安• 拉施卡写的《从零构建大模型》除了书籍内容之外，配套的github仓

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

2

同事iphone13pro有几年了，说电池健康度只有70%了，一天到晚的就见他

3

手机圈来袭！9-10月新机扎堆亮相荣耀Magic8Pro主打超强AI，

4

要买荣耀400Pro的人一定要听劝！后悔可就来不及了，如果只是当做备用机千万

5

5699的时候，你们说太贵5199的时候，你们又说贵4699的时候，有的人说

6

我去荣耀专卖店看手机，看了荣耀X70，荣耀400、荣耀Power、Magic7等

7

荣耀Maigc7Pro上了一个新版本1、荣耀Maigc7Pro新增了一个1

8

新机来了三星GalaxyS25FE6.67英寸120hz1080p直屏E

9

大哥这手机，我闭着眼睛都能认出来是啥

10

荣耀power2配置曝光！根据数码闲聊站消息，这个天玑8500搭配100

科技最新文章

1

荣耀power2配置曝光！根据数码闲聊站消息，这个天玑8500搭配100

2

听我一句劝，2025年买手机就得这么买：1、要是追求智慧又安全，那荣耀简直是

3

估计不少人已经发现，手机这玩意就别买太贵的现在的千元机其实就能用好几年大多数

4

英伟达说H20没后门，可玉渊潭天把芯片拆到晶体管级，发现三条可疑信号线直通管理引

5

大哥这手机，我闭着眼睛都能认出来是啥

6

5699的时候，你们说太贵5199的时候，你们又说贵4699的时候，有的人说

7

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

8

荣耀Magic8Pro彻底杀疯了！这次配置直接掀了友商的桌子。超大电池独步

9

我去荣耀专卖店看手机，看了荣耀X70，荣耀400、荣耀Power、Magic7等

10

要买荣耀400Pro的人一定要听劝！后悔可就来不及了，如果只是当做备用机千万