字节& 清华开源DAPO算法让GRPO更精致

字节与清华强强联合，推出了开源的DAPO算法，基于 Qwen2.5-32B 模型在 AIME 2024 上超过了之前最先进的 DeepSeek-RL-Zero-Qwen-32B，在long-CoT场景大放异彩。这个让模型更聪明的秘诀，藏在四大黑科技里：

[海豚R]解耦裁剪：提高clip上界，避免熵崩溃，既保持了思维的严谨性，又让模型的回答充满惊喜创意。
[海豚R]动态采样：过滤掉准确率为 1 和 0 的数据，自动过滤掉太简单或超纲的题目，提升训练效率和稳定性。
[海豚R]token级梯度损失：提升长序列样本中的token对整体损失的影响，使得模型能够更好地学习长序列中的推理模式（long-CoT）。
[海豚R]过长样本奖励调整：对过长样本的惩罚进行平滑处理，用渐进式调整让模型明白：不是文章越长越好，而是要把复杂问题说清楚。

DC娱乐网

字节& 清华开源DAPO算法让GRPO更精致

热门分类