DC娱乐网

字节& 清华开源DAPO算法让GRPO更精致

字节与清华强强联合,推出了开源的DAPO算法,基于 Qwen2.5-32B 模型在 AIME 2024 上超过了之前最先进的 DeepSeek-RL-Zero-Qwen-32B,在long-CoT场景大放异彩。这个让模型更聪明的秘诀,藏在四大黑科技里: [海豚R]解耦裁剪:提高clip上界,避免熵崩溃,既保持了思维的严谨性,又让模型的回答充满惊喜创意。 [海豚R]动态采样:过滤掉准确率为 1 和 0 的数据,自动过滤掉太简单或超纲的题目,提升训练效率和稳定性。 [海豚R]token级梯度损失:提升长序列样本中的token对整体损失的影响,使得模型能够更好地学习长序列中的推理模式(long-CoT)。 [海豚R]过长样本奖励调整:对过长样本的惩罚进行平滑处理,用渐进式调整让模型明白:不是文章越长越好,而是要把复杂问题说清楚。