【[120星]Flow-GRPO:通过在线强化学习训练流匹配模型,让AI生成更精准、更符合人类偏好的内容。亮点:1. 创新性地结合了流匹配与在线强化学习,提升生成效果;2. 提供多种预训练模型,涵盖文本渲染、人类偏好对齐等任务;3. 支持单节点和多节点训练,灵活适应不同计算环境】
'Flow-GRPO: Training Flow Matching Models via Online RL'
GitHub: github.com/yifan123/flow_grpo
强化学习 AI生成 预训练模型 AI创造营