DC娱乐网

辅导男朋友转算法岗第32天｜DPO

2024-09-08 17:33:36 奔跑的跳跳科技

终于到DPO了，谁懂！
基于人类反馈的强化学习RLHF分三个阶段：SFT、奖励模型（RM）、强化学习（PPO）。但是PPO复杂且不稳定，因此现实场景下多使用DPO：不依赖于明确的奖励建模或者强化学习，通过直接优化用户的偏好反馈来提高策略的表现。
[睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R]
AAAI赶不上了，ICASSP启动！