DC娱乐网

辅导男朋友转算法岗第32天|DPO

终于到DPO了,谁懂! 基于人类反馈的强化学习RLHF分三个阶段:SFT、奖励模型(RM)、强化学习(PPO)。但是PPO复杂且不稳定,因此现实场景下多使用DPO:不依赖于明确的奖励建模或者强化学习,通过直接优化用户的偏好反馈来提高策略的表现。 [睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R] AAAI赶不上了,ICASSP启动!

评论列表

舞潇潇
舞潇潇 2
2024-09-08 20:24
你这个笔记能不能开园啊大佬
饿死我了
饿死我了 1
2024-09-08 20:37
ICASSP太危险了,不投
右岸
右岸 1
2024-09-08 21:15
[doge]ICASSP不是点击就送嘛