DC娱乐网

辅导男朋友转算法岗第25天|强化学习2

前边的笔记介绍了强化学习中的Bellman⽅程,提到求解Bellman⽅程⼀般采⽤policy iteration,今天就来学习怎么⽤迭代法求解Bellman⽅程的最优解。