DC娱乐网

辅导男朋友转算法岗第25天｜强化学习2

2024-09-08 17:34:11 奔跑的跳跳科技

前边的笔记介绍了强化学习中的Bellman⽅程，提到求解Bellman⽅程⼀般采⽤policy iteration，今天就来学习怎么⽤迭代法求解Bellman⽅程的最优解。

阅读：0 点赞：0